Várias pessoas já nos perguntaram como se escaneia um livro, e o objetivo deste texto é tentar responder isso de uma maneira simples, reunindo algumas dicas que recebemos de alguns amigos e comparsas ou que descobrimos quebrando as cabeças em frente ao computador. Esperamos que depois de ler esses parágrafos você olhe de maneira totalmente nova e ameaçadora para seus livros empoeirados e aquele scanner do seu vizinho. O processo de se escanear um livro pode ser dividido em três partes :
1- Transformar a página em uma imagem (escanear)
2- Usar um programa de Reconhecimento Óptico de Caractéres (OCR) para converter a imagem em texto
3- Revisar o texto criado pelo OCR
Transformando a página em uma imagem
Essa parte é a mais simples e repetitiva. Simplesmente escaneie o livro todo, tomando um cuidado especial para que as páginas não saiam tortas ou cortadas nas bordas.
A resolução recomendada para se escanear um livro é de 600 dpi, que torna o trabalho do scanner mais lento, mas permite o reconhecimento de trechos em itálico e negrito, além de facilitar e muito o processo de revisão no final.
Para textos em geral use a opção preto e branco. Figuras merecem atenção especial.
Imagens coloridas devem ser escaniadas em cores para que fiquem como as originais, mas antes você deve pensar se realmente vale a pena acrescentar essas figuras que certamente irão tornar o arquivo final muito mais pesado. Normalmente o melhor a ser fazer é escanear as imagens coloridas utilizando o modo preto e branco, perdendo parte da qualidade, mas tornando a imagem (e consequëntemente o arquivo final) muito menor. Repare que existem ocasiões onde uma figura colorida é necessária, como no caso de alguns mapas e capas de livros (elas não precisam serem coloridas, mas ficam mais legais).
Figuras que não são coloridas ficam muito boas se escaniadas no modo preto e branco, mas sempre tenha em mente que mesmo não sendo tão grandes como suas equivalentes coloridas, as imagens em preto e branco irão aumentar consideravelmente o tamanho do arquivo final em PDF.
O mais importante na hora de escanear é fazer vários testes utilizando páginas diferentes e fazendo pequenos ajustes, e só depois de ter certeza que o OCR está lendo as páginas testes sem dificuldade, escanear o restante do livro. Acredite, isso pode lhe poupar um bocado de trabalho.
Convertendo a imagem em texto
Antes vamos falar um pouco sobre o programa de Reconhecimento Óptico de Caractéres ou OCR. Essa pequena maravilha tecnológica identifica o texto contido em uma imagem e o transforma em texto normal, que pode ser modificado usando qualquer editor de texto.
O OCR que nós, do Boteco do Valente, utilizamos e recomendamos é o ABBYY Finereader 5.0, que é relativamente simples, eficiente, possui suporte para acentos. Uma maneira legal (sacaram o trocadilho? ;) de se conseguir este programa é pegar sua versão trial (que funciona por X dias) em sites de software como o tucows ou download.com. Caso o Finereader conquiste seu coração como fez com os nossos você pode fazer uma visita no astalavista e pegar o crack que faz a versão trial funcionar por tempo indeterminado.
Se você não quiser ou puder utilizar o Finereader ainda existem inúmeras opções de OCR. Infelizmente não temos expêriencia com nenhuma delas. Tente ir à sites de software e procurar na seção de OCRs e com um pouco de sorte você vai achar um OCR que funcione decentemente.
Para converter as páginas escaniadas em texto simplesmente as abra em seu OCR, selecione as que você deseja (na maioria dos casos todas), mande o OCR lê-las e vá limpar o mouse/ tomar banho/ dormir/ viajar, dependendo do número de páginas pois o processo é bastante demorado.
Não temos certeza, mas imaginamos, que todos os OCR possuam as famosas caixas de texto e imagens. Resumidamente essas caixinhas úteis marcam o que é texto e o que é imagem em uma página, impedindo que o OCR tente ler uma imagem como um texto e vice-versa. No Finereader existe a opção de caixas automáticas, ou seja, o próprio programa automaticamente coloca as caixas onde considera necessário. Nem sempre funciona, mas ajuda bastante. De qualquer forma, use as caixas e treine um pouco usando seu OCR para não fazer feio na hora do show.
Revisar o texto criado pelo OCR
O texto que agora está em OCR não está mais inserido em uma imagem, mas provavelmente contém alguns erros que antes não existiam. Isso acontece pois nem sempre o OCR consegue identificar o que foi escaniado, ou por fontes pequenas, papel muito escuro, etc. A melhor maneira de evitar esses erros é escanear o livro utilizando uma resolução alta, como 600 dpi. E antes que alguém pergunte, escanear xerox funciona, mas o número de erros aumenta um pouco devido a perda de qualidade da página e aqueles pontinhos escuros que sempre aparecem. Mas ainda é possível.
O modo mais fácil de corrigir esses erros do texto recém criado é usando a ferramenta que todo OCR deve (ou deveria) ter chamada correção ortográfica (spell checking), que localiza os trechos onde o OCR teve dificuldades para identificar o que estava escrito. É muito chato, mas é a maneira mais fácil. Se você gosta de aventura pode tentar achar todos os erros no olho, sem usar nenhuma ferramenta. Isso sim deve ser doideira pura, hehehehe!
Na nossa opnião é melhor fazer a correção de cada página imediatamente depois desta ter sido escaniada e do texto ter sido criado pelo OCR. Digo isso pois acho menos cansativo do que escanear o livro todo, passar o OCR em todas as páginas e depois revisar tudo. Outro bom motivo é que dessa forma você com certeza estará com o livro original em suas mãos, podendo assim consultá-lo caso exista alguma dúvida sobre um erro ou algo do tipo.
Uma ferramenta indispensável para a revisão e outros ajustes menores é o Adobe Acrobat (não é o reader). Esse programa é extremamente confuso, mas ainda é a melhor e única maneira de se modificar PDFs que conhecemos. Tente colocar as mãos nele. Depois da correção salve no formato PDF e coloque na internet.
O processo é mais complexo do que parece e existem muito mais questões, sendo que a maioria delas nós nem fazemos idéia das respostas. Tente várias vezes, não se prenda as coisas escritas nesse pequeno manual, e entre em contato com outras pessoas (uma opção é o fórum da RPGratuito) e boa sorte.
A seguir estão algumas dicas simples, mas que podem vir a ser utéis pra você, mano:
- Alguns livros possuem um papel um pouco mais fino, que ao ser escaniado (principalmente em resoluções maiores) acaba sendo lido pelo scanner nas duas faces da folha ao mesmo tempo, o que impede o OCR de converter o texto corretamente. Uma maneira simples de se impedir isso é colar com fita adesiva uma folha de papel preto no interior da tampa do scanner e escanear cada folha separadamente.
- Em relação a numeração do livro, o OCR tem o péssimo hábito de identificá-la como sendo parte do texto da página. Se isso ocorrer com você é melhor nem selecioná-la na hora de usar as caixas de texto do OCR, e adicione a numeração a página quando o OCR acabar de criar o texto.
- Muitos scanners possuem a opção de ajuste de brilho automático. Se seu scanner possui esta opção use-a, mas caso você tenha que ajustar o brilho manualmente, faça alguns testes em uma página que contenha muito texto. Repare bem as letras da página escaniada, e se elas estiverem quebradas ou faltando partes tente novamente, desta vez diminuido o brilho. Se as letras estiverem coladas umas nas outras, com muitos pontos escuros ao redor tente aumentar o brilho. Um bom ajuste de brilho no início pode poupar muito tempo durante a revisão final.
- Certos livros como os da terceira edição de D&D possuem bordas coloridas, que se adicionadas ao livro do modo convendional o tornarão muito pesado. Mas usando o Adobe Acrobat você pode substituir essas bordas e usar sempre as mesmas duas imagens (uma para a borda esquerda, outra para a direita), tornando o livro mais bonito e infinitamente mais leve. Para isso escaneie apenas uma página com a borda esquerda e uma com a direita, e depois insira as mesmas imagens nas outras páginas, se lembrando de ir alterando a numeração manualmente.
Nossos agradecimentos especiais a toda a galera do Coletivo Sabotagem que disponibiliza downloads gratuitos de livros. Com o slogan “Conhecimento não se compra, se toma” o grupo luta pela libertação dos livros e pelo fim das leis de direitos autorais.
Nenhum comentário:
Postar um comentário