Google aprende a ler documentos PDF escaneados
Postado por Leandro Feijó em 06 Novembro, 2008 @ 12:43h
Tags: google
Há alguns dias, o Google anunciou em seu blog oficial que, a partir de agora, através da Optical Character Recognition (OCR), ele é capaz de interpretar e indexar o texto de arquivos .pdf escaneados, ou seja, conteúdo presente em uma imagem. A leitura e indexação de arquivos PDF não é novidade para ninguém, porém isto só era possível com conteúdo em texto.
A capacidade de interpretar o texto presente em imagem (somente arquivos PDF, por enquanto) é bastante animadora. Quem sabe não estamos perto da leitura e indexação de textos presentes em arquivos .gif ou .png, como aquele que você possui no header de seu site?
Caso queira ver um exemplo desta nova capacidade do Google, segue o link de uma pesquisa que retorna um arquivo PDF escaneado:
Para ver como o Google indexou o conteúdo do arquivo, clique em “Ver em HTML”.
Abaixo, seguem outros exemplos de buscas que retornam arquivos escanedos:
http://www.google.com/search?q=repairing+aluminum+wiring
http://www.google.com/search?q=Steady+success+in+a+volatile+world
http://www.google.com/search?q=spin+lock+performance
COMENTÁRIOS (0)
Seja o primeiro a fazer um comentário.
