Google aprende a ler documentos PDF escaneados

Bookmark e Compartilhe Postado por Leandro Feijó em 06 Novembro, 2008 @ 12:43h
Tags:

Há alguns dias, o Google anunciou em seu blog oficial que, a partir de agora, através da Optical Character Recognition (OCR), ele é capaz de interpretar e indexar o texto de arquivos .pdf escaneados, ou seja, conteúdo presente em uma imagem. A leitura e indexação de arquivos PDF não é novidade para ninguém, porém isto só era possível com conteúdo em texto.

A capacidade de interpretar o texto presente em imagem (somente arquivos PDF, por enquanto) é bastante animadora. Quem sabe não estamos perto da leitura e indexação de textos presentes em arquivos .gif ou .png, como aquele que você possui no header de seu site?

Caso queira ver um exemplo desta nova capacidade do Google, segue o link de uma  pesquisa que retorna um arquivo PDF escaneado:

http://www.google.com/search?q=Mumps+and+Severe+Neutropenia

 Google SERP - Exemplo de PDF escaneado

Para ver como o Google indexou o conteúdo do arquivo, clique em “Ver em HTML”.

Abaixo, seguem outros exemplos de buscas que retornam arquivos escanedos:

http://www.google.com/search?q=repairing+aluminum+wiring
http://www.google.com/search?q=Steady+success+in+a+volatile+world
http://www.google.com/search?q=spin+lock+performance

Se você gostou do nosso blog, assine o RSS ou então receba os posts por e-mail.

Bookmark e Compartilhe


COMENTÁRIOS (0)

Seja o primeiro a fazer um comentário.
Fazer um comentário:
  • *
  • *
  • *
  • A sintaxe HTML não é permitida.
Seu site está otimizado? Faça um teste!
SEO Free Scanner


Compartilhe o conteúdo de seu site e ganhe mais acessos!
Soboo - Social Bookmark Brasil