Очередные новости про Google и е-книги

Опубликовано 1 ноября 2008

Всё это является продолжением материалов из моих постов:

От 29 октября 2008 – это отсылка к предыдущему посту (от 28 октября)
От 28 октября 2008 -об урегулировании претензий и основании реестра е-книг, доступных для платного скачивания для частных лиц и библиотек (пользователи американских библиотек, естественно, получат от библиотек эти е-книги бесплатно)
От 16 октября 2008 – о планах Google подключить новых партнеров и отсканировать еще миллион (плюс к семи миллионам имеющихся) названий книг
От 14 октября 2008 – О создании (на базе книг, отсканированных по проекту Google) университетской библиотеки е-книг HathiTrust, названной в честь слона Хатхи из произведений Редьярда Киплинга,

————————————————————————————-
Новости:
Для тех, кто рассуждал о том, что многие отсканированные Google документы не распознаны и не индексируются, Компьюлента собщает:
Google научился распознавать и индексировать отсканированные документы
Подробности от Google – здесь Обсуждение в teleread – здесь
Русскоязычные подробности от CNews – здесь (цитирую целиком):

Компания Google объявила о том, что ее поисковик научился индексировать текст на отсканированных изображениях.

По словам представителей компании, для определения текста на картинке используется специальная технология оптического распознавания Optical Character Recognition, которая умеет конвертировать изображение слов в файлы с текстом.

На сегодняшний день, поисковик Google умеет распознавать только текст в документах формата PDF.
———————
Думаю, что речь идет о текстовых PDF, а не о псевдо-PDF, когда отсканированные и нераспознанные сканы текста помещаются в оболочку PDF не в качестве текста, а в качестве картинок). Именно их (как и DOC-файлы) умеют распознавать сегодняшние поисковики. А Google, стало быть, замахнулся на "распознавание картинок на лету" (в тот момент, когда краулеры в очередной раз дойдут до индексируемой картинки – интересно как это скажется на производительности его серверов (распознать и проиндексировать картинку явно более трудоемкая задача, чем только проиндексировать текст, даже внутри проприетарного формата данных). Или такой текст-картинка будет распознаваться один единственный раз? Тогда как будут организованы данные и, в частности, как будет определяться "не изменилась ли картинка с момента последнего распознавания/индексирования"?

Рубрика: Новости

Один комментарий:

Планета е-книг » Blog Archive » Контент: HathiTrust собрал 4,6 млн. е-книг:
23 ноября 2009, 18:10
[…] названного в честь слона у Киплинга и от 01 ноября 2008 (Очередные новости про Google и е-книги) о том, как осуществляется последующее распознавание […]

Пн	Вт	Ср	Чт	Пт	Сб	Вс
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30

Блог, посвященный е-книгам

Очередные новости про Google и е-книги

Один комментарий:

Ежедневник

Архив

Рубрикатор

Теги