Как слон в библиотеке

Опубликовано 14 октября 2008

Продолжение см. в моём посте от 16 октября
Благодаря усилиям заинтересованных лиц и, прямо (постараемся без мате) скажем, трусости законодателей, предавших интересы своих избирателей. В России библиотека е-книг – это “вагон приключений на жопу голову”, сопряженный с огромным количеством НИЗЗЗЗЗЯ для юзеров и персонала. На Западе (где, теоретически, защита кармана производителей копий – т.н. авторское право – стоит во главе угла) умеют “поставить шкурников на место и обеспечить библиотекам возможность эффективно работать, обеспечивая юзерам право на доступ к информации. И вот очередной тому пример.
Как сообщает lenta.ru Университеты США создали огромную цифровую библиотеку. О чем собственно речь и причем тут СЛОН?. Цитирую:
Ряд университетов США решили объединить свои библиотеки в крупное цифровое хранилище HathiTrust, пишет Ars Technica. На настоящий момент объем данных в HathiTrust, названном в честь слона Хатхи из произведений Редьярда Киплинга, составляет 78 терабайт, что соответствует 731 миллиону страниц.

Многие из цифровых библиотечных каталогов были созданы при помощи Google, когда поисковик в рамках своего проекта поиска по книгам оцифровал миллионы книг. У владельцев библиотек остались электронные копии.

HathiTrust призван объединить эти архивы, а также предоставить к ним доступ всем учебным заведениям страны.

Стоит отметить, что не все тексты HathiTrust будут доступны желающим целиком из-за требований по соблюдению авторских прав. Всего в открытом доступе окажется примерно 17 процентов всех материалов. Доступ к ним уже открыт на сайтах университетов-участников. Регистрации не требуется.
————-
Очень мне нравятся (без комментариев) ссылки к этой статье:
– Microsoft решила закрыть виртуальную библиотеку – Lenta.ru, 24.05.2008
– Microsoft открыла виртуальную библиотеку – Lenta.ru, 07.12.2006
– Google разместил печатные версии книг – Lenta.ru, 31.08.2006
– Google оцифрует миллионы книг университетской библиотеки – Lenta.ru, 09.08.2006
————————————————
Что мы имеем? Пользователям российских библиотек открыт доступ к коллекциям АМЕРИКАНСКИХ университетов, а к коллекциям российских университетов – нет. НЕТ, потому что нет таких коллекций, НЕТ, потому что коллекции запрещено создавать и НЕТ, потому, что созданными коллекциями нельзя пользоваться (ну кого это реально пустят НА ТЕРРИТОРИЮ ЧУЖОЙ БИБЛИОТЕКИ В ДРУГОМ ГОРОДЕ?). Кто, после этого, наши законодатели и нашаи власть имущие? Правильно, затыкайте уши и слушайте мой БИП-БИП минут на двадцать без передышки….
———————————————–
Интересные аспекты этой проблемы обсуждает в своем посте The-ebook. Цитирую, также, целиком:
Университеты запускают объединенный носитель информации на 78 Тб

14 октября, 2008

Двадцать три университета договорились обмениваться и объединиться в цифровое хранилище, в том числе миллионы отсканированных книг и документов, в одну гигантскую, 78 Тб библиотеку, в нынешний понедельник.

HathiTrust, будет содержать и обрабатывать цифровой контент между одиннадцатью Калифорнийскими университетскими библиотеками и двенадцатью университетскими консорциумами, которые включается в себя Мичиганский и Чикагский университеты.

Перед HathiTrust стоит задача запуска цифрового носителя, который объединит изолированные друг от друга университетские библиотеки.

HathiTrust похожа на проект Google Book Search, которая сформировала партнёрские отношения с рядом крупных университетов и публичных библиотек, которые предоставили материалы для поискового движка. Однако, в то время как Google Book Search является, казалось бы, альтруистическим направлением, на самом деле миссия состоит в том, чтобы обеспечить “инструмент, который может помочь… удалить барьеры между людьми и информацией и использоваться издательским сообществом”. Google отображает доходы от рекламы рядом с оцифрованными страницами.

HathiTrust, напротив, создаётся исключительно для университетов. Для обмена информацией друг с другом, с целью поощрения достижений в области научных исследований. Не более того.

Тем не менее, HathiTrust, вероятно, столкнется с проблемой и спорами о нарушении авторских прав, как Google в прошлом… и возможно в будущем.
————————————————————
Ну, насчет споров и претензий, это ОБЯЗАТЕЛЬНО БУДЕТ.
Понятно, что хитрожопых лоббистов продавцов копий и у них хватает. Обязательно будут хватать за руки и мешать всячески. Но, 17% библиотеки отбили и контент накапливают и, рано или поздно, увеличат долю того, что можно передать в пользование юзерам без ограничений. А мы, как всегда, сначала будем делать вид, что хотим быть святее папы Римского, а затем, как всегда, будем “платить за дикость и серость” (за свою дикость и за свою серость), покупая за большие деньги чужие технологии и перенимая чужие правовые нормы.
Прямо таки “толпа Буратин на поле чудес”. Зарываем деньги для того чтобы кто-то мог ими попользоваться… Государству (с 1991 года) уж семнадцать “стукнуло”…. Пора уже взрослеть.
————————–
Upd (15.10.2008): В Компьюленте появилась статья В Интернете появилась гигантская цифровая библиотека, в которой приведены некоторые интересные подробности. Цитирую целиком:

15 октября 2008 года, 12:11 | Текст: Эльвира Кошкина

Группа крупнейших в США университетских библиотек запустила новое онлайновое цифровое хранилище отсканированных копий книг и других документов. Проект был назван HathiTrust в честь слона Хатхи из произведений Редьярда Киплинга. На данный момент в хранилище находится 78 терабайт информации, или 731 миллион страниц.

Многие из библиотек, участвующих в проекте, долгое время сотрудничали с компанией Google, создававшей книжный поисковик Google Book Search. Библиотеки сохранили копии отсканированных для Google книг и передали их в HathiTrust. Хранилище собрало библиотечные архивы в единый каталог и намеревается обеспечить доступ к нему учебным заведениям всего мира. HathiTrust включит в себя копии книг, оцифрованных в рамках проекта Yahoo Open Content Alliance, а также материалы из других, “некнижных” коллекций.

HathiTrust соблюдает требования закона о копирайте, и потому не все тексты будут доступны пользователям в полном объеме. В открытом доступе окажется лишь около 17% всех материалов. Отсканированные копии книг, являющихся общественным достоянием, уже выложены на сайтах университетов — участников проекта.

Ars Technica сообщает, что свои цифровые архивы хранилищу HathiTrust предоставили Университет Калифорнии, Университет Вирджинии и вузы, входящие в “Большую десятку университетов”.
———————————————-
Материал этот, пожалуй, самый выверенный среди аналогичных. Особенно (мне) интересно откуда взялись фонды.
Интересна и подборка ссылок:

Депутаты разрешили оцифровывать книги по договору с писателями | 09 октября 2008 года, 08:00
Электронные книги не нарушат авторских прав писателей | 12 сентября 2008 года, 09:46
Популярность электронных книг растет | 05 сентября 2008 года, 17:25
Прототип Всемирной цифровой библиотеки начнет работать в 2009 году | 27 августа 2008 года, 10:37
Старинные издания пьес Шекспира выложат в интернет | 27 марта 2008 года, 13:01
Книги издательства HarperCollins можно читать в онлайне | 11 февраля 2008 года, 15:24
Американские правительственные документы оцифруют и сделают общедоступными | 28 декабря 2007 года, 16:33

Анализ ссылок показывает направление мысли правительств “за бугром” (обеспечить интересы граждан по доступу к информации через общедоступные библиотеки) и у нас (обеспечить шкурные интересы производителей копий, наплевав и на интересы граждан и на интересы экономики)
————————————————————————————————————–
Upd (01/11/2008): Для тех, кто рассуждал о том, что многие отсканированные Google документы не распознаны и не индексируются, Компьюлента собщает:
Google научился распознавать и индексировать отсканированные документы
Подробности от Google – здесь Обсуждение в teleread – здесь
Русскоязычные подробности от CNews – здесь (цитирую целиком):

Компания Google объявила о том, что ее поисковик научился индексировать текст на отсканированных изображениях.

По словам представителей компании, для определения текста на картинке используется специальная технология оптического распознавания Optical Character Recognition, которая умеет конвертировать изображение слов в файлы с текстом.

На сегодняшний день, поисковик Google умеет распознавать только текст в документах формата PDF.
———————
Думаю, что речь идет о текстовых PDF, а не о псевдо-PDF, когда отсканированные и нераспознанные сканы текста помещаются в оболочку PDF не в качестве текста, а в качестве картинок). Именно их (как и DOC-файлы) умеют распознавать сегодняшние поисковики. А Google, стало быть, замахнулся на “распознавание картинок на лету” – интересно как это скажется на производительности его серверов

Рубрика: Новости

2 комментария:

Планета е-книг » Blog Archive » Контент: HathiTrust собрал 4,6 млн. е-книг:
20 ноября 2009, 20:50
[…] к моим прошлогодним постам: от 14 октября 2008 (Как слон в библиотеке) о появление контентного ресурса (отсканированные […]
Планета е-книг » Blog Archive » Google удвоил число партнеров по сканированию е-книг, но производить СВОЙ РИДЕР пока не планирует:
30 апреля 2010, 10:54
[…] продолжение моего поста от 14 октября 2008 Именно так можно кратко пересказать суть интервью в […]

Блог, посвященный е-книгам

Как слон в библиотеке

2 комментария:

Ежедневник

Архив

Рубрикатор

Теги

Октябрь 2008
Пн	Вт	Ср	Чт	Пт	Сб	Вс
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31