Блог, посвященный е-книгам

Сильно «искусанный» интеллект

Опубликовано 15 апреля 2015

Полный перепост материала  РИАН:

Российская система интеллектуального анализа текстов выходит на рынок
13:2215.04.2015 (обновлено: 13:23 15.04.2015)683110

В Объединенной приборостроительной корпорации сообщили, среди задач, которые способен решать лингвистический процессор Ontosminer – поиск необходимых сведений, мониторинг СМИ, анализ больших массивов данных, систематизация документооборота и информации.

МОСКВА, 15 апр — РИА Новости. Первую российскую систему интеллектуального анализа текстов и данных выводят на рынок, сообщили РИА Новости в Объединенной приборостроительной корпорации («ОПК», входит в Ростех).

Как пояснили в «ОПК», сфера возможного применения лингвистического процессора Ontosminer, совместной разработки с российской компанией «Авикомп Сервисез», очень широка. Среди задач, которые он способен решать — поиск необходимых сведений, мониторинг СМИ, анализ больших массивов данных, систематизация документооборота и информации (статистической, научно-технической, правовой, медицинской и т.д.).

«Это еще одна ступень на пути к созданию искусственного интеллекта. Мы научили машину понимать и анализировать письменную речь, извлекать из нее необходимые факты и смыслы», — отметил директор департамента инновационного развития «Объединенной приборостроительной корпорации» Александр Калинин.

Система позволяет компьютеру «чувствовать» морфологию, синтаксис языка, «понимать» семантику отдельных слов и текста в целом. В качестве эксперимента с сегодняшнего дня тестовая версия программы открыта для вузов и научно-исследовательских учреждений в бесплатном режиме. Заказчиками системы также выступает ряд государственных ведомств.

«В отличие от традиционных поисковых систем в качестве запроса здесь выступает не отдельное слово, а целый документ (отрывок текста, статья и т.д.), после загрузки которого система выдает все, что есть на заданную тему в информационном пространстве», — пояснили в «ОПК».

В настоящий момент, отмечают в корпорации, в «голове» у лингвистического процессора — десятки миллионов документов. Планируется довести их число до нескольких сотен миллионов

Если быть честным то не ясно даже идёт ли речь о чём-то вроде Базы данных, куда вносятся тексты с семантической разметкой (которую проводит неведомо кто и неведомо как) или речь идёт о ПО, которое позволяет владельцу (если ПО станут продавать)  самостоятельно собирать большие массивы данных с самостоятельным извлечением из них семантики силами ПО без персонала владельца базы


Теги: , , , , , , ,
Рубрика: Data Mining, Агрегация и реферирование материалов, Контент хранимый в "облаке", Новости, Проекты, Сопутствующие технологии, Цифровой контент, Цифровой контент. Прочее, сервисы

Один комментарий

E@day по рецепту НГОНБ

Опубликовано 27 августа 2013

Получил сегодня пресс-релиз от Новосибирской Государственной ОНБ. Порадовало, что вложенный файл имеет формат RTF, а не DOC. Из него и узнал, что речь идёт о том, что «28 сентября в областной научной библиотеке пройдет Единый день цифровой информации E@day». Есть детали на сайте библиотеки. Радует видение цифрового контента как единого ресурса для обслуживания информационных потребностей:

Единый день цифровой информации пройдет в рамках Месяца «От знаний к успеху». В программе Месяца также запланированы Дни информации для специалистов, экскурсии по библиотеке, лекции, начнут работу курсы по изучению иностранных языков, компьютерной грамотности, по обучению работе в электронном каталоге и многое другое

Детали и график презентаций и мастер-классов – тут.


Теги: , , , , , , ,
Рубрика: Агрегация и реферирование материалов, Интерфейс, Мероприятия, Новости, Поиск, Проекты, Сопутствующие технологии, Форматы и их конверсия, Цифровой контент, доступ он-лайн, е-книга и ридер в библиотеке, каталогизация печатных и электронных документов, сервисы

Комментариев нет

Классический «перевод стрелок»

Опубликовано 8 мая 2013

Рифат Саразетдинов навёл на материал «Антон Лихоманов: «Несмотря на развитие технологий, библиотеки будут жить»». Про извечную демократичность «Салтыковки» вы и сами прочитаете, а я, всё про Карфаген (цитирую выборочно):

Конечно, в связи с развитием технологий, появлением электронных книг интерес к библиотекам снижается. И мы это чувствуем. И не только мы, но и национальные библиотеки США и Европы. Этот процесс носит всеобщий характер и не затронул разве что Китай, где читальные залы забиты посетителями. Но в отличие от массовых библиотек – в национальные приходит специфический читатель. Это, как правило, студенты, аспиранты, молодые исследователи, научные работники и преподаватели. То есть те, кто не может найти необходимую информацию в той же массовой библиотеке или в Интернете.

Понятно, что когда развито «пиратство», когда многие издания появляются во всеобщем доступе раньше, чем на полках магазинов, это во многом способствует тому, что в библиотеки не ходят. Зачем ходить, когда можно что-то скачать бесплатно? В то же время следует отметить, что объем научной информации, который содержится в материалах на бумажных носителях, гораздо больше, чем тот, который можно найти в Сети. Не знаю, как будет развиваться ситуация в дальнейшем, но я возлагаю большие надежды на ту кампанию по борьбе с плагиатом, которая сейчас развернулась в стране. Я сам шесть лет работал преподавателем в СПбГУ и понимаю, что, к сожалению, очень многие студенты вместо того, чтобы работать, искать и анализировать информацию, просто скачивают откуда-то готовые работы. Это – элемент профанации высшего образования.

Снижение посещаемости читальных залов связано еще и с тем, что многие документы, на которые авторское право не распространяется, мы выкладываем в открытый доступ. Мы часто спорим с издателями, когда речь идет о том, чтобы предоставить возможность библиотекам оцифровывать современные документы. В прошлом году вышел указ президента, который предусматривает, что 10% всех изданий, которые выходят в РФ в электронном виде, должны размещаться в Национальной электронной библиотеке. В 2012 году это было исполнено. В частности, в Российской национальной библиотеке есть 3700 произведений, доступных в электронном виде. Но – только в стенах нашего учреждения.

Понимаете, те, кто производят информацию, хотят получать за нее деньги. И те, кто рассчитывает, что скоро всё в Сети будет бесплатным, очень сильно ошибаются. Только библиотеки могут платить за общественно значимую информацию. Поэтому библиотеки будут существовать в будущем — в той или иной степени.

Начнём со «злобных пиратов». На мой взгляд, налицо явный «перевод стрелок». Пользователь западной научной библиотеки заходит на её сайт и в режиме виртуального абонемента скачивает актуальную литературу. Понятно, что пользователь – не клинический идиот и документу с сайта библиотеки доверяет куда больше, чем пиратскому. Раз есть библиотечный документ, то зачем при подготовке курсового пользоваться пиратским ресурсом – вполне достаточно библиотеки. У нас всё наоборот. Абонемента актуальных е-книг ГК вообще не предусматривает, т.е. за тем немногим, что доступно в помещении библиотеки пользователь должен физически прийти. Это уже «позыв» на уход к пиратам (особенно для тех, кому физически прийти в РНБ достаточно сложно, например географически). Понятно, что ни Донцова, ни Лукьяненко (при всём моём уважении к ним как к успешным профессиональным авторам) объектом интереса для пользователей РНБ, как правило, не являются. А у научно-технической литературы (с точки зрения пиратского ресурса) есть уйма недостатков. В тексте есть графики, рисунки, формулы, фотографии, таблицы. Всё это усложняет волонтёрскую оцифровку (и сильно снижает её качество). А вот спрос на такие книги спорадический. И «мелочёвка» за рекламные банеры при редком спросе расходов на оцифровку не покроет. Именно поэтому оцифровка серьёзных книг (а именно за ними идут в РНБ) у пиратов большая редкость. Т.е. если «пират» оцифрует (да ещё и качественно) серьёзную книгу, то окажет большое благодеяние читателю, который,  напомню, получить легальную копию в РНБ (и в любой другой законопослушной библиотеке России) в режиме абонемента не может…

И теперь о том, что доступно в помещении библиотеки. Насколько я помню, в майском (2012) года указе президента речь шла об оцифровке публичными библиотеками 10% актуальных книг… Речь шла примерно о 30 тысячах книг в год научной, учебной и учебно-научной тематики (не помню была ли там справочная и энциклопедическая литература). Под это должны были принять изменение в ГК-IV, которое разрешало бы эту оцифровку. Принятие изменения было сорвано. Национальный библиотечный ресурс за два года в предписанной ГК методе (заключение договоров со всеми правообладателями) не сумел оцифровать для трёх национальных библиотек (РГБ, РНБ и ПБ) и 20 тысяч наименований (3700, оцифрованные для РНБ в других библиотеках недоступны, то что оцифровано для РГБ недоступно в РНБ). При этом появился кошмар отслеживания авторских прав. По одним произведениям ещё осталось почти 5 лет, а по другим произведениям договора уже надо перезаключать. А уж как с точки зрения библиотекаря смотрится перспектива для НАЦИОНАЛЬНОЙ БИБЛИОТЕКИ потерять право на использование е-книги, которой пользователи вчера пользовались, а сегодня уже не имеют право поскольку договор с правообладателем перезаключить не успели…  Получается кошмарная каша с доступом ТОЛЬКО В ПОМЕЩЕНИИ БИБЛИОТЕКИ к разномастным базам различных коммерческих поставщиков с разным интерфейсом и разными поисковыми методологиями…  К глубочайшему сожалению пираты здесь могут помочь в редчайших случаях. И упрекнуть читателя в том, что он (если такая возможность есть) получил научно-технический материал на пиратском ресурсе у меня язык не поворачивается. Радоваться надо, что хоть кто-то думает о российских ИТР и студентах, беря на себя хоть какую-то часть забот о нормальном развитии экономики России…

Не стоит пытаться «переводить стрелки» на пресловутых «злобных пиратов». Их надо холить и лелеять. Ну, не дай бог, перестанут они оцифровывать нужную пользователям библиотек информацию…. И где пользователи её брать будут? Ответ прост – скинутся, скооперируются и оцифруют сами…. А результат выложат для ограниченного доступа. И каждая следующая группа пользователей будет тот же материал оцифровывать заново, совершая экономически нецелесообразные деяния в ущерб себе и экономике


Теги: , , , , , , , , , , , , , , , , , , , , , , ,
Рубрика: Авторское право, Агрегация и реферирование материалов, Интерфейс, Лицензии, Новости, Оцифровка, Сопутствующие технологии, Форматы и их конверсия, Ценообразование, Цифровой контент, Цифровой контент. е-газеты и е-журналы, Цифровой контент. е-книги, е-книга и ридер в библиотеке, каталогизация печатных и электронных документов

6 комментариев

Краеведение – последнее прибежище е-библиотекаря

Опубликовано 4 декабря 2012

Если нельзя, а очень хочется хотя бы технологию сбора информации в цифровой форме и предоставления к ней удалённого доступа отработать, то краеведение – почти идеальный вариант. Многие материалы уже вышли из-под копирайтных ограничений, авторы других тут же рядом и с ними можно договориться. Именно об этом думаешь, читая материал (Электронные ресурсы открытого доступа в Гомельской областной универсальной библиотеке). Библиотекари-то молодцы, но вынуждены работать в рамках действующего законодательства


Теги: , , , , , , , , , ,
Рубрика: Web.0 (пользовательский контент), Новости, Оцифровка, Форматы и их конверсия, Цифровой контент, Цифровой контент. Прочее, е-книга и ридер в библиотеке

Комментариев нет

Что нам говорит «товарищ Окам»?

Опубликовано 25 июля 2011

Методологический принцип, известный как (Бритва Оккама) гласит «Не следует множить сущее без необходимости». И вот этой-то необходимости я не вижу (хочется надеяться, что это дефект МОЕГО понимания) в попытке приумножить очередную копирайтную сущность (добавлением к уже имеющемуся всемирного реестра медиаконтента), описанного в «Ведомости» как (эталонная Россия):

Президент Медведев предварительно одобрил идею создания мирового реестра электронных форм объектов интеллектуальной собственности и поручил подготовить проект обращения к главам ведущих государств и международным организациям, рассказали «Ведомостям» три чиновника, знакомые с документом: поручение дано Минкультуры, Минсвязи, Минэкономразвития, МИДу и должно быть исполнено оперативно.

Помощник президента Аркадий Дворкович подтвердил, что президент дал такое поручение, но предупредил, что никаких конкретных идей Медведев пока не одобрил. Предложение создать реестр, в который все правообладатели загрузили бы эталонные копии своих видео, музыки и текстов, разработано группой по интернету первого вице-премьера Игоря Шувалова. Представитель его секретариата подтвердил, что группа подготовила предложения по поручению президента, но больше ничего не сказал.

Как объяснил «Ведомостям» один из участников группы, правообладатели могли бы с помощью меток сообщать, как использовать их контент: свободно, свободно без копирования, с платным копированием и т. д. Программу распознавания меток потом можно передать поисковикам и другим крупным интернет-ресурсам, предлагает другой участник группы, замдиректора департамента Минкульта Максим Прокш: правообладатели смогут отслеживать, как распространяются их произведения. Со временем все произведения в легальном обороте будут снабжены такими метками, рассчитывает он, и тогда даже пользователи смогут сразу понимать, нарушают ли они закон, скачивая то или иное видео или музыку в сети.

В Довиле в этом году на саммите «восьмерки» вопрос об интернете впервые в истории организации был включен в повестку дня, и Медведев пытался заинтересовать своими идеями глав других государств, но это не получилось.

Система регулирования интернета отдельно для России бессмысленна — из-за открытости сети, говорит Прокш, поэтому и предложен мировой реестр — его можно запустить на базе, к примеру, Всемирной организации по охране интеллектуальной собственности, он может и финансироваться из ее бюджета.

«Сама по себе идея действительно интересная, — говорит представитель “Яндекса” Очир Манджиков, — важно, как она будет реализована».

О необходимости системы распознавания нелегального контента давно говорят провайдеры. «В сети настолько все запутано с правами, что разобраться самому невозможно, а единого справочника нет», — жалуется президент «Акадо» Денис Лобанов.

Главное преимущество идеи понятно. Раз объектом защиты контента (хотя бы в цифровой форме) становится только то, что попало в реестр, то правообладатель вынужден будет сам  передать в реестр эталонную копию всего изданного (попадающего под копирайтные ограничения). Это гарантирует, что (вне зависимости от того, можно ли будет кому-то пользоваться копиями этих эталонов) весь актуальный контент будет оцифрован правообладателями

Неясно, что произойдёт с «сиротским контентом» (который правообладатель не захотел оцифровывать из принципа или потому. что он не знает, что именно он в данный момент является правообладателем. который должен подтвердить своё право, поместив эталонный комплект контента в цифровой форме)… Понятно, что его придётся оцифровывать принудительно, а опыт Google показывает, что вслед за этим придёт вал исков… Возможно именно поэтому лидеры западных стран не хотят влезать в это «гиблое дело».

Да и нынешняя ситуация, когда правообладатели САМИ (без расходов со стороны государства) отстаивают свои права в суде, похоже, вполне устраивает западные государства, перед которыми стоит задача жёсткой экономии. Понятно, что на вторжении в Ирак/Афганистан и на бомбёжках Ливии экономить лидерам западных стран нельзя, а вот на финансировании подобного (весьма затратного) проекта – можно (и, следовательно, нужно)

Россия, конечно, не тратится на «экспорт демократии» и, долгов у неё поменьше, но «хомут» такого масштаба (и дело не только в деньгах – там далеко не всё ясно технологически) вешать на себя… Конечно, судьба России «экспериментами на себе» доказывать Мировому сообществу, что путь, которым никто кроме России не собирался идти, но по которому с энтузиазмом идёт Россия, совсем не тот, которым следовало идти… Но, возможно, есть менее затратные варианты подобных экспериментов?…


Теги: , , , , , , , , , , ,
Рубрика: DRM, Авторское право, Лицензии, Новости, Оцифровка, Программное обеспечение, Проекты, Публикации, Рынок чтения, Сопутствующие технологии, Цифровой контент, Цифровой контент. Прочее, Цифровой контент. е-газеты и е-журналы, Цифровой контент. е-книги

Комментариев нет

Gramota.ru исполнилось 10 лет

Опубликовано 31 декабря 2010

Материал от ЧасКор:

среда, 29 декабря 2010 года, 09.10

Интернет по-грамотномуИнтернет по-грамотному

Владимир Пахомов: «Социально значимые проекты коммерциализировать нельзя!»

Справочно-информационный портал «Грамота.ру» отмечает 10 лет своего существования. Главный редактор сайта Владимир Пахомов рассказал «Часкору» о том, почему сложно сделать проект коммерчески успешным, о запланированных нововведениях на портале и, конечно, о роли интернета в развитии русского языка. Подробнее

________________________
Серьёзный юбилей у уважаемого сайта.
Поздравляю!


Теги: , , , ,
Рубрика: Мероприятия, Новости, Проекты, Цифровой контент, Цифровой контент. Прочее

Комментариев нет

Ресурсы Интернета: Новая база данных книжных изданий России

Опубликовано 8 сентября 2009

Материал с таким названием поместила Президентская библиотека 08 сентября 2009 (prlib.ru/news/Pages/Item.aspx?itemid=150). Цитирую целиком:
Найти любую книгу и узнать, где ее можно купить, сможет любой пользователь Интернета благодаря универсальной системе поиска книг. Она представлена на проходящей в российской столице Московской международной книжной выставке-ярмарке.

«В профессиональную Интернет-базу современного книжного рынка EfronBooks.ru получат доступ не только юридические лица, но и частные пользователи», – сообщил заместитель генерального директора компании-разработчика системы InfoLibris Михаил Беляев. По его словам, уже через две недели для физических лиц доступ в систему будет бесплатным.

Впервые в системе можно будет отыскать данные не только о новых имеющихся в продаже и готовящихся к выходу в свет отечественных изданиях, но и о зарубежной литературе. Общая база российских изданий в EfronBooks на сегодняшний день составляет более 600 тысяч названий 900 издательств России. Раздел иностранной литературы сейчас превышает один миллион описаний, но к концу сентября будет насчитывать около трех миллионов.

В качестве первоисточника Президентская библиотека указывает  ИТАР-ТАСС


Теги: , ,
Рубрика: Новости, Рынок чтения

Комментариев нет

еkniga rss

Ежедневник

Декабрь 2018
Пн Вт Ср Чт Пт Сб Вс
« Окт    
 12
3456789
10111213141516
17181920212223
24252627282930
31  

Архив

Рубрикатор

free counters
 
 

Рейтинг блогов

Рейтинг блогов