Блог, посвященный е-книгам

Сильно «искусанный» интеллект

Опубликовано 15 апреля 2015

Полный перепост материала  РИАН:

Российская система интеллектуального анализа текстов выходит на рынок
13:2215.04.2015 (обновлено: 13:23 15.04.2015)683110

В Объединенной приборостроительной корпорации сообщили, среди задач, которые способен решать лингвистический процессор Ontosminer – поиск необходимых сведений, мониторинг СМИ, анализ больших массивов данных, систематизация документооборота и информации.

МОСКВА, 15 апр — РИА Новости. Первую российскую систему интеллектуального анализа текстов и данных выводят на рынок, сообщили РИА Новости в Объединенной приборостроительной корпорации («ОПК», входит в Ростех).

Как пояснили в «ОПК», сфера возможного применения лингвистического процессора Ontosminer, совместной разработки с российской компанией «Авикомп Сервисез», очень широка. Среди задач, которые он способен решать — поиск необходимых сведений, мониторинг СМИ, анализ больших массивов данных, систематизация документооборота и информации (статистической, научно-технической, правовой, медицинской и т.д.).

«Это еще одна ступень на пути к созданию искусственного интеллекта. Мы научили машину понимать и анализировать письменную речь, извлекать из нее необходимые факты и смыслы», — отметил директор департамента инновационного развития «Объединенной приборостроительной корпорации» Александр Калинин.

Система позволяет компьютеру «чувствовать» морфологию, синтаксис языка, «понимать» семантику отдельных слов и текста в целом. В качестве эксперимента с сегодняшнего дня тестовая версия программы открыта для вузов и научно-исследовательских учреждений в бесплатном режиме. Заказчиками системы также выступает ряд государственных ведомств.

«В отличие от традиционных поисковых систем в качестве запроса здесь выступает не отдельное слово, а целый документ (отрывок текста, статья и т.д.), после загрузки которого система выдает все, что есть на заданную тему в информационном пространстве», — пояснили в «ОПК».

В настоящий момент, отмечают в корпорации, в «голове» у лингвистического процессора — десятки миллионов документов. Планируется довести их число до нескольких сотен миллионов

Если быть честным то не ясно даже идёт ли речь о чём-то вроде Базы данных, куда вносятся тексты с семантической разметкой (которую проводит неведомо кто и неведомо как) или речь идёт о ПО, которое позволяет владельцу (если ПО станут продавать)  самостоятельно собирать большие массивы данных с самостоятельным извлечением из них семантики силами ПО без персонала владельца базы


Теги: , , , , , , ,
Рубрика: Data Mining, Агрегация и реферирование материалов, Контент хранимый в "облаке", Новости, Проекты, Сопутствующие технологии, Цифровой контент, Цифровой контент. Прочее, сервисы

Один комментарий

Презентации

Опубликовано 28 марта 2014

Как и ожидалось, вчерашний день провел в Некрасовке на конференции:

Программу удалось исполнить почти целиком . В пленарной части, если не ошибаюсь, были все доклады, а в круглом столе не было (или совсем не запомнилось) пункта 9.

Была видео съёмка и удалённые зрители. Надеюсь, что видео опубликуют.

Презентации и/или доклады собраны и будут опубликованы, но это будет позже.

Пока, как обычно, мои выступления (второе, по смыслу, продолжает первое)^

(Инструментальные средства для сбора информации интернет библиографом)



(Использование информации из социальных сетей как вторичную информацию (информационный фильтр) по заданной теме)



Материалы, конечно, сыроваты, но это универсальная проблема любого доклада – для его завершения всегда не хватает недельки-другой…

________________

Upd

Материалы (Обзоры полезных рекомендаций и успешных практик в области управления информационными ресурсами) близкие к теме докладов (надо зарегистрироваться, чтобы скачать PDF)

Upd

Опубликован материал о конференции


Теги: , , , , , , , , , , , , , , , , , ,
Рубрика: Интерфейс, Мероприятия, Новости, Программное обеспечение, Сопутствующие технологии, каталогизация печатных и электронных документов

Комментариев нет

Know how про екниги

Опубликовано 14 июня 2012

Нашёл в ЖЖ пост на животрепещущую тему (Если вам нужно объединить несколько книг формата epub в одну) и с удовольствием цитирую целиком:

Для тех, кто читает электронные книги в формате epub…

Пришла мне как-то в голову идея почитать дочке на ночь сказки Шарля Перро. Они, эти самые сказки, небольшие и читать нужно обычно две-три-четыре за раз. Найти сборник сказок не удалось, зато поштучно в любом формате они лежат в открытом доступе практически в любой электронной библиотеке. Накачал. Закачал в Stanza. Но читать несколько штук с iPad или iPhone неудобно, ибо приходиться искать их в большом списке закачанных книг (можно, конечно, отсортировать по автору, но тем не менее..), контролировать непрочитанность и тп неудобства. Ну и плюс, их, этих сказок, много и они «засоряют» список литературы на устройстве своей многочисленностью. Естественно, в голову сразу пришла идея объединить все сказки в единый файл. Тупой поиск в яндексе и гугле результата, к моему удивлению, не выдал, но я не поверил:-) и результат нашелся почти сразу. Оказалось, что просто напросто нужно использовать специальный плагин для программы Calibre. Как оказалось, крутая бесплатная прога для конвертации и организации электронной библиотеки для домашнего использования, качать можно тут.
Итак, для объединения файлов epub, качаем плагин (по желанию можно скинуть автору деньжат), который так и называется EpubMerge. Дальше в настройках Calibre выбираем Plugins и «Load plugin from file», указываем наш EpubMerge.zip, перегружаем Calibre и используем новую кнопку EpubMerge.
Снимок
Вуаля, результат достигнут, спасибо автору плагина.

Варианты использования: Сериальные книги, типа «Темной башни» Стивена Кинга (мне всегда сложно запомнить, какая книга за какой идет… Еще можно, объединить 50 детективов Жоржа Сименона (качать их по одной и также читать – вообще никаких ресурсов мозга не хватит) и тп…

И, напоследок, замечание из коммента:

Его не обязательно качать откуда-то, можно просто выбрать «установить» в настройках. Он есть в списке.

Его – это, видимо, плагин и «установить»  - это, видимо, в настройках Calibre


Теги: , , , , , , ,
Рубрика: Новости, Сопутствующие технологии, Форматы и их конверсия, Цифровой контент. е-книги, плагин

2 комментария

Что с Яндекс-счётчиком творится?

Опубликовано 27 октября 2011

День движется к вечеру, а Яндекс-счётчик блога  отказывается «крутиться»:

С чего бы это? Что случилось с сервером, который учитывает посещения? Или его, как г-на Чхартишвили (Акунина), обвинили в экстремизме (не того или не так посчитал?) и он, вместо того, чтобы работать, бегает по чиновникам и оправдывается?


Теги: , , , ,
Рубрика: Новости, Прочее

Комментариев нет

Зачем нужны библиотекари

Опубликовано 3 июля 2011

Где-то прочитал, что объём генерируемой информации растёт экспоненциально и подчиняется закону «типа закона Мура» с периодом удвоения 7-8 лет (память и быстродействие компьютеров удваиваются каждые 2-3 года, что обеспечивает некий запас производительности для манипулирования этой информацией).

И что сие означает с точки зрения «человека с улицы»? А означает сие, что потребность в специалистах по поиску, анализу, оценке и отбору информации как минимум не убывает. И вопрос состоит в том, станут ли этими специалистами библиотекари (которых именно этому учили «надлежащим образом») или ими станут коммерсанты, которые ничего толком не умеют,  кроме того, что умеют «подать себя» (это, как раз, то, чего библиотекари не умеют)?

_________________________

А «до кучи» материал от CyberSecurity (В 2011 году общество произведет 1,8 зеттабайт цифровой информации 18:34 28.06.2011), который (как мне кажется) подтверждает моё мнение (цитирую целиком):

Согласно данным совместного исследования компаний IDC и EMC, в 2011 году будет произведено и сохранено более 1,8 зеттабайт информации по всему миру. 1,8 зеттабайт – это 1,8 трлн гигабайт данных. Полученный гигантский массив информации компании именуют «цифровой вселенной» и по их данным этот массив в 2011 году вырастет по всем основным направлениям – бизнес-данные, мультимедиа, пользовательские данные и прочая информация.

В отчете компаний говорится, что современное общество с каждым годом генерирует все больше информации, но с другой стороны производимая информация открывает возможности по уникальной детализации.

«В течение следующей декады количество работающих серверов по всему миру возрастет десятикратно. Количество управляемой информации, размещаемой в датацентрах по всему миру – 50-кратно, количество индивидуальных файлов на серверах и компьютерах возрастет по меньшей мере в 75 раз. В то же время, количество ИТ-профессионалов, управляющих данными информационными потоками, увеличится лишь в 1,5 раза», говорят в IDC.

Аналитики говорят, что на фоне растущих информационных потребностей продолжит увеличиваться и количество датацентров, специализирующихся на создании виртуализованных и облачных сред.

Одним из трендов 2011 года аналитики называют появление «больших данных» – информационных массивов, работающих в интересах одного клиента, но измеряющихся десятками или сотнями терабайт.

______________________

Под ДЕКАДОЙ, насколько я понял, понимается десятилетие


Теги: , , , , , , , ,
Рубрика: Новости, Программное обеспечение, Публикации, Рынок чтения, Сопутствующие технологии

Комментариев нет

еkniga rss

Ежедневник

Август 2019
Пн Вт Ср Чт Пт Сб Вс
« Окт    
 1234
567891011
12131415161718
19202122232425
262728293031  

Архив

Рубрикатор

free counters
 
 

Рейтинг блогов

Рейтинг блогов