Блог, посвященный е-книгам

Человек это звучит гордо

Опубликовано 6 июля 2008


RB.Ru / Деловая Сеть

В среду компания Microsoft объявила о покупке за $100 млн небольшой интернет-фирмы Powerset, специализирующейся на технологиях семантического поиска. Смысл инновации Powerset в том, что она предлагает искать информацию в сети не по отдельным словам, а по смыслу.
Приобретение компании очевидно означает, что Microsoft намерена использовать эти технологии в своих поисковых системах. Однако когда это произойдет, сказать сложно. Тем временем поисковик номер один – компания Google – объявила о том, что благодаря сотрудничеству с Adobe поисковый робот Google научился лучше понимать флэш-объекты. Еще один плюс для самой популярной поисковой системы мира….

читать статью полностью

http://www.rb.ru/blog/87/showentry=498807


На мой взгляд и Микрософт и авторы подобных заметок забывают об одной детали. Поиск по смыслу требует понимания семантики вопроса и наличия у отвечающей программы модели знаний именно по теме вопроса. Мало того, что единой модели семантики (равно как единой модели знаний) не существует (Хотелось бы конечно ошибиться, но…). Есть ограниченное количество локальных моделей для очень ограниченных сфер применения… Эти исследования, несомненно, очень Важны, очень интересны, Очень.. . Но до реальной отдачи крайне далеко. Даже если предположить, что у кого-то есть функционально полный набор таких моделей, покрывающий некий универс, то остается проблема выбора того, какая именно модель соответствует вопросу. В ВЦП (Всесоюзный Центр Переводов) давно, например, носились с идеей автоматического перевода. (сейчас на рынке есть несколько фирм, претендующих на создание ими таких программ….) Но, если на них посмотреть, ясно видно, что БЕЗ ПОНИМАНИЯ СМЫСЛА перевод не сделаешь. И дело, отнюдь, не в том, что, якобы, переводчик способен работать только с ограниченной лексикой (враки это: в электронном словаре лексики больше. чем в голове у переводчика)… Переводчик не понимает разницы между стрелой (из лука), стрелой (башенного крана), стрелкой (часов), стрелкой (лука на огороде) и стрелкой, которую «забивают». Да, конечно, кажется, что если уменьшить предметную область до такой степени, чтобы в ней было возможно одно и только одно значение слова (другие значения останутся в других предметных областях), то можно добиться автоматического перевода… Это, как раз то, о чем я говорил, как о необходимости множества моделей для разных предметных областей… Но и тут не все весело. Примитивная фразочка типа «дочь генерала» (по аналогии с «дочь убирала» или «дочь подметала») при грамматическом разборе разбирается как подлежащее и сказуемое…. Представляете себе перевод?… А ведь здесь, вроде, задачка попроще – заменить один текст на другой текст (в определенном смысле эквивалентный). Формально понимания не требуется. Ну а при попытке ПОНЯТЬ вопрос и найти ответ на то, что отсутствует в тексте вопроса, но присутствует в его смысле… ситуация становится гораздо сложнее…
И, недаром, разработчики пытаются ограничиться однородным по стилю и структуре материалу в Википедии… Налицо те же проблемы….
И, на сегодня, решение есть одно – ЧЕЛОВЕК.
Это верно и для перевода и для поиска по смыслу.
Недаром существует правило «Интернет – это место, где принято помогать найти ответ на возникшие вопросы». Недаром существует множество служб, основанных на использовании людей (иногда волонтеров, чаще – профессионалов) для поиска по смыслу. Существует целый класс систем такого рода. Это т.н. Виртуальные Справочные Службы (ВСС). Я лучше других знаком с одной из первых таких служб – службой у нас на портале (help.library.ru). Однако, на сегодня таких служб уже много и отнюдь не все они библиотечные. По сути, в режиме такой службы работает блог   . Да и много еще таких…  Есть системы экспертные (дают фактографический ответ с минимумом ссылок на первичные источники) и ссылочные (дают ссылки на источники, где есть (на само деле ЕСТЬ, а не может быть есть) ответ на запрос.
Надо заметить, что в прагматичной Америке огромные (по нашим меркам) деньги из федерального бюджета выделяются на корпоративные библиотечные проекты по созданию ВСС. Корпоративность позволяет объединить пользователей (их поставляют муниципальные библиотеки) и отвечающих (их поставляют библиотеки специализированных учебных заведений, где есть отраслевые специалисты).
Профессия интернет-библиографа (отраслевого специалиста, знающего отрасль знаний и знающего «виртуальные фонды» по тематике отрасли, а также способного понять пользователя и оперативно выдать ему адекватный и квалифицированный ответ на его запрос) становится всё более востребованной. IMHO, именно это направление деятельности может стать магистральным направлением развития библиотек. Не единственным конечно. Думается, что чтение во всех его аспектах, включая проблемы оценки и отбора (да-да, то самое, многократно охаянное, «руководство чтением») становится не менее важным направлением развитим библиотек. Еще бы третьего «кита» найти и библиотека сможет стоять устойчиво и смотреть в будущее уверенно…


Сказанное не означает, что я не верю в успех проекта Микрософт. Отнюдь! Верю и надеюсь, что и эта (и тысячи других) попыток реально приблизят нас к решению этой проблемы… Ну хоть чуть-чуть. Удачи Вам осиротевшие (обезБилленные) Микрософтовцы!
веренно…

Upd (15.07.2008): Хороший обзор Ахиллесова пята Семантического Веба в Компьютерра показывает что и как в этой сфере делается и показывает, что Google – один из серьезных игроков на этом рынке. Надо ли объяснять почему Микрософт покупает программу, которая работает в том же направлении?
..

Upd (19.07.2008):
Лекция «Как устроен Google?» Игорь Кривоконь
Google Tech Talk MIPT, 6 march 2007 Igor Krivokon: «Google infrastructure» МФТИ, 6 марта 2007 года Игорь Кривоконь: «Как устроен Google»

Содержание: Введение, обзор лекции. История создания Google, PageRank. Цели Google, мисия компании. Продукты Google. Создание масштабируемой архитектуры Google.
Концепция вычислительных центров и серверы Google, их модификации и поколения. Вычислительная мощность, охлаждение и энергоснабжение: проблемы и их решения в Google.
Использование солнечных батарей в Google. Система оповещения о сбоях аппаратного обеспечения. Файловая система Google – GFS: master и chunk servers.
Преимущества GFS. Map/Reduce (модель параллельных вычислений).
MapReduce (пример работы). BigTable (распределенное хранение структурированных данных). Безотказность систем Google, удобство в процессе разработки новых проектов. Методология разработки software.
Продукты Google. Google Book Search, здесь же роботы с присосками и способы сканирования книг. 5 000 000 Тб в оффлайне и что Google делает для поиска в них.
Некоторые особенности поиска Google и BookSearch. Разработки в Google. О проверке правописания на основе статистического анализа. Слэнг и Google.
Вопросы из залаОписание слайда

Остальные слайды урока на skillopedia.ru


Рубрика: Новости

Комментариев нет

еkniga rss

Ежедневник

Июль 2008
Пн Вт Ср Чт Пт Сб Вс
« Июн   Авг »
 123456
78910111213
14151617181920
21222324252627
28293031  

Архив

Рубрикатор

free counters
 
 

Рейтинг блогов

Рейтинг блогов