вторник, 16 сентября 2008 г.

Глубокий поиск - Infovell


"Исследовательский движок" Infovell от учёных из Калифорнийского университета в Беркли (University of California at Berkeley) позволяет по-новому взглянуть на само понятие поиска нужных документов в Интернете. Ему доступно то, что пропускают даже Google и Yahoo. По данным исследования, проведённого генетиками, работающими над проектом расшифровки генома человека (Human Genome Project), традиционные поисковые системы индексируют лишь 0,2% страниц Интернета. Оставшиеся 99,8% (так называемая deep web) представляют собой огромный массив информации, доступ к которому обычные "движки" получить не могут (необходима регистрация или подписка).
При этом часто именно в "глубокой паутине" находится информация, так необходимая учёным. Чтобы помочь коллегам отыскать такие "невидимые" данные, исследователи из Беркли взялись за разработку Infovell. И хотя этот проект далеко не первый в своём роде, кое-чем он всё же может похвастаться.
Почему за новую поисковую систему взялись именно исследователи кодов животных организмов? Потому что они хорошо знакомы с методами генетических исследований. Ведь чтобы разобраться и найти что-либо в "дебрях" ДНК животных, нужно нечто большее, чем "ключевые слова".
Действительно, в генетике нет ключевых слов, потому для подобных проектов были разработаны новые уникальные и мощные техники. Теперь благодаря Infovell эти техники позволят вычленять знания любого размера из материала на любом языке и даже любой другой символьной системы (например из нотной записи). При этом единственное требование к документам - чтобы они были цифровыми.
Поиск по ключевым словам, конечно, имеет определённый смысл для каких-либо общих целей. Он позволяет получить доступ к популярному и открытому контенту.
Но когда дело доходит до поиска необходимого документа узкой специализации, чаще всего ввод нескольких основных слов даёт слишком много результатов (иногда к делу вовсе не относящихся), а слишком уж большое их количество, соответственно, не даёт вообще ничего. Тем временем объём скрытой во Всемирной паутине информации растёт.
Дело, конечно, в природе самих сайтов, которые оказались вдали от популярных ресурсов и не обладают интерфейсами, дружественными к основным на сегодняшний день поисковым движкам, а также в целях, под которые заточены эти поисковики.
Так как "глубокую паутину" использует небольшое количество людей, то и трафик она получает значительно меньший. Это в свою очередь отражается на результатах поиска (которые выводятся в соответствии с данными таких систем, как PageRank от Google). Частным сайтам мешают присутствующие на них формы регистрации и подписки, которые не дают как следует индексировать их.
Поисковая система Infovell позволяет искать целыми "ключевыми фразами", отмечают создатели: от параграфов до целых документов, или даже набора документов общим объёмом до 25 тысяч слов. Как мы уже сказали, Infovell не зависит от языка, так как родилась в лабораториях, "разговаривающих" на генетических кодах. Пользователи могут искать страницы на английском, арабском, китайском языках или же вводить в строке поиска математические уравнения, химические формулы.
Ещё один плюс: новый поисковик не требует каких-либо особых познаний (не придётся учить знаки логических операций, чтобы корректно ввести информацию для поиска).

Комментариев нет: