вторник, 16 сентября 2008 г.

Глубокий поиск - Infovell


"Исследовательский движок" Infovell от учёных из Калифорнийского университета в Беркли (University of California at Berkeley) позволяет по-новому взглянуть на само понятие поиска нужных документов в Интернете. Ему доступно то, что пропускают даже Google и Yahoo. По данным исследования, проведённого генетиками, работающими над проектом расшифровки генома человека (Human Genome Project), традиционные поисковые системы индексируют лишь 0,2% страниц Интернета. Оставшиеся 99,8% (так называемая deep web) представляют собой огромный массив информации, доступ к которому обычные "движки" получить не могут (необходима регистрация или подписка).
При этом часто именно в "глубокой паутине" находится информация, так необходимая учёным. Чтобы помочь коллегам отыскать такие "невидимые" данные, исследователи из Беркли взялись за разработку Infovell. И хотя этот проект далеко не первый в своём роде, кое-чем он всё же может похвастаться.
Почему за новую поисковую систему взялись именно исследователи кодов животных организмов? Потому что они хорошо знакомы с методами генетических исследований. Ведь чтобы разобраться и найти что-либо в "дебрях" ДНК животных, нужно нечто большее, чем "ключевые слова".
Действительно, в генетике нет ключевых слов, потому для подобных проектов были разработаны новые уникальные и мощные техники. Теперь благодаря Infovell эти техники позволят вычленять знания любого размера из материала на любом языке и даже любой другой символьной системы (например из нотной записи). При этом единственное требование к документам - чтобы они были цифровыми.
Поиск по ключевым словам, конечно, имеет определённый смысл для каких-либо общих целей. Он позволяет получить доступ к популярному и открытому контенту.
Но когда дело доходит до поиска необходимого документа узкой специализации, чаще всего ввод нескольких основных слов даёт слишком много результатов (иногда к делу вовсе не относящихся), а слишком уж большое их количество, соответственно, не даёт вообще ничего. Тем временем объём скрытой во Всемирной паутине информации растёт.
Дело, конечно, в природе самих сайтов, которые оказались вдали от популярных ресурсов и не обладают интерфейсами, дружественными к основным на сегодняшний день поисковым движкам, а также в целях, под которые заточены эти поисковики.
Так как "глубокую паутину" использует небольшое количество людей, то и трафик она получает значительно меньший. Это в свою очередь отражается на результатах поиска (которые выводятся в соответствии с данными таких систем, как PageRank от Google). Частным сайтам мешают присутствующие на них формы регистрации и подписки, которые не дают как следует индексировать их.
Поисковая система Infovell позволяет искать целыми "ключевыми фразами", отмечают создатели: от параграфов до целых документов, или даже набора документов общим объёмом до 25 тысяч слов. Как мы уже сказали, Infovell не зависит от языка, так как родилась в лабораториях, "разговаривающих" на генетических кодах. Пользователи могут искать страницы на английском, арабском, китайском языках или же вводить в строке поиска математические уравнения, химические формулы.
Ещё один плюс: новый поисковик не требует каких-либо особых познаний (не придётся учить знаки логических операций, чтобы корректно ввести информацию для поиска).

Новый дата-центр Ядекса


Яндекс готовит к запуску новый датацент в Ивантеевке. Открытие объекта запланировано на конец 2008 года.
В ивантеевском дата-центре разместится более 7 тысяч серверов. Площадь составит 2500 квадратных метров, подведённая мощность — 4 МВт. Яндекс планирует соединить ивантеевский дата-центр с собственным московским оптическим кольцом.
Увидеть, как выглядят дата-центры Яндекса, и прочитать немного об их истории, можно здесь: http://company.yandex.ru/datacenters/

среда, 3 сентября 2008 г.

Manta

Manta - софт для Linux для 3D-моделирования с поддержкой кластерной архитектуры.

Вычислительный кластер на Sony Playstation 3


Собрать вычислительный кластер на игровых приставках? Поначалу мне показалось это... довольно занимательным сообщением. Но последующие сообщения в сообществе, и, более того, собранный одним из игровых подразделений Sony настоящий вычислительный кластер - заставили серьезнее отнестись к вопросу. Более того, TerraSoft реализует промышленный выпуск кластеров на базе PlayStation3.


Первым этим вопрос озадачился и успешно решил доктор Фрэнк Мюллер из университета Северной Каролины. Он смог собрать кластер из 8 нод PC3, на базе Linux, используя ПО с открытым кодом.
* Fedora Core 5 Linux ppc64
* MPICH2 (also MPI API) locally: man MPI
* OpenMP v2.5 (via gcc)
* gcc (C compiler)
* CellSDK 1.1
В настоящий момент широко используются такие дистрибутивы Линукс как: Fedora, Yellow Dog, Ubuntu, OpenSuSE (подробнее).
Дело в том, что процессор как нельзя лучше подходит для построения кластерных архитектур, а открытая спецификация позволяет писать программы для кластерной платформы под свои нужды.
Как правило вычислительные кластеры и суперкомпьютеры используются в математике, географии и астрофизике. Очень ожидаемая область применения - 3Dмоделирование и рендеринг.
Установка Linux Fedora на PS3 и написание кода для кластера описано на сайте IBM.

вторник, 2 сентября 2008 г.

Android Market

Google раскрыл информацию об ожидаемой пользователями опции Android OS — Android Market, который должен стать ответом Apple's App Store. Android Market позволит пользователям с легкостью найти, приобрести, скачать и установить приложения для мобильной операционной системы.

Кроме того, пользователи смогут выразить свое мнение и оставить отзыв о программе. По словам компании, процесс как для разработчиков, так и для потребителей будет очень напоминать развитие сайта YouTube.

Бета-версия Android Market, которая будет доступна для операционной системы Android будет поддерживать только бесплатные приложения и предложит практически все предусмотренные возможности для разработчиков. Более поздние версии Android Market позволят программистам управлять версиями программ и собирать аналитические данные по их использованию.

«Google Chrome» — интернет броузер нового поколения



На днях Гугл объявил об открытии нового проекта с открытым кодом — «Google Chrome» — интернет броузер нового поколения.
По предварительным данным будет использоваться существующий рендерный движок Webkit с элементами Google’s Gears. Также будет использоваться виртуальная машина JavaScript V8, отличительной способностью которой является серьезное увеличение скорости работы.
В интерфейсной части проекта, в отличии от Мозиллы, новый Google Chrome будет использовать панель закладок/tabs поверх адресной строки, а не под ней.
Над безопасностью тоже серьезно поработают — в новом броузере будет специальная закладка «Инкогнито», информация о работе в которой не будет нигде сохраняться или учитываться. Кроме этого в броузер будет встроен механизм автоматического отслеживания подозрительных сайтов.

вторник, 26 августа 2008 г.

Ленточка к XSAN


Ну что же... Хочу себя поздравить - прицепил к XSAN (сетевое хранилище) ленточную библиотеку. Пустячок, а структура хранилища теперь обрела законченный вид! В качестве софта выбор пал на фаворита BakBone Backup . Теперь вся "несколько-сот-террабайтная" махина данных будет ложиться со скоростью 120 MB/s на ленту, помимо дисковых библиотек. И все под управлением MacOSX (люблю :) )
Пока решали эту задачу - познакомились еще и с системами записи на DVD, медленнее, но чуток надежнее ленты. Теперь пытаемся осмыслить - сколько еще будет актуален этот ленточный бэкап, учитывая темпы снижения стоимости дисковых носителей.