Новые правила интернета: каждому по индивидуальному поисковику

Фотография - Новые правила интернета: каждому по индивидуальному поисковику

Вместе с продолжающимся ростом объёма информации, доступной через интернет, всё резче проявляется потребность в новых методах обработки такого количества данных, чтобы придать им удобную для восприятия форму. Начинающая компания 80legs ("80лап") из Хьюстона надеется, что её дешёвый распределённый веб-сервис может помочь новичкам в области интернет-коммерции "раскапывать" громадные залежи информации в сети.

211 0

Вместе с продолжающимся ростом объёма информации, доступной через интернет, всё резче проявляется потребность в новых методах обработки такого количества данных, чтобы придать им удобную для восприятия форму. Начинающая компания 80legs ("80лап") из Хьюстона надеется, что её дешёвый распределённый веб-сервис может помочь новичкам в области интернет-коммерции "раскапывать" громадные залежи информации в сети без создания гигантских серверных центров, характерных для известных поисковых механизмов.

Сетевые "пауки" – это программное обеспечение, которое в автоматическом режиме посещает сайты и занимается их индексацией, собирая разнообразную информацию для таких сервисов, как Google. Расширяющееся виртуальное пространство ведёт к увеличению и без того немалых затрат вычислительных ресурсов, реализуют которые дорогостоящие массивы серверов в дата-центрах. Поэтому 80legs поставила себе задачу сделать технологию более доступной небольшим компаниям и отдельным лицам путём сдачи в аренду мощностей поискового робота, а оплата производится только за проделанный им объём работы. Подобные специализированные программные алгоритмы также являются ключевым элементом специализирующихся на семантическом анализе сайтов и сервисов, которые обрабатывают запросы на естественном языке. Пользователь может начать сеанс работы с 80legs прямо из окна браузера после процедуры регистрации. Предоставляемая форма позволяет задать параметры проекта и загрузить необходимый для контроля "паука" код. Например, поставлена задача найти изображения и проверить их по базе данных на предмет защиты авторским правом. По словам главного исполнительного директора компании Шиона Дейсэркера (Shion Deysarkar), разработанный ими механизм способен обработать до двух миллиардов страниц в день. Каждый миллион оценивается в $2 плюс 3 цента за каждый час работы.

Многие только начинающие деятельность компании отчаянно ведут борьбу за инвестиции в создание больших дата-центров, но 80legs решила отойти от традиционной концепции. Функционирование программного обеспечения основано на распределённой сети персональных компьютеров – почти так же, как это реализовано в подобных SETI@home проектах. Объединены отдельные вычислительные единицы Plura Processing, которая предоставляет сеть в аренду 80legs. В свою очередь, Plura получает в распоряжение неиспользуемые ресурсы ПК в обмен на доступ пользователей к играм, пожертвования на благотворительность и другое вознаграждение. В результате стоимость обслуживания сервиса существенно снижается, давая возможность предлагать его клиентам за намного меньшую сумму, чем если бы за спиной компании находился вычислительный центр или даже облачный сервис наподобие Amazon Web Services.

Сооснователь поисковой компании Endeca Дэниел Танкеланг (Daniel Tunkelang) считает, что хороший программный робот может быть полезен участникам онлайн-индустрии, которые предпочитают фокусироваться на самом поиске, а не на собирании данных. Однако успех 80legs будет зависеть от простоты настройки сервиса под нужды пользователя: "Большой вопрос – насколько адаптируем и программируем паук?" Для механизма также важен объём охватываемых данных. Например, путь, по которому он пришёл на конкретную страницу, может предоставить ценную информацию о её содержании. От таких инициатив, как 80legs, могут выиграть и исследователи из университетов. "Поисковый анализ в больших масштабах на самом деле является дорогостоящим препятствием на пути экспериментальных поисковых проектов в учебном заведении, часто испытывающих недостаток в крупномасштабной инфраструктуре", - говорит доцент компьютерных наук в Университете Иллинойса (University of Illinois) в Урбане-Шампейн Кевин Ченг (Kevin Chang). Ченг считает, что распределённая природа 80legs – это "интересное направление и звучит многообещающе для снижения затрат на поисковых роботов". В то же время, он согласен со значительной зависимостью успеха начинания от эффективности функционирования системы и возможности приспособиться к нуждам клиентов.



Загрузка...

Комментарии (0)

Input is not a number!
Input is not a email!
Input is not a number!