Второе дыхание «Вайдода»
27 июля 2008
Рубрика: Интернет и сети.
Автор: .

pic

Разработчики сервиса «Вайдод» http://voydod.uz анонсировали бета-релиз второй версии поисковой машины. Самому сервису скоро три года, узнетчики привыкли к нему и, кажется, что он был всегда.

Изменения во второй версии настолько кардинальные и интересные, что всем, наверное, захочется о них узнать поподробнее. Мне удалось встретиться с разработчиками и побеседовать с ними. Это не просто энтузиасты, а компания ORCA GROUP. Теперь можно представить команду: Сергей Рудаков – директор и аналитик проекта, Денис Баклыков – программист, Игорь Бронников – архитектор.

pic

На фотографии слева направо: И. Бронников, Денис Баклыков, Сергей Рудаков.
На вопросы отвечают все трое, каждый ответ превращается в обсуждение и насыщен техническими подробностями, постараюсь все воспроизвести без ущерба для популярной направленности статьи. Вопросы идут вразнобой, не следуя наперед заданной логике.

1. Вторая версия – это значит, то изменения существенные, выделите главные из них.
Главное то, что теперь учитываются морфологические варианты слов, можно говорить, что поиск стал полнотекстовым. Если мы ищем слово «ломтик», то в результатах поиска будут «ломтики», «ломтика», «ломтику», «ломтика» и так далее. То есть, специальная программа выделяет корень слова и ищет его со всеми вариантами суффиксов, приставок и окончаний. Результаты выдаются с учетом релевантности, это наша разработка, считается Page Rank для каждой страницы, улучшилась работа «паука». Еще – новая база в кодировке UTF-8, первая версия была в Ср 1251. Это самые главные изменения, еще много улучшений в коде, в алгоритмах, в индексе и так далее.

2. Интересно, как вы сделали морфологический анализ слов – это же почти искусственный интеллект?
Вторая версия работает на СУБД PostgreSQL (первая – на MySQL), разработчики этой БД включили стемминг (процесс выделения основы слова и образования словоформ) в ядро системы. Конечно, это не просто использование возможностей БД, надо еще все это правильно обработать, да и БД PostgreSQL сложна в настройке, была проведена непростая работа, зато мы получили полноценный поиск с вариантами слов русского и английского языков.

3. А не боитесь открывать свои секреты?
Информация о стемминге в PostgreSQL открыта и есть в Сети, если кто-то в Узнете повторит наши разработки – выразим свое уважение, так как все это очень даже непросто обработать, сконфигурировать, настроить и отладить.

4. Сразу же вопрос о поиске на узбекском языке.
Вопрос существует – но не в числе самых приоритетных. По нашим подсчетам доля сайтов Узнета на узбекском языке составляет от 10 до 15 %. Естественно, их доля будет расти, в планах есть подключение полнотекстового поиска на узбекском языке – но не в самое ближайшее время.

5. Хотелось бы узнать как можно больше цифр об Узнете и о работе «Вайдода».
В базе работающей (первой) версии проиндексировано 6000 сайтов, содержащих 3 миллиона страниц. Вторая версия сейчас содержит 1,2 миллиона страниц, но ее пауки еще не обошли Узнет даже первый раз, это произойдет через пару месяцев, тогда можно будет уточнить базу второй версии.

pic

6. А в первой версии не только сайты домена UZ?
Автоматом пауки проходят только по сайтам домена UZ, но можно вручную добавлять сайты из других доменных зон. Для этого надо обратиться к разработчикам. В первой версии добавлено около 300 сайтов из других доменных зон. Причем, мы сразу не добавляем после получения заявки, ждем пару месяцев – за это время половина из заявителей «умирают» — это сайты-однодневки на сервисах типа народ.ру или UCOZ. Вопрос обострялся в связи прошлогодним Национальным Фестивалем, всех интересовал вопрос – много ли сайтов, относящихся к Узнету не в домене .UZ. Оказалось – совсем немного, да и те почти все имеют зеркала в домене UZ.

7. После завершения обхода Узнета пауками второй версии первая будет закрыта?
Нет, не будет, у нас пока к ней привязаны разные сервисы, база и индексы будут поддерживаться. Один из таких сервисов – поиск по сайту средствами «Вайдода». (Наример, на «Арбузе.уз» поиск по сайту – «Вайдодом»).

8. Вообще интересно – как это все работает?
«Паук» — специальная программа, которая обходит все сайты по очереди. На сайте «паук» выкачивает все найденные тексты, выделяет в них отдельные слова и заносит их в специальный индексный файл. При нахождении на сайте ссылки на внутреннюю страницу или внешний сайт «паук» переходит по ссылке на следующую страницу сайта или на другой сайт. Если ссылок много, то они запоминаются в специальной базе и дожидаются своей очереди на посещение «пауком». В индексном файле найденные на сайте слова хранятся вместе с сопутствующей информацией, такой как адрес сайта, вхождение слова в заголовок, в ссылку, в название страницы и так далее. При получении запроса на поиск программа ищет в индексном файле слова из строки запроса, обрабатывает их и выводит результаты в определенном порядке.

9. Вот как раз один из самых главных вопросов – в каком порядке выводятся результаты поиска?
Разработан алгоритм расчета релевантности, учитывающий, например, как далеко друг от друга на странице стоят слова из поискового запроса, учитывается вхождение слов в заголовки, в ссылки и кое-что еще. Алгоритм нежесткий, можно менять его компоненты и весовые коэффициенты. Если у нас будет когда-нибудь борьба за места в выдаче, как сейчас в Рунете на Яндексе, то начнутся накрутки и разные попытки подняться в первые номера. Придется периодически менять алгоритм, чтобы отсекать нечестных оптимизаторов.

10. Если я публикую статью на своем сайте, то Гугль знает о ней через несколько минут, а как быстро появится она в «Вайдоде»?
Ну, с Гуглем не стоит сравнивать, у него сотни тысяч серверов (450 000 по данным 2007 года) и хорошие каналы связи. У нас же один сервер и мегабит до ресурсов нашего хостера. Узнет , конечно, меньше всего Интернета, так что подождать придется с неделю – пока «паук» снова не посетит ваш сайт. Причем алгоритм учитывает обновляемость сайтов и часто обновляемые сайты будут посещаться и индексироваться чаще редко обновляемых.

11. Так «паук» выходит интеллектуальный?
Ну, может, не так громко, но в работе «пауков» (а во второй версии он не один) заложены интересные алгоритмы. Например, соблюдается определенный баланс между «пауком», обходящим сайты, входящие в TasIX, и не входящие в него. Или если один из «пауков» надолго углубится в «изучение» одного сайта, то запускается еще один «паук» чтобы поддержать скорость обхода сайтов. Количество «пауков» меняется в зависимости от ширины канала и от других причин. И еще есть разные хитрости, позволяющие оптимизировать и сбалансировать обход Узнета и наполнение индексного файла.

12. Опять вернемся к объемам Узнета. Если 3 миллиона страниц разделить на 6000 сайтов…
Тут все не так просто, как кажется. С одной стороны, «паук» так же как и обычный посетитель заставляет работать РНР (или другую среду разработки) на сервере, конструируя страницу сайта. С другой стороны, форумы, например, представляют поисковикам совсем не такую страницу, как «живым» посетителям – в ней нет аватаров, картинок, кнопочек навигации и т.д. И еще много тонкостей, понятных только специалистам.

13. А можете рассказать подробнее о компании?
Компания ORCA GROUP как юридическое лицо появилась менее года назад. В планах компании разработка онлайновых сервисов для Узнета, поисковик лишь первый из них. Озвучивать планируемые сервисы пока не будем, можем пообещать, что читатели журнала Infocom.uz узнают о них первыми. Не смотря на малочисленность и кажущуюся разобщенность (все участники работают и в других организациях) есть все инструменты современной компании – сообщество в Google Group для обсуждения текущих вопросов, Bug Tracker (система учета и отслеживания ошибок), Bug Fixing (система отслеживания исправления ошибок) и прочие механизмы.

14. Какие проблемы у компании?
Как и у всех – кадровые, организационные, с каналом связи, с сервером – но все вопросы решаются в рабочем порядке, намеченных целей мы все равно добьемся.

15. Планируете экономический успех проекта?
Ну… хотя бы выйти когда-нибудь на самоокупаемость… надеемся, что все будет.

16. Вернемся к выдаче результатов – что за цифры стоят почти в каждой строке выдачи?
Все результаты сгруппированы по сайтам, каждый сайт выдается в поиске только один раз, а число показывает количество найденных страниц на этом сайте. Это позволяет не раздувать результаты поиска, выдавать их компактно. Число же, показывающее страницы является ссылкой на эти самые страницы. Напомним также, что в строке выдачи указывается, расположен ли сайт в TasIX, а также хостпровайдер, причем, каждый своим цветом. Эти удобные штучки унаследованы из первой версии.

17. Так у нас в Узнете теперь есть свой Page Rank?
Да, причем, посчитанный по тем же алгоритмам, что и гуглевский. В начале каждому сайту присваивается некоторое значение, потом оно пересчитывается в зависимости от ссылающихся на этот сайт других сайтов. (Так как и у ссылающихся сайтов это число меняется, то пересчитывать надо несколько раз, в данной версии Page Rank рассчитывается за 100 итераций.) Скоро мы сможем увидеть рейтинг сайтов Узнета по Page Rank Вайдода. Правда, тут есть свои особенности. Например, блоги с блогохостига, ссылающиеся на головной сайт, поднимают его Page Rank. Еще особенность – из-за замкнутости Узнета, точнее, из-за того, что ссылки извне не считаются, наш Page Rank будет иметь некоторые особенности, будем работать над этим. В дальнейшем «паук» будет чаще посещать сайты с высоким значением Page Rank.

18. А еще меня интересует рейтинг форумов Узнета – он не связан в версиями?
Нет, рейтинг форумов сам по себе, с новым поиском не связан.

19. А что за странное слово Intermediate в новом логотипе?
Это говорит о том, что «платформа промежуточная», все будет развиваться и совершенствоваться. Поэтому ввели и версионность, пока, как видим, работают первая и вторая (бета) версии. У нас большие планы, но востребованность поиска зависит от наполненности Узнета контентом, будем надеяться, что вскоре все «буйно заколосится». Да, кстати, мы завели блог при «Вайдоде» http://blog.voydod.uz/ — просим всех сообщать замечания и пожелания.

Еще хотелось много чего спросить, но пора заканчивать. Попробуйте поискать, чтобы составить свое мнение о поисковике. Уже есть отзывы в форумах и блогах о новой версии «Вайдода», один узнетчик даже нашел материалы о своих родственниках с помощью «второй беты Вайдода», то есть, продукт во всю работает. Пожелаем разработчикам поисковика успеха, будем ждать новые сервисы!

Orphus system
Подписывайтесь на канал infoCOM.UZ в Telegram, чтобы первыми узнавать об ИКТ новостях Узбекистана
В Telegram
В WhatsApp
В Одноклассники
ВКонтакте