E-Collector — система автоматического сбора информации из сети Интернет
16 мая 2003
Рубрика: Интернет и сети.
Автор: Одил Никаданбаев.
pic

Мы уже сообщали о прошедшем в Ташкенте Международном семинаре «Состояние и перспективы развития ИКТ в Узбекистане». На этом семинаре в числе других была представлена разработанная в Узбекистане система «E-Collector», автором которой является Одил Никадамбаев. Мы попросили автора рассказать поподробнее о системе.

Что представляет собой
система E-Collector?

Краткое описание назначения звучит следующим образом: система для автоматического сбора информации из сети Интернет. Идея создания такой системы зародилась еще в 2000 году, когда возникла необходимость в информационной поддержке созданного мною туристического сайта www.voyage.uz Ведь не секрет, что мало просто создать хороший сайт, нужно, чтобы он «жил», т.е. постоянно обновлялся и пополнялся новой информацией. Обычно поиском и размещением актуальной информации занимается человек, но у меня не было такой возможности, поэтому как программист я начал думать об автоматизации описанного процесса. Результат — разработана программа, которая ежедневно в автоматическом режиме сканировала заданный сайт на наличие новой новостной информации и записывала эту информацию в базу данных, откуда она затем публиковалась на сайт. Все ссылки на авторство материалов при этом были сохранены. В 2001 году я начал думать о развитии и расширении системы, а точнее — о внедрении отработанной к тому времени уже в течение года технологии в более крупных масштабах. Я собрал команду программистов, своих одноклассников, совместно с которыми началась работа над проектом. Цель — создать систему, которая в автоматическом режиме сканирует заданные веб-сайты на наличие новой информации, выделяет из всего массива только «полезную» информацию и заносит ее в единую базу данных. Результат: система была разработана и запущена в эксплуатацию в мае 2002 года в одном из государственных учреждений. Это учреждение в силу специфики своей деятельности испытывает ежедневную потребность в оперативной и свежей информации из Интернета.

Как сказалось внедрение
системы на эффективности
работы учреждения?

В целом внедрение системы намного облегчило работу сотрудников, занятых на сборе информации из Интернета. В настоящее время прошло уже более 6 месяцев с момента внедрения этого программного продукта, и сотрудники уже, можно сказать, привыкли к «коллектору» и вполне эффективно его используют при поиске необходимой информации. С экономической стороны внедрение комплекса «E-Collector» привело к годовой экономии средств, затрачиваемых на Интернет, в 19,2 млн. сум. Использование интернет-трафика значительно сократилось за счет оптимизации режима использования Интернета и доступности единой информационной базы данных, в которой хранится вся загруженная информация с момента внедрения системы. Вся новая информация также ежедневно добавляется в единую базу данных. При этом каждый компьютер, подключенный к локальной сети организации, имеет неограниченный бесплатный доступ к вышеупомянутой базе данных. В настоящее время база данных системы содержит свыше 250 тыс. статей, причем ежедневный прирост составляет свыше 1500 статей. Система сканирует и собирает информацию с 80 новостных и аналитических сайтов на русском и английском языках. В настоящее время пользователями системы являются свыше 20 организаций.

Как пользователь может
получить необходимую информацию
из вашей базы данных?

Система «E-Collector» снабжена дружественным веб-интерфейсом, что обусловливает ее доступность с любого компьютера в локальной или глобальной сети (Интернет). Единственной программой, необходимой для работы с «E-Collector», является обозреватель Интернета (броузер). Веб-интерфейс представляет собой полнотекстовую поисковую систему, с помощью которой можно искать статьи в базе данных, в которых встречается заданное слово (слова) или выражение. Результаты поиска представляют собой список статей, удовлетворяющих запросу пользователя. Полный текст любой из этих статей можно просмотреть, щелкнув на ее заголовке. Можно также сразу в облегченном режиме сформировать собственную ленту новостей и сохранить ее для дальнейшего использования. Система также позволяет пользователю подписаться на автоматическую рассылку персонализированной подборки новостей. Это означает, что пользователь, один раз задав ключевые слова для поиска, ежедневно будет получать по электронной почте всю информацию из базы данных за сутки, удовлетворяющую его запросу.

Каково отличие системы
«E-Collector» от поисковых
сайтов Интернета?

Как уже отмечалось, система сканирует заданные сайты на наличие новой информации, затем загружает и заносит в базу данных всю новую информацию в полном объеме. Соответственно при поиске информации пользователь может сразу просматривать найденные статьи даже в автономном режиме (в локальной сети), т.е при отсутствии подключения к Интернету. Поисковые же машины Интернета «просматривают», конечно, гораздо больше сайтов, но при этом в результатах поиска пользователь видит только ссылку на документ, и ему нужно загружать документ с удаленного сайта. При этом обычно загружается большой объем сопутствующей информации, такой как дизайн сайта, рекламная и прочая информация, которая сильно влияет на объем входящего трафика и время загрузки документа.

Является ли система
общедоступной и как можно
ею воспользоваться?

Как уже упоминалось, технически система доступна через Интернет по адресу http://ecollector.uzstrateg.info, однако для ее использования необходима учетная запись, т.е. пользователь должен быть зарегистрирован в нашей системе. Для регистрации необходимо связаться с нами по телефону 45-17-51 или по электронной почте odil@tkt.uz В настоящий момент регистрация и использование системы являются бесплатными.

Orphus system
В Telegram
В Одноклассники
ВКонтакте