Распределенные методы обнаружения спама

spam_7_07_2011

В этой статье рассматриваются вопросы сбора спама с помощью адресов, голосование пользователей, сравнительный анализ методов, проблемы распределенных методов обнаружения спама.

При рассмотрении и изучении какого-либо явления, необходимо его четко определить. При рассмотрении проблем, связанных со спамом, это особенно важно, так как имеется большое количество различных определений, многие из которых слишком расплывчаты для практического использования.

Незапрошенные массовые анонимные рассылки (то есть спам) стали на сегодня существенной проблемой для многих людей и организаций, использующих электронную почту. Согласно отчету Radicati Group (www.radicati.com), на конец 2002 года в мире ежедневно рассылалось 2,3 млрд. спам-сообщений, причем количество это непрерывно увеличивалось. Общепринято считать, что спам наносит ущерб его получателям, впрочем, обсуждение этого ущерба не входит в задачи данного текста.

spam_7_07_2011_1

Дешевизна массовых рассылок объясняется двумя причинами. Во-первых, Internet — это очень дешевый транспорт данных; при современной цене за сетевой трафик стоимость передачи одного E-mail сообщения составляет сотые доли цента, а если производить рассылку из США, то себестоимость будет еще меньшей. Во-вторых, спамеры широко используют для доставки своих сообщений чужие ресурсы (вычислительные и транспортные мощности, к которым получен незаконный доступ), что еще более снижает себестоимость.

Распространенность спама и рост его объемов объясняются тем, что, с учетом его дешевизны, спам — это очень эффективный рекламный инструмент. Цена рекламной рассылки в расчете на одно письмо ничтожна, охват аудитории огромен, количество откликов на рекламу — более чем приемлемо для рекламодателей (тем более, в сравнении с заплаченными деньгами). Другими словами, находятся люди, которые покупают эти безумные количества виагры и пилюль для увеличения понятно чего, которые отвечают на нигерийские письма, идут на обучения в «Центр американского английского» и так далее.

Таким образом, за спамерами стоят серьезные деньги рекламодателей. По простейшим оценкам, рынок спама составляет минимум сотни миллионов долларов в год в мире и до единиц миллионов долларов в год в странах СНГ. Это обстоятельство следует учитывать при любом рассмотрении темы спама. В частности, только «давлением денег» (наличием рекламодателей, желающих потратить деньги на спам) можно объяснить ту эволюцию технологий спама, которая произошла в последние годы.

Особенности современных массовых рассылок приводят к тому, что в рамках отдельной почтовой системы видна только часть общей картины — спам приходит со сравнительно небольшого количества IP-адресов, имеет относительно небольшое число модификаций, единичная рассылка продолжается небольшое время. Более полную картину происходящего имеют крупные почтовые системы и ISP с миллионами пользователей, однако полной картиной не обладают и они.

В то же время, единичная рассылка на миллионы адресов занимает существенное время — от нескольких часов до нескольких суток. Если обнаружить ее «на старте» и каким-либо образом блокировать, то ущерб от спама понесут только те пользователи, чьи адреса были использованы в начале рассылки. Другими словами, необходимо собирать данные о спам-почте из максимально возможного количества точек сети, обрабатывать их максимально быстро и делать доступными данные о происходящей в настоящее время рассылке для всех участников системы.

В настоящее время реализованы такие методы быстрого сбора данных о рассылках (перечислены в порядке убывания распространенности в мире):
• прием спама в специальные «ловушки» (honeypot) — E-mail адреса, предназначенные только для приема спама;
• голосование пользователей — пользователь, получивший спам, нотифицирует об этом систему сбора данных, предоставляя образец спама;
• анализ всей проходящей через почтовую систему почты с сообщением контрольных сумм отдельных сообщений на центральный сервер.

На основании собранных данных, которые выглядят как «такое-то письмо принято в мире столько-то раз», либо «на такое-то письмо пожаловались столько-то раз», строятся списки массовых на данный момент времени рассылок, которые становятся доступными участникам системы в реальном времени. Почтовые системы, приняв письмо, могут узнать его статус и либо отвергнуть (уничтожить, перенаправить в архив или карантин) как спам, либо передать получателю.

Наиболее крупная сеть адресов-ловушек для анализа спама в реальном времени организована и поддерживается компанией BrightMail (www.brightmail.com). Детали реализации известны только из публикуемых этой компанией документов, согласно им сеть сбора спама состоит более чем из миллиона почтовых адресов-ловушек; данные по спаму пополняются и пользователями самой системы. На основании полученных спам-сообщений составляются списки сигнатур сообщений и списки правил анализа заголовков, которые доставляются подписчикам системы практически в реальном времени. Исходя из документов компании, используются как четкие сигнатуры (hashes), идентифицирующие в точности данное сообщение, так и нечеткие, которые приспосабливаются к меняющимся спамерским письмам.

Решение BrightMail Anti-Spam доступно только на коммерческой основе в виде plug-in к системам Sendmail и MS Exchange, online-сервиса и в составе некоторых Network Appliances.

Вследствие коммерческого характера системы получить данные об ее пригодности для фильтрации спама затруднительно. Доступны лишь данные тестов PC Magazine, согласно которым уровень обнаружения спама составил 77,79%, а уровень ложных срабатываний системы — 0,05% всех сообщений.

Аналогичная схема сбора образцов спама реализована в системе SkyScan AS компании MessageLabs. Исходя из документов компании, используемые методы очень похожи на систему BrightMail; как и в случае BrightMail существенная информация о системе практически не опубликована.

spam_7_07_2011_2

В тестах PC Magazine сервис SkyScan показал уровень обнаружения спама в 96% при доле ложных срабатываний 0,48%. Поддержание большого числа адресов-ловушек требует больших человеческих и административных ресурсов — это не должны быть «пустые» адреса, они должны активно функционировать — публиковаться на WWW-сайтах, форумах и конференциях, регистрироваться в онлайн-сервисах и прочим образом имитировать поведение обычного пользователя с точки зрения спамера. По всей видимости, данная технология применима только в условиях компании-разработчика антиспам ПО, либо в условиях крупного почтового сервиса. Создание подобной системы на базе только усилий волонтеров представляется маловероятным.

Обладание большим массивом получаемых в реальном времени данных о распространении отдельного сообщения открывает совершенно новые возможности для надежного обнаружения спама. По всей видимости, большой эффект должно дать объединение имеющихся способов фильтрации спама (RBL, детерминированный контентный анализ, статистический анализ) с данными, поставляемыми распределенными системами. Можно привести такие потенциальные примеры:
• Автоматическое построение короткоживущих черных списков IP-адресов в реальном времени. Если какое-либо сообщение, отклассифицированное как спам, рассылается в настоящее время с некоего списка IP-адресов, то весь этот список может быть временно помечен как «черный» и какой-либо прием почты с этих машин запрещен. Такое блокирование может осуществляться быстро, его можно делать только на время рассылки.
• Ретроспективный анализ источников спама и построение черных списков на его основе. Способ предполагает анализ источников спама, рассылающих сообщения, которые не были отклассифицированы как спам сразу (например, по причине наличия в них больших объемов случайного текста). Если данные рассылают только спам, то они могут быть помещены в сравнительно долгоживующие черные списки.
• Анализ активности отдельных машин при рассылке почты, выявление «схем поведения» пользовательской машины, рассылающей спам. По всей видимости, такая машина должна отличаться по поведению как от обычного почтового сервиса, так и от пользовательского компьютера.
• Накопление и анализ изменений текста внутри одной массовой рассылки (один основной текст с переменными добавками). Можно как выделять общие части таких сообщений статистическими методами, так и исследовать алгоритм случайных изменений с целью предсказания дальнейших вариаций.

spam_7_07_2011_3

Богатые потенциальные возможности распределенных систем анализа почты имеют в себе и скрытые опасности — контроль над такой системой дает множество потенциальных возможностей, не связанных с фильтрацией спама. Для предотвращения слишком большого интереса к подобным системам они должны накапливать сведения только о массовых рассылках, а не по электронной почте в целом.

Литература:
1. Лукацкий А. Обнаружение атак. — СПб.: БХВ-Петербург, 2001.
2. Библия хакера 2. Книга 1. — М.: Майор, 2003. — 640 с.
3. http://www.eserv.ru — Антиспам-новости
4. http://www.apachedev.ru — Защита от спама

Orphus system