SoftKey.info: Статьи - Фильтруем спам .topmenu {font-family:Arial, Helvetica, sans-serif; font-size:12px; font-weight:bold; color: #1B607F; text-decoration:none;} .topmenuact {font-family:Arial, Helvetica, sans-serif; font-size:12px; font-weight:bold; color: #FFFFFF; text-decoration:none;} .leftmenu {font-family: Verdana, Arial, Helvetica, sans-serif; font-size:11px; font-weight:bold; color: #FFFFFF; text-decoration:none;} .leftmenuact {font-family: Verdana, Arial, Helvetica, sans-serif; font-size:11px; font-weight:bold; color: #FEE685; text-decoration:none;} .leftsepmenu {font-family: Verdana, Arial, Helvetica, sans-serif; font-size:11px; font-weight:normal; color: #1A4D80; text-decoration:none;} a.leftsepmenu:hover{ text-decoration: underline; } h1, .title {font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 14px; font-weight:bold; line-height: 17px; color:#1565A9;} .pad {padding-left: 4px; padding-right: 4px; padding-bottom: 2px; padding-top: 2px;} .padmain {padding-left: 10px; padding-right: 10px; padding-bottom: 10px; padding-top: 5px;} .padm {padding-bottom: 2px; padding-top: 1px;} .padlr {padding-left: 4px; padding-right: 4px;} .textsm {font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 11px; color:#000000;} .texttitlesm {font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 11px; color:#065C95; text-decoration:none;} .textsubtitlesm {font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 11px; color:#4F7869; text-decoration:none;} a.texttitlesm:hover{ text-decoration: underline; } a.textsubtitlesm:hover{ text-decoration: underline; } .text {font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 12px; line-height: 16px; color:#000000;} p {font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 12px; line-height: 16px; color:#000000;} .texttitle {font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 13px; color:#065C95; text-decoration:none;} .textsubtitle {font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 12px; color:#4F7869; text-decoration:none;} a.texttitle:hover{ text-decoration: underline; } a.textsubtitle:hover{ text-decoration: underline; } .newsheadback {background-color: #D5EEE5;} .newshead {font-family: Verdana, Arial, Helvetica, sans-serif; font-size: 12px; line-height: 15px; font-weight:bold; color: #4F7869; text-decoration:none;} .errormessage {font-family: Verdana,Arial,Helvetica,sans-serif; color:red; font-weight:bold;} .okmessage {font-family: Verdana,Arial,Helvetica,sans-serif; color:#009900; font-weight:bold;} .buttonbg {background-color:#E6F3F9;} .buttonshadow {background-color:#93C5E2;} .tableborder {background-color:#C8E7EE;} .tablehead {background-color:#EEF9F9;} .tablebody {background-color:#ffffff;} .tablebodytext {font-family: Arial, Helvetica, sans-serif; font-size: 12px;} .tableheadtext {font-family: Arial, Helvetica, sans-serif; font-size: 12px; color:#296D96;} .tablefieldtext {font-family: Arial, Helvetica, sans-serif; font-size:smaller;color:#2B719B;} .tabletitletext {font-family: Verdana, Arial, Helvetica, sans-serif; font-size:9pt;color:#2B719B} .requiredfieldtext {font-family: Verdana, Arial, Helvetica, sans-serif; color:red; font-size:smaller; } .emphtext {color:red;} .downtext {color:darkgray;} .colored {color:#1A4D80;} .forumquote {font-family: Arial, Helvetica, sans-serif; font-size:8pt; color: #000000; background-color: #FBFBF9; border : 1px solid Black;padding-top: 2px; padding-right: 2px; padding-bottom: 2px; padding-left: 2px; text-indent: 2pt;} Главная Новости Статьи Пресс-релизы Форум Рассылки Фильтруем спам 18.02.2005 / Программы / Михаил Брод В отдельные дни на мои ящики приходит непрошеной корреспонденции в несколько раз больше, чем той, что мне нужна и которую я жду. Мало того что на получение почты тратится значительно больше времени, чем могло бы. Так надо еще быстро сориентироваться, что пришло в виде спама, а что мне необходимо. А ведь маскироваться спам теперь умеет, даже адреса используются странно похожие на те, откуда ждешь нужную корреспонденцию. Вариантов борьбы со спамом, точнее, его отфильтровыванием, существует много, и говорить, какой из них лучше, а какой хуже, сложно. Поэтому речь сейчас пойдет просто еще об одном таком варианте.Пожалуй, один из наиболее важных моментов этой борьбы заключается в том, чтобы спам как можно меньше отвлекал от более нужной и важной, чем его просмотр и удаление, работы. Оптимальный вариант - сбрасывать всю почту, которая является спамом, в отдельную папку, чтобы в более спокойное время просмотреть быстро письма и спокойно их удалить. Удалять письма до того, как они будут просмотрены, - плохой вариант. Среди спама могут случайно попасться интересные письма либо письма от ваших знакомых, которые система фильтрации случайно приняла за спамерские.Использовавшиеся мной программы фильтрации спама (на сегодняшний день это был SpamPal) требовали небольшой, но дополнительной настройки почтового клиента, выступая в качестве почтового прокси. При этом поток входящей почты полностью проходил через него, обрабатывался, и на письмах, воспринятых как спам, ставилась соответствующая пометка. Используя ее, можно было отсортировывать спам в отдельную папку. По подобному алгоритму работает и Agava Spamprotexx. Для выделения спама используется доработанный Байесовский алгоритм. Но обработка входящей (и исходящей) корреспонденции выполняется не при прохождении почты через эту программу, а непосредственно в папках, в которые она поступает. Это означает, что не требуется вносить никаких изменений в настройки почтовых клиентов. Пустячок, но приятный. Надоел фильтр, отключил программу и продолжай принимать почту своим привычным образом. Spamprotexx поддерживает как более привычные для многих протоколы POP3 и SMTP, так и IMAP. А если связь поддерживается по SSL-соединению, то автоматически определяет его и не требует каких-либо дополнительных настроек.При обнаружении спама или письма, принятого за спам, программа добавляет в заголовок сообщения специальную метку. В настройках можно изменить ее так, как было бы вам удобнее. Есть существенное отличие от программы SpamPal. Можно указать, чтобы при ответе на письма, в которых была проставлена "черная метка", эта метка вырезалась (мало ли какие бывают ситуации, когда потребовалось ответить на письмо со спамом?). SpamPal добавляет аналогичную метку не только в тело, но и в служебную информацию письма, и избавиться от нее при ответе уже крайне сложно, разве что скопировав текст и поместив его в новое письмо.Программа учитывает разницу между протоколами POP3 и IMAP, которая заключается в том, что последний позволяет хранить структуру папки и саму почту на сервере. Поэтому при использовании IMAP Spamprotexx может перемещать весь спам в папку "Спам" на сервере. Порог срабатывания используемого алгоритма можно установить в настройках программы. Чем выше процент срабатывания, тем меньше писем может быть помечено как спам. С одной стороны, это уменьшает вероятность попадания "хороших" писем в число спама. С другой стороны, увеличивается вероятность пропуска спама. По умолчанию порог срабатывания устанавливается на отметке 60 процентов, но у меня при этом не отмечалось как спам примерно каждое третье письмо. Что изменено в используемом алгоритме по сравнению с базовым? Изменена процедура чувствительности к ошибкам в обучении. Если при "обучении" программы спаму вы ошибочно отправили его не на тот адрес (об адресах чуть позже), то повторная отправка его уже на нужный адрес удалит предыдущую запись и введет новую. Процесс обучения в разных почтовых клиентах осуществляется по несколько отличающимся методикам. Одна методика используется для Outlook и Outlook Express, другая - для остальных почтовых клиентов, но может быть использована и в первых. При работе с Microsoft Outlook или Outlook Express в настройках программы Spamprotexx можно установить флажок "Показывать корзинки для обучения". В этом случае в правой части панели инструментов появится иконка с двумя корзинками. В одну из них можно перетаскивать спам, в другую - те письма, которые были ошибочно помечены как спам. Особенность работы по протоколу IMAP в этом случае заключается в том, что, прежде чем перетаскивать письма в корзины, их нужно полностью загрузить с сервера (по умолчанию загружаются только заголовки). Для других программ флажок с опции "Показывать корзинки для обучения" нужно снять, а дальше выполнять следующие действия. Для обучения спаму нужно переслать его как вложение на адрес, который нужно указать в поле "Адрес для обучения спаму" в настройках программы (это может быть, например, адрес spam@localhost). Для обучения неспаму нужно переслать письмо на другой адрес, например non-spam@localhost. Реально эти письма никуда не отправляются, а обрабатываются программой AGAVA SpamProtexx. В алгоритм фильтрации добавлены возможности защиты от избыточного обучения. Если письмо, отправленное для обучения, программа сможет классифицировать, то она не допустит его в базу, а это не будет приводить к ее "распуханию". Дополнительная обработка введена и для работы с письмами, приходящими в HTML-формате. В стандартных фильтрах, обучающихся на примерах HTML-сообщений, теги начинают восприниматься как спам-слова, что приводит к неадекватному реагированию на письма такого формата. Spamprotexx использует синтаксический анализатор HTML, чтобы исключить влияние тегов на классификацию. Вместо включения всех тегов в спам-слова, Spamprotexx обращает внимание на их свойства - шрифты, параграфы, тело, изображения и так далее. В качестве дополнительной информации для идентификации спама в программе заложена возможность анализа заголовков сообщений. Они порой бывают существенно больше самого сообщения и его названия, и информация, заключенная в заголовках, позволяет более успешно классифицировать письма. Для уменьшения ошибочных срабатываний используется перечень слов, которые не являются характерными для спама (к ним относятся служебные части речи - предлоги, междометия и им подобные). Еще одно отличие программы от ее аналогов. Для расчета процента, по которому письмо может быть отнесено или не отнесено к спаму, используется сложная нелинейная формула. В ней учитывается количество спам-слов по отношению к размеру всего сообщения. А дополнительное обучение происходит в процессе использования самими пользователями, которые "сбрасывают" программе письма, являющиеся для них спамом. Постепенно происходит наращивание базы, на основе которой ведется анализ, и программа начинает выдавать все более и более реальные результаты. Еще один момент настройки программы - ведение списка друзей. Его можно формировать двояко. Во-первых, в этот список помещаются адреса и имена тех ваших респондентов, которым вы сами отправили письмо. Во-вторых, в этот список адресатов можно добавлять самостоятельно, не дожидаясь отправки письма в их адрес. Ввод не только адреса, но и того, как вы обращаетесь к респонденту, увеличивает вероятность корректного срабатывания программы при получении писем от ваших друзей.Поработав с программой, я обнаружил два момента, которые немного снизили мою оценку. Во-первых, скорость получения почты несколько снизилась. Чувствуется торможение процесса обработки входящей почты и помещения ее в папки. Во-вторых, непонятными оказались результаты статистики работы. В ней учитывается количество принятых и отправленных писем, количество писем, помеченных как спам и пропущенных как хорошие. Есть строки, в которых должно было учитываться количество писем, на которых проводилось обучение программы как спаму, так и не спаму. Вот в этих строчках как появилась единица после первого отправленного на обучение письма, так она и не менялась, хотя письма продолжали отправляться. И как результат - процент качественного срабатывания фильтра с каждым полученным письмом становился все больше и больше. Впрочем, на работе самого фильтра это не сказывалось, но статистику хотелось бы иметь достоверную. Программы в каталоге Softkey.ru: AGAVA SpamProtexx / Автор: ООО "АГАВА - софт" Ссылки по теме: Компания Agava Автор статьи: Михаил Брод Отзывы:Новый отзыв Ваше имя: * Ваш E-Mail: Тема: * Текст: * Введите цифры: * * - поля, обязательные для заполнения. Ваш отзыв будет опубликован в течение двух-трех дней. Мы оставляем за собой право не публиковать отзывы, которые будут содержать нелитературные выражения и оскорбительные высказывания. Рубрики статейВсе статьи Аналитика Программы Игры Интернет Авторские права Интервью События в мире ПО РассылкиНовости мира ПОСтатьи: ИнтервьюСтатьи: Мир ПОСтатьи: ПрограммыСтатьи: ИнтернетСтатьи: Авторские праваСтатьи: ИгрыПресс-релизыАрхив выпусков « Апрель 2008 » Пн Вт Ср Чт Пт Сб Вс 123456789101112131415161718192021222324252627282930 Поиск в архивеЛогин / пароль: запомнить Написать редактору | Экспорт новостей и обзоров