antispamsniper.com/ru :: Просмотр темы - Имеет ли значение порядок в перечне черных правил?

antispamsniper.com/ru
Индивидуальные средства защиты от спама

FAQ

Поиск

Профиль

Вход

Регистрация

Имеет ли значение порядок в перечне черных правил?

Список форумов antispamsniper.com/ru -> AntispamSniper для The Bat!

Предыдущая тема :: Следующая тема

Автор

Сообщение

alex

Зарегистрирован: 09.11.2006
Сообщения: 32
Откуда: Москва

Добавлено: Чт Ноя 23, 2006 5:58 pm Заголовок сообщения: Имеет ли значение порядок в перечне черных правил?

Любое вновь создаваемое черное правило дописывается в конец перечня. Не получится ли в результате, что более высокорасположенные правила могут маскировать вновь создаваемые? Например, чаще всего у меня срабатывает правило Exclamation mark and question mark (Subject). Благодарю Вас!

Вернуться к началу

admin
Автор

Зарегистрирован: 10.02.2006
Сообщения: 824

Добавлено: Сб Ноя 25, 2006 7:31 pm Заголовок сообщения: Re: Имеет ли значение порядок в перечне черных правил?

alex писал(а):

Любое вновь создаваемое черное правило дописывается в конец перечня.
Не получится ли в результате, что более высокорасположенные правила могут маскировать вновь создаваемые?
Например, чаще всего у меня срабатывает правило Exclamation mark and question mark (Subject).

В общем так и есть, правила в соответствующих списках применяются по порядку сверху вниз, до первого срабатывания. С точки зрения фильтрации не важно какое именно черное правило сработало, т.к. срабатывание любого из них приводит к одному и тому же результату. Разница в принципе может быть какая то по производительности, но правила работают очень быстро и при разумных объемах списка не должны по идее тормозить прием почты.

Вернуться к началу

alex

Зарегистрирован: 09.11.2006
Сообщения: 32
Откуда: Москва

Добавлено: Пн Ноя 27, 2006 1:10 pm Заголовок сообщения:

admin

Цитата:

Речь не столько о производительности, сколько о невозможности протестировать собственное правило, если оно случайно перекрывается, маскируется неким вышерасположенным, предварительно не отключенным правилом.
Не вытекает ли из этого необходимость при тестировании всегда отключать такие правила?

Спасибо!

Вернуться к началу

admin
Автор

Зарегистрирован: 10.02.2006
Сообщения: 824

Добавлено: Пн Ноя 27, 2006 1:29 pm Заголовок сообщения:

alex писал(а):

Лучше всего если правила не будут перекрываться совсем. Во-первых так будет проще их создавать, и соответственно ниже будет вероятность ошибок. Во-вторых не будет необходимости заботиться о порядке их следования при тестировании, т.к. в случае когда все правила независимы он значения не имеет.

Если все таки правила пересекаются, то да, для тестирования можно отключать часть правил выше тестируемого, которые маскируют новое правило.

Вернуться к началу

alex

Зарегистрирован: 09.11.2006
Сообщения: 32
Откуда: Москва

Добавлено: Пн Ноя 27, 2006 1:51 pm Заголовок сообщения:

Спасибо! На некоторое время имею информацию к размышлению...

Вернуться к началу

alex

Зарегистрирован: 09.11.2006
Сообщения: 32
Откуда: Москва

Добавлено: Ср Ноя 29, 2006 2:54 pm Заголовок сообщения:

admin
Как можно отловить в поле

Цитата:

From: =?windows-1251?B?wOv/7eAgwO3m4eXy4A==?= <nrsskipperbxp@yahoo.com>

кириллический текст заключенный, как я полагаю, между "?windows-1251" и адресом отправителя?

Вопрос связан со следующей проблемой:
1. Имеется некий почтовый сервер с которого я получаю почти 100% спама и очень небольшую часть очень важной информации. Естественно, я хочу видеть только эту часть, а спам уничтожать на сервере.
2. Непосредственными источниками спама являются известные мне домены. Спам с подавляющего большинства из них я удаляю с помощью черных правил с перечнем известных доменов (строгие правила).
3. Однако, некоторые доменные имена - общеиспользуемые. Например, подобный приведенному в вопросе. И для них правила должны быть нестрогими. При этом требуется анализировать еще и личное поле отправителя (здесь - nrsskipperbxp) или текст, сообщенный отправителем в поле From (здесь, как я полагаю, это фрагмент, который следует за "?windows-1251". Соответствущий ему личный текст - "Аляна Анжбета" виден в клиенте).
Что касается первого, то проблем, похоже, нет. Я могу создать для него перечень личных имен, соответствующие нестрогие правила, и таким образом отсечь спам. Конечно такой перечень может оказаться достаточно большим. Поэтому хотелось бы анализировать еще и личный текст из поля From.

P.S. Вероятно я усложняю проблему, и она решается корректнее и проще. К тому же ее изложение тоже не совсем прозрачно.
Прошу прощения и благодарю Вас!

Вернуться к началу

admin
Автор

Зарегистрирован: 10.02.2006
Сообщения: 824

Добавлено: Чт Ноя 30, 2006 2:26 pm Заголовок сообщения:

alex писал(а):

Как можно отловить в поле

Цитата:

From: =?windows-1251?B?wOv/7eAgwO3m4eXy4A==?= <nrsskipperbxp@yahoo.com>

кириллический текст заключенный, как я полагаю, между "?windows-1251" и адресом отправителя?

Текст между крайними знаками '=' представлен в кодировке типа quoted-printable и расшифровывается как "Аляна Анжбета". Плагин распознает практически все известные кодировки и перед классификацией раскодирует все части письма.

alex писал(а):

Вопрос связан со следующей проблемой:
1. Имеется некий почтовый сервер с которого я получаю почти 100% спама и очень небольшую часть очень важной информации. Естественно, я хочу видеть только эту часть, а спам уничтожать на сервере.
2. Непосредственными источниками спама являются известные мне домены. Спам с подавляющего большинства из них я удаляю с помощью черных правил с перечнем известных доменов (строгие правила).
3. Однако, некоторые доменные имена - общеиспользуемые. Например, подобный приведенному в вопросе. И для них правила должны быть нестрогими. При этом требуется анализировать еще и личное поле отправителя (здесь - nrsskipperbxp) или текст, сообщенный отправителем в поле From (здесь, как я полагаю, это фрагмент, который следует за "?windows-1251". Соответствущий ему личный текст - "Аляна Анжбета" виден в клиенте).
Что касается первого, то проблем, похоже, нет. Я могу создать для него перечень личных имен, соответствующие нестрогие правила, и таким образом отсечь спам. Конечно такой перечень может оказаться достаточно большим. Поэтому хотелось бы анализировать еще и личный текст из поля From.

В общем то нет тут никакой особой проблемы и закодированные имена раскодируются и фильтруются плагином точно так же как и все остальные. Конкретно в вашем случае можно насоздавать правил с парой условий вида:

Header{From} =~ (Аляна Анжбета|Василий Пупкин).*<(nrsskipperbxp|другой_ящик)@yahoo.com>
Header{Received} =~ почтовый_ящик@домен.ru

Первое условие будет искать нужный адрес в поле From. Дополнительно можно модифицировать соответствующее регулярное выражение чтобы отлавливался сразу целый класс адресов с именами.
В данном примере части выражения в скобках, разделенные знаком "или" |, могут состоять из большого списка имен или адресов, любое из которых подходит для фильтрации. ".*" означает 0 или более любых символов.
Второе условие опционально проверяет что письмо пришло на определенный почтовый ящик. Т.е. можно для разных ящиков задавать свои условия фильтрации по From.

Вернуться к началу

alex

Зарегистрирован: 09.11.2006
Сообщения: 32
Откуда: Москва

Добавлено: Чт Ноя 30, 2006 7:46 pm Заголовок сообщения:

admin писал(а):

Спасибо, понятно. Можно просто включать в правила русские личные имена, как Вы рекомендовали. Попробую и проверю.

Теперь еще вопрос о стоп-словах: как уничтожить ошибочно созданный (ручками) список? Удаляю, а он появляется вновь...
В то же время автоматически список не пополняется, хотя соответствующая опция включена (плагин 1.7.0.6. Да и в 0.4 то
же самое).

Вернуться к началу

admin
Автор

Зарегистрирован: 10.02.2006
Сообщения: 824

Добавлено: Ср Dec 06, 2006 8:03 pm Заголовок сообщения:

alex писал(а):

Теперь еще вопрос о стоп-словах: как уничтожить ошибочно созданный (ручками) список? Удаляю, а он появляется вновь...
В то же время автоматически список не пополняется, хотя соответствующая опция включена (плагин 1.7.0.6. Да и в 0.4 то
же самое).

Если соответствующая опция включена, то список пополняется при обучении фильтра, т.е. при помечании писем как спам или не-спам. По поводу удаления слов из списка - нажимаете ли OK при закрытии окон после удаления слов? Как крайний вариант, чтобы полностью очистить список стоп-слов можно удалить файл bw.fm из базовой директории плагина.

Вернуться к началу

alex

Зарегистрирован: 09.11.2006
Сообщения: 32
Откуда: Москва

Добавлено: Сб Dec 09, 2006 8:27 pm Заголовок сообщения:

admin писал(а):

Если соответствующая опция включена, то список пополняется при обучении фильтра, т.е. при помечании писем как спам или не-спам.

Так же как и список "не спам", т.е. НЕ в режиме тестирования?

Цитата:

По поводу удаления слов из списка - нажимаете ли OK при закрытии окон после удаления слов?

Конечно!

Цитата:

Как крайний вариант, чтобы полностью очистить список стоп-слов можно удалить файл bw.fm из базовой директории плагина.

Только этот вариант и справил ситуацию.
Спасибо!

И еще вопросы:
1. Что делать с письмами, со 100% рейтингом в логах? Автоматически они ведь не распознаются как спам? Не следует ли помечать их ручками как спам?
2. Или лучше как и для писем с рейтингом >80% после дополнительного анализа пополнять черный список?

Правда последнее представляется мне неблагодарной работой, работой "вдогонку", которую уж если и выполнять, то только после хорошего обучения плагина. Не очень ли я неправ?

Вернуться к началу

admin
Автор

Зарегистрирован: 10.02.2006
Сообщения: 824

Добавлено: Вс Dec 10, 2006 6:56 am Заголовок сообщения:

alex писал(а):

admin писал(а):

Так же как и список "не спам", т.е. НЕ в режиме тестирования?

Да. В режиме тестирования обучения вообще не происходит, только классификация.
Кстати в последней версии 1.7.0.8 исправлено несколько ошибок относящихся к стоп-словам, так что скорее всего описанная проблема больше не повторится.

alex писал(а):

И еще вопросы:
1. Что делать с письмами, со 100% рейтингом в логах? Автоматически они ведь не распознаются как спам? Не следует ли помечать их ручками как спам?
2. Или лучше как и для писем с рейтингом >80% после дополнительного анализа пополнять черный список?

Правда последнее представляется мне неблагодарной работой, работой "вдогонку", которую уж если и выполнять, то только после хорошего обучения плагина. Не очень ли я неправ?

Наоборот, если спам распознается с высоким процентом, то при хорошо обученном классификаторе фильтр на нем обучать не нужно. В начале обучения в принципе можно помечать как спам даже уже распознанные сообщения чтобы добавить информации в базу. Но когда база уже достаточно хорошо натренирована эта информация в большинстве случаев будет лишней.

Вернуться к началу

Показать сообщения:

	Список форумов antispamsniper.com/ru -> AntispamSniper для The Bat!	Часовой пояс: GMT +3:00
Страница 1 из 1

Ты не можешь начинать темы
Ты не можешь отвечать на сообщения
Ты не можешь редактировать свои сообщения
Ты не можешь удалять свои сообщения
Ты не можешь голосовать в опросах