Список форумов antispamsniper.com/ru antispamsniper.com/ru
Индивидуальные средства защиты от спама
 
 FAQFAQ   ПоискПоиск     ПрофильПрофиль   ВходВход   РегистрацияРегистрация 

Имеет ли значение порядок в перечне черных правил?

 
Начать новую тему   Ответить на тему    Список форумов antispamsniper.com/ru -> AntispamSniper для The Bat!
Предыдущая тема :: Следующая тема  
Автор Сообщение
alex



Зарегистрирован: 09.11.2006
Сообщения: 32
Откуда: Москва

СообщениеДобавлено: Чт Ноя 23, 2006 5:58 pm    Заголовок сообщения: Имеет ли значение порядок в перечне черных правил? Ответить с цитатой

Любое вновь создаваемое черное правило дописывается в конец перечня.
Не получится ли в результате, что более высокорасположенные правила могут маскировать вновь создаваемые?
Например, чаще всего у меня срабатывает правило Exclamation mark and question mark (Subject).

Благодарю Вас!
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
admin
Автор


Зарегистрирован: 10.02.2006
Сообщения: 816

СообщениеДобавлено: Сб Ноя 25, 2006 7:31 pm    Заголовок сообщения: Re: Имеет ли значение порядок в перечне черных правил? Ответить с цитатой

alex писал(а):
Любое вновь создаваемое черное правило дописывается в конец перечня.
Не получится ли в результате, что более высокорасположенные правила могут маскировать вновь создаваемые?
Например, чаще всего у меня срабатывает правило Exclamation mark and question mark (Subject).

В общем так и есть, правила в соответствующих списках применяются по порядку сверху вниз, до первого срабатывания. С точки зрения фильтрации не важно какое именно черное правило сработало, т.к. срабатывание любого из них приводит к одному и тому же результату. Разница в принципе может быть какая то по производительности, но правила работают очень быстро и при разумных объемах списка не должны по идее тормозить прием почты.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить сообщения электронной почты
alex



Зарегистрирован: 09.11.2006
Сообщения: 32
Откуда: Москва

СообщениеДобавлено: Пн Ноя 27, 2006 1:10 pm    Заголовок сообщения: Ответить с цитатой

admin
Цитата:
В общем так и есть, правила в соответствующих списках применяются по порядку сверху вниз, до первого срабатывания. С точки зрения фильтрации не важно какое именно черное правило сработало, т.к. срабатывание любого из них приводит к одному и тому же результату. Разница в принципе может быть какая то по производительности, но правила работают очень быстро и при разумных объемах списка не должны по идее тормозить прием почты.

Речь не столько о производительности, сколько о невозможности протестировать собственное правило, если оно случайно перекрывается, маскируется неким вышерасположенным, предварительно не отключенным правилом.
Не вытекает ли из этого необходимость при тестировании всегда отключать такие правила?

Спасибо!
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
admin
Автор


Зарегистрирован: 10.02.2006
Сообщения: 816

СообщениеДобавлено: Пн Ноя 27, 2006 1:29 pm    Заголовок сообщения: Ответить с цитатой

alex писал(а):

Речь не столько о производительности, сколько о невозможности протестировать собственное правило, если оно случайно перекрывается, маскируется неким вышерасположенным, предварительно не отключенным правилом.
Не вытекает ли из этого необходимость при тестировании всегда отключать такие правила?

Лучше всего если правила не будут перекрываться совсем. Во-первых так будет проще их создавать, и соответственно ниже будет вероятность ошибок. Во-вторых не будет необходимости заботиться о порядке их следования при тестировании, т.к. в случае когда все правила независимы он значения не имеет.

Если все таки правила пересекаются, то да, для тестирования можно отключать часть правил выше тестируемого, которые маскируют новое правило.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить сообщения электронной почты
alex



Зарегистрирован: 09.11.2006
Сообщения: 32
Откуда: Москва

СообщениеДобавлено: Пн Ноя 27, 2006 1:51 pm    Заголовок сообщения: Ответить с цитатой

Спасибо! На некоторое время имею информацию к размышлению...
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
alex



Зарегистрирован: 09.11.2006
Сообщения: 32
Откуда: Москва

СообщениеДобавлено: Ср Ноя 29, 2006 2:54 pm    Заголовок сообщения: Ответить с цитатой

admin
Как можно отловить в поле
Цитата:
From: =?windows-1251?B?wOv/7eAgwO3m4eXy4A==?= <nrsskipperbxp@yahoo.com>

кириллический текст заключенный, как я полагаю, между "?windows-1251" и адресом отправителя?

Вопрос связан со следующей проблемой:
1. Имеется некий почтовый сервер с которого я получаю почти 100% спама и очень небольшую часть очень важной информации. Естественно, я хочу видеть только эту часть, а спам уничтожать на сервере.
2. Непосредственными источниками спама являются известные мне домены. Спам с подавляющего большинства из них я удаляю с помощью черных правил с перечнем известных доменов (строгие правила).
3. Однако, некоторые доменные имена - общеиспользуемые. Например, подобный приведенному в вопросе. И для них правила должны быть нестрогими. При этом требуется анализировать еще и личное поле отправителя (здесь - nrsskipperbxp) или текст, сообщенный отправителем в поле From (здесь, как я полагаю, это фрагмент, который следует за "?windows-1251". Соответствущий ему личный текст - "Аляна Анжбета" виден в клиенте).
Что касается первого, то проблем, похоже, нет. Я могу создать для него перечень личных имен, соответствующие нестрогие правила, и таким образом отсечь спам. Конечно такой перечень может оказаться достаточно большим. Поэтому хотелось бы анализировать еще и личный текст из поля From.

P.S. Вероятно я усложняю проблему, и она решается корректнее и проще. К тому же ее изложение тоже не совсем прозрачно.
Прошу прощения и благодарю Вас!
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
admin
Автор


Зарегистрирован: 10.02.2006
Сообщения: 816

СообщениеДобавлено: Чт Ноя 30, 2006 2:26 pm    Заголовок сообщения: Ответить с цитатой

alex писал(а):

Как можно отловить в поле
Цитата:
From: =?windows-1251?B?wOv/7eAgwO3m4eXy4A==?= <nrsskipperbxp@yahoo.com>

кириллический текст заключенный, как я полагаю, между "?windows-1251" и адресом отправителя?

Текст между крайними знаками '=' представлен в кодировке типа quoted-printable и расшифровывается как "Аляна Анжбета". Плагин распознает практически все известные кодировки и перед классификацией раскодирует все части письма.

alex писал(а):

Вопрос связан со следующей проблемой:
1. Имеется некий почтовый сервер с которого я получаю почти 100% спама и очень небольшую часть очень важной информации. Естественно, я хочу видеть только эту часть, а спам уничтожать на сервере.
2. Непосредственными источниками спама являются известные мне домены. Спам с подавляющего большинства из них я удаляю с помощью черных правил с перечнем известных доменов (строгие правила).
3. Однако, некоторые доменные имена - общеиспользуемые. Например, подобный приведенному в вопросе. И для них правила должны быть нестрогими. При этом требуется анализировать еще и личное поле отправителя (здесь - nrsskipperbxp) или текст, сообщенный отправителем в поле From (здесь, как я полагаю, это фрагмент, который следует за "?windows-1251". Соответствущий ему личный текст - "Аляна Анжбета" виден в клиенте).
Что касается первого, то проблем, похоже, нет. Я могу создать для него перечень личных имен, соответствующие нестрогие правила, и таким образом отсечь спам. Конечно такой перечень может оказаться достаточно большим. Поэтому хотелось бы анализировать еще и личный текст из поля From.

В общем то нет тут никакой особой проблемы и закодированные имена раскодируются и фильтруются плагином точно так же как и все остальные. Конкретно в вашем случае можно насоздавать правил с парой условий вида:

Header{From} =~ (Аляна Анжбета|Василий Пупкин).*<(nrsskipperbxp|другой_ящик)@yahoo.com>
Header{Received} =~ почтовый_ящик@домен.ru

Первое условие будет искать нужный адрес в поле From. Дополнительно можно модифицировать соответствующее регулярное выражение чтобы отлавливался сразу целый класс адресов с именами.
В данном примере части выражения в скобках, разделенные знаком "или" |, могут состоять из большого списка имен или адресов, любое из которых подходит для фильтрации. ".*" означает 0 или более любых символов.
Второе условие опционально проверяет что письмо пришло на определенный почтовый ящик. Т.е. можно для разных ящиков задавать свои условия фильтрации по From.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить сообщения электронной почты
alex



Зарегистрирован: 09.11.2006
Сообщения: 32
Откуда: Москва

СообщениеДобавлено: Чт Ноя 30, 2006 7:46 pm    Заголовок сообщения: Ответить с цитатой

admin писал(а):

Текст между крайними знаками '=' представлен в кодировке типа quoted-printable и расшифровывается как "Аляна Анжбета". Плагин распознает практически все известные кодировки и перед классификацией раскодирует все части письма.

Спасибо, понятно. Можно просто включать в правила русские личные имена, как Вы рекомендовали. Попробую и проверю.

Теперь еще вопрос о стоп-словах: как уничтожить ошибочно созданный (ручками) список? Удаляю, а он появляется вновь...
В то же время автоматически список не пополняется, хотя соответствующая опция включена (плагин 1.7.0.6. Да и в 0.4 то
же самое).
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
admin
Автор


Зарегистрирован: 10.02.2006
Сообщения: 816

СообщениеДобавлено: Ср Dec 06, 2006 8:03 pm    Заголовок сообщения: Ответить с цитатой

alex писал(а):

Теперь еще вопрос о стоп-словах: как уничтожить ошибочно созданный (ручками) список? Удаляю, а он появляется вновь...
В то же время автоматически список не пополняется, хотя соответствующая опция включена (плагин 1.7.0.6. Да и в 0.4 то
же самое).

Если соответствующая опция включена, то список пополняется при обучении фильтра, т.е. при помечании писем как спам или не-спам. По поводу удаления слов из списка - нажимаете ли OK при закрытии окон после удаления слов? Как крайний вариант, чтобы полностью очистить список стоп-слов можно удалить файл bw.fm из базовой директории плагина.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить сообщения электронной почты
alex



Зарегистрирован: 09.11.2006
Сообщения: 32
Откуда: Москва

СообщениеДобавлено: Сб Dec 09, 2006 8:27 pm    Заголовок сообщения: Ответить с цитатой

admin писал(а):

Если соответствующая опция включена, то список пополняется при обучении фильтра, т.е. при помечании писем как спам или не-спам.

Так же как и список "не спам", т.е. НЕ в режиме тестирования?
Цитата:

По поводу удаления слов из списка - нажимаете ли OK при закрытии окон после удаления слов?

Конечно!
Цитата:

Как крайний вариант, чтобы полностью очистить список стоп-слов можно удалить файл bw.fm из базовой директории плагина.

Только этот вариант и справил ситуацию.
Спасибо!

И еще вопросы:
1. Что делать с письмами, со 100% рейтингом в логах? Автоматически они ведь не распознаются как спам? Не следует ли помечать их ручками как спам?
2. Или лучше как и для писем с рейтингом >80% после дополнительного анализа пополнять черный список?

Правда последнее представляется мне неблагодарной работой, работой "вдогонку", которую уж если и выполнять, то только после хорошего обучения плагина. Не очень ли я неправ?
Вернуться к началу
Посмотреть профиль Отправить личное сообщение
admin
Автор


Зарегистрирован: 10.02.2006
Сообщения: 816

СообщениеДобавлено: Вс Dec 10, 2006 6:56 am    Заголовок сообщения: Ответить с цитатой

alex писал(а):
admin писал(а):

Если соответствующая опция включена, то список пополняется при обучении фильтра, т.е. при помечании писем как спам или не-спам.

Так же как и список "не спам", т.е. НЕ в режиме тестирования?

Да. В режиме тестирования обучения вообще не происходит, только классификация.
Кстати в последней версии 1.7.0.8 исправлено несколько ошибок относящихся к стоп-словам, так что скорее всего описанная проблема больше не повторится.
alex писал(а):

И еще вопросы:
1. Что делать с письмами, со 100% рейтингом в логах? Автоматически они ведь не распознаются как спам? Не следует ли помечать их ручками как спам?
2. Или лучше как и для писем с рейтингом >80% после дополнительного анализа пополнять черный список?

Правда последнее представляется мне неблагодарной работой, работой "вдогонку", которую уж если и выполнять, то только после хорошего обучения плагина. Не очень ли я неправ?

Наоборот, если спам распознается с высоким процентом, то при хорошо обученном классификаторе фильтр на нем обучать не нужно. В начале обучения в принципе можно помечать как спам даже уже распознанные сообщения чтобы добавить информации в базу. Но когда база уже достаточно хорошо натренирована эта информация в большинстве случаев будет лишней.
Вернуться к началу
Посмотреть профиль Отправить личное сообщение Отправить сообщения электронной почты
Показать сообщения:   
Начать новую тему   Ответить на тему    Список форумов antispamsniper.com/ru -> AntispamSniper для The Bat! Часовой пояс: GMT +3:00
Страница 1 из 1

 
Перейти:  
Ты не можешь начинать темы
Ты не можешь отвечать на сообщения
Ты не можешь редактировать свои сообщения
Ты не можешь удалять свои сообщения
Ты не можешь голосовать в опросах


Powered by phpBB © 2001, 2005 phpBB Group