Предыдущая тема :: Следующая тема |
Автор |
Сообщение |
alex
Зарегистрирован: 09.11.2006 Сообщения: 32 Откуда: Москва
|
Добавлено: Чт Ноя 23, 2006 5:58 pm Заголовок сообщения: Имеет ли значение порядок в перечне черных правил? |
|
|
Любое вновь создаваемое черное правило дописывается в конец перечня.
Не получится ли в результате, что более высокорасположенные правила могут маскировать вновь создаваемые?
Например, чаще всего у меня срабатывает правило Exclamation mark and question mark (Subject).
Благодарю Вас! |
|
Вернуться к началу |
|
|
admin Автор
Зарегистрирован: 10.02.2006 Сообщения: 816
|
Добавлено: Сб Ноя 25, 2006 7:31 pm Заголовок сообщения: Re: Имеет ли значение порядок в перечне черных правил? |
|
|
alex писал(а): | Любое вновь создаваемое черное правило дописывается в конец перечня.
Не получится ли в результате, что более высокорасположенные правила могут маскировать вновь создаваемые?
Например, чаще всего у меня срабатывает правило Exclamation mark and question mark (Subject).
|
В общем так и есть, правила в соответствующих списках применяются по порядку сверху вниз, до первого срабатывания. С точки зрения фильтрации не важно какое именно черное правило сработало, т.к. срабатывание любого из них приводит к одному и тому же результату. Разница в принципе может быть какая то по производительности, но правила работают очень быстро и при разумных объемах списка не должны по идее тормозить прием почты. |
|
Вернуться к началу |
|
|
alex
Зарегистрирован: 09.11.2006 Сообщения: 32 Откуда: Москва
|
Добавлено: Пн Ноя 27, 2006 1:10 pm Заголовок сообщения: |
|
|
admin
Цитата: | В общем так и есть, правила в соответствующих списках применяются по порядку сверху вниз, до первого срабатывания. С точки зрения фильтрации не важно какое именно черное правило сработало, т.к. срабатывание любого из них приводит к одному и тому же результату. Разница в принципе может быть какая то по производительности, но правила работают очень быстро и при разумных объемах списка не должны по идее тормозить прием почты. |
Речь не столько о производительности, сколько о невозможности протестировать собственное правило, если оно случайно перекрывается, маскируется неким вышерасположенным, предварительно не отключенным правилом.
Не вытекает ли из этого необходимость при тестировании всегда отключать такие правила?
Спасибо! |
|
Вернуться к началу |
|
|
admin Автор
Зарегистрирован: 10.02.2006 Сообщения: 816
|
Добавлено: Пн Ноя 27, 2006 1:29 pm Заголовок сообщения: |
|
|
alex писал(а): |
Речь не столько о производительности, сколько о невозможности протестировать собственное правило, если оно случайно перекрывается, маскируется неким вышерасположенным, предварительно не отключенным правилом.
Не вытекает ли из этого необходимость при тестировании всегда отключать такие правила?
|
Лучше всего если правила не будут перекрываться совсем. Во-первых так будет проще их создавать, и соответственно ниже будет вероятность ошибок. Во-вторых не будет необходимости заботиться о порядке их следования при тестировании, т.к. в случае когда все правила независимы он значения не имеет.
Если все таки правила пересекаются, то да, для тестирования можно отключать часть правил выше тестируемого, которые маскируют новое правило. |
|
Вернуться к началу |
|
|
alex
Зарегистрирован: 09.11.2006 Сообщения: 32 Откуда: Москва
|
Добавлено: Пн Ноя 27, 2006 1:51 pm Заголовок сообщения: |
|
|
Спасибо! На некоторое время имею информацию к размышлению... |
|
Вернуться к началу |
|
|
alex
Зарегистрирован: 09.11.2006 Сообщения: 32 Откуда: Москва
|
Добавлено: Ср Ноя 29, 2006 2:54 pm Заголовок сообщения: |
|
|
admin
Как можно отловить в поле
Цитата: | From: =?windows-1251?B?wOv/7eAgwO3m4eXy4A==?= <nrsskipperbxp@yahoo.com> |
кириллический текст заключенный, как я полагаю, между "?windows-1251" и адресом отправителя?
Вопрос связан со следующей проблемой:
1. Имеется некий почтовый сервер с которого я получаю почти 100% спама и очень небольшую часть очень важной информации. Естественно, я хочу видеть только эту часть, а спам уничтожать на сервере.
2. Непосредственными источниками спама являются известные мне домены. Спам с подавляющего большинства из них я удаляю с помощью черных правил с перечнем известных доменов (строгие правила).
3. Однако, некоторые доменные имена - общеиспользуемые. Например, подобный приведенному в вопросе. И для них правила должны быть нестрогими. При этом требуется анализировать еще и личное поле отправителя (здесь - nrsskipperbxp) или текст, сообщенный отправителем в поле From (здесь, как я полагаю, это фрагмент, который следует за "?windows-1251". Соответствущий ему личный текст - "Аляна Анжбета" виден в клиенте).
Что касается первого, то проблем, похоже, нет. Я могу создать для него перечень личных имен, соответствующие нестрогие правила, и таким образом отсечь спам. Конечно такой перечень может оказаться достаточно большим. Поэтому хотелось бы анализировать еще и личный текст из поля From.
P.S. Вероятно я усложняю проблему, и она решается корректнее и проще. К тому же ее изложение тоже не совсем прозрачно.
Прошу прощения и благодарю Вас! |
|
Вернуться к началу |
|
|
admin Автор
Зарегистрирован: 10.02.2006 Сообщения: 816
|
Добавлено: Чт Ноя 30, 2006 2:26 pm Заголовок сообщения: |
|
|
alex писал(а): |
Как можно отловить в поле
Цитата: | From: =?windows-1251?B?wOv/7eAgwO3m4eXy4A==?= <nrsskipperbxp@yahoo.com> |
кириллический текст заключенный, как я полагаю, между "?windows-1251" и адресом отправителя?
|
Текст между крайними знаками '=' представлен в кодировке типа quoted-printable и расшифровывается как "Аляна Анжбета". Плагин распознает практически все известные кодировки и перед классификацией раскодирует все части письма.
alex писал(а): |
Вопрос связан со следующей проблемой:
1. Имеется некий почтовый сервер с которого я получаю почти 100% спама и очень небольшую часть очень важной информации. Естественно, я хочу видеть только эту часть, а спам уничтожать на сервере.
2. Непосредственными источниками спама являются известные мне домены. Спам с подавляющего большинства из них я удаляю с помощью черных правил с перечнем известных доменов (строгие правила).
3. Однако, некоторые доменные имена - общеиспользуемые. Например, подобный приведенному в вопросе. И для них правила должны быть нестрогими. При этом требуется анализировать еще и личное поле отправителя (здесь - nrsskipperbxp) или текст, сообщенный отправителем в поле From (здесь, как я полагаю, это фрагмент, который следует за "?windows-1251". Соответствущий ему личный текст - "Аляна Анжбета" виден в клиенте).
Что касается первого, то проблем, похоже, нет. Я могу создать для него перечень личных имен, соответствующие нестрогие правила, и таким образом отсечь спам. Конечно такой перечень может оказаться достаточно большим. Поэтому хотелось бы анализировать еще и личный текст из поля From.
|
В общем то нет тут никакой особой проблемы и закодированные имена раскодируются и фильтруются плагином точно так же как и все остальные. Конкретно в вашем случае можно насоздавать правил с парой условий вида:
Header{From} =~ (Аляна Анжбета|Василий Пупкин).*<(nrsskipperbxp|другой_ящик)@yahoo.com>
Header{Received} =~ почтовый_ящик@домен.ru
Первое условие будет искать нужный адрес в поле From. Дополнительно можно модифицировать соответствующее регулярное выражение чтобы отлавливался сразу целый класс адресов с именами.
В данном примере части выражения в скобках, разделенные знаком "или" |, могут состоять из большого списка имен или адресов, любое из которых подходит для фильтрации. ".*" означает 0 или более любых символов.
Второе условие опционально проверяет что письмо пришло на определенный почтовый ящик. Т.е. можно для разных ящиков задавать свои условия фильтрации по From. |
|
Вернуться к началу |
|
|
alex
Зарегистрирован: 09.11.2006 Сообщения: 32 Откуда: Москва
|
Добавлено: Чт Ноя 30, 2006 7:46 pm Заголовок сообщения: |
|
|
admin писал(а): |
Текст между крайними знаками '=' представлен в кодировке типа quoted-printable и расшифровывается как "Аляна Анжбета". Плагин распознает практически все известные кодировки и перед классификацией раскодирует все части письма.
|
Спасибо, понятно. Можно просто включать в правила русские личные имена, как Вы рекомендовали. Попробую и проверю.
Теперь еще вопрос о стоп-словах: как уничтожить ошибочно созданный (ручками) список? Удаляю, а он появляется вновь...
В то же время автоматически список не пополняется, хотя соответствующая опция включена (плагин 1.7.0.6. Да и в 0.4 то
же самое). |
|
Вернуться к началу |
|
|
admin Автор
Зарегистрирован: 10.02.2006 Сообщения: 816
|
Добавлено: Ср Dec 06, 2006 8:03 pm Заголовок сообщения: |
|
|
alex писал(а): |
Теперь еще вопрос о стоп-словах: как уничтожить ошибочно созданный (ручками) список? Удаляю, а он появляется вновь...
В то же время автоматически список не пополняется, хотя соответствующая опция включена (плагин 1.7.0.6. Да и в 0.4 то
же самое). |
Если соответствующая опция включена, то список пополняется при обучении фильтра, т.е. при помечании писем как спам или не-спам. По поводу удаления слов из списка - нажимаете ли OK при закрытии окон после удаления слов? Как крайний вариант, чтобы полностью очистить список стоп-слов можно удалить файл bw.fm из базовой директории плагина. |
|
Вернуться к началу |
|
|
alex
Зарегистрирован: 09.11.2006 Сообщения: 32 Откуда: Москва
|
Добавлено: Сб Dec 09, 2006 8:27 pm Заголовок сообщения: |
|
|
admin писал(а): |
Если соответствующая опция включена, то список пополняется при обучении фильтра, т.е. при помечании писем как спам или не-спам.
|
Так же как и список "не спам", т.е. НЕ в режиме тестирования?
Цитата: |
По поводу удаления слов из списка - нажимаете ли OK при закрытии окон после удаления слов? |
Конечно!
Цитата: |
Как крайний вариант, чтобы полностью очистить список стоп-слов можно удалить файл bw.fm из базовой директории плагина. |
Только этот вариант и справил ситуацию.
Спасибо!
И еще вопросы:
1. Что делать с письмами, со 100% рейтингом в логах? Автоматически они ведь не распознаются как спам? Не следует ли помечать их ручками как спам?
2. Или лучше как и для писем с рейтингом >80% после дополнительного анализа пополнять черный список?
Правда последнее представляется мне неблагодарной работой, работой "вдогонку", которую уж если и выполнять, то только после хорошего обучения плагина. Не очень ли я неправ? |
|
Вернуться к началу |
|
|
admin Автор
Зарегистрирован: 10.02.2006 Сообщения: 816
|
Добавлено: Вс Dec 10, 2006 6:56 am Заголовок сообщения: |
|
|
alex писал(а): | admin писал(а): |
Если соответствующая опция включена, то список пополняется при обучении фильтра, т.е. при помечании писем как спам или не-спам.
|
Так же как и список "не спам", т.е. НЕ в режиме тестирования?
|
Да. В режиме тестирования обучения вообще не происходит, только классификация.
Кстати в последней версии 1.7.0.8 исправлено несколько ошибок относящихся к стоп-словам, так что скорее всего описанная проблема больше не повторится.
alex писал(а): |
И еще вопросы:
1. Что делать с письмами, со 100% рейтингом в логах? Автоматически они ведь не распознаются как спам? Не следует ли помечать их ручками как спам?
2. Или лучше как и для писем с рейтингом >80% после дополнительного анализа пополнять черный список?
Правда последнее представляется мне неблагодарной работой, работой "вдогонку", которую уж если и выполнять, то только после хорошего обучения плагина. Не очень ли я неправ? |
Наоборот, если спам распознается с высоким процентом, то при хорошо обученном классификаторе фильтр на нем обучать не нужно. В начале обучения в принципе можно помечать как спам даже уже распознанные сообщения чтобы добавить информации в базу. Но когда база уже достаточно хорошо натренирована эта информация в большинстве случаев будет лишней. |
|
Вернуться к началу |
|
|
|
|
Ты не можешь начинать темы Ты не можешь отвечать на сообщения Ты не можешь редактировать свои сообщения Ты не можешь удалять свои сообщения Ты не можешь голосовать в опросах
|
Powered by phpBB © 2001, 2005 phpBB Group
|