Предыдущая тема :: Следующая тема |
Автор |
Сообщение |
admin Автор
Зарегистрирован: 10.02.2006 Сообщения: 816
|
Добавлено: Пн Dec 10, 2007 11:48 pm Заголовок сообщения: |
|
|
oabox писал(а): | Слово из списка "стопов" приведено в письме выше, это - ндс. В списке стоп-слов оно значится маленькими буквами, в теме письма было написано большими, фильтр присвоил письму спамность 8х%, не удалив его.
Относительно спамерского адреса: адрес приведен выше, это - *@ARMADAMEDIA.RU. В черном списке этот адрес проходил ранее как *@armadamedia.ru с именем - "*". Рейтинг письма при этом чуть менее 90%, письмо не удалено с сервера.
|
Чтобы разобраться в причине проблемы нужно все письмо полностью. Перешлите его пожалуйста на адрес support@antispamsniper.com _как вложение_, т.е. используя функцию TheBat "Переслать (альтернативный способ)".
oabox писал(а): | И еще один вопрос: если автор спама константа, а его адреса - переменная, то как грамотнее занести автора "Виртуальное казино" в черный список? |
Можно создать черное правило вида:
Header{From} =~ Виртуальное казино |
|
Вернуться к началу |
|
|
Elenhil
Зарегистрирован: 13.11.2006 Сообщения: 42
|
Добавлено: Сб Dec 15, 2007 11:34 am Заголовок сообщения: |
|
|
Есть предложение заимствовать кое-какой функционал из SpamAssassin. Там ведется автоматический учет "благонадежности" каждого адресата на основе истории сообщений - были ли они классифицированы как спам или нет. Получается что-то вроде автоматического динамического нежесткого черного и белого списка (списка друзей). Если адресат в прошлом присылал только нормальные письма, то к итоговой оценке нового письма применяется коэффициент его, так сказать, былой благонадежности. Это сильно помогает избежать ложного срабатывания на письмах адресатов, которых не внес в белый список, и которые прислали письмо, по той или иной причине выглядящее сомнительным.
Мне эта идея нравится больше стандартного жесткого списка друзей, т.к. последний вообще кажется не очень практичным. Для письма из списка друзей не показывается (или даже не рассчитывается) оценка спамности, и непонятно, хорошо ли на нем (точнее, на подобном ему письме не из этого списка) срабатывает оценочный алгоритм. А включать автообучение на всех письмах из списка друзей мне не хочется, т.к. эти письма бывают далеко не самым репрезентативным "не спамом", и постоянное переобучение на их основе, подозреваю, будет сильно перетягивать базу в сторону false negative.
А главное - всех благонадежных адресатов в список друзей не внесешь (это ведь не только личные друзья, но и, допустим, подписчики рассылок), здесь сам объем адресатов требует автоматизированного подхода.
В первую очередь, это поможет с оценкой очень коротких писем, в которых зачастую нехватает информации для взвешенной оценки (сам часто наблюдал, что такие письма балансируют на грани 50%, бывает, сваливаются в папку спама). В таких случаях, по-моему, сильнее всего требуется добавление нового фактора - "благонадежности" адресата. Если нельзя однозначно определить спам это или не спам, то логически требуется посмотреть на репутацию адресата. |
|
Вернуться к началу |
|
|
admin Автор
Зарегистрирован: 10.02.2006 Сообщения: 816
|
Добавлено: Пн Dec 17, 2007 4:04 pm Заголовок сообщения: |
|
|
Elenhil писал(а): | Есть предложение заимствовать кое-какой функционал из SpamAssassin. Там ведется автоматический учет "благонадежности" каждого адресата на основе истории сообщений - были ли они классифицированы как спам или нет. Получается что-то вроде автоматического динамического нежесткого черного и белого списка (списка друзей). Если адресат в прошлом присылал только нормальные письма, то к итоговой оценке нового письма применяется коэффициент его, так сказать, былой благонадежности. Это сильно помогает избежать ложного срабатывания на письмах адресатов, которых не внес в белый список, и которые прислали письмо, по той или иной причине выглядящее сомнительным.
Мне эта идея нравится больше стандартного жесткого списка друзей, т.к. последний вообще кажется не очень практичным. Для письма из списка друзей не показывается (или даже не рассчитывается) оценка спамности, и непонятно, хорошо ли на нем (точнее, на подобном ему письме не из этого списка) срабатывает оценочный алгоритм. А включать автообучение на всех письмах из списка друзей мне не хочется, т.к. эти письма бывают далеко не самым репрезентативным "не спамом", и постоянное переобучение на их основе, подозреваю, будет сильно перетягивать базу в сторону false negative.
А главное - всех благонадежных адресатов в список друзей не внесешь (это ведь не только личные друзья, но и, допустим, подписчики рассылок), здесь сам объем адресатов требует автоматизированного подхода.
В первую очередь, это поможет с оценкой очень коротких писем, в которых зачастую нехватает информации для взвешенной оценки (сам часто наблюдал, что такие письма балансируют на грани 50%, бывает, сваливаются в папку спама). В таких случаях, по-моему, сильнее всего требуется добавление нового фактора - "благонадежности" адресата. Если нельзя однозначно определить спам это или не спам, то логически требуется посмотреть на репутацию адресата.
|
Согласен что есть смысл автоматизировать пополнение белого списка. То есть можно в новых версиях реализовать опционально добавление в белый список адресатов, от которых пришло несколько писем, ни одно из которых не было помечено как спам. Но игры с коэффициентами - это полумера, которая в серверных фильтрах добавлена вынужденно, из-за трудностей с обучением. В клиентском фильтре надежнее использовать белый список в том виде, в котором он работает сейчас. Занесение адреса в белый список дает гарантию что письма от указанного адресата не будут заблокированы даже если IP отправителя находится в черном списке DNSBL, или в теме есть стоп-слово, или содержимое письма распознается с высоким рейтингом спамности, или письмо подпадает под одно из черных правил. Указанные выше причины нет смысла обходить корректировкой коэффициентов согласно "благонадежности" адресата, т.к. все равно возможны случаи когда этой добавки не хватит и письмо все равно будет распознано как спам.
По поводу автообучения на письмах от адресатов из белого списка - с последними версиями плагина можно не опасаться разбалансировки базы классификации, даже если такие письма будут содержать много слов, которые часто встречаются в спаме. Вообще ситуация когда с одного и того же адреса приходит и спам и не-спам не нормальна. То есть если письма шлет человек, с которым уже предварительно было какое-то общение, после чего его адрес аказался в белом списке, не сервис и не вебформа, то с какой стати он будет слать явный спам? Для автоматических рассылок конечно возможны всякие ситуации, например когда антиспам веб-формы дает сбои, или рассылки содержат много рекламы. В первом случае можно персонализировать письма, чтобы каждое сообщение вебформы приходило с адресом отправителя в поле From. Для второго случая в плагине реализована кластеризация базы классификатора. В ситуации когда похожие письма были отправлены на обучение как спам и как не-спам, классификатор может принять решение создать для письма отдельную группу по определенному характерному признаку. То есть например после некоторого периода обучения может оказаться что письма из определенных рассылок, от определенных адресатов, из определенных почтовых ящиков или письма содержащие некое ключевое слово в тексте будут классифицироваться собственной базой классификации. В сложных случаях плагин будет продолжать искать новые характерные признаки и дробить базу чтобы устранить все неоднозначности.
В общем автообучение на письмах от адресатов из белого списка это полезная функция, а описанный выше механизм помогает избежать ухудшения качества фильтрации в случаях неоднозначности. После автообучения письма от дружественных адресов распознаются с рейтингом не ниже 85%. В белый список адреса пока можно добавлять вручную обучением, а в новых версиях можно будет использовать опцию автодобавления адресов в белый список. |
|
Вернуться к началу |
|
|
Elenhil
Зарегистрирован: 13.11.2006 Сообщения: 42
|
Добавлено: Пн Dec 17, 2007 6:19 pm Заголовок сообщения: |
|
|
admin писал(а): | Согласен что есть смысл автоматизировать пополнение белого списка. То есть можно в новых версиях реализовать опционально добавление в белый список адресатов, от которых пришло несколько писем, ни одно из которых не было помечено как спам.
|
Да, это было бы весьма желательно!
Цитата: | По поводу автообучения на письмах от адресатов из белого списка - с последними версиями плагина можно не опасаться разбалансировки базы классификации, даже если такие письма будут содержать много слов, которые часто встречаются в спаме. |
Прекрасно, но есть еще некоторые сомнения.
Цитата: | Для автоматических рассылок конечно возможны всякие ситуации, например когда антиспам веб-формы дает сбои, или рассылки содержат много рекламы.
|
Тут еще такой случай. Ведь критерий спама зачастую достаточно тонок - санкционирована эта рассылка или нет. Мне, допустим, приходят одновременно и санкционированные письма определенной тематики, и несанкционированные. Если адресат первого рода внести в белый список с автообучением, уверены ли Вы, что база кластеризуется таким образом, ее не смутит постоянное уверение в благонадежности определенных писем с такой же точно тематикой? Судя по Вашим словам, плагин будет копать вглубь, пока не докопается до малейшего признака, различающего предельно схожий спам и неспам. Не означает ли это, что он станет придавать собственно содержанию этих писем (достаточно спамопободному) меньший вес? |
|
Вернуться к началу |
|
|
admin Автор
Зарегистрирован: 10.02.2006 Сообщения: 816
|
Добавлено: Вт Dec 18, 2007 10:59 pm Заголовок сообщения: |
|
|
Elenhil писал(а): | Тут еще такой случай. Ведь критерий спама зачастую достаточно тонок - санкционирована эта рассылка или нет. Мне, допустим, приходят одновременно и санкционированные письма определенной тематики, и несанкционированные. Если адресат первого рода внести в белый список с автообучением, уверены ли Вы, что база кластеризуется таким образом, ее не смутит постоянное уверение в благонадежности определенных писем с такой же точно тематикой? Судя по Вашим словам, плагин будет копать вглубь, пока не докопается до малейшего признака, различающего предельно схожий спам и неспам. Не означает ли это, что он станет придавать собственно содержанию этих писем (достаточно спамопободному) меньший вес? |
Если такие ситауции возникают с рассылками, то есть смысл создать для этих случаев белые правила. Например такое:
Код: | Header{List-Id} =~ list1.yahoogroups.com|list2.yahoogroups.com |
Все сообщения из списков рассылки с идентификаторами list1.yahoogroups.com и list2.yahoogroups.com будут распознаваться как не-спам, но на них плагин обучаться не будет.
Если помечать как спам и не-спам письма с существенной разницей по тематике, хоть и с наличием определенной общей части, плагин путаться в дальнейшем не должен. То есть качество классификации, в смысле рейтинга после обучения на таких письмах, падать теоретически не должно. Но лучше конечно избегать совсем уж безнадежных ситуаций, и использовать в таких случаях белые правила вместо белого списка адресов. |
|
Вернуться к началу |
|
|
Elenhil
Зарегистрирован: 13.11.2006 Сообщения: 42
|
Добавлено: Вт Янв 15, 2008 8:49 pm Заголовок сообщения: |
|
|
Еще предложение: можно ли сделать прямо в журнале фильтрации кнопки "пометить как спам/не спам"? Если, конечно, такой уровень интеграции с Батом возможен. А то если требуется как-то скорректировать оценку плагина по тому или иному письмо, искать его бывает неудобно. Особенно если проверяешь журнал не после каждого получения почты. |
|
Вернуться к началу |
|
|
admin Автор
Зарегистрирован: 10.02.2006 Сообщения: 816
|
Добавлено: Ср Янв 16, 2008 6:27 pm Заголовок сообщения: |
|
|
Elenhil писал(а): | Еще предложение: можно ли сделать прямо в журнале фильтрации кнопки "пометить как спам/не спам"? Если, конечно, такой уровень интеграции с Батом возможен. |
В этом то и загвоздка что TheBat не дает плагинам доступ к хранилищу писем. В принципе можно реализовать именно обучение из журнала. Плагин для этого должен содержать собственное хранилище принятых писем, записи о которых есть в журнале фильтрации. Но в результате все равно придется искать ошибочно заблокированные письма в папке для спама, чтобы их прочитать и переместить оттуда в нужную папку. А нераспознанный спам в любом случае желательно сначала прочитать в той папке куда он попал, и прямо оттуда пометить как спам с автоматическим перемещением в папку для спама. Т.е. помечать такие письма как спам из журнала резона не видно.
В общем обучение из журнала реализовать конечно можно. Но эта возможность реально удобства не добавит, т.к. перемещение писем в нужную папку после обучения реализовать не получится. |
|
Вернуться к началу |
|
|
Elenhil
Зарегистрирован: 13.11.2006 Сообщения: 42
|
Добавлено: Пт Апр 11, 2008 12:13 pm Заголовок сообщения: |
|
|
admin писал(а): | Для DNSBL и стоп-слов дополнительные настройки будут реализованы в следующих версиях. |
Все еще ждем такую опцию. |
|
Вернуться к началу |
|
|
admin Автор
Зарегистрирован: 10.02.2006 Сообщения: 816
|
Добавлено: Пт Апр 11, 2008 4:50 pm Заголовок сообщения: |
|
|
Новые возможности требующие изменений в интерфейсе появятся в версии 3. |
|
Вернуться к началу |
|
|
Elenhil
Зарегистрирован: 13.11.2006 Сообщения: 42
|
Добавлено: Вс Июн 22, 2008 8:19 pm Заголовок сообщения: |
|
|
admin писал(а): | Новые возможности требующие изменений в интерфейсе появятся в версии 3. |
А скоро ль будет третья версия? |
|
Вернуться к началу |
|
|
admin Автор
Зарегистрирован: 10.02.2006 Сообщения: 816
|
Добавлено: Пн Июн 23, 2008 1:48 pm Заголовок сообщения: |
|
|
Elenhil писал(а): | А скоро ль будет третья версия? |
Первая бета третьей версии появится ориентировочно в конце июля, после того как будут реализованы все запланированные возможности. |
|
Вернуться к началу |
|
|
Владимир Коротков
Зарегистрирован: 09.11.2007 Сообщения: 5
|
Добавлено: Чт Авг 07, 2008 3:19 pm Заголовок сообщения: |
|
|
Очень напрягаем когда просматриваешь журнал фильтрации, что можно вернуть только удаленные сообщения.
Именно поэтому я нажимаю смотреть по колонке удаленные, но тогда тема сообщения идет в разнобой. Можно что бы например так, 1 смотреть по удаленным и второе(нажав например тема или адресат)-я получаю удаленные и все с одинаковой темой вместе а не в разнобой (ведь это то же получается классификация по времени, а надо чтобы я задавал, например тема.)
Ппросто спама приходит по 700 сообщений в день. Такой напряг искать в нем клиентов по 1 в разнобой.
И последнее чтобы одинаковые письма, например если я выбрал тему. они были одного цвета, другая тема чуть другого оттенка!
Заранее благодарю!!! |
|
Вернуться к началу |
|
|
admin Автор
Зарегистрирован: 10.02.2006 Сообщения: 816
|
Добавлено: Чт Авг 07, 2008 3:30 pm Заголовок сообщения: |
|
|
Владимир Коротков писал(а): | Очень напрягаем когда просматриваешь журнал фильтрации, что можно вернуть только удаленные сообщения.
Именно поэтому я нажимаю смотреть по колонке удаленные, но тогда тема сообщения идет в разнобой. Можно что бы например так, 1 смотреть по удаленным и второе(нажав например тема или адресат)-я получаю удаленные и все с одинаковой темой вместе а не в разнобой (ведь это то же получается классификация по времени, а надо чтобы я задавал, например тема.)
|
Чтобы список записей сортировался по нескольким колонкам нажмите Shift и выберите заголовки колонок, ко которым нужна сортировка. |
|
Вернуться к началу |
|
|
Владимир Коротков
Зарегистрирован: 09.11.2007 Сообщения: 5
|
Добавлено: Чт Авг 07, 2008 3:34 pm Заголовок сообщения: |
|
|
[/quote]
Чтобы список записей сортировался по нескольким колонкам нажмите Shift и выберите заголовки колонок, ко которым нужна сортировка.[/quote]
Спасибо за оперативность! |
|
Вернуться к началу |
|
|
Elenhil
Зарегистрирован: 13.11.2006 Сообщения: 42
|
Добавлено: Вт Сен 09, 2008 11:04 am Заголовок сообщения: |
|
|
admin писал(а): | Цитата: | Цитата: | Для DNSBL и стоп-слов дополнительные настройки будут реализованы в следующих версиях. |
Все еще ждем такую опцию. |
Новые возможности требующие изменений в интерфейсе появятся в версии 3. |
Отлично! Теперь, наверное, уже скоро? |
|
Вернуться к началу |
|
|
|
|
Ты не можешь начинать темы Ты не можешь отвечать на сообщения Ты не можешь редактировать свои сообщения Ты не можешь удалять свои сообщения Ты не можешь голосовать в опросах
|
Powered by phpBB © 2001, 2005 phpBB Group
|