>>Дальше возможны варианты - либо дообучать, т.е. скармливать ему как спам ошибочно >>нераспознаный спам и как хам рабочую почту, уходящую в спам, либо >>постоянно тренировать - скармливать ему весь спам и хам через сервер. >> > >Кстати вот интерестно мне какая разница между дообучением и тренировкой Я уже написал - дообучение - это когда sa-learn скармливаются только ошибки, тренировка - когда ему скармливают весь поток, просмотренный своими глазами. > >Ато чего то мой после дообучения похуже работать стал Смотря как дообучать... В школьном курсе математики говорится, что байесовская оценка - это статистическая оценка, складывающаяяся из статистических результатов сравнения с набором образцов, характерных для одного или другого случая... Мутно написано, вот пример (донельзя упрощенный). Пришло письмо, его сравнили с 500 письмами spam и 500 письмами ham. Результат - оно похоже на 160 спамовых писем и на 90 нормальных. Итого - байесовская оценка спама - 64 процента. А если в образцах для сравнения будет 20 нормальных писем и 5000 спамовых??? А если учесть, что спамасассин в своем байесовском классификаторе постоянно чистит базу от записей старших чем... (настраивается)??? В общем, из этого примера можно сделать кучу практических выодов о том, как тренировать спамодав. А дальше - думайте...
|