da Akismet und auch TypePad Antispam tlw. ein wenig viel wegfiltern - gerade Kommentare auf Deutsch - habe ich gestern ein wenig begonnen, mir über Alternativen Gedanken zu machen. Erst wollte ich Spamassassin zur Erkennung von Spam/Ham verwenden, bin dann aber bei bogofilter gelandet, da Spamassassin sehr viele Tests für Mailheader hat und diese auch erwartet (Received-Zeilen etc.).
Da bogofilter ein Bayes-basierter Filter ist, muss er erst lernen, was gut und was schlechte Kommentare sind. Dazu habe ich zwei Dinge getan:
Alle guten Kommentare je in eine Datei pro Kommentar geschrieben:
Code: Select all
SELECT author,url,body FROM serendipity_comments WHERE status = 'approved';
Code: Select all
SELECT author,url,body FROM serendipity_spamblocklog WHERE type = 'REJECTED';
Code: Select all
loco@bigboy ~ $ bogofilter -v -H -n -B blogham/
# 6663 words, 696 messages
Code: Select all
loco@bigboy ~ $ bogofilter -v -H -s -B blogspam/
# 331002 words, 369836 messages
Code: Select all
loco@bigboy ~ $ bogofilter -v -H < test.blog
X-Bogosity: Ham, tests=bogofilter, spamicity=0.000000, version=1.1.7
Code: Select all
loco@bigboy ~ $ bogofilter -v -H < test.blog
X-Bogosity: Spam, tests=bogofilter, spamicity=1.000000, version=1.1.7
Gruß aus dem närrischen Köln,
Peter