Spamassassin trainieren / Erkennungsrate verbessern

Möglicherweise ist die Erkennungsrate von Spamassassin zu Beginn nicht zufriedenstellend und einige Spammails werden nicht erkannt, obwohl Spamassassin aktuell ist. Die Trefferquote kann verbessert werden, indem Spamassassin anhand bereits vorhandener Mails „trainiert“ wird. Der Software werden sowohl Spammails als auch normale, erwünschte Mails zur Analyse übergeben. Spamassassin lernt so mit der Zeit, wie eine Spammail aussieht und welche E-Mails erwünscht sind.

Für das Training wird das Tool „sa-learn“ genutzt, welches mit Spamassassin mitgeliefert wird. Ich gehe im Folgenden davon aus, dass Spamassassin in Kombination mit dem Amavis Filterframework genutzt wird. Unter /root/scripts wird das Bash-Skript „sa-learn.sh“ angelegt, das diesen Inhalt hat:

#!/bin/bash

sa-learn --spam --progress --username amavis --dbpath /var/lib/amavis/.spamassassin /var/vmail/mailboxes/*/*/mail/Spam/cur/*
sa-learn --ham --progress --username amavis --dbpath /var/lib/amavis/.spamassassin /var/vmail/mailboxes/*/*/mail/Sent/cur/*

Die erste Zeile führt dazu, dass Spamassassin die E-Mails z.B. in /var/vmail/mailboxes/domain.tld/user/mail/Spam/cur als Spam kennen lernt (–spam). In der zweiten Zeile werden mit „–ham“ harmlose, selbst verfasste E-Mails kennen gelernt. Die *-Zeichen im Pfad bewirken, dass alle Unterverzeichnisse durchlaufen werden (also alle Mailboxen aller Domains).

Das Script wird mittels

# chmod u+x /root/scripts/sa-learn.sh

ausführbar gemacht und via

# crontab -e

in die Cronjobs des root-Users aufgenommen und täglich ausgeführt:

### Daily Spamassassin learning
@daily /root/scripts/sa-care.sh

Wunder sollte man von der Lernprozedur nicht erwarten, doch in Einzelfällen (und bei dauerhafter Spambelastung mit einem bestimmten E-Mail-Typ) kann man damit einen gewissen Effekt erreichen.

Post published on 3. Juli 2014 | Last updated on 18. April 2016
Tags: #Dovecot #Mailserver #Open Source #Server #Spam #Spamassassin #Ubuntu

Informationen zum Autor

29 thoughts on “Spamassassin trainieren / Erkennungsrate verbessern”

lub
http://gamemodeon.de

On 3. Juli 2014 at 21:11

„Damit das Hand automatisch in festen Zeitintervallen ausgeführt wird“
^ da ist glaube ich was falsch

Reply
- Thomas Leister
  https://legacy.thomas-leister.de
  
  On 3. Juli 2014 at 21:13
  
  Ja, dank für die Korrektur ;) … ich frage mich immer noch, wie die Hand da reingekommen ist :-/
  
  LG Thomas
  
  Reply
  - rodorapido
    
    On 20. April 2015 at 09:18
    
    Die Hand Gottes…
    
    Reply
Steffen

On 17. Juli 2014 at 10:37

Das ist eine gute Idee mit dem Script. Allerdings sollte man es noch erweitern und die gelernten Mails löschen. Wenn man den Ordner SENT verwendet ist es natürlich schlecht. Es kommt aber öfters vor, dass eine Mail als Spam gekennzeichnet wird, welche kein Spam ist. Daher lasse ich zwei Ordner von Dovecot anlegen (LearnSpam und LearnNoSpam). Das script läuft über diese beiden Ordner. Der User kopiert seine Mails entsprechend dort rein.

Gruß
Steffen

Reply
André Jaenisch
https://firefoxosundich.wordpress.com

On 23. Juli 2014 at 10:38

Hallo, Thomas,
sorry, aber wie du deine for-Schleifen benutzt, ist falsch. Verbring einfach ein wenig Zeit in #bash auf Freenode ;-)

TL;DR: Ersetze for USER in $(ls); do durch for USER in *; do und alles wird gut :)

Mitunter willst du dein Script auch nicht für alle ausführbar machen (chmod +x sa-practise.sh → chmod u+x sa-practise.sh?)

Reply
- Thomas Leister
  https://legacy.thomas-leister.de
  
  On 23. Juli 2014 at 10:43
  
  Hi,
  
  was Bash Script angeht, bin ich relativ unerfahren. Danke für deine Hinweise!
  Wer das Script ausführt ist eigentlich recht egal… aber nur dem Besitzer die Rechte zu geben ist sicherlich die sauberere Lösung ;)
  
  LG Thomas
  
  Reply
Emin

On 20. Oktober 2014 at 19:44

Ich möchte mich nochmal für die tollen Tutorials bedanken. Ich habe bis jetzt alles von Anfang bis Ende mit den Tutorials von hier durchgearbeitet. Nun möchte ich den Spamassassin trainieren, aber komme nicht weiter.
Bei mir sind im Ordner ../mail/ kein „Spam“ oder „cur“ -Ordner. Es gibt verschiedene Dateien die Spam, Entwurf, Gesendet usw. heißen. Deshalb weiss ich nicht wie ich hier weitermachen soll.
Ist mit folgendem Pfad sa-learn –ham /pfad/zur/Mailbox/Sent die Datei Gesendet im Ordner ../mail/ gemeint?
Ist dieser Vorgang für jeden Besitzer einer Mailadresse separat zu machen oder braucht man das nur einmal für alle User im System zu machen?

Ich würde mich über jede Hilfe sehr freuen.

Reply
- Thomas Leister
  https://legacy.thomas-leister.de/ueber-mich-und-blog/
  
  On 20. Oktober 2014 at 20:03
  
  Hi, die „Spam“ und „Cur“ Ordner sollten beim ersten Login des Benutzers angelegt werden. Bei „sa-learn“ ist der Pfad zum gesendet Ordner gemeint – ganz egal wie der heißt ;) Das kann je nach verwendetem E-Mail Client unterschiedlich sein. Der Vorgang muss für jede Mailbox (also jeden User) extra durchgeführt werden. Deshalb gibt es am Ende des Beitrags ein Script, das alle Mailboxen automatisch durchläuft und die beiden sa-Befehle ausführt.
  
  LG Thomas
  
  Reply
Emin

On 20. Oktober 2014 at 22:43

alles schön und gut, aber bei mir ist anscheinend einiges schief gegangen. Wenn ich einen neuen Benutzer zum Datenbank hinzufüge und mich mit diesen einlogge, habe ich im Webmail nur ein Spam- und Inbox-Ordner.
Und wenn ich über die Konsole mit „ls -l“-Befehl ins /var/mail/domain/username/mail reinschaue, dann sehe ich folgenden Eintrag:
-rw-rw—- 1 vmail vmail 4449 Okt 20 18:36 Spam

Ich schaue mir die ganze Tutorials nochmal an, war so glücklich, dass alle Fehlerfrei lief, schaade.

Reply
- Emin
  
  On 20. Oktober 2014 at 23:00
  
  Okay, die Ordner „Gesendet“ und „Entwürfe“ entstehen nach dem ersten Entwurf. Aber trotzdem sind diese eben über die Konsole gesehen immer noch keine Ordner und es gibt keinen Ordner Namens „cur“.
  
  Reply
  - Emin
    
    On 21. Oktober 2014 at 01:30
    
    Ich habe statt den Ordner „cur“ einfach den „Gesendet“ Ordner genommen. Spam ist bei mir zwar eine komische Datei, aber beim Ausführen des Befehls gab es keine Fehlermeldung. Deshalb habe ich den Rest mit so ins Cronjob übernommen.
    Seltsam ist, dass die Mailadressen, die ich im spam-Ordner hatte und von denen eigentlich gelernt wurde, dass sie Spam sind, mir immer noch Mails zusenden könnten und diese in Inbox landen.
    Liegt das vielleicht an meine komischen Spam-dateien? Welches Merkmal merkt sich der Spamassassin, damit er das nächstes Mal die Spam aussortieren kann, tut er das Anhand der Mailadressen oder doch etwas anderes?
    Hoffentlich war das meine letzte Frage und nochmals vielen Dank für all die schönen Anleitungen.
    
    Reply
    - Thomas Leister
      https://legacy.thomas-leister.de/ueber-mich-und-blog/
      
      On 21. Oktober 2014 at 09:56
      
      Hi,
      
      Spamassassin berechnet aus mehreren Parametern einen sog. Spam-Score. Kontrolliert wird der absendende Server und vor allem der Inhalt einer E-Mail. Es wird nach bestimmten Phrasen gesucht, die in Spammails vorkommen. Möglicherweise braucht es etwas Zeit (und einige korrekt markierte / verschobene Mails) bis der bayessche Filter Spam zuverlässig erkennt.
      
      LG Thomas
      
      Reply
      - Emin
        
        On 21. Oktober 2014 at 15:01
        
        Alles klar. Dann werde ich den weiter trainieren, bis ich einen Erfolg sehe.
        
        Vielen Dank nochmal.
        
        Reply
Fredde

On 27. November 2014 at 12:21

Also das Skript an sich funktioniert.
Aber wenn ich über meine Roundcube-Installation die Mails in den Spam-Ordner lege, werden diese nicht unter …/domain/user/mail/spam abgelegt, sondern unter …/domain/user/mail/.spam

Reply
Finn
http://www.finnchristiansen.de

On 3. März 2015 at 12:35

Auch wenn der Beitrag schon einige Montate alt ist, das Thema stand lange auf meiner Todo Liste und kann jetzt abgehakt werden, vielen Dank!

Weißt du, wie sich das manuelle oder per Cron gesteuerte Aufrufen von sa-learn und die Spamassassin-Einstellung „bayes_auto_learn“ zusammen verhalten? Ich würde denken, dass es sicherlicht nicht schadet, zusätzlich deinen Rat zu befolgen und sa-learn einen Ordner mit (hoffentlich) 100% Spam und einen mit 100% nicht-Spam zu geben, aber hat damit schon jemand positive oder negative Erfahrungen gemacht?

Reply
Jonathan

On 14. April 2015 at 14:38

Das Skript in /etc/cron.weekly darf keine File Extension haben, da run-parts in diesem Ordner nur Skripte ohne File Extension ausführt (also ohne .sh).
Das Skript in /etc/cron.weekly muss also sa-practise heißen, und nicht sa-practise.sh

Reply
Steven

On 20. Mai 2015 at 13:04

Hey danke für das Script, habe es noch etwas angepasst, damit ich nicht alle Postfächer einer Domain sondern nur einzelne Postfächer berücksichtige:

#!/bin/sh
MAILS="mustermann@domain.de musterfrau@domain.de musterkind@domain.de"
for MAILS in $MAILS; do ### durchsucht z.b. /var/qmail/mailnames/domain.de/mustermann/Maildir/.Junk/cur/ je nach Email Adresse ### sa-learn --spam --progress "/var/qmail/mailnames/${MAILS#*@}/${MAILS%@*}/Maildir/.Junk/cur/" sa-learn --ham --progress "/var/qmail/mailnames/${MAILS#*@}/${MAILS%@*}/Maildir/cur/" done

Läuft super auf CentOS 6.x mit Plesk 12.x

Nun bekomme ich aber täglich eine Mail von Anacron (hab das File in cron.daily gepackt) mit dem Ergebniss:

/etc/cron.daily/sa-learn.sh:
100% Completed 23.23 msgs/sec in 00m00s Learned tokens from 3 message(s) (3 message(s) examined) ............... 95% Completed 25.45 msgs/sec in 00m00s Learned tokens from 22 message(s) (22 message(s) examined) Learned tokens from 0 message(s) (0 message(s) examined) 85% Completed 21.67 msgs/sec in 00m00s Learned tokens from 6 message(s) (6 message(s) examined) Learned tokens from 0 message(s) (0 message(s) examined) ....................................................................................................................................................................... 91% Completed 16.76 msgs/sec in 00m09s Learned tokens from 167 message(s) (167 message(s) examined) 100% Completed 121.68 msgs/sec in 00m00s Learned tokens from 2 message(s) (2 message(s) examined)
100% Completed 18.64 msgs/sec in 00m00s Learned tokens from 7 message(s) (7 message(s) examined)

Weiß jemand wie ich diese Mails deaktivieren kann?

Reply
Stefan
http://www.pinguine-und-aepfel.de

On 27. November 2015 at 14:59

Hallo Steven,

einfach in den Cronjob in die oberste Zeile ein:

MAILTO=““

setzen.

Reply
Blake

On 9. Dezember 2015 at 19:19

Moin Thomas,

Wie kann ich spamassassin die gelernten wieder verlernen lassen. Hab aus versehen eine falsche Mail im Spam gehabt?

Cheers Blake

Reply
- Thomas Leister
  https://legacy.thomas-leister.de/ueber-mich-und-blog/
  
  On 9. Dezember 2015 at 19:21
  
  Hi,
  
  Spamassassin korrigiert des erlernte, wenn du die E-Mail zurück in einen Ordner schiebst, aus dem SA sein „Ham“ lernt.
  
  LG Thomas
  
  Reply
Thomas

On 17. Dezember 2015 at 16:23

Hi Thomas,

vielen Dank auch wieder für dieses HowTo.
Ich habe bei mir zwei Ordner erstellt: SpamToLearn und SpamFalse in die ich die jeweiligen Mails reinschiebe. Diese beiden Ordner möchte ich für sa-learn verwenden.
Was muss ich denn in Deinem Script ändern, damit die erlernten Mails nach einem sa-learn durchjlauf aus den jeweilgen Ordner lösche?

Danke Dir. :-)

Reply
- Thomas Leister
  https://legacy.thomas-leister.de/ueber-mich-und-blog/
  
  On 17. Dezember 2015 at 16:31
  
  Nach dem letzten sa-learn Kommando (und vor dem „done“) führst du einfach noch diese zwei rm-Kommandos aus:
  
  rm -r /var/vmail/$DOMAIN/*/mail/SpamToLearn/*
  rm -r /var/vmail/$DOMAIN/*/mail/SpamFalse/*
  
  Hab das nicht getestet – ggf musst du den Pfad anpassen (je nachdem, wo sich die beiden Ordner befinden). Dann ist noch darauf zu achten, dass der User, unter dem du das Script ausführst, ausreichend Rechte zum Löschen hat. Also am besten vmail oder root nehmen.
  
  LG Thomas
  
  Reply
Peter F.

On 18. Dezember 2015 at 10:22

Hallo Thomas,

vielen Dank für das Tutorial. :-)
Kann ich denn in irgendeinem Logfile nachsehen, ob per Cron das sa-learn erfolgreich ausgeführt wurde und ob Regeln eingelesen wurden bzw. neue Spamregeln für Spaassassin erstellt wurden?

Reply
- _nico
  http://www.loggn.de
  
  On 18. Februar 2016 at 16:35
  
  Wurde mich auch mal interessieren.
  
  Reply
- Anonymous
  
  On 18. Februar 2016 at 17:07
  
  Hi,
  
  ein solches Logfile gibt es nicht, soweit ich weiß. Du könntest dir aber im Script selbst ein solches Log schreiben lassen.
  
  Reply
Anton

On 11. März 2016 at 22:27

Hallo Thomas,

danke für Deine tollen Tutorials!

Ich habe amavis und spamassassin nach Deiner Anleitung installiert und konfiguriert: Postfix: Amavis Spamfilter mit Spamassassin und Sieve

In dieser Config stimmt der Teil imho nicht bzw. bringt nichts:

(Wenn ihr Spamassassin zusammen mit Amavis verwendet, solltet ihr nach dem „–spam“ noch ein „–username=amavis“ anhängen, damit die Trainingsdaten an der richtigen Stelle gespeichert werden und dort von Amavis verwendet werden können! Das gilt für alle sa-learn-Befehle)

Stattdessen ist folgender Parameter notwendig: –dbpath /var/lib/amavis/.spamassassin

So scheint es bei mir jedenfalls zu funktionieren mit dem Lernen!

Reply
- Thomas Leister
  https://legacy.thomas-leister.de/ueber-mich-und-blog/
  
  On 22. März 2016 at 13:40
  
  Standardmäßig ist der dbpath auf ein Verzeichnis gesetzt, das sich im Home-Verzeichnis des Users befindet, mit dem der Befehl ausgeführt wird. Indem man den Benutzer passend setzt, kann man das Ziel auch erreichen.
  
  LG Thomas
  
  Reply
Lukas

On 22. März 2016 at 22:08

gilt das „–username=amavis“ auch für das skript?

also muss es :

#!/bin/sh

DOMAINS=“domain1 domain2 domain3″

for DOMAIN in $DOMAINS; do
echo „Entered Domain $DOMAIN“
### Learn Spam ###
echo „Learning SPAM“
sa-learn –spam –username=amavis –progress „/var/vmail/$DOMAIN/*/mail/Spam/“
### Learn Ham ###
echo „Learning HAM“
sa-learn –ham –username=amavis –progress „/var/vmail/$DOMAIN/*/mail/cur/“
done
service spamassassin reload

mit einem oder mit zwei „-“ ?

Reply
- Thomas Leister
  https://legacy.thomas-leister.de/ueber-mich-und-blog/
  
  On 22. März 2016 at 22:28
  
  Mit zwei Minus-Zeichen. Gilt auch für das Skript.
  
  Reply

Spamassassin trainieren / Erkennungsrate verbessern

Diesen Blog unterstützen

Diesen Beitrag teilen

Informationen zum Autor

Thomas Leister

Weitere Beiträge zum Thema

29 thoughts on “Spamassassin trainieren / Erkennungsrate verbessern”

Schreibe einen Kommentar Antworten abbrechen