Nein, diesmal ist nicht der „neumodische“ Kommentar-Spam gemeint, sondern die zahlreichen E-Mails, die einem irgendetwas verlängern möchten, das Frauen nicht haben, etwas verkaufen möchte, das alle andere auch schon haben oder etwas vermitteln wollen, was man einem Ehemann nicht anbietet: Die nervigen Spam-Mails eben.
Soeben finde ich in meinem Spam-Filter die folgenden Daten zu einer der etwa 70-100 Spam-Mails, die mich Tag für Tag beglücken – und muss doch stutzen. Bedeuten die Zahlen doch, dass 72369 Benutzer eine E-Mail mit einer Größe von jeweils 28,21 KB erhalten haben. Mein Taschenrechner verrät mir, dass dies – nur für diese eine Spam-E-Mail – einem Datentransfer von etwa 2 Gigabyte entspricht.
Und wenn ich jetzt noch berücksichtige, dass alleine T-Online nach eigenen Angaben etwa 1 Milliarde solcher E-Mails pro Tag filtert (siehe auch www.heise.de), würde dies im Extremfall bedeuten, dass bei T-Online pro Tag etwa 27 Terabyte Datentransfer alleine durch auflaufenden Spam erzeugt werden (1 Mrd. / 72.000 x 2 GB). Auch wenn man nun im Hinterkopf hält, dass nicht jede Spam-Mail in dieser Auflage durchs Netz gepumpt wird, bleibt die Größenordnung dabei in jedem Fall beeindruckend – und zeigt, wieviel Mist auch bei kleinen Mails erzeugt wird 😥
Nun konnte ich dieses „Rauschen“ lange Zeit getrost ignorieren. Bei meinen Mail-Programmen „The Bat“ (www.ritlabs.com) und „Thunderbird“ (www.thunderbird-mail.de) leisteten die vorhandenen Bayesschen Spam-Filter (siehe auch de.wikipedia.org) gute Arbeit und entsorgten immer mindestens 90-95 % des Werbemülls. Mittlerweile bestehen aber scheinbar immer mehr dieser Mails nur noch aus einem HTML-Text und / oder einem Bild und bieten so kaum noch Angriffsfläche für die Filter. Entsprechend ist die Erkennungsquote rückläufig und liegt an schlechten Tagen deutlich unterhalb der 70%-Marke.
Deshalb teste ich nun schon länger die eigenständige Filtersoftware Spamihilator (www.spamihilator.com), die ich vor allem wegen des integrierten DCC-Plugins interessant finde und die in kürzester Zeit gute bis sehr gute Erkennungsraten zeigte. Selbst ein Teil des Spam ohne einen „Plain Text“ wird erkannt.
DCC steht für „Distributed Checksum Clearinghouse“ und beschreibt ein System, in dem anhand von Quersummen der empfangenen Nachrichten festgestellt wird, ob bzw. wieviele andere Nutzer die gleiche E-Mail bekommen haben (siehe auch www.rhyolite.com):
As of mid-2004, it involves millions of users, tens of thousands of clients and more than 250 servers collecting and counting checksums related to more than 150 million mail messages on week days. The counts can be used by SMTP servers and mail user agents to detect and reject or filter spam or unsolicited bulk mail. DCC servers exchange or „flood“ common checksums. The checksums include values that are constant across common variations in bulk messages, including „personalizations.“
The idea of the DCC is that if mail recipients could compare the mail they receive, they could recognize unsolicited bulk mail. A DCC server totals reports of checksums of messages from clients and answers queries about the total counts for checksums of mail messages. A DCC client reports the checksums for a mail message to a server and is told the total number of recipients of mail with each checksum. If one of the totals is higher than a threshold set by the client and according to local whitelists the message is unsolicited, the DCC client can log, discard, or reject the message.
Weitere Informationen zum Thema „Spam“ finden sich übrigens in einer eigenen Website der Verbraucherzentrale unter www.verbraucher-gegen-spam.de (gefunden via www.golem.de).
Und ich frage mich immer noch, ob es illegal ist, jede Spam-Mail auszudrucken, zu rollen und dann dem unseligen Versender…
Aber lassen wir das und setzen darauf, dass es immer noch genügend dämliche deutsche Spammer gibt, die man doch juristisch belangen kann – im Gegensatz zu den großen Ãœbeltätern aus den USA und China. 😈