PERCHÉÈCOSÌDIFFICILE...

16
1. INTRODUZIONE T ra le tecnologie di Internet, la posta elet- tronica è forse quella che ha più radical- mente cambiato il modo di vivere e di lavora- re di centinaia di milioni di persone in tutto il mondo, incluso chi scrive e quasi certamente anche chi sta leggendo quest’articolo. Pur- troppo, però, l’utilizzo e la gestione del servi- zio di posta sono resi sempre più disagevoli dalla marea di messaggi non voluti, colletti- vamente noti come spam 1 che ognuno di noi riceve ogni giorno. Le tecniche di difesa anti- spam sono state oggetto di intenso lavoro negli ultimi cinque anni, ma purtroppo la tec- nologia per l’invio di spam è migliorata alme- no altrettanto. All’inizio lo spam consisteva soprattutto di sin- goli messaggi inviati attraverso server SMTP compiacenti o mal configurati. Oggi si tratta quasi esclusivamente di messaggi generati di- namicamente e inviati su vasta scala attraverso strumenti software concepiti appositamente. In questo articolo mettiamo a fuoco la natura del problema dal punto di vista tecnologico (il letto- re interessato agli aspetti legali può consultare l’ Appendice 1 a p. 51) presentando l’evoluzione degli strumenti per l’attacco (gli strumenti malware” per l’invio di spam) e le principali tecniche di difesa (i filtri) oggi disponibili. 2. LA TECNOLOGIA DELLA POSTA ELETTRONICA La nascita della posta elettronica risale al 1972, quando Ray Tomlinson installò su ARPANET un sistema in grado di scambiare messaggi tra le varie università connesse alla rete, ma chi real- mente ne definì poi il funzionamento fu John Po- stel. Tutta la posta elettronica spedita su Inter- MONDO DIGITALE n.1 - marzo 2009 L’invio di messaggi di posta indesiderati, il cosiddetto spamming, sta rag- giungendo livelli preoccupanti e le previsioni per il futuro sono ben poco rassicuranti. Com’è possibile che un’intera comunità di esperti composta da aziende, utenti individuali, produttori di software e ricercatori informatici sia tenuta in scacco da un ristretto numero di malintenzionati? In questo articolo si analizzano i motivi tecnologici e organizzativi che rendono diffici- le combattere lo spam, descrivendo gli strumenti software utilizzati dagli spammer e quelli a disposizione di chi combatte lo spam. Ernesto Damiani PERCHÉ È COSÌ DIFFICILE COMBATTERE LO SPAM? 38 3.7 1 Il termine spam viene dal nome di un cibo in sca- tola considerato poco appetitoso e dal sapore piatto, ben poco attraente soprattutto se – come i messaggi indesiderati – viene servito sempre, a pranzo e a cena. Il tormentone spam, spam, spam per indicare qualcosa di noioso e ripetitivo è stato usato, tra gli altri, dal noto gruppo comi- co dei Monty Python nel loro storico show “Monty Python's Flying Circus”, ambientato in un locale dove ogni pietanza proposta dalla ca- meriera era a base di spam.

Transcript of PERCHÉÈCOSÌDIFFICILE...

Page 1: PERCHÉÈCOSÌDIFFICILE COMBATTERELOSPAM?archivio-mondodigitale.aicanet.net/Rivista/09_numero_1/Damiani p... · mentedalserverSMTPdelloromittente.Se - condomoltiosservatori,ladatad’iniziodello

1. INTRODUZIONE

T ra le tecnologie di Internet, la posta elet-tronica è forse quella che ha più radical-

mente cambiato il modo di vivere e di lavora-re di centinaia di milioni di persone in tutto ilmondo, incluso chi scrive e quasi certamenteanche chi sta leggendo quest’articolo. Pur-troppo, però, l’utilizzo e la gestione del servi-zio di posta sono resi sempre più disagevolidalla marea di messaggi non voluti, colletti-vamente noti come spam1 che ognuno di noiriceve ogni giorno. Le tecniche di difesa anti-spam sono state oggetto di intenso lavoronegli ultimi cinque anni, ma purtroppo la tec-

nologia per l’invio di spam èmigliorata alme-no altrettanto.All’inizio lo spam consisteva soprattutto di sin-goli messaggi inviati attraverso server SMTPcompiacenti o mal configurati. Oggi si trattaquasi esclusivamente di messaggi generati di-namicamentee inviati su vasta scala attraversostrumenti softwareconcepiti appositamente. Inquesto articolo mettiamo a fuoco la natura delproblemadalpuntodivista tecnologico(il letto-re interessato agli aspetti legali può consultarel’Appendice 1 ap. 51) presentando l’evoluzionedegli strumenti per l’attacco (gli strumenti“malware” per l’invio di spam) e le principalitecnichedi difesa (i filtri) oggi disponibili.

2. LA TECNOLOGIADELLA POSTA ELETTRONICA

Lanascitadellapostaelettronica risaleal 1972,quandoRayTomlinson installò suARPANETunsistema in grado di scambiaremessaggi tra levarie università connesse alla rete,ma chi real-mentenedefinìpoi il funzionamento fu JohnPo-stel. Tutta la posta elettronica spedita su Inter-

M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 9

L’invio di messaggi di posta indesiderati, il cosiddetto spamming, sta rag-

giungendo livelli preoccupanti e le previsioni per il futuro sono ben poco

rassicuranti. Com’è possibile che un’intera comunità di esperti composta

da aziende, utenti individuali, produttori di software e ricercatori informatici

sia tenuta in scacco da un ristretto numero di malintenzionati? In questo

articolo si analizzano i motivi tecnologici e organizzativi che rendono diffici-

le combattere lo spam, descrivendo gli strumenti software utilizzati dagli

spammer e quelli a disposizione di chi combatte lo spam.

Ernesto Damiani

PERCHÉ È COSÌ DIFFICILECOMBATTERE LO SPAM?

38

3.7

1 Il termine spam viene dal nome di un cibo in sca-tola considerato poco appetitoso e dal saporepiatto, ben poco attraente soprattutto se – comei messaggi indesiderati – viene servito sempre, apranzo e a cena. Il tormentone spam, spam,spam per indicare qualcosa di noioso e ripetitivoè stato usato, tra gli altri, dal noto gruppo comi-co dei Monty Python nel loro storico show“Monty Python's Flying Circus”, ambientato inun locale dove ogni pietanza proposta dalla ca-meriera era a base di spam.

Page 2: PERCHÉÈCOSÌDIFFICILE COMBATTERELOSPAM?archivio-mondodigitale.aicanet.net/Rivista/09_numero_1/Damiani p... · mentedalserverSMTPdelloromittente.Se - condomoltiosservatori,ladatad’iniziodello

net viene trasferitausandoununicoprotocollo:loStandardMailTransportProtocol (SMTP),de-finito da Postel nella RFC 8219 e implementatoin centinaia di strumenti software (setti spes-so Mail Transfer Agent oMTA) come il ben no-tosendmail.Si trattadiuna tecnologia standard:ogni serverInternet che utilizza SMTP è in grado di inviaree ricevere posta da qualsiasi altro server SMTPsu Internet. Per capire come funzionaSMTPba-stadareun’occhiataalla figura1, chemostraunoscambio di messaggi tra unMTAmittente cheha unmessaggio di posta da trasmettere e unMTA ricevente che accetta il messaggio perchédiretto a un indirizzo di posta da lui gestito. Ini-zialmente viene aperta una sessione sulla por-ta TCP25, e segue una serie dimessaggi, in al-ternanza traclienteserver, che iniziano tutti conun codice numerico di tre cifre.Ognimessaggio di posta èdiviso in un’intesta-zione, compostadei campiDate: eSubject:

mostrati nella figura (e da altri campi comeFrom: checontiene l’indirizzodelmittente,To:che contiene l’indirizzo del destinatario eRe-turn-Path: che contiene l’indirizzo dausareper la risposta) e dal corpodelmessaggio, checontieneil testoveroeproprio.Vanotato che tutti questi campi fannopartedelblocco dati del messaggio, per il quale SMTPnonprevedealcunmeccanismodiverificaocon-trollo.Naturalmente il passaggiodellaposta trai due server SMTPnon esaurisce il percorso diconsegnadelmessaggio il servermittentehasi-curamente ricevuto ilmessaggiodaunclient, eil ricevente lo consegnerà probabilmente a unaltro client (Figura2), il verodestinatario finale,attraversoappositi protocolli di consegnacomeIMAP e POP, su cui non ci soffermeremo qui2.

M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 9

1

39

0

0

0

1

2 I messaggi di posta possono anche essere recapitati dopo essere sta-ti incapsulati in altri protocolli applicativi, quali HTTP (HyperText Tran-sfer Protocol), come avviene nei sempre più diffusi servizi di Webmail.

220 receiving.com

HELO example.com

MAIL FROM: <[email protected]>

RCPT TO: <[email protected]>

250 Hello example.com

250 OK

250 OK

250 Message accepted

221 Goodbye

354 Go Ahead

DATA

QUIT

Date: Tue, 1 Apr 2008 07:46Subject: Test messageThis is a test message

Il servizio inizia la connessione

Sender Recipient

FIGURA 1Un recapito SMTP

Mittente Server di postamittente

Server di postadestinatario

Destinatario

SMTP SMTP POP3,IMAP,HTTP

FIGURA 2La consegna SMTP

Page 3: PERCHÉÈCOSÌDIFFICILE COMBATTERELOSPAM?archivio-mondodigitale.aicanet.net/Rivista/09_numero_1/Damiani p... · mentedalserverSMTPdelloromittente.Se - condomoltiosservatori,ladatad’iniziodello

Il protocollo SMTPè uno dei più vecchi proto-colli di Internet ed stato volutamente mante-nuto semplice, visto che un server SMTP de-ve poter gestire decine di connessioni al se-condo. Questa semplicità si traduce però invulnerabilità, perché le due informazioniidentificative che il server mittente passa aldestinatario (il proprio nome e l’indirizzo e-mail a cui il messaggio è diretto) non vengo-no verificate da quest'ultimo e possono es-sere quindi facilmente falsificate.Per chiarire questo punto, esaminiamo me-glio un campo Received: facente parte del-l’intestazione di unmessaggio di posta:

from 159.149.70.1 by pollon (enve-lope-from <[email protected]>,uid 201) 08 Dec 2008 18:42:20 -0000

Questo campodice che ilmessaggio è stato ri-cevutodalserverSMTPchesichiamapollon(co-medice la clausolaby pollon) eprovienedaunMTAdicuinonènoto ilnome,macheha l’in-dirizzo IP 159.149.70.1. Osserviamo subito ilcampoenvelope-from, che non è il campoFrom:all’intermodelmessaggio,maquellochefapartedell'intestazioneSMTP.Contiene l’indi-rizzo ([email protected]) e la user-id(201) delmittente sulMTAdi provenienza. Unaprecauzione cheutilizzanomoltiMTA“diffiden-ti”èrifiutarepostaelettronicaincui ilcontenutodelcampoenvelope-fromdopolachioccio-lanonè traducibiledalDNS (il serviziodi tradu-zione nomi-indirizzi di Internet), cioè non è unFullyQualifiedDomainName(FQDN)masolounframmentonon traducibile [email protected] può accadere quando l’editor di postaelettronicausatodall’utente(esempio,OutlookoEudora)generaluistessoicampiSMTPinvecedilasciarlofarealMTA,maèancheunindiziochechimanda ilmessaggiopotrebbeaverequalco-sa da nascondere. Oltre a questo, vi sono altridueelementi importantidaosservare:� possiamo ritenere l’intero campo Recei-ved: affidabile solo se conosciamoe conside-riamo fidato il server pollon che l’ha creato.Altrimenti la riga potrebbe essere falsa;

� se il campo Received: è considerato affi-dabile, laparte importanteèfrom159.149.70.1.Diquesto indirizzo IPci fidiamo,perché l’hacon-trollato il nostro server fidatopollonquandoharicevuto il messaggio. Anche qui, come per en-velope-from, si puòusare ilDNSperuncon-trollo; ma in questo caso si tratta di una queryDNS inversa per ricavare dall'indirizzo il nomedel server che ha consegnato il messaggio apollon, epoiusare il comandowhoisper co-noscere lapersonae l’organizzazionea cui l’in-dirizzo è stato associato. Ecco, in sintesi, il ri-sultato diwhoisper questomessaggio:

# ARIN WHOIS database, last updated2008-12-08 19:10# Enter ? for additional hints onsearching ARIN's WHOIS database% Information related to'159.149.0.0 - 159.149.255.255'inetnum: 159.149.0.0 -

159.149.255.255netname: UNIMINETdescr: Università degli Studi

di Milanocountry: ITremarks: To notify abuse mailto:

[email protected]: Multiple-Lans of Milan

University

La conoscenza dell’indirizzo IP del mittentesuggerisce l’idea di configurare il proprioMTA di ricezione in modo che possa rifiutarsidi ricevere posta da alcuni server malfamati(blacklisting) oppure di accettare connessio-ni solo da server conosciuti e fidati (whiteli-sting); ma, come vedremo, queste semplicitecniche sono tutt’altro che perfette e pos-sono introdurre ritardi e omissioni di serviziopoco graditi agli utenti.

3. COME NASCE LO SPAM

Fino ai primi anni Novanta, la posta elettroni-ca indesiderata consisteva principalmente ininnocui scherzi e nei messaggi delle cosid-dette “catene di Sant’Antonio”. Nell’insiemel’intento di chi li mandava non era criminosoe in pratica non veniva fatto alcun tentativoper falsificare la provenienza dei messaggi,che venivano inviati ai destinatari diretta-

M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 9

1

0

0

0

1

40

3 In questo caso viene spesso generato un mes-saggio di errore, come:451 <caio@crema> ... Domain doesnot resolve.

Page 4: PERCHÉÈCOSÌDIFFICILE COMBATTERELOSPAM?archivio-mondodigitale.aicanet.net/Rivista/09_numero_1/Damiani p... · mentedalserverSMTPdelloromittente.Se - condomoltiosservatori,ladatad’iniziodello

mente dal server SMTP del loro mittente. Se-condomolti osservatori, la data d’inizio dellospamming commerciale è il 1994, in cui av-venne la diffusione su tutti i gruppi di discus-sioneUsernet del famosomessaggio “Green-card laywers” degli avvocati Lawrence Cantere Martha Siegel (Figura 3), che più tardi di-vennero i primi esperti di Internet marketing.Il messaggio annunciava ai riceventi la finedella lotteria annuale per avere la GreenCard, il permesso di soggiorno permanentenegli Stati Uniti.Tecnicamente, la novità del “Green-cardlaywers” stava nell’utilizzo di un programmaper l’invio sistematico del messaggio a centi-naia di gruppi Usenet, e non nella dissimula-zione del MTAmittente. Quest’ultimo obietti-

vo venne raggiunto l’anno successivo da JeffSlaton, che divenne in breve il primo re dellospam, “the Spam King”. Nella sua più chedecennale attività di spammer, Slaton ha af-fermato di poter raggiungere fino a 8 milionidi persone i cui indirizzi erano entrati in suopossesso grazie alla raccolta su Usenet.Oggi, lo spam è diventato uno dei più grandiproblemi dell’Internet moderna e uno sprecoin termini di tempo e banda. Secondo un re-cente rapporto rilasciato dall’agenzia specia-lizzata Sophos (Tabella 1), il 92.3% di tutte lee-mail inviate nei primi tre mesi del 2008 ècostituito da spam. Stati Uniti e Russia sonoin testa alla classifica mentre l’Italia si piazzaall’ottavo posto, generando il 3,6% dellospam prodotto nel mondo.

M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 9

1

41

0

0

0

1

FIGURA 3Il messaggio“Green-cardlaywers” di Cantere Siegel

Page 5: PERCHÉÈCOSÌDIFFICILE COMBATTERELOSPAM?archivio-mondodigitale.aicanet.net/Rivista/09_numero_1/Damiani p... · mentedalserverSMTPdelloromittente.Se - condomoltiosservatori,ladatad’iniziodello

La raccolta degli indirizzi dei destinatari rap-presenta da sempre un problema per glispammer (Appendice 2 a p. 52), ma gli indi-rizzi dei server SMTP non sono difficili da tro-vare: è sufficiente consultare i campi MX pre-senti nei file di zona DNS. Per combattere iprimi spammer, i gestori di server SMTP usa-vano strumenti di blacklisting molto sempli-ci, creando in sede di configurazione dei ser-ver SMTP una lista (killfile) di indirizzi IP daiquali non desideravano ricevere messaggi.Ben presto però gli spammer scoprirono co-me combattere il blacklisting dei loro server,grazie a una funzionalità dei server SMTPchiamata open relay. Questa funzione esistein tutte le implementazioni del protocollo; inquesto articolo ci concentreremo su send-mail, l’implementazionedi SMTPchediscen-de dall’originale DeliverMail di ARPANET4.Sendmail è ancora oggi il più popolare MTAdi Internet, sebbene stia perdendo posizioni.La sua popolarità è probabilmente dovuta alfatto che è il server SMTP standard della mag-gior parte delle varianti di Unix. Fino alla ver-sione 5, sendmail (come molte altre imple-

mentazioni di SMTP) inviava messaggi percontodiqualsiasi client lo richiedesse, fungen-do appunto da “open relay”. Invece di spedirelo spamdirettamente al server SMTPdel desti-natario, gli spammer iniziarono a usare - alter-nandoli - i server SMTP di altri come interme-diari. Ovviamente, l’uso dell’open relay nonimpedisce di per sé il blacklisting degli indiriz-zi IPdei serverdacuiproviene lo spam,ma l’in-clusionenelleblacklistdi server SMTPche fan-no open relay in buona fede è molto difficile,perché impedisce anche il recapito di messag-gi legittimi, che vengono bloccati insieme allospam ritrasmesso.L’unica vera contromisura sta nel disabilitarela funzionalità di open relay su tutti i serverSMTP. Questo problema collettivo di configu-razione fu oggetto di un grande dibattito nel-la comunità di Internet, che forse per la primavolta si accorse che un problema tecnico ap-parentemente banale si poteva tradurre in unincubo organizzativo. Per impedire l’open re-lay basta un semplice script di configurazio-ne per sendmail come quello che segue:

FR-o /etc/sendmail.cRScheck_rcpt# La posta che va recapitata local-mente è accettataR< $+ @ $=w > $@ OKR< $+ @ $=R > $@ OK# La posta che è generata localmen-te è accettataR$* $: $(dequote "" $&{client_name} $)R$=w $@ OKR$=R $@ OKR$@ $@ OK# tutto il resto è rifiutatoR$* $#error $: "550 Re-laying Denied".

Risolvere il problema di quali sono i soggettiorganizzativi che hanno titolo ad attivare unserver SMTP pubblico e di come garantire illoro comportamento uniforme nella gestionedei server è un’impresa tutt’altro che sempli-ce per le grandi organizzazioni decentrate co-me le Università. Alla fine degli anni Novanta,comunque, l’azione congiunta dei providerInternet e delle grandi organizzazioni percensire i server SMTPattivi e disabilitare l’op-

M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 9

1

0

0

0

1

42

Paese Percentuale Spam Prodotta(primo trimestre 2008)

Stati Uniti 15.4%

Russia 7.4%

Turchia 5.9%

Cina 5.5%

Brasile 4.3%

Corea del Sud 4.0%

Polonia 3.8%Italia 3.6%

Germania 3.4%

Gran Bretagna 3.4%

Spagna 3.3%

Francia 3.1%

TABELLA 1I Paesi maggiori

produttori di Spam(Fonte: SOPHOS)

4 Sendmail è ancora oggi il mail server più usatosu Internet. Secondo uno studio del 2005, il 42%circa dei mail server raggiungibili via Internet usa-vano Sendmail.

Page 6: PERCHÉÈCOSÌDIFFICILE COMBATTERELOSPAM?archivio-mondodigitale.aicanet.net/Rivista/09_numero_1/Damiani p... · mentedalserverSMTPdelloromittente.Se - condomoltiosservatori,ladatad’iniziodello

zione open relay aveva quasi risolto il proble-ma dello spam, anche se all’interno delleUniversità il divieto ai singoli utenti di gestireliberamente il propriosendmail suscitò pa-recchi malumori5. Purtroppo, però, l’evolu-zione tecnica della Rete fece presto emerge-re tre nuove tecniche di recapito che riporta-rono lo spam d’attualità già all’inizio deglianni Duemila.Recapito Relay multi-hop: il primo fattore èl’aumento di complessità dei servizi di postaelettronica gestiti dai provider, che rese pos-sibile agli spammer aggirare il blocco dell’o-pen relay attraverso una tecnica detta relaymultihop. Oggi, infatti, le reti dei provider In-ternet e delle grandi organizzazioni si affida-no a più server SMTP, alcuni usati per l’inviodi posta tra utenti dello stesso dominio, edaltri MTA “di confine” usati per inoltrare laposta verso l’esterno. Ovviamente, gli MTA diconfine accettano il relay da parte dei serverinterni. Se lo spammer ha accesso a uno deiserver interni, o se quest’ultimo non è benconfigurato, può inviare messaggi di spamtramite il MTA di confine, che (pur non facen-do open relay) accetta di rispedirli verso l’e-sterno perché gli sembra che provengano daunmittente autorizzato.Dynamic addressing e recapito No Relay: ilsecondo fattore è la pratica, oggi prevalentetra i provider Internet, di assegnare ai loroclienti indirizzi IP dinamici, cioè validi soloper la durata di una connessione. Questaprassi ha dato agli spammer un altromodo diaggirare il blocco dell’open relay: lo spam-mer recapita i messaggi di spam direttamen-te ai server SMTP dei destinatari, usando ilsuo indirizzo IP dinamico. Periodicamente,oppure ogni volta che l’indirizzo IP dinamicodello spammer viene notato e elencato suuna blacklist, lo spammer può semplicemen-te scollegarsi da Internet, riconnettersi e rice-vere un nuovo indirizzo IP dinamico. Il costodi eseguire uno spamming di questo tipo èalto anche per lo spammer (soprattutto intermini di tempo), ma l’inoltro di spam con

questa tecnica (detta no relay) èmolto effica-ce e combatterlo è estremamente difficile.Connection Sharing e recapito open proxy:il terzo fattore riguarda la condivisione delleconnessioni Internet. Oggi molte organizza-zioni usano proxy sui loro server connessi aInternet per consentire ad altri computerdella loro rete locale (cablata o wireless) dicondividere la connessione. Come accadevai server di posta elettronica che facevanoinavvertitamente open relay, anche i proxysoftware sono spesso mal configurati e per-mettono ad host “parassiti” di attivare con-nessioni proxy (open proxy). Gli spammerhanno iniziato a usare i client con openproxy per dissimulare l’origine della postaelettronica. Se un open proxy non è disponi-bile, può essere diffuso in modo virale: giànel gennaio 2003, il noto virus Sobig.a in-stallava nei computer vittime un proxy con-cepito specificatamente con l’intenzione diconsentire lo spam.Tecniche ibride: per rendere ancora più diffi-cile prendere contromisure, gli spammerusano spesso una combinazione delle tecni-che appena viste. Per esempio, lo spammerusa il server SMTP di un provider Internet po-co rigoroso nei controlli o un indirizzo dina-mico per raggiungere un server SMTP che faopen relay, tramite quest’ultimo, accede alserver SMTP di un grosso provider. Il seguen-te frammento di header proviene da un mes-saggio di spam reale:

Return-Path: <[email protected]>Delivered-To: [email protected]: (qmail 9405 invoked by uid210); 9 Dec 2008 00:00:03 -0000Received: from 159.149.10.22 bypollon (envelope-from<[email protected]>, uid201) with qmail-scanner-1.25st(clamdscan: 0.94.1/8730. spamas-sassin: 3.2.1. perlscan: 1.25st.Clear:RC:0(159.149.10.22):SA:-0(3.8/6.0):.Processed in 2.340732 secs); 09 Dec2008 00:00:03 -0000X-Spam-Status: No, hits=3.8 requi-red=6.0X-Spam-Level: +++

M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 9

1

43

0

0

0

1

5 Il timore delle conseguenze dell’attivazione diserver SMTP da parte di utenti ignari o inespertiè probabilmente uno dei motivi per cui anche og-gi i computer Macintosh vengono consegnatiagli acquirenti con sendmail disabilitato.

Page 7: PERCHÉÈCOSÌDIFFICILE COMBATTERELOSPAM?archivio-mondodigitale.aicanet.net/Rivista/09_numero_1/Damiani p... · mentedalserverSMTPdelloromittente.Se - condomoltiosservatori,ladatad’iniziodello

Received: from unknown (HELO mail-server.unimi.it) (159.149.10.22)by 0 with SMTP; 9 Dec 2008 00:-00:01 -0000

Received: from unimix1.unimi.it([172.24.4.81])by ldap-s2.unimi.net (Sun JavaSystem Messaging Server 6.2-8.04(built Feb 282007)) with ESMTP id <[email protected]> [email protected] (ORCPT [email protected]); Tue,09 Dec 2008 01:00:03 +0100 (CET)Received: from comercigomez.com(unknown [123.18.210.158]) by uni-mix1.unimi.it(Unimi) with ESMT id EFF844A0026 for<[email protected]>; Tue,09 Dec 2008 01:00:10 +0100 (CET)

Qui, come si vede, è stata usata la tecnica ibri-da di recapito: sono presenti diversi campiReceived: e quindi il messaggio è transitatoper diversi MTA. Andando a ritroso troviamo ilnostroMTA localepollonepoi ilMTA internomailserver.unimi.it, di cui pollon sifida e dal quale accetta la posta. Notate che inquesto caso il nome del MTA non era presentenel campo From: dell’envelope SMTP ma èstato desunto dal messaggio SMTP HELO concui mailserver.unimi.it si è annuncia-to a pollon. Il MTA interno mailser-ver.unimi.it a sua volta aveva accettatola mail dal server SMTP “di confine” uni-mix1.unimi.it, l’unicoMTAabilitatoapar-lare con sever esterni.

Proseguendo l’analisi a ritroso la lista dei cam-piFrom: troviamo il server SMTP con indirizzo123.18.210.158, da cui è arrivata lamail. Ecco ilpotenziale colpevole, dietro cui potrebbe na-scondersi lo spammer. La figura 4 mostra il ri-sultato della ricerca di questo indirizzo in undatabase di server SMTP che eseguono openrelay (http://www.mail-abuse.com).A questo punto, quindi, la caccia si interrom-pe: nel parlare con il server open relay, lospammerpuò inserire i campiReceived: chemeglio crede nell’intestazione del messaggiodi posta, e falsificarli liberamente.

4. IL FILTRAGGIO DEI MESSAGGI

Per neutralizzare le tecniche di spam basatesulla tecnica no relay (ed alleviare quelle chericorrono aopen proxy) si potrebbe in linea diprincipio adottare il blocco completo degli in-dirizzi IP dinamici, cioè configurare i serverSMTP inmodo che non accettino connessionida altri server che hanno un indirizzo IP dina-mico. Si tratta però di un approccio poco pra-tico perché non esiste un semplice test perstabilire se un indirizzo IP è assegnato dina-micamente o meno6. Un’altra tecnica moltointeressante è quella delle cosiddette honey-pot, costituite da finti server SMTPpoco scru-polosi e da caselle di posta non corrispon-denti a utenti reali, vere e proprie trappoleche catturano gli indirizzi IP dei server SMTPusati dagli spammer.In pratica, però, la latenza necessaria perdiffondere le segnalazioni delle honeypot lerende molto più indicate per attivare contro-misure legali che per reazioni in tempo reale

M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 9

1

0

0

0

1

44

6 A differenza di quanto alcuni credono, la maggior parte degli indirizzi IP pubblici attribuiti staticamenteNON corrisponde a un nome nel DNS. Quindi le query inverse al DNS non sono purtroppo un buon test perdedurre la staticità di un indirizzo.

FIGURA 4Identificazione

del server SMTPopen relay

Page 8: PERCHÉÈCOSÌDIFFICILE COMBATTERELOSPAM?archivio-mondodigitale.aicanet.net/Rivista/09_numero_1/Damiani p... · mentedalserverSMTPdelloromittente.Se - condomoltiosservatori,ladatad’iniziodello

all’invio di spam. In generale, il filtraggio di-namico basato sull’IP del server SMTP mit-tente si è gradualmente rivelato un metodoantispam poco pratico, e all’inizio degli anniDuemila la lotta allo spam ha affiancato all’IPfiltering un’altra direzione, adottando un ap-proccio collaborativo e più orientato al con-tenuto, sia sui server SMTP, sia sui program-mi client usati per spedire e leggere la posta.

4.1. List splitting e personalizzazionedello spamL’idea iniziale del filtraggio orientato al conte-nuto fu sfruttare il fatto che la maggior partedegli spammer inviava a tutti i destinatari unacopia dello stesso messaggio. Facendo que-st’ipotesi, il filtraggio collaborativopuò funzio-nare come segue: quando abbastanza utentidi posta segnalano un messaggio sospetto,per esempio mettendolo nella cartella “JunkMail” dei loro client, questi ultimi notificano lacosaal server SMTPe ilmessaggio incriminato(o meglio una sua rappresentazione compres-sa, uno hash MD5) viene aggiunto a una listache è poi condivisa tra i server SMTP, con con-nessioni peer-to-peer o attraverso servizi dinotifica simili a quelli usati per gli antivirus.I server SMTP possono poi scartare i messag-gi di posta in arrivo il cui hashMD5 corrispon-de a uno di quelli nella lista dello spal. Anchese in un primo tempo il filtraggio collaborativofu efficace, ci si accorse subito che gli spam-mer potevano aggirarlo usando tecniche dipartizionamento e di personalizzazione delleliste dei destinatari (il cosiddetto list split-ting), in modo da aggiungere ai messaggi dispam delle porzioni variabili dipendenti daldestinatario.In realtà fino ai primi anni Duemila gli stru-menti più usati dagli spammer non compren-devano funzionalità di “list splitting”, e moltispammer continuarono a inviare a tutti i de-stinatari gli stessi messaggi fino a quando,nel 2002, non vennero diffusi sul mercato iprimi strumenti antispam che usavano clas-sificatori di testo statistici.L’idea di filtrare imessaggi in arrivo sulla basedel loro contenuto non è concettualmenteuna novità; anzi, fin dagli albori della postaelettronicamolti programmi per la lettura del-la posta sono stati dotati di filtri configurabiliin base ai campi dell’intestazione deimessag-

gi. Queste regole sono in grado di individuarecontenuti tipici deimessaggi di spam, chenonappaiono neimessaggi “normali”. Si possonoper esempio filtrare i messaggi che non otten-gononel campoTo: l’indirizzo corretto del de-stinatario oppure il cui Subject: sia vuoto otutto in maiuscolo, o contenga parole chiavespecificate dall’utente. Un altro criterio di fil-traggio esamina il campo From:operandoanalogamente aquanto abbiamogià visto peril campo omonimo dell’envelope SMTP. Se ilcampoFrom: è vuoto, o l’indirizzo delmitten-te non risponde a certe caratteristiche, il mes-saggio viene scartato.Oggi gli amministratori di sistemi Unix hannoa disposizione software ben più evoluti comeprocmail (un programma che processa au-tomaticamente i messaggi quando questi ar-rivanonella casella locale) per i quali si posso-no predisporre file di configurazione - e quindifiltri - molto complessi. Uno di questi, Spam-Bouncer, è in grado di generare dei falsi mes-saggi di errore per far credere allo spammerche l’indirizzo a cui si rivolge è inesistente.

4.2.Tecniche automatiche di riconoscimentodello spamLa comunità della ricerca informatica – com-preso chi scrive – ha versato in questi anni fiu-mi d’inchiostro sulle tecniche automatiche diriconoscimento dello spam, proponendo di-versi algoritmi molto ingegnosi, in grado diclassificare messaggi di testo come spam inmodo rapido ed efficace. Queste tecniche so-no ingradodi ridurre i falsi positivi (cioè imes-saggi che non sono spam ma vengono identi-ficati come tali) anche in presenza di list split-ting e di personalizzazione dinamica del testodei messaggi di spam. Molti spammer hannoreagito a queste tecniche evolute di riconosci-mento semplicemente spostando la parteinformativa dei loro messaggi all’interno diimmagini, da inviare poi come allegati MIME(Multipurpose Internet Mail Extensions) o ag-ganciare ai messaggi scrivendoli in formatoHTML. È noto che i computer sono molto me-no bravi degli umani nel riconoscere il conte-nuto di immagini; anzi, il fatto che la localizza-zione di caratteri all’interno di un’immagine èun problema facile per un utente umano madifficile per un software è oggi sfruttato damolti siti Web per evitare la compilazione au-

M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 9

1

45

0

0

0

1

Page 9: PERCHÉÈCOSÌDIFFICILE COMBATTERELOSPAM?archivio-mondodigitale.aicanet.net/Rivista/09_numero_1/Damiani p... · mentedalserverSMTPdelloromittente.Se - condomoltiosservatori,ladatad’iniziodello

tomatica delle form7. Gli spammer usanoesattamente la stessa tecnica: generano im-magini contenenti il loro testo e sfidano il pro-gramma antispam a trovarlo e riconoscerloper analizzarlo. Questa tecnica è stata alla ba-se dell’epidemia di spam grafico diffusasi apartire dal 2006, in cui il testo dello spam èconvertito in immagini raster. Se le immaginiusate dagli spammer fossero personalizzateper ciascun destinatario, la tecnica grafica sa-rebbe quasi impossibile da controbattere. Perfortunamolti spammer non hanno il tempo e imezzi per generare le immagini dinamicamen-te e per applicare fino in fondo il list splitting.

5. SPAMMER ALL’ATTACCO

Ben pochi tra gli spammer oggi sono espertidi reti IP o di algoritmi evoluti di riconosci-mento di immagini: la maggioranza di loro siserve semplicemente di toolkit software libe-ramente disponibili su Internet. Per acquisireuna migliore comprensione del funziona-mento di questi strumenti per lo spam, esa-mineremo tre strumenti di invio di massa(bulk mailing) molto usati dagli spammer.Tutti e tre questi strumenti si basano suglistessi principi base che abbiamo visto in pre-cedenza: il list splitting e la personalizzazio-ne dinamica del contenuto dei messaggi dispam, ma sono stati sviluppati nel tempo percontrobattere l’effetto del software anti-spam. Il terzo ha innovato radicalmente latecnica di recapito, riducendo il tempo di ela-borazione e la larghezza di banda che carat-terizzano l’invio di spam con le classiche tec-niche open relay e open proxy.

5.1. Dark MailerDark Mailer è un software per Windows cheè stato lo strumento preferito di Robert So-loway, un noto spammer condannato nel lu-glio 2008 per frode ed evasione fiscale InDark Mailer la definizione del contenuto delcorpo del messaggio è lasciata interamenteallo spammer, senza alcun controllo di sin-

tassi o funzione di visualizzazione in ante-prima. A causa di ciò, i messaggi inviati daDarkMailer spesso contengono vistosi erro-ri di ortografia. La struttura e le intestazionidei messaggi vengono trattati separata-mente. Dark Mailer richiede che l’utentespecifichi una o più “macrointestazioni” checontengono i campi dell’intestazione e lastruttura MIME di vari messaggi di spam, epoi seleziona casualmente una di questemacrointestazioni per ogni messaggio dispam che genera.Dark Mailer può trasmettere i messaggi viaSMTP, direttamente in open proxy o attraver-so un server SMTP open relay, oppure viaHTTP. Rispetto ad altri strumenti, la trasmis-sione è tutt’altro che rapida, ma si possonoinviare messaggi a più destinatari (tramite icomandi SMTP RCPT) e si possono inviarepiù messaggi per connessione. Sebbene siamolto facile da usare, Dark Mailer è moltolento e richiede uno spammer esperto perscrivere il contenuto del messaggio in mododa passare i filtri anti-spam. Anzi, gli utenti diDark Mailer sono spesso diventati faciliobiettivi per altri spammer8.

5.2. Send SafeSend Safe è uno dei più diffusi ed efficaci stru-menti di spamming oggi in uso. A differenza diDarkMailer, SendSafe è stato venduto aperta-mente dal suo autore Ruslan Ibragimov ed èmantenutoancoraattivo(http://www.send-safe.com/). È disponibile in due versioni:un’applicazioneautonomaperWindowschege-stisce campagne di spam e un’edizione azien-dale checonsiste inunaconsoledi gestioneba-sata suWindowse in unprogrammaper l’inviopostaelettronicacheèdisponibileperWindows,Linux e Unix FreeBSD. Le due versioni sono si-mili nelle funzionalità, ma nell’edizione azien-dale il motore di consegna di posta elettronicaconsente di eseguire recapiti in parallelo au-mentare la velocitàdi recapito.SendSafehaunsistemadi gestionedella strutturadeimessag-gi di spambenpiù evoluto rispetto aDarkMai-

M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 9

1

0

0

0

1

46

7 Basta generare automaticamente un’immagine che contiene in un punto random una breve scritta (maga-ri con caratteri ruotati) e chiedere all’interlocutore remoto di riprodurla nella form per tagliare fuori chicompila la form tramite uno script.

8 Gli spammer esperti spesso infettano il software Dark Mailer con vari malware prima di passarlo ad altrispammer neofiti.

Page 10: PERCHÉÈCOSÌDIFFICILE COMBATTERELOSPAM?archivio-mondodigitale.aicanet.net/Rivista/09_numero_1/Damiani p... · mentedalserverSMTPdelloromittente.Se - condomoltiosservatori,ladatad’iniziodello

ler.Mentre la configurazionediDarkMailer sup-porta un solo template permessaggi di spam,la configurazione di Send Safe è organizzata in“campagne” e “messaggi”.UnacampagnaSendSafeconsiste inunoopiùmessaggi e un insieme dimailing list. Unmes-saggio è costituito da un corpo del messaggioe da una serie di argomenti per il campoSubject:, indirizzi per il campo From: e alle-gati. Una campagna invia periodicamente isuoimessaggi a tutti indirizzi contenuti nei filedellemailing list.Come DarkMailer, Send Safe consente la tra-smissione diretta di messaggi basata suopen proxy e open relay, ma applica alcunetecniche evolute. Per eludere le black list,Send Safe può cambiare continuamente l’in-dirizzo IP che usa per collegarsi ai server diposta elettronica o aiproxy. Send Safe dispo-ne anche di un proxy interno che e’ stato pro-gettato per eludere l’individuazione tramitehoneypot. Invece di connettersi direttamentealla lista di proxy specificata dallo spammer,si collega ad essi attraverso una serie diproxy intermedi considerati sicuri. Se c’è unhoneypot nella lista di proxy dello spammer,l’indirizzo IP del sistema su cui gira Send Sa-fe non sarà compromesso.Un’altra tecnica interessante introdotta daSendSafe è il proxy locking. Partendo dall’in-dirizzo IPdi un openproxy, SendSafe usa unaquery DNS inversa per cercare nel record MX(Mail Exchanger) il server SMTPusatodalproxy. Invece di tentare di consegnare i mes-saggi attraverso il proxy, SendSafe si rivolgedirettamente al server SMTP. Questo truccopuò portare i server SMTP di produzione deiprovider a comparire gli uni nelle black list de-gli altri. La contromisura più evidente è attiva-re il filtraggio orientato al contenuto dellospam di cui abbiamo parlato prima anche inuscita (e non solo in ingresso) dai serverSMTP interni, ma questo ha costi non indiffe-renti e introduce sensibili latenze nel recapitodella posta.Send Safe comprende un sistema avanzatoper creare template di messaggi di spam. Sipossonogeneraremessaggi che sembrano in-viati da client di posta elettronica diversi, co-meMicrosoft Outlook Express eMozilla Thun-derbird. Quando Send Safe invia lo spam, al-terna i template così che ogni messaggio suc-

cessivo che viene inviato sembra essere statospedito usando un client diverso.Send Safe comprende anche diverse contro-misure per ingannare i filtri antispam orientatial contenuto. Per esempio, può aggiungerecontenuto casuale nei campi Subject: eFrom:, oppure codificare la parte testuale (ti-po MIME text/html) del messaggio usan-do il codice base64 invece del quoted-printablestandard, oancoraaggiungere inmodo casuale dei tag HTML al testo del mes-saggio per confondere i parser HTML di alcunifiltri anti-spam. Ben più importante è la capa-cità di Send Safe di applicare algoritmi dimorphingalle immagini perdeformarle, inmo-do che non siano facilmente riconoscibili daeventuali algoritmi di classificazione delle bit-map. La generazione delle immagini è però la-sciata allo spammer, e quindi Send Safe non èmolto adatto per le campagne di spam graficoche fanno forte ricorso al list splitting e perso-nalizzano imessaggi.

5.3. Reactor MailerReactor Mailer, venduto dalla società ucrainaElphisoft, è di gran lunga il sistema di spam-mingpiù interessante sviluppato fino ad oggi.Mentre Dark Mailer e Send Safe generano imessaggi di spam localmente e poi li trasmet-tono attraverso una lista di open proxy e ser-ver SMTP che accettano open relay, ReactorMailer usa un modello computazionale distri-buito simile a quello dei virus. Il programma sicompone di un server e di un client distribuitoin forma virale, che gli antivirus Symantec co-noscono come Trojan.Srizbi. I personalcomputer che vengono infettati dal clientReactor Mailer scaricano periodicamentetemplate di messaggi e liste di indirizzi di po-sta elettronica, generano e trasmettono indi-pendentemente i loro messaggi e poi riman-dano i report dei risultati al server.Questa tec-nica riduce molto i costi di tempo di elabora-zione e di larghezza di banda che rendonooneroso l’invio di spam tramite Dark Mailer eSend Safe.Reactor Mailer usa un sistema di templatesimile al sistema di intestazioni di Dark Mai-ler; il template più usato crea messaggiquasi indistinguibili da quelli generati daOutlook Express 6.Mentre Send Safe richiede che l’utente crei le

M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 9

1

47

0

0

0

1

Page 11: PERCHÉÈCOSÌDIFFICILE COMBATTERELOSPAM?archivio-mondodigitale.aicanet.net/Rivista/09_numero_1/Damiani p... · mentedalserverSMTPdelloromittente.Se - condomoltiosservatori,ladatad’iniziodello

proprie immagini, Reactor Mailer comprendela traduzione del testo dello spam a immagi-ne. Questo sistema può creare immagini ba-sate su testo formattato HTMLe può offusca-re le immagini attraverso l’aggiunta di rumo-re random e rototraslazioni dei caratteri.

6. Un esempioVediamo ora una versione semplificata di untemplate di Reactor Mailer:

From: {rndline 008_wname.txt}-{rndabc 1}@{rndline003_domains.txt}Subject: {rndline 001_subject.txt}{rndline 005_hi.txt}

{rndline 001_msg.txt}http://{rndline 006_sub.txt}.-{rndline 000_067.txt}{rndline 004_fin.txt}{rndline 002_afo.txt}, {rndline002_afo.txt}

Le intestazioni deimessaggi di spamgenerateusando questo template contengono un cam-po From: generato a caso, un nome di batte-simo e l’iniziale di un cognome casuali comeusername e un Subject: anch’esso selezio-nato a caso da una lista. Il corpo del messag-gio inizia con un saluto scelto a caso da una li-sta e poi continua con una frase scelta a casoda una terza lista. Le frasi sono seguite da unURL random e poi il messaggio si conclude unsaluto scelto a caso. Questo template puòprodurre un numero elevatissimodimessaggidiversi, rendendo difficile il lavoro dei filtri an-tispam orientati al contenuto. Ecco un esem-pio di spam generato dal template:

From: [email protected]: Chi dorme non piglia pesciCome butta oggi?Le brave ragazze vanno in Paradi-so, le cattivedappertutto.http://vieniacasa.orgGrazie per l’attenzione, gente!La svelta volpe balza sul cane pi-gro, non aspettate tempimigliori.

7. LE CONTROMISUREVediamo ora le contromisure che possono es-sere prese contro lo spam usando gli stru-menti di difesa basati sulle tecniche che ab-biamo spiegato all’inizio dell’articolo. La solu-zione di riferimento è SpamAssassin, unsoftware che identifica automaticamente lospam. Pur essendo pensato per sistemi Unix,grazie al fatto di essere open source SpamAs-sassin è stato proposto anche come add-inper alcuni mail server commerciali. Per identi-ficare lo spam SpamAssassin esegue una se-rie di verifiche sull’intestazione e un’analisidel testo del messaggio. Inoltre, usa alcuneblacklist di MTA inaffidabili reperibili in Rete.Dopo essere stato identificato, lo spam vienecontrassegnato con un punteggio che si ag-giunge all’intestazione del messaggio, in mo-do che quest’ultimo possa poi essere filtratodal client di posta dell’utente.Ecco un esempio dell’aggiunta generata daSpamAssassin:

spamassassin: 3.2.1. perlscan:1.25st.Clear:RC:0(159.149.10.22):SA:-0(3.8/6.0):.Processed in 2.340732 secs); 09 Dec2008 00:00:03 -0000X-Spam-Status: No, hits=3.8 requi-red=6.0X-Spam-Level: +++

Per gli esempi di spam SpamAssassin si basasuVipul’s Razor, una rete distribuita e collabo-rativa di identificazione dello spam che operada un paio d’anni, grazie alla quale è stato co-struito un catalogo costantemente aggiornatodello spam in circolazione. LostrumentoSpamArrest, invece adotta un approccio basato suwhitelist, una lista di “amici” autorizzati a scri-verci. Sequalcuno chenonènella lista scrive aunamailbox protetta da Spam Arrest, riceveràimmediatamente unmessaggio che lo invita avisitareun sito, da cui può iscriversi alla lista diamici. Per poterlo fare, dovrà trascrivere in uncampo testo il contenuto di un’immagine cheriporta caratteri testuali in posizione random,dimostrando così di essere una persona e nonuno script utilizzato da uno spammer. Venia-mo ora a due tecniche “storiche” che per i mo-tivi pratici esposti fin qui non hanno risolto il

M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 9

1

0

0

0

1

48

Page 12: PERCHÉÈCOSÌDIFFICILE COMBATTERELOSPAM?archivio-mondodigitale.aicanet.net/Rivista/09_numero_1/Damiani p... · mentedalserverSMTPdelloromittente.Se - condomoltiosservatori,ladatad’iniziodello

problema dello spam, ma risultano comunqueparticolarmente interessanti: il reverse spamfiltering e i filtri bayesiani.

7.1. Reverse Spam FilteringLa strategia del Reverse Spam Filtering è dia-metralmenteoppostaaquelladei filtri orienta-ti al contenuto. Questa tecnica infatti si propo-ne di selezionare ciò che NON è spam e man-dare tutto il resto in una cartella speciale, cheviene controllata solo periodicamente. Anzi-tutto il sistema controlla se il messaggio in en-trata appartiene a qualche invio di massa sol-lecitato (mailing list o newsletter). In questocaso vienemesso in un’apposita cartella. Altri-menti, viene controllata la provenienza: se ilmessaggio proviene da indirizzi approvati(cioè definiti in una lista di “amici” come quel-la di SpamArrest) viene posto in un’appositacartella altrimenti il messaggio viene analizza-to e quindimarchiato come spam con una cer-ta probabilità, e inserito in una speciale cartel-la per imessaggi sospetti, il cui contenuto puòessere ordinato in base alla probabilità e con-trollatomanualmenteper cercare falsi positivi.Il Reverse Spam Filtering necessita di unsoftwareper filtrare imessaggi, unoperanaliz-zare e assegnare un punteggio di probabilitàai messaggi sospettati di essere spam, unbuon client di posta che permetta di gestirepiù mailbox e di ordinare il contenuto dellemailbox in base a criteri personalizzati, un si-stema per mantenere facilmente o automati-camente una lista di indirizzi “amici” aggiorna-ta. In genere si usa procmail per filtrare imessaggi in arrivo e SpamAssassin per mar-chiare imessaggi con un punteggio di spam.

7.2. Filtri bayesianiLa soluzione bayesiana è stata proposta ini-zialmente da Paul Graham ed è basata sullostudio statistico del contenuto dei messaggi.Un filtro bayesiano decide se unmessaggio èspam o no in base alle parole contenute neimessaggi ricevuti da uno specifico utente.Prima di illustrare l’algoritmo usiamo unsemplice esempio per ricordare il teorema diBayes: abbiamo un’osservazione O (un mes-saggio contiene la parola “sex”) e un’ipotesiH (unmessaggio è spam). P(O|H), cioè la pro-babilità che O accada dato H, ovvero la pro-babilità che un messaggio di spam contenga

la parola “sex”, è facile da stimare (ad esem-pio esaminando la cartella “Junk Mail” in cuil’utente destinatariomette lo spam e contan-do quanti dei messaggi che vi si trovano giàcontengono “sex”). Per il futuro, ci interessaperò sapere P(H|O), cioè la probabilità che Haccada, dato O, e cioè che un messaggio in-dirizzato a quell’utente e che contiene la pa-rola “sex” sia effettivamente spam. Secondoil teorema di Bayes tale probabilità è:

P (H|O) = P (O|H) * P (H)/P(O)

Dove sia P(H) (la probabilità che unmessaggiosia spam) sia P(O) (la probabilità che unmes-saggiocontenga laparola“sex”)possonoesse-re agevolmente stimate esaminando le caselledi posta dell'utente. P(H) si stima esaminandocomparativamente la cartella “JunkMail” dovel’utentemette lo spam e la casella di posta ge-neraledell’utenteecontandoquanti sono imes-saggi di spam rispetto al totale dei messaggi.P(O) si stima contando quanti messaggi con-tengono “sex” sul totale deimessaggi (spam ono)ricevutidall'utente.Vanotatochequestepro-babilità devono essere calcolate per ogni uten-te perché, se i messaggi di spam possono es-sere simili per tutti (e a volte sono esattamentegli stessi), quelli personali sono invecemolti di-versi, e il filtro bayesiano ne tiene automatica-mente conto. Le esperienze di Graham, e deglialtri ricercatori chehanno lavoratonel settore, cidicono che il suo filtro è esatto al puntodiman-care solo 5messaggi di spamogni 1000, senzaalcun falso positivo. Rispetto ai filtri visti in pre-cedenza, che funzionano in base alle proprietàindividuali diunsingolomessaggio, l’approcciostatisticosu insiemidimessaggièmigliore,per-ché tienecontodellespecificitàdei singoliuten-ti, esattamentecomefa lospammerapplicandoil list splitting. Purtroppo però questa tecnica èpraticamente impotentecontro lospamgrafico.

8. PROTEZIONE CRITTOGRAFICADEGLI INDIRIZZI

Una prospettiva integralmente nuova è in-vece quella di togliere agli spammer la loro“benzina”, cioè gli indirizzi di posta elettro-nica, attraverso nuovi schemi di generazio-ne dinamica degli indirizzi di posta.Gli spammer usano programmi appositi (det-

M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 9

1

49

0

0

0

1

Page 13: PERCHÉÈCOSÌDIFFICILE COMBATTERELOSPAM?archivio-mondodigitale.aicanet.net/Rivista/09_numero_1/Damiani p... · mentedalserverSMTPdelloromittente.Se - condomoltiosservatori,ladatad’iniziodello

ti harvester o spambot) che scaricano le pa-gineWeb alla ricerca di indirizzi di posta a cuimandare spam (vedi Appendice 2).Alcuni siti usano già oggi delle semplici pre-cauzioni per evitarlo, pubblicando indirizzi“antispam” come ernesto.damiani ATunimi DOT it. Questometodo però richie-de che sia il visitatoreumanoamodificare l'in-dirizzo di posta per renderlo usabile; inoltre èfacilmente aggiratodagli spambot più recenti.Altri siti cercano di difendersi dagli harvestercon le loro stesse armi, ossia pubblicando im-magini chemostranogli indirizzi dimail in luo-go degli indirizzi un formato testo; ma anchequesta precauzione può non essere gradita aivisitatori umani, che devono ridigitare l'indi-rizzo da capo per poterlo usare.Infine, altri siti usano la codifica carattere percarattere HTML, per esempio usando &#64;per il carattere chiocciola (@), o per tutti i ca-ratteri dell’indirizzo. Ecco la codifica dell’indi-rizzo [email protected]:

&#115;&#111;&#109;&#101;&#111;&#110;&#101;&#64;&#101;&#120;&#97;&#109;&#112;&#108;&#101;&#46;&#99;&#111;&#109;

Questo tipo di codifica è anch’esso facile pre-

da degli harvester, perché qui ogni caratterecorrisponde esattamente a un codice secon-do una tabella ben nota. Le tecniche critto-grafiche invece si basano su una codifica crit-tata dell’indirizzo di mail. Questa codificaviene decrittata da uno script JavaScript soloal momento dell’utilizzo dell’indirizzo di po-sta elettronica e quindi quest’ultimo noncompare da nessuna parte nella pagina.Un esempio di uno script di questo tipo perl’indirizzo [email protected] è ri-portato nella figura 5 – come si vede, si trattadi un osso piuttosto duro per qualunque ana-lizzatore di codice.Attualmente la tecnica crittografica per la ge-nerazione dinamica degli indirizzi di mail vie-ne complementata dalla messa a punto distrumenti innovativi per la generazione e lagestione di “short-lived alias”, cioè indirizzidi posta monouso. L'idea è di dare ai diversiinterlocutori che possono contattarci indiriz-zi di mail diversi, alcuni dei quali consentonodi contattare il destinatario una volta sola.Nel futuro avremo quindi due tipi di indirizzi:quello stabile (master) e quelli temporanei(alias). Quando contatteremo qualcuno perla prima volta al suo indirizzo master, glimanderemo un nostro alias. L’interlocutoreinvierà la risposta al nostro alias, corredando

M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 9

1

0

0

0

1

50

FIGURA 5Uno script che

genera l'[email protected]

Page 14: PERCHÉÈCOSÌDIFFICILE COMBATTERELOSPAM?archivio-mondodigitale.aicanet.net/Rivista/09_numero_1/Damiani p... · mentedalserverSMTPdelloromittente.Se - condomoltiosservatori,ladatad’iniziodello

il messaggio di risposta di un suo alias, e daquel momento potremo proseguire a comu-nicare usando gli alias monouso allegati aogni messaggio.Per rimanere compatibili con il normale reca-pito SMTP, gli alias avranno sempre l’indiriz-zo master come suffisso, come segue:

[email protected]

Gli alias potranno così essere risolti sugliMTA di recapito. Gli alias monouso sono lanostra principale speranza di liberarci defini-tivamente degli spammer: valgono per unasola consegna e rendonomolto più costoso edifficile il lavoro dello spammer. Ovviamenteè possibile pensare a varie categorie di alias,magari accettabili più volte o da un gruppo dimittenti predefinito.

9. CONCLUSIONI

È abbastanza chiaro che gli attuali algoritmi diindividuazione e filtraggio dello spam basatisul contenuto dei messaggi hanno efficacia li-mitata se imessaggi sonografici e/opersona-lizzati rispetto ciascun destinatario. Oggi glispammer hanno a disposizione gli strumenti

(se non la conoscenza) per realizzare templa-tedimessaggi che possono creare un numeroelevatissimo di messaggi univoci. Il numerodelle permutazioni che possono essere pro-dotte da questi strumenti è sufficiente per so-praffare i sistemi tradizionali antispam, perquanto ingegnosi siano gli algoritmi di classi-ficazione che utilizzano. A volte l’aggiunta aisistemi antispam di precauzioni semplici, co-me proibire del tutto il recapito di immaginibitmap come allegati, può migliorarne note-volmente l’efficacia, ma non c’è alcun dubbioche – in attesa di tecniche crittografiche vera-mente efficaci per la generazione e la risolu-zionedi indirizzimonouso – il vantaggio resta,almeno per ora, dalla parte degli spammer.Gli strumenti per creare spam guidati da tem-plate hanno raggiunto una certamaturità, e latecnologia antispam deve quindi migliorare.Per quanto riguarda il filtraggiodel contenuto,allo studio ci sono nuove tecniche statistichee di apprendimento computazionale che uti-lizzano la regolarità tipiche dei messaggi ge-nerati a partire da template invece di concen-trarsi, come quelli attuali, sulle regolarità tipi-che dei messaggi scritti a mano. La battagliatra spammer e tecniche antispam non è co-munque destinata a terminare tanto presto.

M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 9

1

51

0

0

0

1

Il primo Paese a prendere contromisure normative contro lo spam sono stati gli USA, che sulla basedi una legge federale già in vigore contro l’abuso dei fax, diedero vita alla CAUCE (Cohalition Again-st Unsoliticed Commercial Email), per porre rimedio al vuoto legislativo in materia di e-mail non ri-chieste. Questo compito richiese molto tempo, anche per la continua controffensiva degli spammerche premevano per legalizzare l’opt-out (ossia la possibilità di negare l’invio di e-mail non richiestesolo dopo averle ricevute).Nel 2003 finalmente il Congresso americano varò la nuova legge federale “CAN-SPAM Act of 2003”.Questa legge si fondava sul principio dell’opt-out e attribuiva il titolo di agire contro gli spammer aisoli Internet provider, e non agli utenti finali dei servizi di posta.In Europa furono fatti vari tentativi per giungere ad una legislazione comune. Il risultato fu la Di-rettiva 2002/58/CE del Parlamento Europeo e del Consiglio del 12 luglio 2002, che costituì l’ob-bligo per gli Stati aderenti alla Comunità Europea di emanare provvedimenti legislativi sul princi-pio dell’opt-in e quindi del preventivo consenso del destinatario.In Italia la principale fonte normativa sull’argomento è la legge 675/96 sulla protezione dei dati per-sonali. L’indirizzo di posta elettronica è considerato come un dato personale, anche se non contie-ne il nome del titolare. La legge sulla privacy non vieta direttamente l’invio di posta commerciale,ma limita l’uso dell’indirizzo di posta elettronica in determinati casi. Un principio importante è chegli indirizzi e-mail reperibili su internet non sono pubblici e non possono essere usati per fini com-

AAppppeennddiiccee 11 -- AA SS PP EE TT TT II NN OO RR MM AA TT II VV II EE LL EE GG AA LL II

segue

Page 15: PERCHÉÈCOSÌDIFFICILE COMBATTERELOSPAM?archivio-mondodigitale.aicanet.net/Rivista/09_numero_1/Damiani p... · mentedalserverSMTPdelloromittente.Se - condomoltiosservatori,ladatad’iniziodello

M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 9

1

0

0

0

1

52

Gli spammer usano diverse tecniche per recuperare gli indirizzi di posta a cui inviare i loro messag-gi indesiderati.Le principali sono elencate di seguito:

• Dictionary attack: questa tecnica molto diffusa si basa semplicemente sull’indovinare gli indi-rizzi. Più precisamente lo spammer cerca di comporre e generare indirizzi che potrebbero effet-tivamente esistere. Per la parte destra della chiocciola (@) usa nomi di dominio validi e per laparte sinistra genera stringhe in base a qualche logica, per lo più nomi di persone. Per questomotivo l’indirizzo [email protected] è uno dei più soggetti a questo tipo di attacco.

• Address list: un secondo sistema consiste nell’acquisire liste di indirizzi da soggetti che li rac-colgono per poi rivenderli. Le liste di indirizzi selezionate, per esempio, sull’attività professio-nale del destinatario vengono vendute a prezzi elevati, che possono arrivare a diversi dollari perindirizzo nel caso di medici e commercialisti.

• Spambot: come abbiamo visto nell'articolo, uno spambot o harvester è un particolare tipo diweb-crawler in grado di raccogliere gli indirizzi e-mail dai siti web, dai newsgroup, dai post deigruppi di discussione e dalle conversazioni delle chat-room. Gli basano sullo stesso principiodel funzionamento degli spider dei motori di ricerca, ma a differenza di questi ultimi estraggonodalle pagine web tutti gli indirizzi presenti.

AAppppeennddiiccee 22 -- LL AA RR AA CC CC OO LL TT AA DD II II NN DD II RR II ZZ ZZ II

merciali. Non basta quindi, per poter considerare pubblico un indirizzo di e-mail, il fatto che tale in-dirizzo sia conoscibile, in determinate circostanze, da una pluralità di persone come può succedereper un indirizzo pubblicato su Internet. Inoltre non possono essere considerati pubblici neanche gliindirizzi di e-mail che vengono pubblicati su forum o newsgroup. Gli indirizzi e-mail in rete possonoessere utilizzati solo per le finalità che hanno portato alla loro pubblicazione. Questo principio ren-de pertanto non conformi alla legge né la raccolta automatica di indirizzi di e-mail presenti su inter-net né la loro creazione artificiosa, attività che si possono realizzare oggi con appositi software.Inoltre, la legge obbliga le persone fisiche o giuridiche a cui sono stati consegnati i dati, a fornireuna descrizione chiara e precisa di quale uso ne verrà fatto: lettura, memorizzazione, trasferimentoa terze parti, comunicazioni di servizio o comunicazioni commerciali; inoltre nel momento in cui siforniscono i dati, o in qualunque momento successivo, i titolari dei dati hanno il diritto di sapere en-tro 5 giorni dalla richiesta in quali termini verranno utilizzati o anche di limitarne o proibirne com-pletamente l’uso.Questo elemento è molto importante perché neutralizza la difesa degli spammer che si basa sullaclassificazione degli indirizzi di posta elettronica reperiti sul web come pubblici. È possibile quindiperseguire contro gli spammer già grazie alla legge 675/96 anche se in realtà il procedimento si ri-vela lungo e costoso e soprattutto riguarda solo gli spammer italiani.Sono state poi varate anche legislazioni più specifiche in materia. Per primo il decreto legislativo171 del 1998, il quale sancisce che il costo pubblicitario deve essere sostenuto interamente da chi fala pubblicità e non da chi la subisce. Da segnalare anche il decreto legislativo n.185 del 22 maggio1999 che, quando ancora la Comunità Europea non si era espressa in materia, schierò l’Italia sulfronte opt-in. Dopo una serie di interventi mirati alla sospensione di attività illecite o alla denunciaall’autorità giudiziaria di talune aziende o persone fisiche il Garante della privacy è sceso in campoin maniera chiara e dettagliata per disciplinare l’argomento. Il decreto legislativo 30 giugno 2003 n.196, denominato “Codice in materia di protezione dei dati personali”, entrato in vigore dall’1 gen-naio 2004, infatti, recepì nell’ordinamento italiano la direttiva europea 2002/58/CE e precisò variaspetti legali riguardanti l’invio in Internet di e-mail promozionali o pubblicitarie.

Page 16: PERCHÉÈCOSÌDIFFICILE COMBATTERELOSPAM?archivio-mondodigitale.aicanet.net/Rivista/09_numero_1/Damiani p... · mentedalserverSMTPdelloromittente.Se - condomoltiosservatori,ladatad’iniziodello

BIBLIOGRAFIA

[1] Nancy McGough: Reverse spam filtering -WinningWithout Fighting, 4 settembre 2002. In: InfiniteInk, http://www.ii.com/internet/messaging/-spam/ (consultato il 2 dicembre 2008).

[2] Paul Graham, A plan for spam,http://www.paulgraham.com/spam.html

[3] Ernesto Damiani, Sabrina De Capitani di Vi-mercati, Stefano Paraboschi Pierangela Sama-rati, Andrea Tironi, Luca Zaniboni: Spam at-tacks: P2P to the rescue. Proceedings of the

13-th international conference on World WideWeb (WWW 2004), 2004.

Siti interessantiSpamAssassin, http://eu.spamassassin.org/ .

Vipul’s Razor, http://razor.sourceforge.net/ .

Cloudmark, http://www.cloudmark.com/ .

Despammed, http://www.despammed.com/ .

Spamex, http://www.spamex.com/ .

Spam Arrest, http://www.spamarrest.com/

M O N D O D I G I T A L E • n . 1 - m a r z o 2 0 0 9

1

53

0

0

0

1

ERNESTO DAMIANI si occupa di sicurezza nei Web services, processing di informazioni semi o non strutturate, se-manticsaware content engineering per il multimedia, modelli e piattaforme per lo sviluppo di codice opensource, infrastrutture e protocolli di rete avanzati, design e sviluppo di ambienti di rete sicuri ad alte presta-zioni. È membro di numerosi editorial boards e ha pubblicato numerosi libri e circa 200 articoli scientifici oltrea brevetti internazionali. Collabora all’organizzazione di molti congressi, conferenze e workshop. E-mail: [email protected]