Photo de couverture : José-Marcio Martins da Cruz

Documents pareils

Contribution au classement statistique mutualisé de messages électroniques (spam)

Le spam introduction. Sommaire

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Introduction au datamining

Couche application. La couche application est la plus élevée du modèle de référence.

L apprentissage automatique

Introduction au Data-Mining

Groupe Eyrolles, 2005,

L E S M E S S A G E S S P A M & P H I S H I N G

DNS et Mail. LDN 15 octobre DNS et Mail. Benjamin Bayart, Fédération FDN. DNS - fichier de zone. DNS - configuration

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Apprentissage Automatique

Divers éléments. Protocoles d'applications. Un agent Utilisateur. MUA - Agents Utilisateurs de Courriel. Simple Mail Transfer Protocol

Classification Automatique de messages : une approche hybride

d évaluation Objectifs Processus d élaboration

La classification automatique de données quantitatives

INF6304 Interfaces Intelligentes

Mail-SeCure sur une plateforme VMware

LIVRE BLANC COMBATTRE LE PHISHING. Auteur Sébastien GOUTAL Responsable Filter Lab. Janvier

2008 Spam École et TIC

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

0.1 Mail & News : Thunderbird

MARKETING. Foyer Assurances - Luxembourg

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

spam & phishing : comment les éviter?

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Introduction au Data-Mining

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

LIVRE BLANC Décembre 2014

Bien architecturer une application REST

Coup de Projecteur sur les Réseaux de Neurones

COMMENT PROTÉGER LE FLUX SORTANT?

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Campagne de Communication Prévisionnelle. Web Intelligence & Réputation Internet

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

MailCube MC 2. 2,5 jours / homme / an. 33 milliards de kwh. 17 millions de. 3,1 millions de. nouvelle génération. Le spam en quelques chiffres :

Le phénomène du SPAM en 2003!!!

Laboratoire 4 Développement d un système intelligent

4.2 Unités d enseignement du M1

Section Configuration

Se protéger des Spams

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

Créée en 2002, la société PineApp est pionnière sur le. Le siège de la société se trouve aux États-Unis, avec des

Manuel d utilisation du web mail Zimbra 7.1

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

La pratique de la gestion des services. Lier les composants techniques avec les services d opérations dans la CMDB

Afin d accéder à votre messagerie personnelle, vous devez vous identifier par votre adresse mail et votre mot de passe :

18 TCP Les protocoles de domaines d applications

MESSAGERIE SANTE-LORRAINE Documentation utilisateurs Gestion des spams V1.2

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Créer le schéma relationnel d une base de données ACCESS

Partie II Approche théorique

Efficace et ciblée : La surveillance des signaux de télévision numérique (2)

Améliorer les performances du site par l'utilisation de techniques de Web Mining

!-.!#- $'( 1&) &) (,' &*- %,!

Introduction à la méthodologie de la recherche

Contrat de Niveau de Service pour les Services en Ligne Microsoft

Raisonnement probabiliste

Manuel d utilisation de la messagerie.

Exemple d utilisation des outils MicroSave-Africa au Brésil

Pourquoi l apprentissage?

SOMMAIRE. 1. Connexion à la messagerie Zimbra Pré-requis Ecran de connexion à la messagerie 4

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Chapitre 2 Le problème de l unicité des solutions

Synthèse «Le Plus Grand Produit»

Fiche pratique FP12 Clubs Microcam et Communautés Numériques 1

DEMANDE D INFORMATION RFI (Request for information)

NON-LINEARITE ET RESEAUX NEURONAUX

Sommaire. 1 Introduction Présentation du logiciel de commerce électronique 23

Tout au long de l année

Principe de symétrisation pour la construction d un test adaptatif

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Plan de notre intervention 1. Pourquoi le test de charge? 2. Les différents types de tests de charge 1.1. Le test de performance 1.2.

Appliances et logiciels Security

Les Entrepôts de Données

Aide Webmail. L environnement de RoundCube est très intuitif et fonctionne comme la plupart des logiciels de messagerie traditionnels.

CAPTEURS - CHAINES DE MESURES

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Rapport d'analyse des besoins

Document d orientation sur les allégations issues d essais de non-infériorité

Indications pour une progression au CM1 et au CM2

Systèmes d information et bases de données (niveau 1)

Académie de Créteil. Projet présenté autour de l album «Trois souris peintres» d Ellen Stoll Walsh

Utilisation avancée de SugarCRM Version Professional 6.5

WordPress Référencement naturel (SEO) Optimiser. son référencement. Daniel Roch. Préface d Olivier Andrieu

PROGRAMME DES NATIONS UNIES POUR LE DEVELOPPEMENT

S8 - INFORMATIQUE COMMERCIALE

les Formulaires / Sous-Formulaires Présentation Créer un formulaire à partir d une table...3

Comment se protéger contre les s suspicieux?

INTRODUCTION AU DATA MINING

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

et Active Directory Ajout, modification et suppression de comptes, extraction d adresses pour les listes de diffusion

Guide Utilisateur simplifié Proofpoint

Transcription:

José-Marcio Martins da Cruz, Spam : Classement statistique de messages électroniques - Une approche pragmatique, Paris : Presses des MINES, collection Mathématiques et informatique, 2012. TRANSVALOR - Presses des MINES, 2012 60, boulevard Saint-Michel - 75272 Paris Cedex 06 - France email : presses@mines-paristech.fr www.pressesdesmines.com Photo de couverture : José-Marcio Martins da Cruz ISBN : 978-2-911256-83-7 Dépôt légal : 2012 Achevé d imprimer en 2012 (Paris) Tous droits de reproduction, de traduction, d adaptation et d exécution réservés pour tous les pays.

Spam : Classement statistique de messages électroniques Une approche pragmatique

Collection Mathématiques et informatique Dans la même collection X. Deshen, P. Montesinos IWIA 2010 International Workshop on Image Analysis S. Desprès, M. Crampes IC 2010 21 es Journées Francophones d Ingénierie des Connaissances C. Laurgeau Le Siècle de la voiture intelligente Direction : P. Fuchs, Coordination générale : G. Moreau, Coordination du volume : J-M. Burkhardt et S. Coquillart Le Traité de la réalité virtuelle vol.2 L interfaçage, l immersion et l interaction en environnement virtuel Direction Philippe Fuchs, Coordination générale G. Moreau, coordination du volume : A. Berthoz et JL. Vercher Le Traité de la réalité virtuelle vol.1 L Homme et l environnement virtuel Direction : P. Fuchs, Coordination générale : G. Moreau; Coordination du volume : S.Donikian Le Traité de la réalité virtuelle vol.5 Les humains virtuels Edited by J. Cagnol and J-P. Zolesio, InformationProcessing Recent Mathematical Advances in Optimization and Control Direction : P. Fuchs, Coordination générale : G Moreau, Coordination du volume : B. Arnaldi et P. Guitton Le Traité de la réalité virtuelle vol.4 Les applications de la réalité virtuelle F. Goulette Modélisation 3D automatique Outils de géométrie différentielle Direction : P. Fuchs, Coordination générale : G. Moreau, coordination du volume : G. Moreau et J. Tisseau Le Traité de la réalité virtuelle vol.3 Outils et modèles informatiques

Spam : Classement statistique de messages électroniques Une approche pragmatique José-Marcio Martins da Cruz

À mes parents Marcelino da Cruz (1899-2000) Palmira Pereira Martins da Cruz (1912-2002) Le mérite de cet ouvrage ne revient pas uniquement à l auteur. Nombreux sont ceux qui, d une façon ou d une autre, ont contribué à sa réalisation. Je me contente de citer ceux dont la contribution a été fondamentale. Tout d abord, Alain Galli, professeur à l Ecole des Mines de Paris, pour le soutien indispensable en statistiques, a largement contribué avec des suggestions, en particulier, dans l utilisation des séries temporelles. Les discussions que j ai eu, avec beaucoup de plaisir, avec Gordon V. Cormack de l Université de Waterloo m ont été utiles, d une part, dans l établissement d un modèle de classement en ligne de messages et, d autre part, dans la définition de la méthodologie d évaluation des classificateurs. Gladys Huberman, directrice du Centre de Calcul et des Systèmes d Information de l Ecole des Mines qui, autres les discussions techniques, a accordé les conditions matérielles pour effectuer ces travaux un soutien long et indispensable. Enfin, je tiens à remercier Sandra Rodrigues, des Presses de l Ecole des Mines, pour le travail méticuleux et indispensable de relecture. i

Avant propos Somos irmãos, José-Márcio e eu. Nascemos em terras encharcadas, aquelas terras que escancaram suas portas para as águas do rio Paraguai formando assim desenhos transparentes cobertos de tintas azuis das águas e verdes das matas : o Pantanal do Brasil. Viemos ao mundo através de pais que nos ensinaram que a alegria e a coragem é saúde para a vida toda. Eles são o nosso porto. A gente foi criada rente ao chão, ganhava o tempo cuidando de fazer contas de cabeça, sem comparações. Vejo de volta esses números, um solo de abstrações, na tese do meu irmão mais novo. Há no tronco da língua portuguesa, uma palavra que me afeta pelo lado esquerdo da coragem e talvez pela quantidade de sal que carrego nos vãos do meu corpo por conta de uma coisa que se herda ainda no útero, o andor sagrado e a casa de habitação. Essa palavra é Finisterra. O sentido quase inteiro dessa palavra nos é dado pela geografia física e pelo sentimento lusitano de se lançar ao mar. Da geografia, vem a noção de ponto mais ocidental do continente europeu que é um chão de pedra cercado de mar e céu. O outro vem do homem que habita esse solo e, que na época dos Descobrimentos, pensou o horizonte como a linha que fecha o seu território. Finisterra era, para os portugueses, aquela ponta de terra no extremo sudoeste de Portugal onde se fincou um mirante imaginário : o horizonte. Por herança e honra paterna, recebemos um fragmento inteiro dessa palavra Finisterra para as nossas vidas. Essa é a nossa comunhão de bens. José-Márcio finda a sua tese, aqui se acaba a terra, o cabo mais ao sul daquela herdade que se anda firme, mas que chega um dia que há-de se romper àquela ponta de terra e alcançar o mar e fazer crer que o fim da terra é o primeiro ato. Não tem como ficar na fronteira, está-se no limite. Por limite, entendo uma grandeza constante, da qual outra grandeza pode aproximar-se indefinidamente sem nunca atingi-la. Há sempre passos a dar ainda que à estaca zero, que se recria, que se recomeça. Aquece o meu coração saber que, lá atrás quando andávamos de bicicleta pelas ruas de terra vermelha da nossa cidade do interior, não havia destino traçado, mas sim uma história a ser escrita pelo próprio punho, como esta tese. E liberdades! iii

Jose-Marcio est mon frère. Nous sommes nés sur des terres trempées, qui ouvrent violemment leurs portes aux eaux de la rivière Paraguay formant des dessins translucides colorés par le bleu des eaux et le vert des forêts : le Pantanal du Brésil. Nos parents nous ont appris que la joie et le courage nous procureront la santé durant toute notre vie. Ils sont notre port. Nous avons été élevés proches de la terre et nous passions notre temps à faire du calcul mental. Aujourd hui, je retrouve ces chiffres, telle une partition d abstractions, dans la thèse de mon plus jeune frère. Dans la langue portugaise il existe un mot qui me touche par son côté malhabilement courageux, peut-être à cause de la quantité de sel que je porte dans mes entrailles, le résultat de quelque chose qui se transmet déjà dans l utérus. Ce mot est Finisterra 1. Le sens de ce mot nous est donné par la géophysique et par le sentiment lusitanien de s élancer vers la mer. De la géographie vient la notion de point le plus occidental du continent européen, un sol de pierres entouré par la mer et le ciel. La notion de sentiment vient de l homme qui habite ce sol et qui, du temps des Découvertes, pensait que l horizon constituait la fin de son territoire. Finisterra était, pour les Portugais, cette pointe de terre à l extrême sud-ouest du Portugal où un belvédère imaginaire était transpercé : l horizon. Nos parents nous ont légué un fragment intact de ce mot Finisterra. C est là notre communion de biens. José-Marcio achève sa thèse, ici finit la terre, le cap le plus au sud de la terre ferme, mais qui un jour s en détachera et prendra la mer pour faire croire que la fin de la terre était seulement le premier acte. Impossible de rester aux abords, à la limite. Par limite, j entends une grandeur constante qu une autre grandeur peut approcher indéfiniment, sans jamais l atteindre. Il y a toujours des pas à faire, même au point de départ, qui, lui, se renouvelle, se recrée. Cela me réchauffe le cœur de savoir que, par le passé, quand nous faisions du vélo dans les rues de terre rouge de notre petit village, nous n avions pas une destinée toute tracée, mais une histoire à écrire de nos propres mains, comme cette thèse. Liberté! Lucenne Cruz Rio de Janeiro, Brésil, le 12 juin 2011 1 N.d.t. - Au Portugal, Finisterra fait référence au Cabo da Roca sis à 42 km à l ouest de Lisbonne. Le poète Luis de Camões (1525-1580) décrivait le cap dans les Lusiadas comme l endroit où la terre s arrête et où la mer commence. iv

Préface Qui n a pas été confronté aux courriers indésirables, les spams? Ce phénomène qui s est développé dans les années 1990 est une véritable plaie. Les spams représentent actuellement l essentiel du trafic de messagerie et il est vital de pouvoir les détecter et les éliminer de façon satisfaisante. Le livre de José-Marcio Martins da Cruz issu de sa thèse fait le point de façon très pédagogique sur le sujet. Il commence par un volet historique où il relate l origine du nom de spams pour désigner ces messages, très vite on entre dans le vif du sujet en abordant les classificateurs statistiques. L auteur s intéresse ensuite à l évolution temporelle des flots de spams, et aux méthodes d apprentissage actif. Cette évolution temporelle, peu ou pas abordée dans ce domaine, fait l objet d une étude spécifique dans laquelle il est montré que des flots de spams provenant de différents corpus ont des caractéristiques statistiques et temporelles communes et que les flots de hams et de spams ont des dynamiques différentes. Par ailleurs les scores des classificateurs se dégradent en fonction de la date de mise à jour de la base d apprentissage, mais la dégradation est en fait assez lente pour ne pas nécessiter de fréquentes mises à jour de cette base Dès les premières pages on se rend compte que l expérience de José Marcio lui permet de prendre un grand recul sur le sujet ce qui donne à son livre un style ou transparait une vision très personnelle du domaine. Une des conséquences est que cet ouvrage, bien qu assez technique se lit avec plaisir. Ce qui fait la grande originalité et une partie de l intérêt de cet ouvrage est la remise en cause par l auteur de beaucoup d idées communément répandues dans le traitement des spams. Le mieux est de le citer : Un de ces mythes consiste à dire que l utilisation mutualisée d un filtre de contenu pour classer les messages d une communauté n est pas faisable puisque les boites aux lettres de personnes différentes sont différentes (sic). Un des objectifs de cette recherche a été justement l étude systématique de ce contexte et nous avons pu démontrer que l on peut obtenir des résultats satisfaisants avec des solutions relativement simples. Alain Galli Paris, le 20 mai 2012 v

Introduction Il faut se méfier des ingénieurs. Ça commence par la machine à coudre et ça finit par la bombe atomique. Marcel Pagnol Internet et les messages indésirables La création d Internet remonte aux années 1970, à l initiative du DARPA, pour faciliter les communications entre les chercheurs et les départements de l administration américaine. Dans les années 1990, Internet est devenu un outil grand public qui, petit à petit, a pris une part importante dans le fonctionnement de notre société aussi bien sur le plan individuel que dans les entreprises et organismes de l administration grâce aux applications Web et à la messagerie électronique. Dans les organisations professionnelles, ces applications ont pris une place si importante que leur activité parfois cesse en cas d indisponibilité ou de mauvais fonctionnement. Parmi les plaies se propageant par la messagerie électronique se trouvent les virus et les spams. Ces derniers sont les messages électroniques envoyés aveuglement et en masse et proposant, par exemple, toute une panoplie de produits pharmaceutiques, de la contrefaçon ou encore de la pornographie. Jusqu à la fin des années 1990 l activité spam était restée marginale. Aujourd hui, les estimations divergent mais globalement on estime que le spam génère entre 70 % et 95 % du trafic SMTP sur Internet. Il s agit d une gêne au trafic puisque d une part il faut dimensionner les infrastructures réseau en conséquence et d autre part cela constitue une perte de temps pour les destinataires de ces messages. Depuis la fin des années 1990, une panoplie de solutions de filtrage sont apparues, certaines basées sur l identification du chemin parcouru par le message et d autres basées sur le contenu des messages, certaines objectives et d autres moins, voire farfelues. L empirisme d un nombre de solutions a créé un nombre important de mythes et de fausses idées. vii

Un de ces mythes consiste à dire que l utilisation mutualisée d un filtre de contenu pour classer les messages d une communauté n est pas faisable puisque les boîtes aux lettres de personnes différentes sont différentes sic. Un des objectifs de cette recherche a été justement l étude systématique de ce contexte et nous avons pu démontrer que l on peut obtenir des résultats satisfaisants avec des solutions relativement simples. Un spam, un ham, c est quoi, exactement? SPAM 2 est un produit à base de viande épicée et conditionné en boîte. Ce mot est formé des initiales de Shoulder Pork and ham ou SPiced ham. En 1970, le groupe Monty Python Flying Circus a présenté un sketch qui se passait dans un restaurant où tous les plats du menu étaient faits avec SPAM. Le sketch finissait par une cacophonie où tous chantaient : Spam, spam, spam, spam, spam, spam, spam, spam, lovely spam! Wonderful spam! 3. L utilisation du mot spam pour ce référer à cette catégorie de messages indésirables vient du caractère répétitif et envahissant de ce mot dans le sketch. Il y a plusieurs définitions de spam, certaines plus restrictives que d autres. Les entreprises de marketing, par exemple, essaient de promouvoir une définition assez faible de façon à ce que la publicité, même sauvage, ne soit pas considérée comme du spam. Dans le contexte de ces travaux, nous avons considéré comme spam les messages satisfaisant, en même temps, les trois critères suivants : les messages n ont pas été sollicités et n ont aucun intérêt; les messages ont été envoyés en masse; le destinataire ne connait pas l expéditeur (même si l inverse peut ne pas être vrai). Cependant, cette définition admet une appréciation subjective, en particulier du premier critère, où l expression non sollicité est remplacée par non souhaité. Ce flou est néanmoins inévitable et ajoute une incertitude dans les résultats que nous avons pu observer dans la partie expérimentale. Malgré la diversité des définitions et les controverses, cette définition semble être la plus acceptable car elle tend vers l appréciation faite par le destinataire. C est, à notre avis, l objectif de toute application de classement : la satisfaction de l utilisateur. Les messages indésirables sont parfois aussi désignés par UBE (Unsollicited Bulk Email) ou UCE (Unsollicited Commercial Email). Les messages légitimes, par opposition aux spams, sont souvent désignés par le mot ham probablement pour dire que spam, c est mauvais mais ham, c est bon. 2 SPAM est une marque déposée de Hormel Foods - http://www.spam.com. 3 On peut retrouver ce sketch sur internet, par exemple, à http://www.youtube.com/ watch?v=odshb09fq8w ou http://www.montypython.net/scripts/spamskit.php. viii

Le filtrage de spam basé sur le contenu Chapitre 0. Introduction Une approche souvent utilisée pour filtrer le spam est de vérifier si un message en cours d examen satisfait un certain nombre de critères des règles. Si oui, le message est refusé et, dans le cas contraire, le message est accepté. Ces critères sont par exemple : la présence de l expéditeur dans une liste noire, un nombre important de messages du même expéditeur dans une période très courte ou encore la présence de certains mots (viagra, pornographie, etc.) dans le contenu du message. En général, un seul critère ne suffit pas pour atteindre un niveau d efficacité satisfaisant : il faut alors les combiner. Mais la combinaison optimale n est pas forcément triviale à trouver et, assez souvent, cela se fait grâce à des simplifications pas toujours justifiées. Dans une approche naïve, les critères sont établis à l avance et manuellement. Il s agit de construire une fonction dont le paramètre en entrée est une représentation du message à classer (qu il ait déjà été vu ou pas) et le résultat est l étiquette indiquant l appartenance à une des classes possibles : ham ou spam. La difficulté vient du fait qu il n y a pas de modèle mathématique permettant d associer une classe à un message et, s il y en avait un, il serait très complexe. L approche alternative, l apprentissage artificiel, consiste à utiliser un ensemble d exemples, avec les étiquettes associées, de taille suffisante pour être représentatif de l ensemble des messages, et de laisser un certain algorithme apprendre la relation fonctionnelle pouvant exister entre l ensemble d exemples et l ensemble de classes. Cette relation fonctionnelle, dans le sens mathématique, peut ne pas exister dans tous les cas. L objectif est que la relation, apprise sur un petit nombre d exemples, puisse être généralisée à l ensemble des messages possibles, avec un faible taux d erreur. Un ensemble de critères est toujours nécessaire. Soit les critères sont renseignés explicitement, soit on se contente de définir une heuristique permettant à l algorithme de construire lui-même cet ensemble de critères. C est ce qui se passe dans une application de classement d objets textuels, où le dictionnaire est constitué pendant l apprentissage et non pas établi à l avance. Ces critères sont appelés attributs (features) et peuvent correspondre, par exemple, à la présence ou l absence d un mot du dictionnaire dans le message. L approche par apprentissage artificiel est particulièrement intéressante lorsqu il n y a pas de modèle mathématique ou lorsque ce modèle est trop complexe. Cette approche, appliquée au contenu des messages, est celle qui nous intéresse dans ces travaux, même si nous reconnaissons que ce n est pas la seule approche efficace. Il existe une dualité entre l apprentissage artificiel et l inférence statistique [260, p. 11], avec utilisation de termes différents pour représenter les mêmes choses. Néanmoins, il y a une différence de principe entre ces deux domaines : le premier s intéresse plus à l aspect algorithmique du problème tandis que le deuxième s occupe plutôt de la compréhension et de la modélisation des données. Nous estimons que les technologies de filtrage sont arrivées à un point où l amélioration de l efficacité des filtres actuels passe nécessairement par une meilleure compréhension du problème et des données. ix

La démarche de nos travaux Les techniques employées actuellement dans les logiciels libres ou commerciaux semblent avoir atteint leurs limites. Les grands fournisseurs de solutions de filtrage tablent sur des méthodes telles que les listes noires 4 ou les listes de réputation 5. L expérience montre que ces solutions permettent de dégrossir largement le flot de messages, mais lorsque l on cherche une efficacité plus importante, il faut faire appel à des méthodes de filtrage basées sur le contenu, que ce soient des classificateurs statistiques ou des classificateurs avec des règles fixes. L utilisation des classificateurs statistiques a souvent été considérée d un intérêt limité à un usage individuel. Les résultats de recherche traitant de leur utilisation partagée sont, à notre connaissance, très rares et ne permettent pas de tirer des conclusions. Nous nous intéressons justement à l utilisation partagée d un classificateur statistique dans une communauté telle qu une université ou un organisme de recherche, avec des milliers d utilisateurs de la messagerie, des centres d intérêt assez diversifiés, mais ayant un minimum de caractéristiques communes. Depuis une dizaine d années, l utilisation de classificateurs statistiques pour le filtrage de spam est dominée par les classificateurs dit bayésiens développés par les praticiens des logiciels libres. Le domaine de la recherche s intéresse à la problématique du spam depuis longtemps, avant même les praticiens, mais, comme nous verrons dans le chapitre consacré à l historique, il y a un fossé considérable entre ces deux communautés qui ont, parfois, du mal à se parler. Nous essayons de combler cette lacune par une modeste incursion dans les domaines d apprentissage artificiel et de la statistique. Notre démarche s est partiellement inspirée de l abstract d un article publié par David Hand : A great many tools have been developed for supervised classification, ranging from early methods such as linear discriminant analysis through to modern developments such as neural networks and support vector machines. A large number of comparative studies have been conducted in attempts to establish the relative superiority of these methods. [...] these comparisons often fail to take into account important aspects of real problems, so that the apparent superiority of more sophisticated methods may be something of an illusion. In particular, simple methods typically yield performance almost as good as more sophisticated methods, to the extent that the difference in performance may be swamped by other sources of uncertainty that generally are not considered in the classical supervised classification paradigm. David Hand - Classifier Technology and the Illusion of Progress [125] 4 Par exemple, Spamhaus - http://www.spamhaus.org. 5 Par exemple, Cisco/Ironport http://www.senderbase.org. x

Chapitre 0. Introduction Cette remarque faite à la marge d un article de conférence ainsi qu un autre article de Leo Breiman [38], quelques années avant, ont suscité des réactions et des commentaires intéressants de la part de chercheurs reconnus tels D. R. Cox, Brad Efron ou encore Emanuel Parzen. Néanmoins, malgré leur divergence sur des points spécifiques, on observe une unanimité sur la pertinence de la remarque. Leo Breiman compare deux cultures : celle des statisticiens et celle des spécialistes de la modélisation algorithmique (intelligence artificielle), avec un penchant pour cette dernière. Il ressort de ce dialogue que ces démarches sont, toutes les deux, complémentaires et nécessaires. Ces remarques ont été faites dans des contextes de classement autres que celui du classement de messages électroniques, avec une portée générale sur la problématique de classement utilisant des techniques d apprentissage artificiel. Ceci explique notre démarche. De nombreux travaux ont été publiés sur le spam mais, à notre connaissance, assez peu ont été vraiment évalués dans des conditions réelles et se sont limités à l aspect algorithmique du problème. Notre démarche a consisté à : utiliser un classificateur relativement simple, adapté au contexte réel; utiliser des données réelles, collectées sur une période assez longue; comprendre, le mieux possible, les limitations liées au contexte; comparer les résultats obtenus avec des données réelles et synthétiques, et publiées par ailleurs. L objectif de ces travaux de recherche n est pas de proposer une solution optimale à la problématique du spam mais de faire une pause et rechercher une meilleure compréhension de la problématique et comprendre les limites de ce que l on peut obtenir avec un classificateur suffisamment simple. Travaux similaires et contributions De nombreux travaux portant sur des points particuliers de la problématique de filtrage de spam ont déjà été publiés : des propositions d algorithmes et de méthodes de filtrage. Les travaux qui nous ont semblé les plus intéressants sont ceux de Gordon Cormack (par exemple [61], [71], [58] ou [60]), qui a été le premier à vouloir sortir de la logique de recherche du meilleur algorithme de filtrage de spam. Comme nous verrons dans le chapitre sur l historique, sa contribution principale porte, d une part, sur la constatation que le filtrage de messages électroniques est un problème de classement en ligne et non en batch et, d autre part, sur l élaboration d une méthodologie d évaluation de filtres, basée sur l utilisation d un corpus unique et commun de messages. La première contribution de nos travaux porte sur l amélioration de la connaissance de la problématique du spam. Quasiment tous les algorithmes connus en apprentissage artificiel ont déjà été expérimentés, avec des résultats très bons. La question qui se pose est : faut-il chercher des algorithmes encore plus performants ou faut-il étudier les données pour comprendre ce qui empêche d aller plus loin? Nous avons choisi la deuxième option. Pour cela, nous utilisons des données réelles et non plus synthétiques, et nous étudions xi

l évolution temporelle et le résultat de classement de flots de messages à l aide d outils telles les séries temporelles et des demi-variogrammes. La deuxième contribution résultant de notre démarche donne suite au commentaire de Hand discuté dans la section précédente. Nous avons cherché à utiliser un algorithme de classement aussi simple que possible, mais construit astucieusement, de façon à pouvoir identifier ses possibles faiblesses et limitations. S il y a des améliorations à faire, elles pourraient être faites justement pour combler ces points. Assez souvent, on considère que les caractéristiques des flots de messages varient beaucoup avec leur âge et qu un classificateur doit impérativement être construit avec des messages de même âge que les messages à classer. Avec Gordon Cormack [63] [82] nous avons démontré que si l on prend la précaution de supprimer les références temporelles, la dérive des caractéristiques statistiques des messages n est pas aussi importante, ce qui nous permet d utiliser, dans certaines limites, indifféremment des messages récents ou plus anciens dans l apprentissage d un filtre. Sur les méthodes de filtrage, nous avons étudié la combinaison d une boucle de retour d information de classement correct et l apprentissage en ligne par approximation stochastique. Notre objectif initial était l étude de l utilisation partagée d un filtre de messages, basé sur le contenu, dans une communauté. Nous avons utilisé le classificateur simple pour démontrer que dans les conditions d expérimentation l efficacité restait encore bonne que les messages soient destinés à un seul utilisateur ou à un petit groupe, assez hétérogène, pour qui nous avons pu collecter des échantillons de messages. Dans une deuxième partie de nos contributions (ou plutôt des perspectives), nous avons effleuré quelques domaines permettant de mieux connaître et/ou modéliser les flots de messages. Ces voies n ont pas été complètement traitées, mais nous avons estimé utile de les mentionner comme des pistes pour de nouvelles recherches. Organisation de ce livre La première partie de ce livre constitue une introduction : une présentation de l environnement de classement de messages électroniques et l historique des travaux sur les classificateurs statistiques basés sur le contenu. La partie suivante étudie les briques d un filtre anti-spam : la représentation des messages et les algorithmes de classement et d apprentissage. Dans chaque chapitre nous mettons en valeur ce qui est relevant pour le problème de filtrage de spam. La troisième partie décrit le problème qui nous concerne : le classement mutualisé de messages, basé sur le contenu. Dans cette partie, nous examinons les points qui apparaissent ou qui prennent de l importance dans le contexte de filtrage mutualisé de spam. Nous proposons, ensuite, une architecture de classement, la plus simple possible pour tenir compte de la démarche choisie, mais adaptée au problème de classement mutualisé de messages. xii

Chapitre 0. Introduction La partie suivante présente des résultats expérimentaux obtenus. Ces expérimentations visent, d une part, à l acquisition de connaissance sur les caractéristiques temporelles des flots de messages et, d autre part, à étudier de façon pragmatique l efficacité d un classificateur simple dans un contexte de classement mutualisé ou pas et avec ensembles de messages synthétiques ou réels. La partie Réflexions à approfondir contient des points que nous n avons qu effleuré ou qui n ont été traités qu en partie, mais qui constituent des pistes de réflexion intéressantes. Ces réflexions portent sur trois aspects : la représentation spatiale des messages et la facilité ou difficulté de classement, de possibles méthodes de comparaison de flots ou ensembles de messages et enfin, la possibilité de représenter de façon hiérarchique un ensemble de messages (c.à.d. des modèles de mélange). Enfin, un chapitre dédié aux conclusions et des annexes. xiii

CHAPITRE 1 L environnement d un filtre anti-spam Un bon croquis vaut mieux qu un long discours. Napoléon Bonaparte Ce chapitre propose une vue globale des filtres anti-spam : l environnement et les parties constituantes. La plupart des concepts présentés ici seront approfondis individuellement dans les chapitres suivants. 1.1 Anatomie d un message électronique La Figure 1.1 ci-après présente le découpage d un message électronique, avec le contenu effectif et le dialogue (enveloppe du message) entre deux dispositifs client et serveur de messagerie. À noter que les adresses de messagerie que l on voit dans l enveloppe ne correspondent pas à celles des en-têtes : le routage du message est effectué selon les adresses de l enveloppe une situation possible aussi dans le routage des courriers papier traditionnels. 1.2 Le processus de filtrage Le scénario des figures Figure 1.2 et Figure 1.3 représente assez bien un contexte générique de filtrage de spam, même s il existe des nombreuses variantes. Un flot de messages est soumis au filtre, dans l ordre d arrivée des messages 1. 1 Pour être précis, les filtres, placés sur une passerelle de messagerie, peuvent recevoir et traiter simultanément plusieurs messages, mais les messages sont toujours mis, un par un, dans la boîte aux lettres du destinataire 1

1.2. Le processus de filtrage Trying 194.214.158.200... Connected to paris.ensmp.fr. Escape character is ^]. <--- 220 paris.ensmp.fr ESMTP Sendmail 8.14.4/8.14.4 ---> HELO saci.ensmp.fr <--- 250 paris.ensmp.fr Hello saci, pleased to meet you ---> MAIL from:<alice@ensmp.fr> <--- 250 2.1.0 <alice@ensmp.fr>... Sender ok ---> RCPT to:<bob@ensmp.fr> <--- 250 2.1.5 <bob@ensmp.fr>... Recipient ok ---> RCPT to:<charlie@ensmp.fr> <--- 250 2.1.5 <charlie@ensmp.fr>... Recipient ok ---> DATA <--- 354 Enter mail, end with "." on a line by itself En-t^etes From: Jose-Marcio Martins <jose@ensmp.fr> To: Jean-Claude Dupont <jean-claude@ensmp.fr> Subject: Un message de test Date: Sun, 12 Dec 2010 19:32:42-0200 Corps du message Salut Jean-Claude, Comment vas-tu? Ceci est juste un message de test! Joe <--- 250 2.0.0 obgl0krc016832 Message accepted for delivery ---> QUIT <--- 221 2.0.0 paris.ensmp.fr closing connection Connection to paris.ensmp.fr closed by foreign host. Fig. 1.1: Une transaction entre deux terminaux (client et serveur) de messagerie. Le contenu de la boîte extérieure correspond aux échanges entre les deux terminaux : c est l enveloppe du message. La boîte de deuxième niveau correspond au contenu effectif du message, avec deux composantes : les en-têtes et le corps du message. Après traitement, le filtre associe chaque message à une des classes ham ou spam indiquant, éventuellement, l incertitude du classement à l aide d une valeur numérique (score). Le destinataire (un être humain) reçoit le message, valide ou rectifie le classement proposé par le filtre : les messages utiles sont retenus et les spams supprimés. Dans un autre scénario, le filtre peut mettre les spams probables dans un sas (quarantaine). En tout cas, le destinataire doit corriger les erreurs de classement. Le destinataire peut aussi retourner des informations au filtre, permettant la mise à jour des modèles utilisés par l algorithme de classement. Cette particularité caractérise, comme nous le verrons par la suite, le scénario typique d apprentissage en ligne. Remarque 1.1. Il convient de préciser la différence entre les applications de 2

Chapitre 1. L environnement d un filtre anti-spam classement et de filtrage : une application de classement reçoit un flot d objets et associe une catégorie (classe) à chaque objet traité; une application de filtrage reçoit des objets en entrée et sélectionne (ou laisse passer) ceux obéissant certains critères pré-définis. MSA/MTA Internet MTA et Filtre Stockage Expéditeur Botnets Destinataire Fig. 1.2: Trajet typique simplifié d un message : après soumission du message à un MTA (Mail Transport Agent ou serveur de mail ), celui-ci recherchera son équivalent le plus proche du destinataire (un MX ou Mail exchanger) qui s occupera du filtrage en arrivée et enregistrement dans un serveur de stockage de messages. 1.2.1 Aspects Temporels Un flot de messages n est pas statique : ses caractéristiques évoluent en permanence. Cette dérive impacte les messages de trois façons : La répartition des classes la Figure 1.4 montre la variation du taux de spam à l entrée de l École des Mines de Paris, sur une période d un mois. On peut distinguer l activité de nuit (pics fins) et de week-end (pics plus larges) qui correspondent aux périodes où il y a une baisse dans les échanges de messages professionnels. Sur des périodes plus longues (une année, par exemple) on remarque une évolution plus ou moins périodique dans les hams liée aux vacances et fêtes et des variations irrégulières dans les spams, plutôt liées à des événements aléatoires (début ou fin d activité d un spammeur, arrêt d un réseau de botnets, événement lié à une célébrité, etc.); La répartition des genres à l intérieur de chaque classe pour les spams, par exemple, cela correspond à la distribution des genres : pornographie, arnaques, médicaments, etc. Les caractéristiques des messages dépendent du genre. Des variations dans leur répartition produisent des variations dans les caractéristiques globales du flot. 3

1.2. Le processus de filtrage Messages (M,?) Classificateur Modèles (M, Classe, Drapeau de Requête) Validation Apprentissage (M,Ham) ou (M,Spam) (M,Ham) (M,Spam) Inbox Poubelle Fig. 1.3: Le processus de classement de messages et les interactions possibles entre le filtre et le destinataire final. L évolution des messages Les messages légitimes évoluent peu : les expéditeurs ne changent pas souvent leurs habitudes d écriture et, sauf dans quelques cas, la topologie des réseaux de correspondants d un utilisateur reste relativement stable. Les messages de la classe spam évolue en permanence, dans le contenu et dans la forme, principalement pour déjouer les filtres. Suite à l existence de ces dérives, le problème du classement de messages doit être étudié comme étant un processus en ligne [61] : les classificateurs doivent être mis à jour régulièrement et tenir compte de l ordre chronologique des messages. Ces dérives, à la fois qualitatives et quantitatives, sont dues à la génération des messages. Les retards dus aux interactions entre le filtre et le destinataire peuvent aussi avoir des conséquences sur le fonctionnement du classificateur. 1.2.2 Interactions avec le destinataire Les interactions avec le destinataire sont à double sens : le destinataire retourne des informations vers le filtre et modifie son comportement (pour l apprentissage) et vice-versa. Le retour d information de l utilisateur rend possible l apprentissage en ligne mais complexifie le modèle du processus : il s agit d une action humaine que l on ne peut pas modéliser avec précision. Citons quelques exemples de comportements humains qui affectent le modèle [60] : Retards les messages ne sont pas traités par le destinataire immédiatement après classement, mais à des intervalles irréguliers allant de quelques minutes à plusieurs heures, voire plusieurs jours. Les messages classés entre-temps ne profiteront pas des corrections apportées par le 4

Chapitre 1. L environnement d un filtre anti-spam Fraction de spams dans le trafic (%) 100 80 60 40 20 Nombre de messages par jour 1000 800 600 400 200 Spams Hams 0 0 5 10 15 20 25 30 jour (a) Variation journalière du taux de spam à l entrée du domaine ensmp.fr. Les pics coïncident avec la baisse d activité professionnelle : nuits et week-ends (pics plus larges) 0 0 100 200 300 400 500 Jour (b) Évolution du nombre de messages, par classe et par jour, reçus par l auteur sur une période d un an et demi. La baisse vers le jour 400 correspond à la fermeture de McColo en novembre 2008. Fig. 1.4: Évolution de la fraction de spams dans le flot de messages à court (1 mois - Figure 1.4a) et à moyen (1 an et demi - Figure 1.4b) terme. On remarque la stabilité relative du nombre de messages légitimes par jour, tandis que les spams ont plutôt tendance à augmenter considérablement. retour d information; Retour partiel le retour d information peut être systématique ou concerner seulement une partie des messages. Assez souvent les destinataires ont l habitude de ne renseigner que les messages mal classés. Parfois, ils sont plus attentifs au contenu de la boîte légitime et ne signalent que les spams non détectés ; Des retours d information erronés Dans des expérimentations demandant à des utilisateurs humains de classer des messages, des taux d erreur variant entre 3% et 7% [249] [118] ont été rapportés. D autres études ont montré que les erreurs ne sont pas uniformément distribuées selon le genre de message, même à l intérieur de la même classe [151]. Les classificateurs de messages électroniques les plus performants ont des taux d erreur typiques de l ordre de 0.5%. Ces erreurs, injectées dans les modèles utilisés par ces classificateurs ne sont pas sans conséquence sur leur efficacité [64]. Le classificateur, à son tour, a une influence sur le comportement de l utilisateur. Par exemple, Plice et al. [202] ont suggéré que plus le taux de spam est faible, plus on est attentif au nombre de spams mal classés. 1.2.3 Interactions avec l expéditeur Il arrive qu un spammeur souhaite avoir des informations sur la logique de fonctionnement d un filtre anti-spam, pour pouvoir adapter ses messages afin qu ils puissent arriver dans la boîte aux lettres des destinataires et être lus, si possible, sans être classés comme du spams. Lorsque le filtrage se fait par le contenu des messages, les interactions avec 5

1.3. L apprentissage l expéditeur sont indirectes. Si un filtre rejette le message, l expéditeur peut le savoir immédiatement. En revanche, si le filtre se contente de marquer le message, l expéditeur doit utiliser des moyens actifs pour pouvoir déduire comment le message a été classé. Lowd et Meek [179] [180] ont imaginé des scénarios possibles d interaction active dans lesquels l expéditeur envoie des séquences de messages avec des contenus différents et avec, par exemple, des liens cachés vers des pages web sous son contrôle. La détection d une consultation de ces pages permet d inférer que le message est bien arrivé dans la boîte aux lettres du destinataire et a bien été lu. Avec ces méthodes on peut déduire assez finement les seuils de détection du filtre. Elles sont utilisées, le plus souvent, par des entreprises de marketing pour évaluer globalement les taux de pénétration de leurs campagnes publicitaires. 1.3 L apprentissage L apprentissage est le processus permettant de construire un modèle, à partir d un ensemble d exemples (ou données d apprentissage), qui sera utilisé par la suite par l algorithme de classement pour associer une étiquette à un message non vu pendant l apprentissage. Un exemple est un couple (message, étiquette). Un algorithme de classement doté d un modèle est un classificateur. Ce processus peut prendre des formes différentes selon le type d algorithme de classement. Dans le cas d un classificateur bayésien naïf, par exemple, il s agit de compter, pour chaque classe et pour chaque terme du dictionnaire, le nombre de documents où le terme est présent alors que dans le cas d un classificateur SVM, il s agit de déterminer l équation d un hyperplan séparant les deux classes selon certains critères d optimalité. On parle d apprentissage supervisé lorsque les modèles sont construits à partir d un ensemble d exemples étiquetés et d apprentissage non supervisé dans le cas contraire. L apprentissage non supervisé est utilisé dans les applications de clustering, où le but est le regroupement des objets par leur ressemblance, sans connaître, à priori, la classe associée à chaque objet. On distingue aussi l apprentissage en ligne et l apprentissage hors ligne. Dans l apprentissage hors ligne (ou en batch), les exemples sont entièrement traités dès le départ avant toute opération de classement, tandis que dans l apprentissage en ligne les exemples sont des objets réels à classer et l apprentissage se fait, au fur et à mesure, grâce au retour d information concernant les classements qui viennent d être effectués [239, p.241]. L apprentissage en ligne a deux caractéristiques qui le rendent particulièrement différent de celui hors ligne : les exemples sont présentés dans un ordre précis : l ordre chronologique, et le nombre d exemples utilisés pour l apprentissage peut ne pas être borné. Le processus d apprentissage doit intégrer un dispositif permettant d oublier automatiquement les exemples trop anciens. Étant donné le caractère évolutif des caractéristiques des messages électroniques, l apprentissage d un filtre anti-spam relève typiquement de l apprentissage en ligne et doit tenir compte des phénomènes temporels et des interactions 6

Chapitre 1. L environnement d un filtre anti-spam entre le filtre et les destinataires. 1.4 Le filtre Ham Message Représentation de l Information Algorithme de Classement Spam Filtre anti-spam Paramètres Fig. 1.5: Schéma simplifié d un filtre anti-spam Il s agit de l élément central du processus. Il est constitué de trois parties (voir Figure 1.5) : l algorithme de classement c est la partie intelligente. Cette partie contient l implémentation informatique d une méthode de classement (bayésien naïf, SVM, régression logistique, réseau de neurones,...); la représentation des messages cette partie est chargée d extraire les caractéristiques (ou attributs) des messages qui seront manipulées par l algorithme de classement. Les messages bruts sont constitués de suites de caractères qui ne sont pas manipulables directement par les algorithmes de classement; le modèle (ou les paramètres) c est l ensemble des données utilisées par l algorithme de classement; il résulte du processus d apprentissage. Il servira de référence pour classer les nouveaux messages. Leur forme varie selon le type d algorithme de classement : les coefficients d un hyperplan séparateur pour un algorithme du type SVM ou encore les distributions des termes dans chaque classe pour un algorithme du type bayésien naïf. Les algorithmes de classement n ont pas, ou alors très peu, de particularités liées au problème de filtrage de spam. Ce sont des algorithmes utilisés aussi bien pour le traitement d informations textuelles que pour le traitement d images, de données sismiques ou autres. L ensemble algorithme de classement et modèle constitue un classificateur. 1.5 La représentation des messages En général, les algorithmes de classement ne savent manipuler que des objets structurés tels un vecteur ou une matrice. Les messages électroniques sont des objets textuels non structurés qu il faut représenter de façon à ce qu ils 7

1.5. La représentation des messages puissent être traités. La représentation la plus courante est celle d un vecteur où chaque dimension correspond à un attribut du message. Dans une application d apprentissage artificiel, un attribut est un critère quelconque à prendre en compte. Un terme est un attribut lorsque les objets sont des objets textuels. Il existe deux approches pour définir ces attributs. Dans la première approche, les attributs sont définis manuellement : ils correspondent, en général, à la présence de certains mots clés avec une valeur discriminante élevée ou alors à des caractéristiques empiriques, par exemple : il s agit d un message dont le contenu est riche en balises HTML, images, ou liens vers des sites web. Les attributs définis manuellement sont en nombre fixe et dépassent rarement le millier. Sauf référence à des cas particuliers, cette approche n est pas traitée dans cette thèse : d une part l efficacité des classificateurs utilisant ce type de méthode n est pas concurrentielle [93] et, d autre part, la messagerie électronique étant un processus non stationnaire, l évolution exige une intervention manuelle permanente pour créer de nouveaux attributs ou pour supprimer ceux devenus inutiles. Il existe des produits de filtrage de spam basés sur cette approche. Dans la deuxième approche, ce ne sont pas les attributs qui sont définis à l avance, mais les règles permettant de les extraire. Une règle serait, par exemple, celle permettant d extraire les mots : un attribut est une suite de caractères compris entre deux caractères délimiteurs : un espace ou signe de ponctuation. L ensemble de tous les mots différents trouvés dans l ensemble des exemples constitue le vocabulaire. Cette règle fait en sorte que l ensemble des attributs évolue naturellement sans intervention humaine. L apprentissage consiste à construire l ensemble des attributs et à définir le poids de chacun. Ainsi, un message est représenté sous la forme d un vecteur où chaque dimension correspond à un terme du vocabulaire. La valeur associée à chaque dimension indique soit la présence/absence du terme dans le message, soit son nombre d occurrences. Les termes peuvent être des mots ou des n-grams (suites de n caractères ou mots). Les messages sont constitués de deux parties : le corps avec le contenu effectif, et les en-têtes ou méta-informations avec, par exemple, des informations de format et de traçabilité. Les informations présentes dans ces deux parties ne sont pas de même nature et n ont pas le même pouvoir discriminant. Dans la bibliographie concernant le filtrage de spam, il n est pas rare que cet aspect ne soit pas traité du tout, ou le soit de façon superficielle, si l objet principal de la communication est un algorithme de classement. Or, on ne peut comparer l efficacité intrinsèque de deux algorithmes de classement que si les représentations utilisées sont précisées et identiques. 8

CHAPITRE 2 Historique Study the past, if you would divine the future. Confucius Ce chapitre contient un bref historique des applications de filtrage de spam. Nous nous intéressons particulièrement à celles qui se basent sur l apprentissage artificiel. Ces développements ont été menés de façon indépendante par la communauté de la recherche et celle des praticiens, développeurs de logiciels libres. Les travaux des chercheurs ont débuté avant mais ce sont ceux de la communauté des praticiens qui sont devenus populaires. 2.1 La communauté de la recherche 2.1.1 Les débuts : expérimentations avec classificateurs Les premières publications concernant le classement de messages électroniques basé sur des méthodes d intelligence artificielle datent de 1996. Cohen [55] a comparé RIPPER [56] et Rocchio [182, p. 269] pour le classement thématique de messages. RIPPER est un classificateur utilisant un ensemble de règles (présence ou absence des mots du dictionnaire) construites automatiquement pendant la phase d apprentissage. Rocchio représente le message à classer sous la forme d un vecteur et évalue la distance (généralement euclidienne) entre ce vecteur et les vecteurs prototypes de chaque classe, associant le message à la classe la plus proche. Rocchio a son origine dans les applications d indexation et de recherche documentaire. Les deux méthodes ont présenté des résultats similaires. Cohen a constaté que les résultats étaient meilleurs dans le cas d une utilisation individuelle plutôt que collective. 9

2.1. La communauté de la recherche Les deux premières publications concernant le filtrage de spam sont apparues en 1998, dans une même conférence. Pantel [200] et Sahami et al. [220] ont proposé l utilisation d un classificateur bayésien naïf [182, p. 234] pour le classement de spams. Ils ont utilisé les 500 mots les plus significatifs de chaque message avec des résultats intéressants, pour l époque. Les auteurs signalent des aspects spécifiques au filtrage de spam : la dissymétrie des coûts associés aux erreurs de classement, l utilisation d attributs synthétiques tels que les en-têtes ou des mises en forme particulières du message. Les auteurs ont aussi remarqué que le classement binaire (ham/spam) était plus efficace que le classement multi-classes tenant compte du genre du message (pornographie, escroquerie, médicaments; etc.). L utilisation de SVMs (Machines à Vecteur de Support) [138] pour le filtrage de spam a été proposée en 1999 par Drucker et al. [93], qui a comparé l efficacité d un classificateur SVM linéaire avec RIPPER [56], Rocchio [182, p. 269] et Boosting [104]. Cette publication est intéressante puisque c est la première à comparer un large éventail de configurations d expérimentation (en particulier sur la construction et la sélection d attributs ou les modes d apprentissage). La plupart des conclusions n ont pas encore été contredites : SVM et boosted trees sont comparables, mais les SVMs permettent d atteindre plus facilement des taux de faux positifs inférieurs; les méthodes basées sur des règles (RIPPER et Rocchio) ne sont pas compétitives pour le filtrage de spam ; l apprentissage des boosted trees est excessivement long; pour les SVMs, les résultats sont meilleurs avec des attributs binaires (présence ou absence) alors que les attributs multinomiaux (nombre d occurrences) sont à privilégier pour les boosted trees ; les procédures de sélection d attributs constituent des traitements lourds et il vaut mieux les intégrer dans l apprentissage si on veut les utiliser; l exclusion des termes neutres (stop words) n améliore pas l efficacité du filtre. Plusieurs autres résultats de recherche concernant l utilisation de SVMs pour le filtrage de spam ont été publiés par la suite. Kolcz [148] a étudié la prise en compte des erreurs de classification spécifiques à chaque classe. Islam [131] a proposé une méthode de sélection d attributs. Malgré l efficacité constatée, les SVMs restent des algorithmes non triviaux à mettre en œuvre et consommateurs de ressources. Des implémentations efficaces ont été proposées, par exemple, par Joachims [137] [139] et Bordes [30], pour des SVMs linéaires dans un contexte général de classement. Pour l apprentissage et le classement en ligne de spams, Sculley [229] a proposé l utilisation de ROSVMs (Relaxed Online SVMs), une simplification limitant le nombre d itérations de l algorithme d optimisation et d exemples avec une efficacité de classement qui restait encore proche de celle que l on peut obtenir sans simplification. Androutsopoulos et al. ont évalué et comparé le classificateur bayésien naïf [8], le classificateur à mots-clés [7] et k-nn (les k voisins les plus proches) [9] [221] explorant la sensibilité des méthodes à différentes variantes de confi- 10