Méthodologie d'évaluation de filtres anti-spam

Documents pareils
Méthodologie d'évaluation des filtres anti-spam

Méthodologie d'évaluation des filtres anti-spam

Le spam introduction. Sommaire

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

INF6304 Interfaces Intelligentes

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Systèmes de transmission

1 Modélisation d être mauvais payeur

Session N : 5 Relais de messagerie sécurisé et libre

Classification Automatique de messages : une approche hybride

I- Définitions des signaux.

Guide d'utilisation du logiciel de NEWSLETTERS

MailCube MC 2. 2,5 jours / homme / an. 33 milliards de kwh. 17 millions de. 3,1 millions de. nouvelle génération. Le spam en quelques chiffres :

PARAMETRER LA MESSAGERIE SOUS THUNDERBIRD

- Le Diagramme de Gantt. - Le Diagramme de Pert - La Méthode QQCQCCP - La Méthode MOSI - Cahier des charges fonctionnel

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet de Traitement du Signal Segmentation d images SAR

Se débarrasser des s indésirables

Créée en 2002, la société PineApp est pionnière sur le. Le siège de la société se trouve aux États-Unis, avec des

Le phénomène du SPAM en 2003!!!

Avira Managed Security (AMES) Manuel pour les utilisateurs

choisir H 1 quand H 0 est vraie - fausse alarme

Business Intelligence simple et efficace avec Excel et PowerPivot

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Comment se protéger contre les s suspicieux?

CAPTEURS - CHAINES DE MESURES

Principe de la messagerie électronique

Intérêt du découpage en sous-bandes pour l analyse spectrale

MS PROJECT Prise en main. Date: Mars Anère MSI. 12, rue Chabanais PARIS E mail : jcrussier@anere.com Site :

: seul le dossier dossier sera cherché, tous les sousdomaines

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

NON-LINEARITE ET RESEAUX NEURONAUX

Messagerie. Dominique MARANT CRI Lille 1. Octobre 2006

Sécurité par compression! ReSIST Gilles RICHARD IRIT

Formations Web. Catalogue 2014 Internet Référencement Newsletter Réseaux sociaux Smartphone

S84-1 LA GRC ET LE SI (Système d Information) Qualification des données clientèle La segmentation de la clientèle

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Se protéger des Spams

Apprentissage Automatique

Groupe Eyrolles, 2005,

Introduction au Data-Mining

0.1 Mail & News : Thunderbird

CATALOGUE DE FORMATION INTERNET BUREAUTIQUE INFORMATIQUE..::NET-INOV.COM::..

SYSTEME DE GESTION DES ENERGIES EWTS EMBEDDED WIRELESS TELEMETRY SYSTEM

Business Intelligence simple et efficace

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Installation et paramétrage. Accès aux modèles, autotextes et clip- art partagés

Internets. Informatique de l Internet: le(s) Internet(s) Composantes de l internet R3LR RENATER

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Alexis Lechervy Université de Caen. M1 Informatique. Réseaux. Filtrage. Bureau S3-203

Manuel d utilisation de la plate-forme de gestion de parc UCOPIA. La mobilité à la hauteur des exigences professionnelles

Medication management ability assessment: results from a performance based measure in older outpatients with schizophrenia.

Thunderbird. Le logiciel libre du mois. Un peu de vocabulaire. Principales caractéristiques de Thunderbird!

TRANSPORT ET LOGISTIQUE :

Publipostage et étiquettes

TESTS D'HYPOTHESES Etude d'un exemple

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

Sendmail milter/greylisting

4.2 Unités d enseignement du M1

Licence professionnelle Réseaux et Sécurité Projets tutorés

Approches innovantes de personnalisation : idées et exemples de réussite

ManageEngine Netflow Analyser

Teste et mesure vos réseaux et vos applicatifs en toute indépendance

Diagnostic adaptatif d'un flux d'alarmes par méta diagnostic distribué Application à la détection d'intrusions dans un serveur Web

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Guide méthodologique : Enquêtes en ligne

Scarlett Plug-in Suite

UNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP Pointe-à-Pitre Cedex CONTRAT LE MASTER NOM DU DOMAINE STS

TSTI 2D CH X : Exemples de lois à densité 1

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

La Qualité de Service le la Voix sur IP. Principes et Assurance. 5WVOIP rev E

Programme de Formation Office 2010 Word, Excel, Powerpoint et Outlook 2010 pour Windows

Statistiques Descriptives à une dimension

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Format de l avis d efficience

Superviseur de processus ECS

GESTION DE L'ORDINATEUR

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

Sommaire Chapitre 1 Chapitre 2 Chapitre 3 Chapitre 4 Chapitre 5 Chapitre 6 Chapitre 7. ARC EPS Eco-microbiologie Prévisionnelle Statistique

II. REVOD Plongée à l ordinateur. Septembre Plan de l exposé

Quantification Scalaire et Prédictive

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

COMMENT PROTÉGER LE FLUX SORTANT?

QUALITÉ DE L APPRENTISSAGE DE L INTUBATION ORO-TRACHÉALE EN LABORATOIRE DE SIMULATION, SON INTÉRÊT POUR LES PATIENTS.

Thierry Déléris. BMC Mainview Data Server Synthèse & Mise en œuvre

Chapitre 9 : Informatique décisionnelle

Novembre 2006 Antispam sur Messagerie évoluée Completel Guide Utilisateur 1. Antispam individuel pour la Messagerie évoluée.

Ateliers de formation Internet. L ing

Le Cloud au LIG? Pierre Neyron PimLIG

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Atelier Transversal AT11. Activité «Fourmis» Pierre Chauvet.

Rappel. Analyse de Données Structurées - Cours 12. Un langage avec des déclaration locales. Exemple d'un programme

Retrouver les informations demandées dans les différents rapports Utiliser les fonctionnalités des rapports Utiliser la segmentation avancée

Microsoft Exchange. (Administrateur) (Dernière édition) Programme de formation. France, Belgique, Suisse, Roumanie - Canada

Analyse des bruits de clavier d ordinateur

Introduction au datamining

Taux d intérêts simples

Détection d'intrusions et analyse forensique

La sécurité IT - Une précaution vitale pour votre entreprise

Transcription:

Méthodologie d'évaluation de filtres anti-spam Jose-Marcio.Martins@mines-paristech.fr JRES 2009 - Nantes

Plan Introduction Le processus de filtrage Les indicateurs d'efficacité Mais... concrètement... comment faire? Conclusions

Introduction

Évaluer : Pour quoi faire? Pour les chercheurs et développeurs pour évaluer, valider leurs travaux, choix de solutions Pour les gestionnaires de messagerie lors d'une acquisition, pour comprendre les spécifications et évaluer les alternatives pour valider une nouvelle installation pour expérimenter une évolution pour surveiller un filtre en production

Les produits commerciaux Mailinblack (captcha) «100 % of spam stopped» / «no false positive or loss of message» Vaderetro (plaquette produit MailCube) «détection de 95 % des spams»... 100 msgs/sec (Pentium 1,9 GHz) Ironport messages ou connexions par seconde (contenu ou réputation)? conditions de mesure??? «refuser jusqu'à 80 % du spam dans la phase de connexion, sans faux positifs»

Les logiciels libres Bill Yerazunis MIT Conference 2004 : «The Spam Filtering Accuracy Plateau at 99,9 % and how to get past it» TREC Spam Track 2005 «accuracy» entre 87,9 % et 99,6 % conditions d'évaluation : processus hors ligne, corpus de messages «prévisible», métrique non pertinente Zdziarski vs Cormack Gordon Cormack évalue 6 filtres «open source» dspam est classé avant dernier, derrière Bogofilter, SpamAssassin,... polémique conditions d'évaluation : ibidem Yerazunis

Le message Ce ne sont pas forcément des mauvais filtres Évaluer un filtre et/ou comprendre des résultats est un besoin Les résultats dépendent de la situation Ne pas généraliser Joel Best, Damned Lies and Statistics University of California Press, 2001 Un message de la présentation : démystification «Le filtrage anti-spam ne relève pas de la théorie de la relativité, mais ce n'est pas du bricolage non plus»

Évaluation de filtres Principes et challenges

Contraintes d'évaluation Représentation fidèle de l'environnement Environnement d'évaluation maîtrisé et stable Critères pertinents Validité statistique des résultats Résultats reproductibles et vérifiables (Prouvez-le!!!) En fait... un protocole d'évaluation!

Environnement de filtrage Processus non stationnaire Aspects temps réel Les filtres interagissent avec l'expéditeur avec le destinataire Exemples d' «objets» corpus d'apprentissage

Processus non stationnaire La messagerie évolue dans le temps : évolution rapide rapport ham/spam évolution lente répartition à l'intérieur d'une classe changements dans le contenu Processus non stationnaire (en ligne) : l'ordre chronologique des messages est important

Évaluation en ligne Utile plutôt pour le suivi d'un serveur en production manque de maîtrise de l'environnement événements inattendus : mise à jour d'une RBL : OK serveur DNS d'une RBL inaccessible : KO messages rejetés sans jugement (RBL,...) possibilité de rejouer???

Interaction avec l'expéditeur A l'initiative du destinataire : les rejets A l'initiative de l'expéditeur : les sondes (probes) Difficile à évaluer en temps réel et à simuler : greylisting, challenge/réponse, captchas,... Solution courante : deux évaluations consécutives, avec la fonctionnalité activée et pas les conditions d'évaluation ne sont pas les mêmes validité limitée utile pour avoir une idée

Interaction avec le destinataire Retour d'information d'exactitude de classement retour immédiat retour différé retour sélectif uniquement les erreurs erreurs de retour : ~ 3 à 7 % - Yih-Kolcz (MS/Yahoo) et Graham-Cumming bruit non homogène retour sur demande du filtre (apprentissage actif) Les interactions, autres que retour immédiat, font baisser l'efficacité du filtre Simple à simuler... mais modèles vrais???

Corpus d'apprentissage / évaluation Difficultés : corpus public vs corpus privé : problème de reproductibilité tous les messages (hams et spams) sur une même fenêtre temporelle quantité suffisante densité temporelle erreurs dans le corpus Corpus : Ling-Spam, PU, SpamAssassin et corpus privés quelques milliers, pas représentatifs, listes de diffusion,... corpus TREC 2005 (après faillite de ENRON) messages de 150 cadres sur une période d'environ 8 mois 39399 hams et 52790 spams

TREC Spam Track Text Retrieval Conference : http://trec.nist.gov sponsorisé par NIST et DoD depuis 1992 évaluations autour d'un thème commun et utilisation de données publiques Spam Track : 2005, 2006 et 2007 Produits de TREC : mise au point d'une méthodologie d'évaluation 1er corpus d'évaluation public et intéressant

Indicateurs d'efficacité

Tableau de contingence Tableau de contingence : sert à définir les rapports entre deux variables discrètes (catégories) Classificateur «hard» ou «soft» avec un seuil fixe On filtre N messages et on place les résultats dans un tableau Vrai Ham Vrai Spam Classement Ham 9982 (VN) 484 (FN) 10466 Classement Spam 18 (FP) 39516 (VP) 39534 10000 40000 Il en résulte plusieurs indicateurs...

Indicateurs Vrai Ham Vrai Spam Classement Ham 9982 (VN) 484 (FN) 10466 Classement Spam 18 (FP) 39516 (VP) 39534 10000 40000 Métrique Définition Exemple Taux de Ham P ham = (VN + FP) / (VN + FP + FN + VP) 20 % Taux de Spam P spam = (VP + FN) / (VN + FP + FN + VP) 80 % Taux de faux positifs FPR = FP / (VN + FP) 0,18 % Taux de faux négatifs FNR = FN / (VP + FN) 1,21 % Exactitude (Accuracy) Accuracy = (VP + VN) / (VN + FP + FN + VP) 99,0 % Précision Précision = VP / (VP + FP) 99,95 % Rappel (Recall) Rappel = VP / (VP + FN) = 1 - FNR 98,79 %......

Tableau de Contingence Et ce n'est pas fini : taux d'erreur pondérés, sensibilité vs spécificité, «f-measure»,... Les indicateurs ne sont pas tous pertinents pour le filtrage de spam. Les indicateurs couvrant les deux colonnes dépendent du rapport ham/spam. Indicateurs spécifiques à un point d'opération Comment évaluer le filtre plus globalement???

ROC receiver operating characteristic Le tableau de contingence est limité à une valeur de seuil Un classificateur «soft» : quel seuil choisir??? Comparer globalement deux classificateurs...

ROC Classer N messages (Nh + Ns) Trier les résultats par score Les erreurs pour chaque valeur de score : le nombre de hams avec score plus fort (faux positifs) le nombre de spams avec score plus faible (faux négatifs) évaluer les taux d'erreur Courbes taux d'erreur vs score taux de vrai positifs vs taux de faux positifs

ROC Propriétés de ROC graphique compris dans le carré (0,0), (0,1), (1,1), (1,0) la courbe ROC ne dépend pas du rapport ham/spam 0 < AUC < 1 (Aire sous la courbe) (1 AUC) probabilité d'inversion de l'ordre des scores... top filters : (1-AUC) ~ 0.01-0.05 % comparaison de classificateurs

LAM erreur logistique moyenne Intérêt : Connaissance de l'efficacité pour une seule valeur de seuil Taux d'erreur ou d'exactitude aplatis au bout de l'échelle Classes asymétriques moyennes peu représentatives Changement d'échelle «Le gain d'un cheval est de 4 contre 1» 20 % contre 80 % Chance, rapport, gain (odds en anglais) Rapport = x 1 x y = logit x = log x 1 x

LAM erreur logistique moyenne LAM : moyenne arithmétique des erreurs évaluée dans l'échelle «logit» LAM FPR, FNR = logit 1 logit FPR logit FNR 2 LAM(1%, 0,1 %) = 0,32 % LAM(1%, 0,05%) = 0,22 % LAM(1%, 0,01%) = 0,10 % Pour des faibles valeurs de (1-AUC) la LAM est proche de la moyenne géométrique varie peu avec le score on peut estimer la valeur de (1-AUC) à partir de la LAM

Et pour finir... Autres mesures : sensibilité au bruit vitesse d'apprentissage... Signification statistique de la mesure intervalle de confiance méthode «bootstrap» échantillon significatif en quantité taux d'erreur vs taille de l'ensemble de test

Mais concrètement, on fait comment???

Évaluation hors ligne : simulateur

Évaluation hors ligne - fichiers Fichier des tâches 1205795404 train spam./s-200803.dir/msg.00946 1205795404 train spam./s-200803.dir/msg.00947 1205795405 train ham./h-200803.dir/msg.03113 1205795405 train spam./s-200803.dir/msg.00948... 1216594505 classify spam./s-200807.dir/msg.11309 1216594506 classify ham./h-200807.dir/msg.03565 1216594507 classify ham./h-200807.dir/msg.03566 1216594507 classify spam./s-200807.dir/msg.11310 Fichier des résultats de filtrage./s-200807.dir/msg.11307 judge=spam class=ham score=-0.43259 0.39351./s-200807.dir/msg.11308 judge=spam class=spam score=1.40410 0.80283./s-200807.dir/msg.11309 judge=spam class=spam score=0.17375 0.54333./h-200807.dir/msg.03565 judge=ham class=ham score=-9.41864 0.00008./h-200807.dir/msg.03566 judge=ham class=ham score=-13.89446 0.00000./s-200807.dir/msg.11310 judge=spam class=spam score=0.05890 0.51472

Évaluation hors ligne Synthèse Training on 48113 messages Classification 14982 messages Noise Spam YES Ham : NO P : 5.00 % Messages Spam 35641 Ham : 12472 Train (H) - begin : 16/04/2008-23:00:05 - end : 15/06/2008-23:00:04 Train (S) - begin : 16/04/2008-23:00:05 - end : 15/06/2008-23:00:04 Classify - begin : 30/06/2008-23:00:05 - end : 20/07/2008-23:00:05 Gold Ham Gold Spam ------------------------------------- Class Ham 3529 97 Class Spam 7 11349 HMR : 0.1980 % - SMR : 0.8475 % - LAM : 0.4101 % 01 1-ROCA: 0.02685 % (0.0109005-0.0661213) DT 724 seconds

On peut se tromper... par exemple, On n'est pas en train de filtrer du spam On ne peut pas exprimer l'efficacité d'un classificateur par une seule valeur

Évaluer le Service Renater... Les entêtes : X-VR-SPAM-SCORE: -25.00 X-Bizanga: IMP - in-paris2-1.relay.renater.fr X-Original-Source-IP: 164.81.1.45 Courbe ROC Évaluation limitée à l'ensemble des messages qui passent Si on a un autre filtre en ligne avec un classificateur soft, de préférence, on peut les comparer... 8-)

Conclusions Il est utile de connaître l'efficacité des filtres, comme pour n'importe quel outil Le même filtre ne donne pas les même résultats dans des situations, utilisateurs, langues... différents Problème multidimensionnel : un seul indicateur ne suffit pas pour représenter l'efficacité d'un filtre Évaluer un filtre anti-spam : ce n'est pas trivial, mais ce n'est pas hors de portée non plus (ibidem pour le filtrage de mail)...

Merci!!! Questions???

Les classificateurs statistiques et le filtrage de spam

Architecture générique Message Segmentation / Sélection d'attributs Classificateur Ham Spam HAM SPAM Modèles / paramètres

Un arrêt sur la segmentation... Texte non structuré -> représentation vectorielle Hypothèse d'indépendance -> modèle «bag of words» mots bi-mots n mots sur N N-grams En fait : comparaison de vocabulaires

Classificateur bayésien naïf Avantages facile à mettre en œuvre efficace bonne résistance au bruit Principe P Classe Message = P Message Classe P Classe P Message classement = argmax C=ham,spam P Message C P C

Compression de données MDL Minimum Description Length Classement : Le message est «compressé» avec chaque modèle et associé à la classe dont le modèle donne le meilleur taux de compression Méthodes (compression sans perte) : DMC Dynamic Markov Compressor G. Cormack - 1987 PPM Prediction by Partial Matching - Cleary, Witten - 1984

Régression Logistique Classement : calcul direct de la probabilité conditionnelle P Classe Message = 1 1 e w M Apprentissage : trouver les coefficients w optimisation par descente de gradient

SVM (Support Vector Machine) Hyperplan séparateur Classification : trouver de quel côté de l'hyperplan se trouve le message à classer Apprentissage = trouver l'équation de l'hyperplan (programmation quadratique) Obs : le résultat a une interprétation géometrique.