Introduc)on à la fouille de données, cours 1
Sources «Introduc)on to data mining» Cours de l année précédente
Pourquoi fouiller les données? Beaucoup de données stockées dans des «data centers» Web (pages, traffic ) Commerce ()ckets de caisse ) Transac)ons financières Puissance de calcul accessible Nouvelles architectures Cloud Compé))on entre entreprises L études des données peut donner un avantage (marke)ng, ges)on des stocks, )
Données récentes Pages Web Environ 1000 milliards (Google 2008) 50 milliards indexées Génome humain 3.4 milliards de paires de bases (3GB) 25000 gènes AT & T 312 TB dans une base de données (2005) 2800 milliards d appels téléphoniques ChoicePoint 250 TB sur 220 millions d Américains World Data Center for Climate (WDCC) 220 TB
Mo)va)on du Data Mining Grosses quan)tés de données Incompréhensibles pour un humain Souvent de l informa)on «cachée» non évidente 4,000,000 3,500,000 3,000,000 2,500,000 2,000,000 1,500,000 1,000,000 500,000 0 The Data Gap Total new disk (TB) since 1995 Number of analysts 1995 1996 1997 1998 1999
Qu est ce que la fouille de données? Extraire de l informa)on cachée ou implicite de données Informa)on nouvelle Informa)on u)le Explorer et analyser de façon automa)que de grandes quan)tés de données
Processus de fouille de données Knowledge Discovery in Data (KDD) 1. Données brutes 2. Pré- processing 3. Fouille de données 4. Post- processing 5. Informa)on
Fouille de données? Pas de la fouille de données Chercher un numéro de téléphone dans un annuaire Faire une recherche Web sur Amazon Fouille de données Découvrir que certains noms sont plus fréquents dans certaines régions Regrouper des documents suivant leur contexte Amazon.com Amazon rainforest
Origines de la fouille de données Provient des techniques de machine learning / Intelligence ar)ficielle, extrac)on de paherns, bases de données Adapta)on de ces techniques à De grandes quan)tés de données Des données avec de nombreuses dimensions (c.a.d. ahributs) Données hétérogènes et distribuées Sta)s)cs/ AI Machine Learning/ Pahern Recogni)on Data Mining Database systems
Tâches de fouille de données Méthodes prédic)ves U)liser des variables pour prédire la valeur de variables inconnues ou futures Descrip)on de données Trouver une interpréta)on humaine d un ensemble de données
Tâches de fouille de données Classifica)on (prédic)on) Clustering (descrip)on) Découverte de règles d associa)on (descrip)on) Découverte de paherns séquen)els (descrip)on) Régression (prédic)on) Détec)on d anomalies (prédic)on)
Classifica)on Ensemble de données (training set) Chaque donnée con)ent des ahributs, l un d entre eux est la classe Trouver un modèle de classe qui s appuie sur la valeur des ahributs Objec)f: de nouvelles données doivent être assignées à une classe de la façon la plus précise possible Évalua)on avec un test set qui permet de vérifier la précision du modèle
10 10 Exemple de classifica)on Tid Refund Marital Status Taxable Income Cheat Refund Marital Status Taxable Income Cheat 1 Yes Single 125K No No Single 75K? 2 No Married 100K No Yes Married 50K? 3 No Single 70K No No Married 150K? 4 Yes Married 120K No Yes Divorced 90K? 5 No Divorced 95K Yes No Single 40K? 6 No Married 60K No 7 Yes Divorced 220K No No Married 80K? Test Set 8 No Single 85K Yes 9 No Married 75K No 10 No Single 90K Yes Training Set Learn Classifier Model
Classifica)on : Applica)on 1 Marke)ng Objec)f : Dans une campagne de publicité par courrier, réduire le nombre de courriers envoyé en ciblant les consommateurs Approche: U)liser les données d un produit similaire Nous savons pour ce produit quels u)lisateurs ont acheté ou non à 2 classes, {achète, n achète pas} Récupérer les informa)ons démographiques, etc sur les consommateurs U)liser ces informa)ons comme ahributs pour entrainer un classifieur
Classifica)on: Applica)on 2 Détec)on de fraude Objec)f: Prédire des transac)ons de CB frauduleuses Approche: U)liser des transac)ons de CB en données et les caractéris)ques de la personne en ahributs Quand il achète, ce qu il achète, quelle fréquence Créer 2 classes de transac)ons, légi)mes et frauduleuses sur les opéra)ons passées (train set) Entrainer le modèle U)liser ce modèle sur de nouvelles données pour prédire les fraudes
Clustering Étant donné un ensemble de points ayant des ahributs et une fonc)on de similarité entre ces points, trouver des clusters tels que Les points d un cluster sont similaires entre eux Les points de clusters différents sont différents entre eux Mesures de similarité Distance euclidienne sur des ahributs con)nus D autres mesures spécifiques sur d autres ahributs
Illustra)on du clustering Distance Euclidienne dans un espace 4D Distance dans un cluster minimisée Distance entre clusters maximisée
Clustering: Applica)on 1 Segmenta)on de marché Objec)f: sous- diviser un marché en différents ensembles de clients de façon à mieux cibler le marke)ng Approche: Collecter différents ahributs sur les consommateurs Trouver des clusters d u)lisateurs similaires Faire une mesure de qualité de clustering en observant les achats des u)lisateurs d un cluster par rapport aux autres
Clustering: Applica)on 2 Clustering de documents Objec)f: trouver les groupes de documents qui sont similaires entre eux en fonc)on des termes qui y apparaissent Approche: iden)fier les termes qui apparaissent fréquemment dans chaque document. Faire une mesure de similarité basée sur la fréquence des termes, et l u)liser pour faire le clustering Gain: meilleure recherche d informa)on dans des documents (moteur de recherche), u)lisa)on des clusters pour assigner de nouveaux documents
Illustra)on du clustering de documents 3204 ar)cles du Los Angeles Times Mesure de similarité: nombre de mots en commun entre les documents (après filtrage des stop- words) Category Total Correctly Articles Placed Financial 555 364 Foreign 341 260 National 273 36 Metro 943 746 Sports 738 573 Entertainment 354 278
Illustra)on: Clustering du cours des Observer le cours d une ac)on ac)ons Points simples: le cours monte ou il descend, vecteur sur une durée temporelle Mesure de similarité: 2 points sont similaires si les varia)ons entre les 2 points sont souvent les mêmes le même jour Discovered Clusters 1 Applied-Matl-DOWN,Bay-Network-Down,3-COM-DOWN, Cabletron-Sys-DOWN,CISCO-DOWN,HP-DOWN, DSC-Co mm-dow N,INTEL-DOWN,LSI-Logic-DOWN, Micron-Tech-DOWN,Texas-Inst-Down,Tellabs-Inc-Down, Natl-Semiconduct-DOWN,Oracl-DOWN,SGI-DOW N, Sun-DOW N Apple-Comp-DOW N,Autodesk-DOWN,DEC-DOWN, ADV-Micro-Device-DOWN,Andrew-Corp-DOWN, 2 Co mputer-assoc-down,circuit-city-down, Co mpaq-down, EM C-Corp-DOWN, Gen-Inst-DOWN, Motorola-DOWN,Microsoft-DOWN,Scientific-Atl-DOWN 3 4 Fannie-Mae-DOWN,Fed-Ho me-loan-dow N, MBNA-Corp-DOWN,Morgan-Stanley-DOWN Baker-Hughes-UP,Dresser-Inds-UP,Halliburton-HLD-UP, Louisiana-Land-UP,Phillips-Petro-UP,Unocal-UP, Schlu mberger-up Industry Group Technology1-DOWN Technology2-DOWN Financial-DOWN Oil-UP
Règles d associa)on Étant donné un ensemble d enregistrements qui con)ennent des éléments d une collec)on Générer des règles de dépendance qui prédisent les occurrences d éléments suivant les occurrences des autres TID Items 1 Bread, Coke, Milk 2 Beer, Bread 3 Beer, Coke, Diaper, Milk 4 Beer, Bread, Diaper, Milk 5 Coke, Diaper, Milk Rules Discovered: {Milk} --> {Coke} {Diaper, Milk} --> {Beer}
Règles d associa)on: Applica)on 1 Marke)ng Étant donné la règle {Bière, }à {Chips} Chips en par)e droite à On peut déterminer comment booster les ventes de chips Bière en par)e gauche à Que se passerait- il si on arrêtait d en vendre Ensemble de la règle à Placement de produits dans le magasin
Règles d associa)on: Applica)on 2 Ges)on de rayons de supermarcher Obje)f: iden)fier les ar)cles qui sont achetés ensemble par de nombreux clients Approche: U)liser les )ckets de caisse des clients pour trouver les dépendances entre les ar)cles Une règle classique Si un u)lisateur achète des couches et du lait, alors il achète probablement de la bière Donc ne soyez pas surpris si vous trouver la bière à côté des couches dans les magasins!
Découverte de paherns séquen)els Étant donné un ensemble d objets, dans lequel chaque objet est associé à une séquence temporelle, trouver des dépendances séquen)elles entre les évènements (A B) (C) (D E) Les règles sont créées en découvrant les paherns, puis en étudiant les contraintes temporelles (A B) (C) (D E) <= xg >ng <= ws <= ms
Paherns séquen)els: Exemple En télécommunica)ons, logs d alarmes (Inverter_Problem Excessive_Line_Current) (Rec)fier_Alarm) - - > (Fire_Alarm) Dans un magasin, séquence d achats Livres d informa)que (Intro_To_Visual_C) (C++_Primer) - - > (Perl_for_dummies,Tcl_Tk) Ar)cles de sport (Shoes) (Racket, Racketball) - - > (Sports_Jacket)
Régression Prédire la valeur d une variable con)nue en u)lisant la valeur d autres variables en supposant une rela)on (non)linéaire entre elles Très u)lisé en sta)s)ques Exemples: Prédire la quan)té de ventes d un nouveau produit en fonc)on du budget de publicité Prédire la force du vent en fonc)on de la température, humidité, pression Prédire le cours de la bourse
Détec)on d anomalies Détecter des dévia)ons significa)ves d un comportement normal Applica)ons: Détec)on de fraudes (CB) Détec)on d une ahaque réseau Détec)on d un capteur défaillant
Challenges de la fouille de données Passage à l échelle Hautes dimensions Complexité de données hétérogènes Qualité des données Préserva)on de la vie privée