1 Extraction de Connaissances Avancées Maguelonne Teisseire TETIS Irstea teisseire@teledetection.fr http://www.lirmm.fr/~teisseir
Organisation o Planning http://www.lirmm.fr/~aze/gmin313.html o Les intervenants Equipes Advanse - SISO o Le projet 2
Plan o Pourquoi fouiller les données? o Le processus d extraction o Quelques domaines d application o Vocabulaire o Vers de nouveaux challenges 3
Pourquoi fouiller les données? o o De nombreuses données sont collectées et entreposées n Données du Web, E-commerce, Achats dans les supermarchés, Transactions de cartes bancaires n Capteurs intelligents, Textes, Sons, Images Les ordinateurs deviennent de moins en moins chers et de plus en plus puissants n Information facile à produire n + 100 millions de blogs n 120.000 blogs crées par jour 4
Pourquoi fouiller les données? o Les données sont collectées et stockées rapidement (GB/heures) n Capteurs : RFID, supervision de procédé n Puces à ADN générant des expressions de gènes n Simulations générant de téraoctets de données n Yahoo : 48 Gbs par heure de clickstream n NASA EOS (Earth Observation System) observation par satellites 350 GBs par jour 5
Pourquoi fouiller les données? o Les techniques traditionnelles ne sont pas adaptées o Volume de données trop grands (trop de tuples, trop d attributs) Comment explorer des millions d enregistrements avec des milliers d attributs? o Requêtes traditionnelles (SQL) impossibles «Rechercher tous les enregistrements indiquant une fraude» o Croyance dans la présence de données importantes 6
Un enjeu stratégique Déterminer les moyens pour fidéliser les clients Identifier les nouveaux marchés Anticiper les changements de comportement Minimiser les risques Identifier les nouveaux produits ou services 7
Qu est ce que la fouille de données? n Exploration et analyse, par des moyens automatiques ou semi-automatiques, de grandes quantités de données en vue d extraire des motifs intéressants n De nombreuses définitions : Fayyad (1996) Knowledge Discovery in Databases : "the nontrivial process of identifying valid, potentially useful and ultimately understandable patterns in data" 8
Qu est-ce que la fouille de données? Convergence de domaines statistiques KDD vs. Data Mining I.H.M. I.A. apprentissage Bases de données 9
10 Le processus de KDD Données pré-traitées Pré-traitement et nettoyage Données transformées Databases Datawarehouse DataMart Web Données cibles visualisation Motifs / Modèles
Données, Informations, Connaissances Décision Promouvoir le produit P dans la région R durant la période N Réaliser un mailing sur le produit P aux familles de profil F Connaissance (data mining) Une quantité Q du produit P est vendue en région R Les familles de profil F utilisent M% de P durant la période N Information (requêtes) X habite la région R Y a A ans Z dépense son argent dans la ville V de la région R Données Consommateurs Magasins Ventes Démographie Géographie 11
Fouille de données. ou pas? NON Rechercher le salaire d un employé OUI Les supporters achètent de la bière le samedi et de l aspirine le dimanche Interroger un moteur de recherche Web pour avoir des informations sur le Data Mining Regrouper ensemble des documents retournés par un moteur de recherche en fonction de leur contenu 12
Cycle de vie du KDD «Questions stratégiques» Identification du problème DataWarehouse SGBD Evaluer Rapports, graphique, Executive Information Systems (EIS) Agir sur l information Transformation des données en information/ connaissances Processus de KDD 13
Applications o o o o o Médecine : bio-médecine, drogue, Sida, séquence génétique, gestion hôpitaux,... Finance, assurance : crédit, prédiction du marché, détection de fraudes, Social : données démographiques, votes, résultats des élections, Marketing et ventes : comportement des utilisateurs, prédiction des ventes, espionnage industriel, Militaire : fusion de données.. (secret défense) o Astrophysique : astronomie, «contact» ( ;-)) o Informatique : agents, règles actives, IHM, réseau, Data- Warehouse, Data Mart, Internet (moteurs intelligent, profiling, text mining, ) 14
Quid des données? o Grandes Bases de Données ou non? o Faut -il échantillonner? 100 000 enregistrements, 100 Mo par jour o 2 Go par jour, 100 Go par heure. Déjà les petabyte (2 50 )... Différents domaines n Bases de Données n Intelligence Artificielle (Machine Learning) n Statistiques n Algorithmique, 15
Data Mining vs Statistiques Hypothèses Nouvelles informations Techniques Statistiques Techniques de Data Mining Confirmatoires Exploratoires 16
Machine Learning vs Data Mining Passage à l échelle 17
Les tâches du DM o Fouille de données : de nombreuses tâches possibles (27) n n n n n n Classification créer une fonction qui classifie une donnée élémentaire parmi plusieurs classes prédéfinies existantes Régression créer une fonction qui donne une donnée élémentaire à une variable de prévision avec des données réelles Groupement (clustering) rechercher à identifier un ensemble fini de catégories ou groupe en vues de décrire les données Résumé affiner une description compacte d un sous-ensemble de données Modélisation des dépendances trouver un modèle qui décrit des dépendances significatives entre les variables Détection de changement et déviation découvrir les changements les plus significatifs dans les données 18
Les tâches du DM o Non pas 1 mais n approches donc m techniques o 3 approches principales (R. Agrawal) vision BD Classification Règles d association Motifs séquentiels 19
Supervisés et non supervisés n Apprentissage supervisé : o On dispose d'un fichier décrivant des données alliant une description et une classe o On cherche une fonction de classification permettant d'induire la classe en fonction d'une description n Apprentissage non supervisé : o On dispose d'un fichier de description des données sans classes connues a priori o On cherche à diviser ces données en catégories 20
Algorithmes prédictifs et descriptifs n Veut-on o Trouver une fonction permettant de prédire la classe d'une données jamais vue Ou o Trouver des descriptions résumées et pertinentes expliquant les données n La limite entre les 2 est floue! (méthodes descriptives pour la prédiction) 21
Algorithmes vu en M1 o Classification supervisée o Méthode de Bayes naïf o k plus proches voisins o Arbres de décision o Classification non supervisée : o o o k-means o De partition o Hiérarchique Règles d association Évaluation des méthodes 22
Classification n division de l ensemble de données en classes disjointes en utilisant un apprentissage supervisé ou non (clustering) o But : recherche d un ensemble de prédicats caractérisant une classe d objet et qui peut être appliqué à des objets inconnus pour prévoir leur classe d appartenance. o Exemple : une banque peut vouloir classer ses clients pour savoir si elle accorde un crédit ou non. o Techniques : Arbre de décision, réseaux neuronaux,... 23
Le mailing o Classification/clustering un exemple d utilisation n un cadeau est envoyé par mailing. Un envoi sans réponse coûte 50 et une réponse assure 100. n Pas d envoi de mailing à un client qui aurait répondu : perte de 100. 24
Le mailing Envoi du mailing Quel client a répondu? Déterminer les caractéristiques des clients avec le Data Mining Sélection des clients sur la base Résultat : groupement avec une forte probabilité de réponse 25
Résultat du mailing Population de Mailing 100 personnes Oui : 31%, Non : 69 % Prob : 97% Cadres 70 personnes Oui : 40 %, Non 60 % Prob : 95% Ouvrier 30 personnes Oui : 10 %, Non : 90 % Prob : 95 % Hommes 50 personnes Oui : 36 %, Non : 64 % Prob : 93 % Femmes 20 personnes Oui : 50 %, Non : 50 % Prob : 93 % 26
Quantification Population de mailing - 350 31*100-69*50 Cadres 700 (70* 40%)*100 - (70*60%)*50 Ouvriers - 1050 3 * 100-27 * 50 Hommes 200 18 * 100-32 * 50 Femmes 500 10 * 100-10 * 50 Mailing à l ensemble des cadres ou uniquement aux femmes cadres 27
Evaluation Matrice de coûts Prédit OBSERVE Payé Retardé Impayé TOTAL Payé 80 15 5 100 Retardé 1 17 2 20 Impayé 5 2 23 30 TOTAL 86 34 30 150 Validité du modèle : nombre de cas exacts (=somme de la diagonale) divisé par le nombre total : 120/150 = 0.8 28
Recherche de motifs fréquents o Qu est ce qu un motif fréquent? n Un motif (ensemble d items, séquences, arbres, ) qui interviennent fréquemment ensemble dans une base de données [AIS93] o Les motifs fréquents : une forme importante de régularité n Quels produits sont souvent achetés ensemble? n Quelles sont les conséquences d un ouragan? n Quel est le prochain achat après un PC? 29
Recherche de motifs fréquents o Analyse des associations 35% des clients qui achètent de la bière achètent des couches n Panier de la ménagère, cross marketing, conception de catalogue, analyse de textes n Corrélation ou analyse de causalité o Analyse de séquences 25% des clients achètent de la bière et le lendemain de l aspirine n Web Mining, détection de tendances, analyses ADN n Périodicité partielle, associations temporelles/cycliques 30
Panier de la ménagère Localisation Produits achetés Identification Date, heure Les règles d association 31
Aidons Mme Guénolé 32
Aidons Mme Guénolé o Quels enseignements? n Rechercher sans a priori n est pas une tâche aisée n Quelle validation des découvertes de connaissance? surprenante et nouvelle
La légende Les règles d association 34
Motivations vers une évolution Requêtes sur une base de données Select F.Four_Nom, F.Ville From F,FP,P Where F.Four_No=FP.Four_No And FP.Piece_No=P.Piece_No And Piece_Nom=«Ecrou» Salsa, Lille Jean, Paris 35
Motivations vers une évolution http://www.google.fr/search?hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&meta= http://images.google.fr/images? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa= N&tab=wi http://groups.google.fr/groups? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa= N&tab=ig http://news.google.fr/news? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa= N&tab=gn http://www.google.fr/search? hl=fr&q=sdi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=iw http://maps.google.fr/ maps http://www.google.fr/search?hl=fr&q=maps&meta= http://www.google.fr/ search?hl=fr&q=scholar&meta= http://scholar.google.com/ http:// scholar.google.com/scholar?q=intrusion+detection+data+mining&hl=fr&lr=&lr= http://scholar.google.com/scholar?hl=fr&lr=&cluster=13562338393205821716 http://groups.google.fr/groups/dir?lnk=od&hl=fr&sel=16823695 http:// groups.google.fr/groups/dir? hl=fr&sel=16823695,67188904,16823684,16823694,16823683 http:// groups.google.fr/group/soswindows?lnk=gschg&hl=fr http://news.google.fr/? ned=fr&topic=n http://news.google.fr/?ned=fr&topic=n http://video.google.fr/ videosearch?q=genre:../../../etc/passwd http://earth.google.fr/earth4.html http:// books.google.fr/books? id=7na0ud5wbi4c&pg=pa1&ots=fo9stqkezv&dq=ids&sig=p3bmwwqjemo zrgondxsfj6tjn4m http://blogsearch.google.fr/blogsearch?hl=fr&q=ids&lr=.. Fouille De Données Motifs de fraudes : http://host/cgi-bin/vuln.cgi?file=* -> http://host/cgi-bin*file=/etc/passwd 36
Les challenges «classiques» 37
Les challenges «classiques» o Quelques exemples de gros volumes de données Sources wintercorp.com 2003 Co. Size (GB) DBMS System France Telecom 29323 Oracle HP AT&T 26269 Dayton Sun SBC 24805 Teradata NCR Anonymous 16191 DB2 for Unix IBM Amazon.com 13001 Oracle HP 38
Mais aussi o Capteurs : A, B, C o Mesures : le capteur A mesure la valeur 82.5 au temps 06:41:39 39
Pour la maintenance 40
Mais aussi http://www.google.fr/search?hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&meta= http://images.google.fr/images? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=wi http:// groups.google.fr/groups? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=ig http:// news.google.fr/news? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=gn http:// www.google.fr/search?hl=fr&q=sdi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=iw http:// maps.google.fr/maps http://www.google.fr/search?hl=fr&q=maps&meta= http://www.google.fr/search? hl=fr&q=scholar&meta= http://scholar.google.com/ http://scholar.google.com/scholar?q=intrusion +detection+data+mining&hl=fr&lr=&lr= http://scholar.google.com/scholar? hl=fr&lr=&cluster=13562338393205821716 http://groups.google.fr/groups/dir? lnk=od&hl=fr&sel=16823695 http://groups.google.fr/groups/dir? hl=fr&sel=16823695,67188904,16823684,16823694,16823683 http://groups.google.fr/group/ soswindows?lnk=gschg&hl=fr http://news.google.fr/?ned=fr&topic=n http://news.google.fr/? ned=fr&topic=n http://video.google.fr/videosearch?q=genre:../../../etc/passwd http://earth.google.fr/ earth4.html http://books.google.fr/books? id=7na0ud5wbi4c&pg=pa1&ots=fo9stqkezv&dq=ids&sig=p3bmwwqjemozrgondxsfj6tjn4m http://blogsearch.google.fr/blogsearch?hl=fr&q=ids&lr=.. Connaissance : http://host/cgi-bin/vuln.cgi?file=* -> http://host/cgi-bin*file=/etc/passwd http://www.google.fr/search?hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&meta= http://images.google.fr/images? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=wi http:// groups.google.fr/groups? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=ig http:// news.google.fr/news? hl=fr&rlz=1t4gfrc_frfr207fr208&q=.cgi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=gn http:// www.google.fr/search?hl=fr&q=sdi&ie=utf-8&oe=utf-8&um=1&sa=n&tab=iw http:// maps.google.fr/maps http://www.google.fr/search?hl=fr&q=maps&meta= Quid des aspects incrémentaux? 41
Explosion de données ces dernières années n 30 Milliards d email par jour - 1 Milliard de SMS, MMS n «China s cellular operators estimate Chinese customers will send around 14 billion Lunar New Year text messages on their mobile phones during the weeklong holiday» n n n Trafic réseau IP : plus d 1 Milliard de packets par heure et par routeur. Chaque fournisseur de service internet possède (des centaines) de routeurs! 75000 tuples par seconde! AT&T collecte 100 GBs de données de réseaux chaque jour Données scientifiques: NASA EOS (Earth Observation System) observation par satellites génére 350 GBs par jour Sources: tutorial of Muthu Muthukrishnan (Rutgers Univ.), Turorial of G. Hebrail (ENST) News February 19th 07 42
Explosion de données ces dernières années n En moyenne 1 1Milliard de page par jour vus sur ebay Sources: ebay Report (2006) n Yahoo: 166 millions de visiteurs par jour; 48 Gbs par heure de clickstream Sources: Yahoo (2002) o Besoin de requête/analyse sophistiquée en temps réel 43
Applications o Enregistrement des appels téléphoniques o Business: transactions cartes banquaires o Supervision de réseau o Marché financier : stock exchange o Processus industriels, RFID o Capteurs, surveillance : flux vidéo o Localisation de Visiteur : IntelliBadge (expérience du NCSA) o Hôpitaux o Clickstreams 44
Qu est ce qu un flux de données? o Une définition n Un flux de données est une séquence (potentiellement) non limitée de tuples n Continue n Ordonné : suppose un numéro (éventuellement implicite) de séquence pour chaque élément n Changeant : la distribution des données change en temps réel n Rapide : les données arrivent rapidement n Volume très grand : De gros volumes de données (quelques terabytes) - éventuellement infinis n Vous n avez droit qu à un seul passage!!!! 45
Conclusion o Pour une application, de nombreuses approches possibles o De nombreuses questions : n Quelle technique choisir? Quelles données retenir? n Résultats attendus?.. o Ne pas oublier l étape de préparation des données : 80% du temps o Besoin de s adapter à de nouvelles contraintes : préservation de la vie privée, contraintes temporelles, données dynamiques (incrémental ou flot), données complexes (semi structurées, textuelles, multidimensionnelles), 46