Introduction à La Fouille de Données. Khai thác dữ liệu. Cours N 2. Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker

Transcription

1 1 /81 Cours IFI M1 Data Mining Introduction à La Fouille de Données Khai thác dữ liệu Cours N 2 Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker Chercheur de l IRD à UMMISCO (Modélisation Mathématiques Et Informatiques des Systèmes Complexes) UMI 209 UPMC/IRD MSI/IFI Vietnam 2 /81 Administratif: 6 Séances 8h30 à 11h45= 3h + 15 min de pause. Les cours de déroulent dans la salle 203. Séance 1: Mercredi 16 Mai Intro Générale Introduction, historique, formulation (KDD, Data Mining, Big Data) Les liens avec le Machine Learning et le Data Analysis Un environnement RStudio et un langage R La regression avec R Séance 2: Mercredi 23 Mai Vos données/préparation des données Séance 3: Mercredi 30 Mai Apprentissage d arbre de décisions Séance 4: Mercredi 6 Juin Recherche de règles d associations. Séance 5: Mercredi 13 Juin Le clustering. Séance 6: Jeudi 14 Juin La visualisation

2 3 /81 Site du cours /81 Travaux Pratiques Aller sur Puis Promotion 16, Puis TP du cours et Révisions

3 5 /81 I. la préparation des données/l induction 1. rappel/processus de la fouille Plan 2. Vos BD 3. L induction 4. La notion de prédiction et de test 5.Retour sur la regression 6.Analyse de données (TP sous R) 7. Analyse de vos données 6 /81 Data rich but information poor! : Besoins d Explorer, analyser, compacter, réduire, extraire, utiliser, ces données :... la fouille de données the extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) information or patterns from data in large databases Khai thác dữ liệu (data mining) là quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có. Définition: L exploration et l analyse de grandes quantité de données afin de découvrir des formes et des règles significatives en utilisant des moyens automatique ou semi-automatique.

4 7 /81 tâches de la fouille de données (typologie 1/2) SUPERVISE Classification (valeurs discrètes): Oui/Non, 1/2/3, VND/US$/ réponse qualitative à un médicament, classification de demandeurs de crédits, détermination des numéros de fax, dépistage de demandes d assurances frauduleuses, etc. L estimation (valeurs continues): [1-10], [-1,1],[0, ] réponse quantitative à un médicament, du nombre d enfants d une famille, revenu total par ménage, probabilité de réponse à une demande, etc. La prédiction (pour vérifier il faut attendre): «Dans 2 jours l action d apple doublera», demain il fera beau,... durée de vie d un patient, des clients qui vont disparaître, des abonnés qui vont prendre un service, etc.. Succès de la tâche: critère de performances sur nouvelles données 8 /81 tâches de la fouille de données (typologie 2/2) Le regroupement par similitudes (Clustering): des patients qui ont telles mutations génétiques développent tel type d obésité, etc. NON SUPERVISE La recherche d association : «95% des parents qui vont au supermarché acheter des couches (3% des achats) achètent aussi des bierres». 95% est la confiance et 3% le support (Association Rules). La recherche d anomalie : «Il y a une concentration de véhicule «anormale» tous les dimanche matin à 10h près de Nga The». «L utilisateur Hung s est connecté depuis Singapoore alors qu il ne l a jamais fait avant».(anomaly analysis) Succès de la tâche: critère d intérêt des «connaissances découvertes»

5 /81 Tâches (point de vue utilisateurs)! Database analysis and decision support! Market analysis and management! target marketing, market basket analysis,! Risk analysis and management! Forecasting, quality control, competitive analysis,! Fraud detection and management (voir transparent suivant)! Other Applications! Text mining (newsgroup, , documents) and Web analysis.! Spatial data mining! Image Mining! Intelligent query answering /81 Applications : détection de fraudes! Applications! health care, retail, credit card services, telecommunications etc.! Approach! use historical data to build models of normal and fraudulent behavior and use data mining to help identify fraudulent instances! Examples! auto insurance: detect groups who stage accidents to collect insurance! money laundering: detect suspicious money transactions! medical insurance: detect professional patients and ring of doctors, inappropriate medical treatment! detecting telephone fraud:telephone call model: destination of the call, duration, time of day/week. Analyze patterns that deviate from expected norm.

6 /81 Discovery of Medical/ Biological Knowledge! Discovery of structure-function associations! Structure of proteins and their function! Human Brain Mapping (lesion-deficit, task-activation associations)! Cell structure (cytoskeleton) and functionality or pathology! Discovery of causal relationships! Symptoms and medical conditions! DNA sequence analysis! Bioinformatics (microarrays, etc) /81 Other Applications! Sports! Advanced Scout analyzed NBA game statistics (shots blocked, assists, and fouls) to gain competitive advantage for New York Knicks and Miami Heat.! Astronomy! JPL and the Palomar Observatory discovered 22 quasars with the help of data mining

7 13/81 Data Types and Forms Data Structure: Attribute-vector data, time series, data flow, relational data: Data types Numeric, categorical (see the hierarchy for their relationship) Static, dynamic (temporal) Other data forms Distributed data Text, Web, meta data Images Flow,... 14/81 4 Big Data = Data x V

8 15/81 Le processus de Fouille de données BD clients BD médicales, BD génomiques BD géographiques, BD textes, BD scientifiques, BD réseaux sociaux, BD images BD de simulation... Sélection Nettoyage SQL / OQL adhoc DB Pré-traitement DB DB Reformulation K. domaine Réduction Dim. ACP,... Extraction Fouille de données Paramètres supervisé máy học thuật toán non-supervisé Interprétation/ Visualisation Règles, Graphes, Diag. Autocorrél. Règles, 3D, RA, VR... Evaluation du gain... numérique symbolique SVM, RN, ID3, RF, DTree Association Rules APriori numérique CAH, KMEANS, KMEDOIDS 16/81 Lien avec les analyses statistiques connues? Oui! Les approches classiques : Analyse en Composante Principales, Analyse Discriminante, Regression, Corrélation, etc. sont utilisables.

9 17/81 Exemple 2 : Comparaison, entre les communautés «riche» et «pauvre». Régression Tension artérielle moyennes : Régression Proportion d adultes hypertendus : Régression LOGISTIQUE Nombre d œufs de parasites dans les selles Régression de POISSON 18/81 Exemple 1 (suite) : Expression des résultats. Régression Tension artérielle moyennes : Régression LINEAIRE : la tension artérielle systolique des pauvres des environ 30% plus élevée que celle des riches* Proportion d adultes hypertendus : Régression LOGISTIQUE : la proportion d hypertendu est 1,5 plus grande chez les pauvres que chez les riches Nombre d Œufs de parasites dans les selles : Régression de POISSON : Le nombre d œufs de parasites dans les selles est en moyenne 12 fois plus grande chez les riches que chez les pauvres * Toute choses étant «égales par ailleurs»

10 19/81 Visualiser les résultats 20/81 Prédire ne veut pas dire comprendre les causes... «Nous avons remarqué que certains termes de recherche étaient des indicateurs efficaces de la propagation de la grippe. Google Suivi de la grippe rassemble donc des données de recherche Google pour fournir une estimation quasiment en temps réel de cette propagation à l'échelle mondiale.»

11 21/81 Travaux Pratiques Maintenant en TP Puis Promotion 16 22/81 Dans la fouille (supervisé): aspect «prédictif» Repose sur l induction: Proposer des lois générales à partir de l observation de cas particuliers Problème Quel est le nombre a qui prolonge la séquence : a?

12 23/81... Solution(s). Quelques réponses valides : a = 6.# Argument : c est la suite des entiers sauf 4. a = 7.# Argument : c est la suite des nombres premiers. a = 8.# Argument : c est la suite de Fibonacci a = 2 π. (a peut être n importe quel nombre réel supérieur ou égal à 5) # Argument : la séquence présentée est la liste ordonnée des racines du polynôme : P = x 5 - (11 + a)x 4 + ( a)x 3 - (61-41a)x 2 + ( a)x - 30a ## qui est le développement de : (x - 1). (x - 2). (x - 3). (x - 5). (x - a) Généralisation Il est facile de démontrer ainsi que n importe quel nombre est une prolongation correcte de n importe quelle suite de nombre! Mais alors! comment faire de l induction?!!!! et que peut-être une science de l induction? 24/81 Représenter les données Extraction de caractéristiques (descripteurs, attributs) Eliminer les descripteurs non pertinents Introduction de nouveaux descripteurs Utilisation de connaissances a priori Invariance par translation Invariance par changement d échelle Histogrammes Combinaisons de descripteurs Ajouter des descripteurs (beaucoup)!!

13 25/81 Valider les résultats Quel critère de performance (de succès)? Probabilité de misclassification Risque Nombre d erreurs Apprentissage sur un échantillon d'apprentissage Test sur une base de test "Erreur" Courbe d'apprentissage Taille échantillon 26/ Fouille de données & Analyse de sensibilité La plupart des algorithmes de Fouille de données viennent de l apprentissage artificielle... Pour analyser les données issues de simulateurs (comme GAMA!)

14 27/81 Ensembles de données (collections) Toutes les données disponibles Ensemble d apprentissage Ensemble de test Ensemble de validation 28/81 Prédiction asymptotique (le cas idéal) Useful for very large data sets

15 29/81 Le sur-apprentissage (over-learning) Erreur erreur sur base de test Sur-apprentissage erreur sur base d'apprentissage Arrêt de l'apprentissage t 30/81 Utilisation de l ensemble de validation On règle les paramètres de l algorithme d apprentissage»e.g. : nb de couches cachées, nb de neurones,... en essayant de réduire l erreur de test Pour avoir une estimation non optimiste de l erreur, il faut recourir à une base d exemples non encore vus : la base de validation

16 31/81 Évaluation des hypothèses produites beaucoup peu de données 32/81 Courbes de performance intervalle de confiance à 95% Erreur de test Erreur d apprentissage

17 33/81 Évaluation des hypothèses produites Beaucoup de données peu 34/81 Différents ensembles Données apprentissage test erreur

18 35/81 Validation croisée à k plis (k-fold) 36/81 Validation croisée à k plis (k-fold) Données Apprend sur jaune, test sur rose erreur 1 Apprend sur jaune, test sur rose erreur 2 Apprend sur jaune, test sur rose erreur 3 k-way split Apprend sur jaune, test sur rose erreur 4 Apprend sur jaune, test sur rose erreur 5 Apprend sur jaune, test sur rose erreur 6 Apprend sur jaune, test sur rose erreur 7 Apprend sur jaune, test sur rose erreur 8 erreur = Σ erreur i / k

19 37/81 Procédure leave-one-out Données! Faible biais! Haute variance! Tend à sous-estimer l erreur si les données ne sont pas vraiment i.i.d. [Guyon & Elisseeff, jmlr, 03] 38/81 Le Bootstrap Le bootstrap est biaisé Le bootstrap est biaisé (son estimation du biais est biaisée vers zéro), car certaines observations sont utilisées à la fois dans l'échantillon pour construire le modèle et dans l'échantillon pour le valider. Le bootstrap "hors du sac" (out-of-the-bag) et le bootstrap.632 tentent de corriger ce biais.

20 39/81 Le Bootstrap Out-of-the-bag bootstrap Le bootstrap "hors du sac" consiste à ne pas utiliser toutes les observations pour valider le modèle mais uniquement celles qui ne figurent pas déjà dans l'échantillon ayant servi à le construire (c'est d'ailleurs ce qu'on faisait pour la validation croisée). Bootstrap.632 En fait, le bootstrap "out-of-the-bag" est quand-même biaisé, mais dans l'autre sens. Pour tenter de corriger ce biais, on peut faire une moyenne pondérée du bootstrap initial et du bootstrap oob..368 * (biais estimé par le bootstrap) * (biais estimé par le bootstrap oob) (le coefficient.632 s'interprète ainsi : pour n grand, les échantillons de bootstrap contiennent en moyenne 63,2% des observations initiales). 40/81 Types d erreurs Erreur de type 1 (alpha) : faux positifs Probabilité d accepter l hypothèse alors qu elle est fausse Erreur de type 2 (beta) : faux négatifs Probabilité de rejeter l hypothèse alors qu elle est vraie!comment arbitrer entre ces types d erreurs?

21 41/81 Courbe ROC ROC = Receiver Operating Characteristic Probabilité de la classe Classe '-' Classe '+' Critère de décision 42/81 La courbe ROC Probabilité de la classe Classe '+' Faux négatifs (10%) Vrais positifs (90%) Probabilité de la classe Classe '-' Vrais négatifs Critère de décision Faux positifs (50%) (50%) Critère de décision

22 43/81 La courbe ROC PROPORTION DE VRAIS NEGATIFS 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,0 1,0 0,9 0,9 PROPORTION DE VRAIS POSITIFS 0,8 0,7 0,6 0,5 0,4 0,3 Courbe ROC (pertinence = 0,90) Ligne de hasard (pertinence = 0,5) 0,8 0,7 0,6 0,5 0,4 0,3 PROPORTION DE FAUX NEGATIFS 0,2 0,2 0,1 0, ,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 PROPORTION DE FAUX POSITIFS 44/81 La courbe ROC PROPORTION DE VRAIS NEGATIFS PROPORTION DE VRAIS NEGATIFS 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,0 1,0 1,0 1,0 0,9 0,9 0,9 Seuil "laxiste" 0,9 PROPORTION DE VRAIS POSITIFS 0,8 0,7 0,6 0,5 0,4 0,3 Courbe ROC (pertinence = 0,90) Ligne de hasard (pertinence = 0,5) 0,8 0,7 0,6 0,5 0,4 0,3 PROPORTION DE FAUXNEGATIFS PROPORTION DE VRAIS POSITIFS 0,8 0,7 0,6 0,5 0,4 0,3 Seuil "sévère" Probabilité delaclase Probabilité delaclase Classe '+' Faux négatifs Classe '- ' Vrais négatifs Faux positifs Vrais positifs Critère de décision Probabilité delaclase Probabilité delaclase Classe '+' Faux négatifs (10%) Classe '- ' Vrais négatifs (50%) (50%) Vrais positifs (90%) Critère de décision Faux positifs Critère de décision 0,8 0,7 0,6 0,5 0,4 0,3 PROPORTION DE FAUXNEGATIFS 0,2 0,2 0,2 Critère de décision 0,2 0,1 0,1 0,1 0, ,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1, ,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 PROPORTION DE FAUX POSITIFS PROPORTION DE FAUX POSITIFS

23 45/81 Courbe ROC Spécificité VP VP + FN! Rappel VP VP + FN Sensibilité VN FP + VN! Précision VP VP + FP Réel Estimé VP FP - FN VN 46/81 Résumé Attention à votre fonction de coût : qu est-ce qui importe pour la mesure de performance? Données en nombre fini: calculez les intervalles de confiance Données rares : Attention à la répartition entre données d apprentissage et données test. Validation croisée. N oubliez pas l ensemble de validation Mesure de la précision (accuracy) 100-erreur% L évaluation est très importante Ayez l esprit critique Convainquez-vous vous même!