Introduction à La Fouille de Données. Khai thác dữ liệu. Cours N 2. Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker



Documents pareils
Introduction au Data-Mining

Introduction au datamining

Introduction au Data-Mining

données en connaissance et en actions?

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Spécificités, Applications et Outils

Agenda de la présentation

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Apprentissage Automatique

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

INTRODUCTION AU DATA MINING

Pourquoi l apprentissage?

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Data Mining. Master 1 Informatique - Mathématiques UAG

L apprentissage automatique

1 Modélisation d être mauvais payeur

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Coup de Projecteur sur les Réseaux de Neurones

Enjeux mathématiques et Statistiques du Big Data

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Hervé Couturier EVP, SAP Technology Development

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Travailler avec les télécommunications

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Analyse de grandes bases de données en santé

Publications, ressources, liens, logiciels,

INF6304 Interfaces Intelligentes

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Annexe commune aux séries ES, L et S : boîtes et quantiles

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Introduction à la B.I. Avec SQL Server 2008

Les Entrepôts de Données

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Laboratoire 4 Développement d un système intelligent

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

La classification automatique de données quantitatives

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Cybermarché et analyse comportementale

SQL Parser XML Xquery : Approche de détection des injections SQL

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Cycle de formation certifiante Sphinx

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Validation probabiliste d un Système de Prévision d Ensemble

Algorithmes d'apprentissage

GPC Computer Science

Big Data et Graphes : Quelques pistes de recherche

ESIEA PARIS

4.2 Unités d enseignement du M1

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Page 1 Quelques méthodes et outils de la qualité

Mesure agnostique de la qualité des images.

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

Didier MOUNIEN Samantha MOINEAUX

Projet de Traitement du Signal Segmentation d images SAR

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Identification de nouveaux membres dans des familles d'interleukines

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

MABioVis. Bio-informatique et la

Logiciel XLSTAT version rue Damrémont PARIS

Item 169 : Évaluation thérapeutique et niveau de preuve

LES MODELES DE SCORE

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

Eléments de statistique

IBM SPSS Direct Marketing

2 Serveurs OLAP et introduction au Data Mining

SMARC La révolution des usages et des technologies : Quels impacts sur votre Stratégie Digitale. Mardi, le 21 avril 2015 SMARC G16

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Master Informatique Aix-Marseille Université

Complet Intuitif Efficace. Références

Etude des propriétés empiriques du lasso par simulations

Introduction à lʼinformatique. Décisionnelle (ID) / Business. Intelligence» (1)

Comment valoriser votre patrimoine de données?

ANALYSE STATISTIQUE PRÉDICTIVE

Chapitre 7. Récurrences

Transmission d informations sur le réseau électrique

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Introduction au Data Mining et à l apprentissage statistique

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

Evalua&on tests diagnos&ques. Arnaud Fontanet

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Les datas = le fuel du 21ième sicècle

Transcription:

1 /81 Cours IFI M1 Data Mining Introduction à La Fouille de Données Khai thác dữ liệu Cours N 2 Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker Chercheur de l IRD à UMMISCO (Modélisation Mathématiques Et Informatiques des Systèmes Complexes) UMI 209 UPMC/IRD MSI/IFI Vietnam 2 /81 Administratif: 6 Séances 8h30 à 11h45= 3h + 15 min de pause. Les cours de déroulent dans la salle 203. Séance 1: Mercredi 16 Mai Intro Générale Introduction, historique, formulation (KDD, Data Mining, Big Data) Les liens avec le Machine Learning et le Data Analysis Un environnement RStudio et un langage R La regression avec R Séance 2: Mercredi 23 Mai Vos données/préparation des données Séance 3: Mercredi 30 Mai Apprentissage d arbre de décisions Séance 4: Mercredi 6 Juin Recherche de règles d associations. Séance 5: Mercredi 13 Juin Le clustering. Séance 6: Jeudi 14 Juin La visualisation

3 /81 Site du cours http://ouebe.org http://www.sfds.asso.fr/190-polys_denseignement 4 /81 Travaux Pratiques Aller sur http://ouebe.org Puis Promotion 16, Puis TP du cours et Révisions

5 /81 I. la préparation des données/l induction 1. rappel/processus de la fouille Plan 2. Vos BD 3. L induction 4. La notion de prédiction et de test 5.Retour sur la regression 6.Analyse de données (TP sous R) 7. Analyse de vos données 6 /81 Data rich but information poor! : Besoins d Explorer, analyser, compacter, réduire, extraire, utiliser, ces données :... la fouille de données the extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) information or patterns from data in large databases Khai thác dữ liệu (data mining) là quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có. Définition: L exploration et l analyse de grandes quantité de données afin de découvrir des formes et des règles significatives en utilisant des moyens automatique ou semi-automatique.

7 /81 tâches de la fouille de données (typologie 1/2) SUPERVISE Classification (valeurs discrètes): Oui/Non, 1/2/3, VND/US$/ réponse qualitative à un médicament, classification de demandeurs de crédits, détermination des numéros de fax, dépistage de demandes d assurances frauduleuses, etc. L estimation (valeurs continues): [1-10], [-1,1],[0,1000000] réponse quantitative à un médicament, du nombre d enfants d une famille, revenu total par ménage, probabilité de réponse à une demande, etc. La prédiction (pour vérifier il faut attendre): «Dans 2 jours l action d apple doublera», demain il fera beau,... durée de vie d un patient, des clients qui vont disparaître, des abonnés qui vont prendre un service, etc.. Succès de la tâche: critère de performances sur nouvelles données 8 /81 tâches de la fouille de données (typologie 2/2) Le regroupement par similitudes (Clustering): des patients qui ont telles mutations génétiques développent tel type d obésité, etc. NON SUPERVISE La recherche d association : «95% des parents qui vont au supermarché acheter des couches (3% des achats) achètent aussi des bierres». 95% est la confiance et 3% le support (Association Rules). La recherche d anomalie : «Il y a une concentration de véhicule «anormale» tous les dimanche matin à 10h près de Nga The». «L utilisateur Hung s est connecté depuis Singapoore alors qu il ne l a jamais fait avant».(anomaly analysis) Succès de la tâche: critère d intérêt des «connaissances découvertes»

/81 Tâches (point de vue utilisateurs)! Database analysis and decision support! Market analysis and management! target marketing, market basket analysis,! Risk analysis and management! Forecasting, quality control, competitive analysis,! Fraud detection and management (voir transparent suivant)! Other Applications! Text mining (newsgroup, email, documents) and Web analysis.! Spatial data mining! Image Mining! Intelligent query answering /81 Applications : détection de fraudes! Applications! health care, retail, credit card services, telecommunications etc.! Approach! use historical data to build models of normal and fraudulent behavior and use data mining to help identify fraudulent instances! Examples! auto insurance: detect groups who stage accidents to collect insurance! money laundering: detect suspicious money transactions! medical insurance: detect professional patients and ring of doctors, inappropriate medical treatment! detecting telephone fraud:telephone call model: destination of the call, duration, time of day/week. Analyze patterns that deviate from expected norm.

/81 Discovery of Medical/ Biological Knowledge! Discovery of structure-function associations! Structure of proteins and their function! Human Brain Mapping (lesion-deficit, task-activation associations)! Cell structure (cytoskeleton) and functionality or pathology! Discovery of causal relationships! Symptoms and medical conditions! DNA sequence analysis! Bioinformatics (microarrays, etc) /81 Other Applications! Sports! Advanced Scout analyzed NBA game statistics (shots blocked, assists, and fouls) to gain competitive advantage for New York Knicks and Miami Heat.! Astronomy! JPL and the Palomar Observatory discovered 22 quasars with the help of data mining

13/81 Data Types and Forms Data Structure: Attribute-vector data, time series, data flow, relational data: Data types Numeric, categorical (see the hierarchy for their relationship) Static, dynamic (temporal) Other data forms Distributed data Text, Web, meta data Images Flow,... 14/81 4 Big Data = Data x V

15/81 Le processus de Fouille de données BD clients BD médicales, BD génomiques BD géographiques, BD textes, BD scientifiques, BD réseaux sociaux, BD images BD de simulation... Sélection Nettoyage SQL / OQL adhoc DB Pré-traitement DB DB Reformulation K. domaine Réduction Dim. ACP,... Extraction Fouille de données Paramètres supervisé máy học thuật toán non-supervisé Interprétation/ Visualisation Règles, Graphes, Diag. Autocorrél. Règles, 3D, RA, VR... Evaluation du gain... numérique symbolique SVM, RN, ID3, RF, DTree Association Rules APriori numérique CAH, KMEANS, KMEDOIDS 16/81 Lien avec les analyses statistiques connues? Oui! Les approches classiques : Analyse en Composante Principales, Analyse Discriminante, Regression, Corrélation, etc. sont utilisables.

17/81 Exemple 2 : Comparaison, entre les communautés «riche» et «pauvre». Régression Tension artérielle moyennes : Régression Proportion d adultes hypertendus : Régression LOGISTIQUE Nombre d œufs de parasites dans les selles Régression de POISSON 18/81 Exemple 1 (suite) : Expression des résultats. Régression Tension artérielle moyennes : Régression LINEAIRE : la tension artérielle systolique des pauvres des environ 30% plus élevée que celle des riches* Proportion d adultes hypertendus : Régression LOGISTIQUE : la proportion d hypertendu est 1,5 plus grande chez les pauvres que chez les riches Nombre d Œufs de parasites dans les selles : Régression de POISSON : Le nombre d œufs de parasites dans les selles est en moyenne 12 fois plus grande chez les riches que chez les pauvres * Toute choses étant «égales par ailleurs»

19/81 Visualiser les résultats 20/81 Prédire ne veut pas dire comprendre les causes... http://www.google.org/flutrends/ «Nous avons remarqué que certains termes de recherche étaient des indicateurs efficaces de la propagation de la grippe. Google Suivi de la grippe rassemble donc des données de recherche Google pour fournir une estimation quasiment en temps réel de cette propagation à l'échelle mondiale.»

21/81 Travaux Pratiques Maintenant en TP http://ouebe.org Puis Promotion 16 22/81 Dans la fouille (supervisé): aspect «prédictif» Repose sur l induction: Proposer des lois générales à partir de l observation de cas particuliers Problème Quel est le nombre a qui prolonge la séquence : 1 2 3 5 a?

23/81... Solution(s). Quelques réponses valides : a = 6.# Argument : c est la suite des entiers sauf 4. a = 7.# Argument : c est la suite des nombres premiers. a = 8.# Argument : c est la suite de Fibonacci a = 2 π. (a peut être n importe quel nombre réel supérieur ou égal à 5) # Argument : la séquence présentée est la liste ordonnée des racines du polynôme : P = x 5 - (11 + a)x 4 + (41 + 11a)x 3 - (61-41a)x 2 + (30 + 61a)x - 30a ## qui est le développement de : (x - 1). (x - 2). (x - 3). (x - 5). (x - a) Généralisation Il est facile de démontrer ainsi que n importe quel nombre est une prolongation correcte de n importe quelle suite de nombre! Mais alors! comment faire de l induction?!!!! et que peut-être une science de l induction? 24/81 Représenter les données Extraction de caractéristiques (descripteurs, attributs) Eliminer les descripteurs non pertinents Introduction de nouveaux descripteurs Utilisation de connaissances a priori Invariance par translation Invariance par changement d échelle Histogrammes Combinaisons de descripteurs Ajouter des descripteurs (beaucoup)!!

25/81 Valider les résultats Quel critère de performance (de succès)? Probabilité de misclassification Risque Nombre d erreurs Apprentissage sur un échantillon d'apprentissage Test sur une base de test "Erreur" Courbe d'apprentissage Taille échantillon 26/81 1.1- Fouille de données & Analyse de sensibilité La plupart des algorithmes de Fouille de données viennent de l apprentissage artificielle... Pour analyser les données issues de simulateurs (comme GAMA!)

27/81 Ensembles de données (collections) Toutes les données disponibles Ensemble d apprentissage Ensemble de test Ensemble de validation 28/81 Prédiction asymptotique (le cas idéal) Useful for very large data sets

29/81 Le sur-apprentissage (over-learning) Erreur erreur sur base de test Sur-apprentissage erreur sur base d'apprentissage Arrêt de l'apprentissage t 30/81 Utilisation de l ensemble de validation On règle les paramètres de l algorithme d apprentissage»e.g. : nb de couches cachées, nb de neurones,... en essayant de réduire l erreur de test Pour avoir une estimation non optimiste de l erreur, il faut recourir à une base d exemples non encore vus : la base de validation

31/81 Évaluation des hypothèses produites beaucoup peu de données 32/81 Courbes de performance intervalle de confiance à 95% Erreur de test Erreur d apprentissage

33/81 Évaluation des hypothèses produites Beaucoup de données peu 34/81 Différents ensembles Données apprentissage test erreur

35/81 Validation croisée à k plis (k-fold) 36/81 Validation croisée à k plis (k-fold) Données Apprend sur jaune, test sur rose erreur 1 Apprend sur jaune, test sur rose erreur 2 Apprend sur jaune, test sur rose erreur 3 k-way split Apprend sur jaune, test sur rose erreur 4 Apprend sur jaune, test sur rose erreur 5 Apprend sur jaune, test sur rose erreur 6 Apprend sur jaune, test sur rose erreur 7 Apprend sur jaune, test sur rose erreur 8 erreur = Σ erreur i / k

37/81 Procédure leave-one-out Données! Faible biais! Haute variance! Tend à sous-estimer l erreur si les données ne sont pas vraiment i.i.d. [Guyon & Elisseeff, jmlr, 03] 38/81 Le Bootstrap Le bootstrap est biaisé Le bootstrap est biaisé (son estimation du biais est biaisée vers zéro), car certaines observations sont utilisées à la fois dans l'échantillon pour construire le modèle et dans l'échantillon pour le valider. Le bootstrap "hors du sac" (out-of-the-bag) et le bootstrap.632 tentent de corriger ce biais.

39/81 Le Bootstrap Out-of-the-bag bootstrap Le bootstrap "hors du sac" consiste à ne pas utiliser toutes les observations pour valider le modèle mais uniquement celles qui ne figurent pas déjà dans l'échantillon ayant servi à le construire (c'est d'ailleurs ce qu'on faisait pour la validation croisée). Bootstrap.632 En fait, le bootstrap "out-of-the-bag" est quand-même biaisé, mais dans l'autre sens. Pour tenter de corriger ce biais, on peut faire une moyenne pondérée du bootstrap initial et du bootstrap oob..368 * (biais estimé par le bootstrap) +.632 * (biais estimé par le bootstrap oob) (le coefficient.632 s'interprète ainsi : pour n grand, les échantillons de bootstrap contiennent en moyenne 63,2% des observations initiales). 40/81 Types d erreurs Erreur de type 1 (alpha) : faux positifs Probabilité d accepter l hypothèse alors qu elle est fausse Erreur de type 2 (beta) : faux négatifs Probabilité de rejeter l hypothèse alors qu elle est vraie!comment arbitrer entre ces types d erreurs?

41/81 Courbe ROC ROC = Receiver Operating Characteristic Probabilité de la classe Classe '-' Classe '+' Critère de décision 42/81 La courbe ROC Probabilité de la classe Classe '+' Faux négatifs (10%) Vrais positifs (90%) Probabilité de la classe Classe '-' Vrais négatifs Critère de décision Faux positifs (50%) (50%) Critère de décision

43/81 La courbe ROC PROPORTION DE VRAIS NEGATIFS 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,0 1,0 0,9 0,9 PROPORTION DE VRAIS POSITIFS 0,8 0,7 0,6 0,5 0,4 0,3 Courbe ROC (pertinence = 0,90) Ligne de hasard (pertinence = 0,5) 0,8 0,7 0,6 0,5 0,4 0,3 PROPORTION DE FAUX NEGATIFS 0,2 0,2 0,1 0,1 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 PROPORTION DE FAUX POSITIFS 44/81 La courbe ROC PROPORTION DE VRAIS NEGATIFS PROPORTION DE VRAIS NEGATIFS 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,0 1,0 1,0 1,0 0,9 0,9 0,9 Seuil "laxiste" 0,9 PROPORTION DE VRAIS POSITIFS 0,8 0,7 0,6 0,5 0,4 0,3 Courbe ROC (pertinence = 0,90) Ligne de hasard (pertinence = 0,5) 0,8 0,7 0,6 0,5 0,4 0,3 PROPORTION DE FAUXNEGATIFS PROPORTION DE VRAIS POSITIFS 0,8 0,7 0,6 0,5 0,4 0,3 Seuil "sévère" Probabilité delaclase Probabilité delaclase Classe '+' Faux négatifs Classe '- ' Vrais négatifs Faux positifs Vrais positifs Critère de décision Probabilité delaclase Probabilité delaclase Classe '+' Faux négatifs (10%) Classe '- ' Vrais négatifs (50%) (50%) Vrais positifs (90%) Critère de décision Faux positifs Critère de décision 0,8 0,7 0,6 0,5 0,4 0,3 PROPORTION DE FAUXNEGATIFS 0,2 0,2 0,2 Critère de décision 0,2 0,1 0,1 0,1 0,1 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 0 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 0 PROPORTION DE FAUX POSITIFS PROPORTION DE FAUX POSITIFS

45/81 Courbe ROC Spécificité VP VP + FN! Rappel VP VP + FN Sensibilité VN FP + VN! Précision VP VP + FP Réel Estimé + - + VP FP - FN VN 46/81 Résumé Attention à votre fonction de coût : qu est-ce qui importe pour la mesure de performance? Données en nombre fini: calculez les intervalles de confiance Données rares : Attention à la répartition entre données d apprentissage et données test. Validation croisée. N oubliez pas l ensemble de validation Mesure de la précision (accuracy) 100-erreur% L évaluation est très importante Ayez l esprit critique Convainquez-vous vous même!