Initiation à la fouille de données et à l apprentissage automatiq

Dimension: px

Commencer à balayer dès la page:

Download "Initiation à la fouille de données et à l apprentissage automatiq"

Sylvain Carrière
il y a 8 ans
Total affichages :

1 Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr magnan 1 Extrait du cours de François Denis

Marseille Université de Provence christophe.magnan@lif.

2 Plan du cours 1 Informations générales 2 3

3 Plan 1 Informations générales 2 3

4 Organisation du cours 8 séances de 3 heures (Lundi 14h-17h) 4 séances de cours, 4 séances de TP Deux objectifs ; Bases de l apprentissage automatique Manipulation du logiciel SAS Enterprise Miner 1 examen écrit (12), 1 projet sur machine (8)

de l apprentissage automatique Manipulation du logiciel SAS

5 Informations et documents Infos sur le planning Documents Fichiers de données pour les TP magnan Section enseignement 2007/2008 Data Mining

6 Informations et documents

7 Plan 1 Informations générales 2 3

8 Schéma général

9 Définitions «L extraction de connaissances à partir de données (Data Mining) est un processus non trivial d identification de structures inconnues, valides et potentiellement exploitables dans les bases de données»

d identification de structures inconnues, valides et

10 Définitions L apprentissage automatique (Machine Learning) : le «moteur» de la fouille de données tirer des règles générales à partir d observations particulières aussi appelé apprentissage à partir d exemples un des domaines d étude de l intelligence artificielle discipline très vaste très «à la mode»

particulières aussi appelé apprentissage à partir d exemples un des

11 Premier exemple Vous arrivez sur une île inconnue, vous apercevez un mouton noir. Quelles conclusions en tirer? Il y a un mouton noir sur cette île (fait) Il y a un et un seul mouton noir sur l île (overfitting, apprentissage par coeur) Certains moutons sont noirs sur l île Tous les moutons sont noirs sur l île (surgénéralisation)

Il y a un mouton noir sur cette île (fait) Il y a un et un seul mouton noir sur l

12 Définitions «L apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine (au sens large) d évoluer grâce à un processus d apprentissage, et ainsi de remplir des tâches qu il est difficile ou impossible de remplir par des moyens algorithmiques plus classiques.»(wikipedia)

évoluer grâce à un processus d apprentissage, et ainsi de remplir des tâches qu il est

13 Apprentissage à partir d exemples Plusieurs catégories Une similarité : apprendre à classer des données de X dans un ensemble Y à partir d exemples

14 Régression Y est continu (ex : réels) : Prévision de la température, de la pression atmosphérique ou de la vitesse du vent en fonction de divers paramètres. Associer à un mail la probabilité que ce mail soit un SPAM. Prédire le temps restant à vivre à un malade en fonction d informations sur le patient et sur la maladie. etc... le terme régression vient du statisticien Galton

Associer à un mail la probabilité que ce mail soit un SPAM.

15 Classification Y est discret : Diagnostic médical Reconnaissance de caractères, de chiffres, de visages Filtrer les spams Fonction d une protéine Décision de l accord d un prêt bancaire etc... on distingue deux types de classification : supervisée et non supervisée

d une protéine Décision de l accord d un prêt bancaire etc.

16 Classification non supervisée Y est discret et inconnu, on parle aussi de clustering : Etablir des profils de clients, d utilisateurs de transports, de spectateurs,... Distinguer des catégories de news séparer des individus selon leurs caractéristiques en lots homogènes cours de Master 1 de M.C. Roubaud (hiérarchie, cluster)

17 Classification supervisée Y est discret et connu : Mail : régulier ou spam Demandeur de prêt bancaire : à risque ou fiable Image numérisée d un caractère : quel caractère? Champignon : comestibles ou vénéneux etc... cours de cette année

fiable Image numérisée d un caractère : quel caractère?

18 Domaines d application de l apprentissage commercial, biologie, medecine, industrie pharmaceutique, finance, bourse, banque, web, sondage, diagnostic, analyse de texte, reconnaissance de formes, de sons, d images, prise de décision, traitement de signaux, détection de pannes, prévision (météo), analyse de documents, de mails, d articles, différencier des catégories, sciences cognitives, géographie, gestion, etc...

d images, prise de décision, traitement de signaux, détection de pannes, prévision (météo), analyse de

19 L apprentissage? Vous connaissez très bien... Nombreux domaines et applications de la vie courante Vous le cotoyez quotidiennement Quelques exemples?

20 Radars automatiques... Reconnaissance de la plaque puis des caractères sur la photo prise par le radar (par Sagem)

21 Tri automatique du courrier Reconnaissance automatique du code postal manuscrit

22 Google News

23 Google News

24 Google News : par thème (France) et par sujet

25 Amazon (et autres)

26 Amazon (et autres)

27 Ouvrages de référence Apprentissage artificiel par Antoine Cornuéjols et Laurent Miclet. Complet et pédagogique (et un des seuls en français!). Machine Learning de Tom Mitchell. Référence classique. The Elements of Statistical Learning par Hastie, Tibshirani, et Friedman. Excellente référence.

28 Plan 1 Informations générales 2 3

29 Point de départ : données classées S = {(x 1, y 1 ),..., (x l, y l )} observé i {1,..., l}, x i X, avec X un espace de description i {1,..., l}, y i Y, avec Y un ensemble de classes Exemple : X = mails, Y = régulier, spam Exemple : X = caractéristiques de patients, Y = maladies Exemple : X = contenu de pages web, Y = commercial, privé Exemple : X = articles scientifiques, Y = disciplines etc...

30 Espace de description Un ensemble de description X = X 1... X n où chaque X i est le domaine (ensemble des valeurs possibles) d un attribut symbolique, numérique ou structuré. les exemples sont décrits par des éléments de X exemple champignon : taille, couleur, odeur, etc... x = (x 1,..., x n ) X, x i X i et c est la valeur de la description (attribut) i de x Choix des attributs et choix de la représentation des descriptions primordial

31 Exemple : patient X = {X 1, X 2 } avec X 1 = { Température } X 2 = { Gorge irritée, Gorge non irritée } X = {X 1, X 2 } avec X 1 = { Basse, Normale, Haute } X 2 = { Gorge irritée, Gorge non irritée } X = {X 1, X 2, X 3 } avec X 1 = { Température } X 2 = { Gorge irritée, Gorge non irritée } X 3 = { âge } etc...

32 de la classification supervisée Un ensemble fini de classes Y Exemple patient : malade, sain Une variable aléatoire Z = (X, Y ) à valeurs dans X Y Les exemples d apprentissage de S sont des couples (x, y) X Y tirés selon la distribution jointe P(Z = (x, y)) = P(X = x)p(y = y X = x). Un échantillon S est un ensemble fini d exemples {(x 1, y 1 ),..., (x l, y l )} i.i.d. selon P.

33 de la classification supervisée Objectif : à partir de l échantillon S, construire (calculer) une fonction f : X Y, appelée classifieur, qui approche au mieux la relation existante entre les descriptions de X et les classes de Y Contrainte : la relation entre X et Y est fixe mais inconnue, on ne dispose que de l échantillon S comme information partielle sur cette relation f doit posséder de bonnes capacités de généralisation.

34 de la classification supervisée (suite) Classifieur : f : X Y. Fonction de perte (loss function) { 0 si y = f (x) L(y, f (x)) = 1 sinon. La fonction risque (ou erreur) : espérance mathématique de la fonction de perte. R(f ) = L(y, f (x))dp(x, y) = dp(x, y) = P(y f (x)). y f (x) Le problème général de la classification supervisée : étant donné un échantillon S = {(x 1, y 1 ),..., (x l, y l )}, trouver un classifieur f qui minimise le risque R(f ).

35 Mais... étant donné un échantillon S = {(x 1, y 1 ),..., (x l, y l )}, trouver un classifieur f qui minimise le risque R(f ). Contrainte : dans la plupart des cas, le risque n est pas calculable car on ne dispose pas d assez d information sur la distribution P sur X Y

36 de la classification supervisée (suite) X : domaine des descriptions Y : ensemble des classes étiquetage p(x) distribution inconnue x non déterministe y z p(y x) S = {(x 1, y 1 ),..., (x l, y l )} tiré selon p(x, y) = p(x)p(y x) Objectif : trouver f : X Y dont l erreur R(f) = P (y f(x)) soit la plus petite possible.

37 Remarques 1 Le modèle est non déterministe : le problème cible peut être réellement non déterministe ; le problème peut être bruité ; l espace de descriptions peut ne décrire qu incomplètement une situation complexe. 2 Le problème est non déterministe mais on en cherche une solution déterministe. 3 Le modèle est non paramétrique : aucun modèle spécifique de génération de données n est présupposé ; aucune contrainte sur l ensemble des fonctions que l on doit considérer ni sur le type de dépendances entre fonctions et paramètres. 4 D autres fonctions de pertes peuvent être considérées. En particulier, on peut envisager des coûts différents selon les erreurs commises.

Documents pareils

Introduction au Data-Mining

Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme