Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/ magnan 1 Extrait du cours de François Denis
Plan du cours 1 Informations générales 2 3
Plan 1 Informations générales 2 3
Organisation du cours 8 séances de 3 heures (Lundi 14h-17h) 4 séances de cours, 4 séances de TP Deux objectifs ; Bases de l apprentissage automatique Manipulation du logiciel SAS Enterprise Miner 1 examen écrit (12), 1 projet sur machine (8)
Informations et documents Infos sur le planning Documents Fichiers de données pour les TP www.lif.univ-mrs.fr/ magnan Section enseignement 2007/2008 Data Mining
Informations et documents
Plan 1 Informations générales 2 3
Schéma général
Définitions «L extraction de connaissances à partir de données (Data Mining) est un processus non trivial d identification de structures inconnues, valides et potentiellement exploitables dans les bases de données»
Définitions L apprentissage automatique (Machine Learning) : le «moteur» de la fouille de données tirer des règles générales à partir d observations particulières aussi appelé apprentissage à partir d exemples un des domaines d étude de l intelligence artificielle discipline très vaste très «à la mode»
Premier exemple Vous arrivez sur une île inconnue, vous apercevez un mouton noir. Quelles conclusions en tirer? Il y a un mouton noir sur cette île (fait) Il y a un et un seul mouton noir sur l île (overfitting, apprentissage par coeur) Certains moutons sont noirs sur l île Tous les moutons sont noirs sur l île (surgénéralisation)
Définitions «L apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine (au sens large) d évoluer grâce à un processus d apprentissage, et ainsi de remplir des tâches qu il est difficile ou impossible de remplir par des moyens algorithmiques plus classiques.»(wikipedia)
Apprentissage à partir d exemples Plusieurs catégories Une similarité : apprendre à classer des données de X dans un ensemble Y à partir d exemples
Régression Y est continu (ex : réels) : Prévision de la température, de la pression atmosphérique ou de la vitesse du vent en fonction de divers paramètres. Associer à un mail la probabilité que ce mail soit un SPAM. Prédire le temps restant à vivre à un malade en fonction d informations sur le patient et sur la maladie. etc... le terme régression vient du statisticien Galton
Classification Y est discret : Diagnostic médical Reconnaissance de caractères, de chiffres, de visages Filtrer les spams Fonction d une protéine Décision de l accord d un prêt bancaire etc... on distingue deux types de classification : supervisée et non supervisée
Classification non supervisée Y est discret et inconnu, on parle aussi de clustering : Etablir des profils de clients, d utilisateurs de transports, de spectateurs,... Distinguer des catégories de news séparer des individus selon leurs caractéristiques en lots homogènes cours de Master 1 de M.C. Roubaud (hiérarchie, cluster)
Classification supervisée Y est discret et connu : Mail : régulier ou spam Demandeur de prêt bancaire : à risque ou fiable Image numérisée d un caractère : quel caractère? Champignon : comestibles ou vénéneux etc... cours de cette année
Domaines d application de l apprentissage commercial, biologie, medecine, industrie pharmaceutique, finance, bourse, banque, web, sondage, diagnostic, analyse de texte, reconnaissance de formes, de sons, d images, prise de décision, traitement de signaux, détection de pannes, prévision (météo), analyse de documents, de mails, d articles, différencier des catégories, sciences cognitives, géographie, gestion, etc...
L apprentissage? Vous connaissez très bien... Nombreux domaines et applications de la vie courante Vous le cotoyez quotidiennement Quelques exemples?
Radars automatiques... Reconnaissance de la plaque puis des caractères sur la photo prise par le radar (par Sagem)
Tri automatique du courrier Reconnaissance automatique du code postal manuscrit
Google News
Google News
Google News : par thème (France) et par sujet
Amazon (et autres)
Amazon (et autres)
Ouvrages de référence Apprentissage artificiel par Antoine Cornuéjols et Laurent Miclet. Complet et pédagogique (et un des seuls en français!). Machine Learning de Tom Mitchell. Référence classique. The Elements of Statistical Learning par Hastie, Tibshirani, et Friedman. Excellente référence.
Plan 1 Informations générales 2 3
Point de départ : données classées S = {(x 1, y 1 ),..., (x l, y l )} observé i {1,..., l}, x i X, avec X un espace de description i {1,..., l}, y i Y, avec Y un ensemble de classes Exemple : X = mails, Y = régulier, spam Exemple : X = caractéristiques de patients, Y = maladies Exemple : X = contenu de pages web, Y = commercial, privé Exemple : X = articles scientifiques, Y = disciplines etc...
Espace de description Un ensemble de description X = X 1... X n où chaque X i est le domaine (ensemble des valeurs possibles) d un attribut symbolique, numérique ou structuré. les exemples sont décrits par des éléments de X exemple champignon : taille, couleur, odeur, etc... x = (x 1,..., x n ) X, x i X i et c est la valeur de la description (attribut) i de x Choix des attributs et choix de la représentation des descriptions primordial
Exemple : patient X = {X 1, X 2 } avec X 1 = { Température } X 2 = { Gorge irritée, Gorge non irritée } X = {X 1, X 2 } avec X 1 = { Basse, Normale, Haute } X 2 = { Gorge irritée, Gorge non irritée } X = {X 1, X 2, X 3 } avec X 1 = { Température } X 2 = { Gorge irritée, Gorge non irritée } X 3 = { âge } etc...
de la classification supervisée Un ensemble fini de classes Y Exemple patient : malade, sain Une variable aléatoire Z = (X, Y ) à valeurs dans X Y Les exemples d apprentissage de S sont des couples (x, y) X Y tirés selon la distribution jointe P(Z = (x, y)) = P(X = x)p(y = y X = x). Un échantillon S est un ensemble fini d exemples {(x 1, y 1 ),..., (x l, y l )} i.i.d. selon P.
de la classification supervisée Objectif : à partir de l échantillon S, construire (calculer) une fonction f : X Y, appelée classifieur, qui approche au mieux la relation existante entre les descriptions de X et les classes de Y Contrainte : la relation entre X et Y est fixe mais inconnue, on ne dispose que de l échantillon S comme information partielle sur cette relation f doit posséder de bonnes capacités de généralisation.
de la classification supervisée (suite) Classifieur : f : X Y. Fonction de perte (loss function) { 0 si y = f (x) L(y, f (x)) = 1 sinon. La fonction risque (ou erreur) : espérance mathématique de la fonction de perte. R(f ) = L(y, f (x))dp(x, y) = dp(x, y) = P(y f (x)). y f (x) Le problème général de la classification supervisée : étant donné un échantillon S = {(x 1, y 1 ),..., (x l, y l )}, trouver un classifieur f qui minimise le risque R(f ).
Mais... étant donné un échantillon S = {(x 1, y 1 ),..., (x l, y l )}, trouver un classifieur f qui minimise le risque R(f ). Contrainte : dans la plupart des cas, le risque n est pas calculable car on ne dispose pas d assez d information sur la distribution P sur X Y
de la classification supervisée (suite) X : domaine des descriptions Y : ensemble des classes étiquetage p(x) distribution inconnue x non déterministe y z p(y x) S = {(x 1, y 1 ),..., (x l, y l )} tiré selon p(x, y) = p(x)p(y x) Objectif : trouver f : X Y dont l erreur R(f) = P (y f(x)) soit la plus petite possible.
Remarques 1 Le modèle est non déterministe : le problème cible peut être réellement non déterministe ; le problème peut être bruité ; l espace de descriptions peut ne décrire qu incomplètement une situation complexe. 2 Le problème est non déterministe mais on en cherche une solution déterministe. 3 Le modèle est non paramétrique : aucun modèle spécifique de génération de données n est présupposé ; aucune contrainte sur l ensemble des fonctions que l on doit considérer ni sur le type de dépendances entre fonctions et paramètres. 4 D autres fonctions de pertes peuvent être considérées. En particulier, on peut envisager des coûts différents selon les erreurs commises.