l Apprentissage Artificiel

1 Le cours 2 Quel objectif (1) 3 Introduction à l Apprentissage Artificiel Antoine CNAMIIE et L.R.I., Université de ParisSud, Orsay (France) antoine@lri.fr http://www.lri.fr/~antoine/ 6 cours / TD / TP Contrôle :! TM x 2! Petit projet Documents! Le livre L'apprentissage artificiel. Concepts et algorithmes A. & L. Miclet. Eyrolles. 22.! Les transparents sur www.lri.fr/~antoine/ cours apprentissage Association Imitation Apprentissage de comportement :! Apprendre à marcher (insectoïdes de Brooks)! Apprendre à se comporter sur une planète Apprendre à mieux jouer! S'adapter à l'adversaire! Ne pas répéter ses fautes! Apprendre à jouer en équipe Équipes de robots Quel objectif (2) 4 Quel objectif (2') 5 Quel objectif (3) 6 Apprentissage pour la navigation Systèmes autonomes avec apprentissage Révision de théorie! Apprentissage de trajets (fourmis, abeilles)! Robots Discrimination! Identification de sousmarins vs. bruits naturels! Identification de locuteur / de signature! Reconnaissance de l'écriture manuscrite, de la parole! Code postal Catégorisation Découverte scientifique! Découverte de régularités (en biochimie, ) Apprendre à filtrer l'information Apprendre les préférences d'un utilisateur Apprendre à faire des résumés Apprendre à communiquer (e.g. Steels, )...! SKY SURVEY Quel objectif (3') 7 Quel objectif (4) 8 Quel objectif (5) 9 Agents intelligents sur le net Vers une symbiose hommemachine Et aussi Mieux comprendre l'apprentissage : Les premières connexions entre neurones et circuits intégrés ont été réalisées en 1999 Pourraton obtenir un coapprentissage Pour ne pas avoir à programmer! Programmation par la démonstration! Programmation par l'exemple (e.g. l'ebl)! Programmation par échantillon d'apprentissage : induction Pour mieux enseigner Pour savoir ce que d'autres intelligences pourraient apprendre : théorie générale de l'apprentissage

C'est quoi la science de l'apprentissage artificiel 1 Des questions 11 encore des questions 12 On étudie les apprentissages : Induction naturels! 1 2 3 5 artificiels! 1 1 2 1 1 1 1 2 3 1 1 2 1 3 2 1 1 2! Comment # des théories (s'appliquant à tout système apprenant) # des méthodes et des algorithmes d'apprentissage! Pourquoi seraitil possible de faire de l induction! Estce qu un exemple supplémentaire doit augmenter la confiance dans la règle induite! Combien fautil d exemples Implémentables sur machines toujours des questions 13 sans arrêt des questions 14 Comment définir l apprentissage 15 a b c a a b a b c «Learning is any change in a system that allows it to perform better the second time on repetition of the same task or another task drawn from the same population» a b d i j j k k k «Learning is making useful changes in mind» [erbert Simon, 1983] [Marvin Minsky, 1985] Estce de l apprentissage l! Phénomène de mémoire, sans mémoire! Séquences d analogies! Quelles situations sélectionner! Dans quel ordre! Estce de l apprentissage «Learning is the organization of experience» [Scott, 1983] «Learning is constructing or modifying representations of what is being experienced» [Riszard Michalski, 1986] Cours 1 : principes généraux de l induction 16 Cours 1 : principes généraux de l induction 17 Introduction à l induction 18 1 Introduction à l induction 2 Les réseaux de neurones multicouches 3 Robotique et apprentissage de contrôle 4 Apprentissage par renforcement 5 Analyse de l induction. Aspects méthodologiques. Les SVMs 6 Apprentissage par comité d experts : le boosting 1 Introduction à l induction 2 Les réseaux de neurones multicouches 3 Robotique et apprentissage de contrôle 4 Apprentissage par renforcement 5 Analyse de l induction. Aspects méthodologiques. Les SVMs 6 Apprentissage par comité d experts : le boosting Induction : Proposer des lois généralesg à partir de l observation l de cas particuliers

Un exemple 19 L apprentissage inductif : exemple 2 L apprentissage inductif : exemple 21 E1 E2 A B Soient deux exemples dont les descriptions pourraient être :! E1 : Un triangle rayé audessus d un carré uni noir! E2 : Un carré uni blanc audessus d un cercle rayé $ Formuler une description générale de ces deux exemples C D Problème Quel est le nombre a qui prolonge la séquence : 1 2 3 5 a Solution(s). Quelques réponses valides :! a = 6. Argument : c est la suite des entiers sauf 4.! a = 7. Argument : c est la suite des nombres premiers.! a = 8. Argument : c est la suite de Fibonacci! a = 2!. (a peut être n importe quel nombre réel supérieur ou égal à 5) Argument : la séquence présentée est la liste ordonnée des racines du polynôme : P = x 5 (11 a)x 4 (41 11a)x 3 (61 41a)x 2 (3 61a)x 3a qui est le développement de : (x 1). (x 2). (x 3). (x 5). (x a) Généralisation Il est facile de démontrer ainsi que n importe quel nombre est une prolongation correcte de n importe quelle suite de nombre Mais alors comment faire de l induction l et que peutêtre tre une science de l induction l Encore un autre exemple 22 Exemples décrits par :! nombre (1 ou 2); taille (petit ou grand); forme (cercle ou carré); couleur (rouge ou vert) Les objets appartiennent soit à la classe soit à la classe Description Votre réponse Vraie réponse 1 grand carré rouge 1 grand carré vert 2 petits carrés rouges 2 grands cercles rouges 1 grand cercle vert 1 petit cercle rouge 1 petit carré vert 1 petit carré rouge 2 grands carrés verts Premières notions Protocole! Passif ou actif! Incrémental (online) ou «!tout ensemble!» (offline)! Réponses immédiates ou après votre estimation Critère de succès! Nombre de mauvaises réponses! Taux de mauvaises réponses (taux d erreur)! Nombre d essais avant d avoir «!identifié la solution!»! Taux d erreur de votre estimation finale (qui peut être erronée) («!Taux d erreur en généralisation!») 23 Notion de protocole Le protocole règle les interactions entre les acteurs! Environnement : Données fournies incrémentalement ou non (apprentissage enligne / batch) Dans un ordre indifférent / hostile / favorable! Oracle : Données semisupervisées es Apprentissage multiinstances Étiquettes vraies fournies avec les exemples ou seulement après prédiction de l apprenant (risque mesuré par le nombre d erreurs de l apprenant : mistakebound learning) (ou relativement au meilleur expert d un comité : relative lossbound models) Peut fournir un contreexemple quand l apprenant propose une hypothèse candidate h non équivalente à la fonction cible (equivalence queries)! Apprenant : Complètement passif : données i.i.d. Peut poser des questions : fournir un exemple et demander son étiquette (membership queries) Peut poser des questions sur les statistiques des exemples étiquetés (statistical queries) Apprentissage actif : organise son exploration du monde 24 Exemple : apprendre est difficile 25 Questions essentielles 26 Questions : données et connaissances a priori 27 Données et connaissances a priori! Quelles données sont disponibles! Que saiton du problème Oui Oui Non Représentation! Comment représenter les exemples! Comment représenter les hypothèses Méthode et estimation! Quel est l espace des hypothèses! Comment évaluer une hypothèse en fonction des exemples connus Évaluation de la performance après apprentissage Comment reconsidérer l espace des hypothèses Estce une tâche de reconnaissance de forme de caractères Comment coder les exemples 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 Le choix de la représentation peut rendre l apprentissage trivial $ Mais comment faire ce choix

Exemples : apprentissage de jeu (1) 28 Exemples : apprentissage de jeu (2) 29 Exemples : apprentissage de jeu (3) 3 Que veuton apprendre! Les coups légaux! Choisir le meilleur coup légal COI(position) / connaissance des stratégies meilleurcoup! Chercher à apprendre à évaluer une position COI(position) / évaluation des positions meilleur coup Apprendre une fonction d évaluation des positions! E.g. V(pos.) = 1 si pos. est une position finale gagnante V(pos.) = 1 si pos. est une position finale perdante V(pos.) = si pos. est une position finale nulle V(pos.) = v où v est le meilleur score possible(par MinMax) en partant de pos. Mais estce apprenable Peuton en apprendre une approximation V! V Comment Exemples : apprentissage de jeu (4) 31 xemples : apprentissage de jeu (5) 32 Exemples : apprentissage de jeu (6) 33 Qu apprendon vraiment Représentations :! Fonction numérique : V (pos.) = w w 1.RN(pos.) w 2.RB(pos.) w 3.DN(pos.). w 6.PBM(pos.) où : RN = Roi Noir; RB = Roi Blanc ; DN = Dame Noire; PBM = Pièces Blanches Menacées! Table de hachage! Règles symboliques : Si Prédicats(pos.) alors coup =! Réseau de neurones!. $ L espace des hypothèses : Si mauvais choix de représentation (donc de l espace des hypothèses) $ Difficile voire impossible d apprendre Le choix des attributs de description est très important Idéalement on aimerait que l apprenant apprenne luimême la bonne représentation # Des pistes! Induction constructive! Sélection de modèles (de )! mais difficile Comment apprendre (Algorithme d apprentissage) E.g. Pour l apprentissage d une fonction numérique :! L apprenant utilise des exemples : pos. i V(pos. i )! Signal d erreur # i = [V(pos. i ) V (pos. i )] 2! Utilisation d un algorithme de descente de gradient stochastique (LMS) : Répéter jusqu à convergence : LMS Pour chaque exemple pos. i V(pos. i ) 1) Calculer le signal d erreur : # i 2) Pour chaque attribut C j, mise à jour du coefficient w j w j = w j $. C j. # i ($ pas d apprentissage) xemples : apprentissage de jeu (7) 34 Exemples : apprentissage de jeu (8) 35 Exemples : apprentissage de jeu (9) 36 Intuitivement : Si V est correcte sur l exemple pos. i : ne rien faire Si V surévalue la position : diminuer les coefficients proportionnellement aux attributs Si V sousévalue la position : augmenter les coefficients proportionnellement aux attributs Sous certaines conditions, cet algorithme converge vers une fonction minimisant l erreur quadratique par rapport à la fonction cible V Beaucoup d autres algorithmes voir suite du cours D! où viennent les exemples! Parties jouées contre soimême (la machine)! Parties jouées contre des joueurs lambda! Parties jouées contre des experts! Parties jouées contre UN expert! Parties tirées de livres! Possibilité d'utiliser une théorie deu (livre)!... $ Quel est le meilleur protocole Évaluation de l'apprentissage! Nombre de parties gagnées! Longueurs des parties jouées (avant échec)! Coût calcul nécessaire (temps de réflexion)! Qualité des coups joués! Théorie apprise communicable à un expert!

Exemple : reconnaissance de caractères manuscrits (1) 37 Exemple : reconnaissance de caractères (2) 38 Exemple : reconnaissance de caractères manuscrits (3) 39 Apprendre par coeur IMPOSSIBLE # Généraliser Extraction de caractéristiques (descripteurs, attributs)! Eliminer les descripteurs non pertinents Quel critère de performance (de succès)! Probabilité de misclassification! Risque Comment coder les formes! Introduction de nouveaux descripteurs! Nombre d erreurs b Utilisation de connaissances a priori Invariance par translation Invariance par changement d échelle istogrammes Combinaisons de descripteurs Apprentissage sur un échantillon d'apprentissage Test sur une base de test Erreur! Ajouter des descripteurs (beaucoup)!! Courbe d'apprentissage Taille échantillon Plusieurs niveaux d analyse 4 Types d apprentissages 41 L'induction supervisée 42 1. Analyse de principe, de faisabilité : que peuton apprendre Sous quelles conditions sans référence à un algorithme particulier!! # Théories mathématiques en particulier de nature statistique 2. Niveau de la réalisation / simulation Comment apprendre! Algorithmes! Programmes! Réalisations et tests empiriques 1. Apprentissage supervisé À partir de l échantillon d apprentissage S = {(x i, u i )} 1,m on cherche une loi de dépendance sousjacente Par exemple une fonction h aussi proche possible de f (fonction cible) tq : u i = f(x i ) Ou bien une distribution de probabilités P(x i, u i ) afin de prédire l avenir Si f est une fonction continue! Régression! Estimation de densité Si f est une fonction discrète! Classification Si f est une fonction binaire (booléenne)! Apprentissage de concept Types d apprentissages 43 ypes d apprentissages 44 Le perceptron : structure 45 2. Apprentissage non supervisé De l échantillon d apprentissage S = {(x i )} 1,m on cherche des régularités sousjacentes Sous forme d une fonction : régression Sous forme de nuages de points (e.g. mixture de gaussiennes) Sous forme d un modèle complexe (e.g. réseau bayésien) afin de résumer, détecter des régularités, comprendre 3. Apprentissage par renforcement Les données d apprentissage! Une séquence de perceptions, d actions et de récompenses : (s t, a t, r t ) t = 1, % Avec un renforcement r t r t peut sanctionner des actions très antérieures à t Le problème : inférer une application : situation perçue action afin de maximiser un gain sur le long terme Perception Récompense Environnement Apprentissage de réflexes... > apprentissage de planification Action x =1 x 1 x 2 x d w 1 w 2 w d w a =! w i.x i i =, d y = $ 1 si! w i.x > # i $ i=,d % sinon

Le perceptron : critère de performance 46 Le perceptron : algorithme 47 Le perceptron : Illustration 48 Critère d optimisation (fonction d erreur) :! Nb total d erreurs de classification : NON! Critère du Perceptron : Car nous voulons pour toutes les formes d apprentissage : # Proportionnel, pour toutes les formes mal classées, à la distance à la surface de décision w T x # $! < # Fonction continue et linéaire par morceaux % x & # $ ' 1 ' 2 Méthode d exploration de! Recherche par gradient Minimisation de la fonction d erreur Principe : procédure d'apprentissage dans l'esprit de la règle de ebb : ajouter à chaque connexion quelque chose de proportionnel à l'entrée et à la sortie. Apprentissage seulement si erreur de classification! Algorithme : si la forme est correctement classée : ne rien faire sinon : boucler sur les formes d apprentissage jusqu à critère d arrêt! Convergence w(t 1) = w(t)! x i u i Justification de l algorithme! Réduction de l erreur!w(t 1) T (x j ) =!w(t 1) T (x j )! (x j ) T (x j ) <! w(t) T (x j ) Le perceptron : que peuton apprendre 49 Le perceptron : convergence et capacité mémoire 5 Cours 1 : principes généraux de l induction 51 L espace d hypothèses : les séparatrices linéaires de yperplan d équation : (w T. x) w = Questions :! Qu estce qui est apprenable Résultat de [Minsky & Papert,68] : séparatrices linéaires! Garantie de convergence Théorème de convergence du Perceptron [Rosenblatt,62]! Fiabilité de l apprentissage et nombre d exemples Combien fautil d exemples d apprentissage pour avoir une certaine garantie sur ce qui est appris 1 Introduction à l induction 2 Approche(s) de l induction 3 Analyse du principe de minimisation du risque empirique 4 Les réseaux de neurones multicouches 5 Les SVMs 6 La validation empirique de l apprentissage 7 Analyse dans un cas moyen : l analyse bayésienne 8 Apprentissage par comité d experts e scénario de base 52 Définition formelle du problème 53 Apprendre prédiction dans 54 Environnement : distribution de prob. F(x) x 1, x 2,..., x m Oracle Apprenant : h (x) S m = (x 1,u 1 ), (x 2,u 2 ),..., (x m,u m ) ypothèse : les données empiriques caractérisent une dépendance probabiliste P entre l espace des descriptions et l espace Y des étiquettes! Z = (, Y) : variable aléatoire sur (&, B, P), où P est inconnue! S = {(x 1,u 1 ), (x 2,u 2 ), (x m,u m )} ( ' Y) m Échantillon d apprentissaged Les observation sont i.i.d. suivant P / Méthodes par plus proches voisins Nécessité d une notion de distance x 1, x 2,..., x m y 1, y 2,..., y m! : famille (éventuellement infinie) de fonctions h définies sur Espace des exemples : Objectif : prédire l étiquette y connaissant l observation x $ ypothèse de continuité dans

Apprendre = un jeu entre espaces 55 Le critère inductif 56 L exploration de 57 Cas particulier de l apprentissage de concepts L L Espace des exemples : L Espace des hypothèses : # Comment choisir l espace des hypothèses (i.e. le langage L ) x h # Quel critère re inductif # Qu estce qu une hypothèse optimale étant donné l échantillon d apprentissage x h # Quelle méthode d exploration de x h h x x h Trois ingrédients : trois questions 58 Critère de performance 59 Exemples de fonctions de perte 6 1. Quel critère re inductif Quelle hypothèse devraiton choisir étant donné l échantillon d apprentissage 2. Quel espace d hypothd hypothèses Quel espace d hypothèses est approprié 3. Comment explorer l espace l des hypothèses Résolution d un problème d optimisation Objectif : trouver une hypothèse h ( minimisant le risque réelr (espérance de risque, erreur en généralisation) Fonction de perte R(h) =!Y Étiquette prédite l ( h(x), u) dp(x, y) Étiquette vraie (ou désirée) Loi de probabilité jointe sur ' Y Discrimination si u i = h(x i ) l (h(x i ), u i ) = # $ 1 si u i! h(x i ) Régression Estimation de densité l (h(x i ), u i ) = [ h(x i )! u i ] 2 l (h(x i )) =! ln h(x i ) 61 (i) Le principe inductif ERM 62 (ii) Approche bayésienne 63 1. Principe de minimisation du risque empirique (ERM) R(h) =!Y l ( h(x), u) dp(x, y) On suppose qu il existe une distribution de probabilités a priori sur l espace : p (h) 2. Principe du maximum de vraisemblance (approche bayésienne) On ne connaît pas le risque réel, en particulier pas la loi de probabilité P(,Y). Le principe ERM (minimisation du risque empirique) prescrit de chercher l hypothèse h ( minimisant le risque empirique Principe du Maximum A Posteriori (MAP): On cherche l hypothèse h la plus probable après observation des données S 3. Principe de compression maximale ( ) R Emp (h) = l h(x i ), u i m! i = 1! Exemple : le 11 septembre 21

(iii) Principe de compression maximale 64 Choix de l espace d hypothèses 65 Notion de biais 66 Inspiration : la théorie du codage de l informationl! Rasoir d Occam! On suppose qu il existe : un coût associé à la transmission d un d codage (modèle des données) : L(h) un coût associé à la transmission des données brutes (E.D. h) : L(x h)! On cherche le modèle (ou hypothèse) permettant la transmission la plus économique de l échantillon de données Apprendre (pour prédire) est impossible sans limitation sur l espace des hypothèses / h h x i h x i h x i h x i h h x i h h x i x i x h h x i x i h i x i h x i h x i h x i h x i x xi x h h x i h k j Toute connaissance qui restreint le champ des hypothèses que l'apprenant doit considérer à un instant donné. On ne peut pas apprendre sans biais Plus le biais est fort, plus l apprentissage est facile # Bien choisir le biais Espace des exemples : Espace des hypothèses : Choix de l espace d hypothèses 67 Résumé : définition d un problème d apprentissage 68 Relation d inclusion et relation de généralité 69 $ Il faut contrôler l expressivit expressivité de l espace d hypoth hypothèses Analyse statistique de l induction [Vapnik, ] Des acteurs! L environnement! L oracle! L apprenant Une tâche d apprentissaged un protocole d apprentissage Vers la généralisation couverture(h t1 ) h t1! Discrimination (ou classification multiclasses) / régression / estimation de densité Un principe inductif h t! ERM (et dérivés) / Bayésien / compression d information Un espace d hypothd hypothèses (avec sélection automatique) couverture(h t ) Terme dépendant de la «!richesse!» de $ Choix d une d méthode m d apprentissage d (et d un d algorithme) La relation de généralité induite dans 7 Le choix d une méthode d apprentissage 71 Autres critères de choix 72 Relation de généralité dans induite par la relation d'inclusion dans couverture(h 1) h 1 couverture(h 2) h 2 h 3 couverture(h 3) Dépend fondamentalement de l espace des hypothèses! Structuré par une relation de généralitg ralité (ordre partiel) # Toutes les méthodes guidées par cette relation Espace des versions PLI (Programmation Logique Inductive) EBL, reformulation en général et révision de théorie Inférence grammaticale! Seulement une notion de voisinage dans # Méthodes de «!gradient!» Réseaux de neurones / SVMs Recuit simulé / algorithmes d évolution simulée Réseaux bayésiens / MMs! Pas d espace d d hypothd hypothèses # Méthodes de plus proches voisins (Raisonnement par cas / Instancebased learning) x h gms(h i, h j) h i smg(h i, h j) h j Intelligibilité des résultats (hypothèses produites)! E.g. exit les réseaux de neurones Performances en généralisation! Pas toujours en adéquation totale avec le point précédent Coûts! de préparation (des données)! coût computationnel (coût d une passe et nombre de passes nécessaires, )! coût de l expertise en apprentissage! coût de l expertise sur le domaine

Approche actuelle : les limites 73 Perspective historique (1) 74 Perspective historique (2) 75 L é état de l art actuel en apprentissage:! Données i.i.d. (indépendant et identiquement distribué)! Distribution statique! Données étiquetées! Classes approximativement équilibrées Versus e.g. les besoins de la robotique! Données résultant : Discriminant linéaire (Fisher) Turing (naissance de l'informatique) Expériences : tortues cybernétiques Perceptron Reconnaissance des Formes : Théorie de la décision bayésienne Systèmes dédiés à une tâche : inspiration psychologique ARC AM METADENDRAL Apprentissage artificiel : une explosion Induction supervisée Arbres de décision Algorithmes génétiques ExplanationBased Learning Raisonnement par cas 2 ème connexionnisme De séquences D un apprentissage actif! Contexte changeant Données non i.i.d. 2s 1936 5s 6s 197 1976 1978 7s 8s! Pauvrement étiquetées Perspective historique (2') 76 Perspective historique (3) 77 Perspective historique (4) 78 Systèmes à usage industriels Apprentissage artificiel : une théorisation et une mise à l'épreuve Maintenant! Domination sans partage du paradigme dominant Apprentissage comme estimation / approximation de fonction Données supposées tirées aléatoirement Nouveau principe inductif : toujours prendre en compte l'espace d'hypothèses Théorie de Vapnik Nouvelles méthodes : SVMs Boosting Data mining Text mining! Nouvelles techniques d'apprentissage issues de la théorie Séparateurs à Vastes Marges (SVM : Support Vector Machines) Boosting! Prépondérance des applications de fouille dans les grandes bases de données 1995 9s s Peu structurées Données fournies en vrac # Nouvelles mesures de performance Perspective historique : l'avenir 79 Demain! Retour vers des problèmes à données plus structurées Exploration automatique de la toile (structure à tous les niveaux : grammatical, séquence, texte, discours, culture)! Nouveaux aspects Nouvelles demandes : Systèmes à longue durée de vie Aide à l'éducation Apprentissage collectif Incrémentalité Transferts d'une tâche à une autre, d'un domaine à un autre, d'un agent à un autre # Nouveaux problèmes # Nouvelles techniques