Apprentissage par exploration 1/32
Introduction Méthode particulière d acquisition de connaissance : apprentissage artificiel, à partir d induction. obtention des connaissances à partir d exemples. On parle plus précisément d apprentissage supervisé. 2/32
Cadre de l apprentissage Cadre : soit X un ensemble d objets (qui représentent chacun une question) ; soit C un ensemble cible (un ensemble de réponse). La «connaissance» est une fonction f de X vers C. 3/32
Apprentissage supervisé L apprentissage supervisé désigne un processus d apprentissage sous la direction d un humain qui va guider l induction à l aide d un échantillon d apprentissage. Cet échantillon A est un ensemble de paires (x, c) avec x X et c C. (autrement dit, un ensemble de questions-réponses) 4/32
Formes d apprentissage On distingue, en gros : 1. l apprentissage par exploration (ensembles fortement structurés, symboliques) ; 2. l apprentissage par optimisation (ensembles moins structurés) : optimisation de valeurs sur un espace défini ; 3. l apprentissage par approximation (ensembles peu structurés) : découverte de propriétés générales, parfois non supervisé. Par rapport aux systèmes à base de connaissance, on s intéresse essentiellement à l apprentissa par exploration (découvertes de concepts symboliques, inductions de règles) et à l apprentissag par optimisation (data-mining). 5/32
Apprentissage par exploration En face de l espace des fonctions possible de X vers C (tous les cas envisageables), on dispose d un espace d hypothèses H. Cet espace représente les fonctions «envisageables» par le programme apprenant. L apprentissage par exploration est un processus de déplacement sur l espace d hypothèse pour trouver celles qui sont «acceptables» avec l échantillon d apprentissage. 6/32
Apprentissage de concepts Le but de l apprentissage est donc de trouver une fonction de X vers C. Si C est fini, on parle d apprentissage de règle de classifications. Exemple : reconnaissances de caractères, diagnostiques médicaux. A rapprocher des systèmes experts du même type. Si C ne contient que 2 éléments (par exemple, { vrai, faux }), on parle d apprentissage de concepts. Il s agit alors de trouver un sous-ensemble de X. Exemple : notre tri de pièces truquées ou non après k tirages. X = {(p, f) p + f = k}, le but étant de trouver le sous-ensemble de X qui serait «rangé» dans les pièces truquées (par exemple). Pour la suite, on s intéresse spécifiquement à l apprentissage de concepts. On cherche donc à apprendre un sous-ensemble de X (on va le noter D. 7/32
Exemple, contre-exemple L échantillon d apprentissage est alors un ensemble de couples (x, +) ou (x, ) : (x, +) signifie que x est dans le concept recherché (i.e., x D). On dit que x est un exemple. (x, ) signifie que x n est pas dans le concept recherché (i.e., x D). On dit que x est un contre-exemple. 8/32
Exemple Soit X = {lundi, mardi, mercredi, jeudi, vendredi, samedi, dimanche}, et A = {(lundi, +), (jeudi, +), (dimanche, )}. Ici lundi et jeudi sont des exemples, dimanche est un contre-exemple. L apprentissage consisterait à chercher une ou plusieurs hypothèses (élément de H) qui «contiendrait» les exemples, et pas les contre-exemples. 9/32
Espace des hypothèses L espace des hypothèses est un ensemble représentant des sous-ensemble de X (et non pas un ensemble de sous-ensemble de X : 1. ce qui permet de faire le lien entre H et sa représentation informatique ; 2. et parfois de mieux présenter la structure de H (voir après). Exemple : H = {aucun, lundi, mercredi, jeudi, samedi, weekend, jours_ouvrables, tous} 10/32
Représentation informatique Grace à une représentation abstraite de sous-ensembles de X par H, on peut représenter H sur ordinateur même si X est grand ou infini. Exemple : définir un hypothèse comme un typé énuméré avec comme valeurs Aucun, Lundi, Mercredi, Jeudi, Samedi, Weekend, Jours_ouvrables, tous. 11/32
Couverture La couverture d une hypothèse h H, notée couverture(h), est l ensemble des éléments de x décrits (représentés) par h. Exemple : couverture : aucun lundi {lundi} mercredi {mercredi} jeudi {jeudi} samedi {samedi} weekend {samedi, dimanche} jours_ouvrables {lundi, mardi, mercredi, jeudi, vendredi, samedi} tous {lundi, mardi, mercredi, jeudi, vendredi, samedi, dimanche} 12/32
Ordre de spécificité De l ordre ensembliste sur (X ), on obtient par la fonction couverture un ordre induit sur H : h 1 h 2 couverture(h 1 ) couverture(h 2 ) Cet ordre est appelé l ordre de spécificité : si h 1 h 2 on dit que h 1 est plus sécifique que h 2 (ou que h 2 est plus général que h 1 ). 13/32
Exemple On peut présenter cet ordre à l aide d un graphe orienté acyclique : tous jours_ouvrables weekend lundi mercredi jeudi samedi dimanche a b signifie a b aucun 14/32
Correction, complétude, cohérence Un ensemble d apprentissage A étant donné : une hypothèse h est complète si elle couvre tous les exemples de A. une hypothèse h est correcte si elle ne couvre aucun contre-exemple de A. une hypothèse est cohérente si elle est correcte et complete. Exemple : hypothèses complètes : jours_ouvrables, tous. hypothèses correctes : aucun, lundi, mercredi, jeudi, samedi, jours_ouvrables. hypothèses cohérentes : jours_ouvrables. 15/32
Exemple hypothèses correctes hypothèses complètes tous jours_ouvrables weekend lundi mercredi jeudi samedi dimanche a b signifie a b aucun On voit que l ensemble des hypothèses correctes est clos par spécialisation (en allant vers le plus spécifique) et l ensemble des hypothèses complètes est clos par généralisation. 16/32
Apprentissage itératif A partir d un ensemble d apprentissage A, je peux trouver une hypothèse cohérente par exploration de H en prenant successivement chaque élément de A : initialement je peux prendre n importe quelle hypothèse h = h 0 ; quand un exemple x n est pas couvert par h, je généralise h pour que sa couverture inclue x ; quand un contre-exemple x est couvert par h, je spécialise h pour que sa couverture exclue x. Le problème étant de ne pas trop (ou mal) généraliser ou spécialiser. 17/32
Espace des versions On appelle espace des versions l ensemble des hypothèses cohérentes avec l ensemble d apprentissage (dans notre exemple, V = {jours_ouvrables}. L «espace des versions» est aussi le nom donné à un algorithme, l algorithme d élimination des candidats, dont le but est de calculer exactement l espace des versions. 18/32
Propriétés de l espace des versions Si nous notons E l espace des versions (hypothèses cohérentes avec A) : 1. E est convexe : h 1, h 2, h 3 H, h 1 h 2 h 3 (h 1, h 3 ) E 2 h 2 E (un hypothèse «encadrée» par deux hypothèses cohérentes est cohérente) 2. E est borné : h E, s, g E, s h g, avec s minimal et g maximal pour dans E (tout élément de E est encadré par deux «bornes» extrêmes de E) Ces propriétés restent vraies lorsque E est vide. 19/32
Ensembles S et G 1. L ensemble des hypothèses cohérentes de H qui ne peuvent être spécialisées sans perdre cette cohérence (hypothèses cohérentes maximalement spécifiques) est appelé le S-set. 2. L ensemble des hypothèses cohérentes de H qui ne peuvent être généralisées sans perdre cette cohérence (hypothèses cohérentes maximalement générales) est appelé le G-set. L espace des versions étant convexe et borné, il peut être représenté (de façon plus économique) par le S-set et le G-set : E = {h H g G, s S, s h g} Le but de l algorithme d élimination des candidats est donc de construire S et G. 20/32
Principe Calcul itératif de S et G : initialement S doit contenir les hypothèses les plus spécifiques, et G les plus générales (pour que toutes les hypothèses soient représentées) ; en lisant un exemple : 1. on supprime de G les hypothèses qui ne couvrent pas cet exemple (toutes les spécialisations des ces hypothèses sont incohérentes) ; 2. on «généralise a minima» les hypothèses de S qui ne couvrent pas cet exemple. en lisant un contre-exemple : 1. on supprime de S les hypothèses qui couvrent ce contre-exemple (toutes les généralisations des ces hypothèses sont incohérentes) ; 2. on «spécialise a minima» les hypothèses de G qui couvrent ce contre-exemple. 21/32
Exemple On prend un ensemble d hypothèses un peu différent : G S tous lundi jeudi mercredi samedi weekend lundi mercredi jeudi samedi dimanche Echantillon d apprentissage : A = {(dimanche, ), (mercredi, +), (jeudi, +), (mardi, ), (samedi, )} Au début, S vaut tous les éléments minimums, G les éléments maximums. 22/32
(dimanche, ) dimanche est enlevé de S (couvre dimanche). tous est spécialisé en lundi jeudi et mercredi samedi. G S tous lundi jeudi mercredi samedi weekend lundi mercredi jeudi samedi dimanche 23/32
(mercredi, +) Rien n est enlevé de G. lundi, jeudi et samedi sont généralisés, mais le résultat (soit lundi jeudi soit mercredi samedi) est plus général que mercredi. Ces généralisations ne sont donc pas gardées dans S. G S tous lundi jeudi mercredi samedi weekend lundi mercredi jeudi samedi dimanche 24/32
(jeudi, +) Rien n est enlevé de G. mercredi dans S est généralisé par lundi jeudi et mercredi samedi. G S tous lundi jeudi mercredi samedi weekend lundi mercredi jeudi samedi dimanche 25/32
(mardi, ) lundi jeudi couvrant mardi est enlevé de S. Dans G, lundi jeudi devrait être spécialisé (en lundi, mercredi et jeudi), mais aucune de ces spécialisations ne sont «compatibles» avec S (= ne sont plus générales qu un élément de S). Elles sont donc supprimées. G S tous lundi jeudi mercredi samedi weekend lundi mercredi jeudi samedi dimanche 26/32
(samedi, ) mercredi samedi couvrant samedi est enlevé de S. La spécialisation de mercredi samedi dans G est de toute façon incompatible avec S (qui est vide), on enlève l élément. G S tous lundi jeudi mercredi samedi weekend lundi mercredi jeudi samedi dimanche S et G sont vides : aucune hypothèse n est cohérente avec l ensemble d apprentissage. 27/32
Principe de la généralisation de S Dans le cas d un exemple x, on considère chaque hypothèse h de S : si elle couvre x, pas de problème. sinon, on ajoute dans S les hypothèses généralisant h et couvrant x qui sont : 1. les plus spécifiques à vérifier cette propriété ; 2. et qui sont plus spécifiques qu un élément de G. Ensuite on supprime de S les hypothèses plus générales qu une autre hypothèse de S. 28/32
Principe de la spécialisation de G Dans le cas d un contre-exemple x, on considère chaque hypothèse h de G : si elle ne couvre pas x, pas de problème. sinon, on ajoute dans G les hypothèses spécialisant h et ne couvrant pas x qui sont : 1. les plus générales à vérifier cette propriété ; 2. et qui sont plus générales qu un élément de S. Ensuite on supprime de G les hypothèses plus spécifiques qu une autre hypothèse de G. 29/32
Note 1 : La représentation unique En général, on choisit l espace des hypothèses H de sorte que, pour tout élément x de X, il existe une hypothèse de H qui couvre exactement X. Dans notre exemple, ça veut dire que H doit au moins contenir un élément pour chaque jour de la semaine. Intérêt : le langage de représentation des exemples est inclut dans le langage de représentation des hypothèses. ou au moins on peut projeter les exemples vers les hypothèses, pour faire les opérations de généralisations ou spécialisations. Ce choix est appelé astuce de la représentation unique. 30/32
Note 2 : gms et smg Étant donné deux hypothèses h 1 et h 2, on appelle : 1. le généralisé maximalement spécifique (ou gms(h 1, h 2 ) l ensemble des hypothèses plus générales que h 1 et h 2 qui sont les plus spécifiques possibles. 2. le spécialisé maximalement général (ou smg(h 1, h 2 ) l ensemble des hypothèses plus spécifiques que h 1 et h 2 qui sont les plus générales possibles. Ces notions peuvent être employées pour présenter les calculs de généralisations et de spécialisations dans l algorithme d élimination des candidats. 31/32
Bilan L algorithme d élimination des candidats est un moyen systématique de calculer l espace des versions d un échantillon d apprentissage Il évite ainsi de choisir au hasard la façon dont on généralise ou spécialise les hypothèses, et donne exactement l ensemble des hypothèses cohérentes avec les exemples et contreexemples. 32/32