Pourquoi l apprentissage?



Documents pareils
Algorithmes d'apprentissage

L apprentissage automatique

Apprentissage. Intelligence Artificielle NFP106 Année Plan. Apprentissage. Apprentissage

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction au Data-Mining

Introduction au datamining

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

Apprentissage Automatique

Resolution limit in community detection

Application 1- VBA : Test de comportements d'investissements

NOTIONS DE PROBABILITÉS

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Chapitre 2. Eléments pour comprendre un énoncé

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Recherche dans un tableau

Plan. Exemple: Application bancaire. Introduction. OCL Object Constraint Language Le langage de contraintes d'uml

Cours de Génie Logiciel

LE PROBLEME DU PLUS COURT CHEMIN

Introduction au Data-Mining

Algorithmes de recherche

MATH ELEMENTS DU CALCUL DES PROBABILITES

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Intelligence Artificielle Planification

Coup de Projecteur sur les Réseaux de Neurones

Programmation linéaire

Suites numériques 3. 1 Convergence et limite d une suite

Travaux pratiques avec RapidMiner

NOTE EXPLICATIVE. des CONDITIONS GENERALES BANCAIRES

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

Vers l'ordinateur quantique

Introduction à la théorie des files d'attente. Claude Chaudet

Image d un intervalle par une fonction continue

OASIS Date de publication

Continuité d une fonction de plusieurs variables

Système immunitaire artificiel

Cours 1 : Introduction Ordinateurs - Langages de haut niveau - Application

Chapitre 1 : Introduction aux bases de données

Travailler avec les télécommunications

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Info0804. Cours 6. Optimisation combinatoire : Applications et compléments

Par : Abdel YEZZA, Ph.D. Date : avril 2011 / mise à jour oct (ajout de la section 3 et augmentation de la section 1)

2. RAPPEL DES TECHNIQUES DE CALCUL DANS R

données en connaissance et en actions?

CHAPITRE VIII : Les circuits avec résistances ohmiques

Systèmes décisionnels et programmation avancée

Les clients puissance cube

Structures algébriques

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Synthèse «Le Plus Grand Produit»

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile

Cours Informatique Master STEP

MATHÉMATIQUES. Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN

Laboratoire 4 Développement d un système intelligent

Anticiper pour avoir une innovation d'avance : le leitmotiv de Pierre Jouniaux, entrepreneur du big data!

6. Les différents types de démonstrations

Algorithmique avec Algobox

Les algorithmes de base du graphisme

Raisonnement par récurrence Suites numériques

Arbres binaires de recherche

Culture scientifique et technologique

modélisation solide et dessin technique

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Modélisation multi-agents - Agents réactifs

5. Apprentissage pour le filtrage collaboratif

Méthodes de développement. Analyse des exigences (spécification)

POKER ET PROBABILITÉ

!-.!#- $'( 1&) &) (,' &*- %,!

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

Partie 1 : la construction du nombre chez l'enfant. Page 2. Partie 2 : Des jeux et des nombres Page 8

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Pour signifier qu'une classe fille hérite d'une classe mère, on utilise le mot clé extends class fille extends mère

4.2 Unités d enseignement du M1

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Economie de l Incertain et des Incitations

Atelier Transversal AT11. Activité «Fourmis» Pierre Chauvet.

Utilisation de l analyse statique comme outil d aide au développement. par. Yves Gauthier

ANNEXES. Evaluation de la formation à Polytech Lille Département GIS. Enseignements les plus utiles. Enseignements à renforcer

Mesures de Risque Multipériodes Cohérentes Appliquées au Compte à Terme

Identification de nouveaux membres dans des familles d'interleukines

O b s e r v a t o i r e E V A P M. Taxonomie R. Gras - développée

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB Olivier Augereau Formation UML

Fonctions de plusieurs variables

COPIER, COUPER, COLLER, SELECTIONNER, ENREGISTRER.

Théorèmes de Point Fixe et Applications 1

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

SOUTIEN INFORMATIQUE DEP 5229

Introduction à la Statistique Inférentielle

ORACLE TUNING PACK 11G

L'instruction if permet d'exécuter des instructions différentes selon qu'une condition est vraie ou fausse. Sa forme de base est la suivante:

UNITE U 6.2 : PROJET TECHNIQUE OBJET DE L'EPREUVE.

Historique. Avantages de la FPA

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Probabilités conditionnelles Loi binomiale

Transcription:

Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage : la connaissance est automatiquement extraite à partir d un ensemble d exemples. Ex : on dispose d un historique de prêts accordés avec la situation personnelle du demandeur et le résultat du prêt. Un système d apprentissage doit alors, à partir de cet ensemble d exemples extraire une procédure qui, au vue de la situation personnelle d un client, devra décider de l attribution du prêt. => Apprentissage inductif

Apprendre Apprendre est un signe d'intelligence : capacité d'association (mémoire) capacité d'abstraction (génération de concepts) explicabilité (comportement rationnel) capacité de prévision (anticipation : + contrôle) réplicabilité (- aléatoire dans le comportement) capacité de révision (dynamicité), capacité d'adaptation... Pourquoi apprendre? Pas d algorithmes précis : reconnaissance des visages, voix... Trop de données à traiter : "data mining", "market analysis"... Données "volatiles" : prédiction de réactions (météo)

Applications Analyse financière : prévision d évolution des marchés Marketing : établir un profil client, mailing Banque : attribution de prêts Médecine : aide au diagnostic Télécoms : détection de fraude

Niveaux d apprentissage Niveau 1 : apprentissage programmé (robot industriel) Niveau 2 : apprentissage par cœur Niveau 3 : apprentissage statistique (classification des situations) Niveau 4 : à l aide d un professeur, il faut généraliser Niveau 5 : sans professeur (découverte)

Apprentissage par induction L'apprentissage par induction permet d'arriver à des conclusions par l'examen d'exemples particuliers. L'apprentissage par induction consiste à inférer une association entre des entrées et des sorties spécifiques. L'apprentissage basée sur l'induction se divise en apprentissage supervisé et non supervisé La supervision dans l'apprentissage supervisé survient lorsque le programme reçoit les entrées et les sorties correspondantes. Dans l'apprentissage non supervisé, le programme doit se fier à d'autres sources pour savoir s'il apprend bien ou non.

Apprentissage supervisé On donne au programme une série de paires d'entrée/sortie de la forme <xi,yi>, où xi est un entrée possible et yi est la sortie associée à xi. Les paires d'entrée/sortie sont appelées les exemples qui proviennent d'une fonction inconnue. Le programme est appelé à apprendre une fonction, f, qui correspond aux exemples vus jusqu'à maintenant, f(xi)=yi pour tout i, et qui prédit les sorties pour les entrées qui n'ont pas encore été vues. Les entrées peuvent être des descriptions d'objets et les sorties la classe des objets donnés en entrée. De manière alternative, les entrées peuvent correspondre à des descriptions ou situations et les sorties à des actions ou prédictions.

Classification et apprentissage de concepts Si la fonction est discrète, alors les sorties sont appelées classes et la tâche d'apprentissage est appelée classification. Un système de vérification du traffic routier pourrait avoir à reconnaître quatres types de véhicules : autos, petits camions et minivans, camions et autobus, et finalement poids lourds. Lorsqu'il n'y a que deux valeurs possibles, alors on appelle la fonction un concept. Chaque entrée satisfait ou non le concept. L'apprentissage dans ce cas est appelé l'apprentissage de concept.

Apprentissage non supervisé Dans l'apprentissage non supervisé, on ne fournit pas au programme une séquence de paires d'entrée/sortie. L'apprentissage par renforcement utilise un signal de retour qui donne au programme une indication de la qualité de son apprentissage. L'algorithme de regroupement partitionne les entrées en un nombre fixe de groupes (clusters) de manière à ce que les entrées d'un groupe sont proches les uns des autres, par respect d'une certaine métrique dans l'espace des entrées. En apprentissage de découverte, l'objectif est de découvrir de nouvelles relations dans les données.

La théorie de l'inférence par induction On se concentrera sur l'apprentissage de concepts mais les résultats peuvent s'appliquer aux autres types d'apprentissage. On considère un ensemble X d'exemples. Un concept est un sous-ensemble C de X correspondant aux exemples du concept à apprendre. Les exemples d'entraînement sont pris de X, Ils sont étiquetés positif ou négatif selon qu'ils font partie ou non du concept. L'objectif est d'apprendre une ou des règles pour assigner la bonne étiquette à n'importe quel exemple de X.

La théorie de l'inférence par induction Les exemples sont donnés sous la forme <x,y>, où x X, et si x C, alors y = 1, sinon y = 0. L'objectif est d'apprendre la fonction f tel que f(x)=1 si x C et f(x)= 0 sinon. La fonction f peut être exprimée de plusieurs façons, comme un ensemble de règles, une procédure, un réseau d'éléments qui simule les neurones,...

Exemple Considérez le problème de choisir une prochaine carte gagnante lorsqu'on sait que les cartes 4,7, 2 sont gagnantes, alors que les cartes 5 et J ne sont pas gagantes. Quelle carte choisir? Une carte numérique noire? Peut-on déduire avec certitude que c'est le bon choix?

Biais inductifs Pour limiter le problème de multiplicité de conclusions, la fonction f doit être prise dans un espace d' hypothèses possibles, noté H. H se définit par des contraintes. C'est cet ensemble de contraintes qui représente le biais inductif ou simplement biais. Ex : le livre de math pour un écolier qui essaie de résoudre un problème de mathématiques. Le biais inductif fournit un guide pour la sélection de fonctions qui généralisent au-delà des exemples observés. La réduction de H par un biais inductif simplifie le problème de chercher f, et même rend possible certains problèmes qui autrement seraient très difficiles, MAIS il faut être prudent afin de ne pas éliminer la bonne hypothèse de H.

Maximisation des modèles La maximisation de modèle est basée sur l'observation que certaines conclusions sont moins conservatrices que d'autres. Par exemple, nous avons conclu avec l'exemple des cartes que les cartes gagnantes sont numériques et noires. On aurait pu également conclure que les cartes gagnantes sont numériques et noires et qu'il neige dehors. L'ajout de la condition supplémentaire ne nuit pas à notre conclusion; elle satisfait toujours les conditions de la définition d'induction. D'un autre côté elle est complètement superflue. L'idée derrière la maximisation de modèle est d'ordonner les conclusions sur la base de leurs modèles. Selon cet ordre, une conclusion est meilleure qu'une autre si et seulement si ces modèles sont un super-ensemble des modèles de l'autre conclusion. Dans notre exemple, les deux conclusions sont cohérentes et expliquent les données mais la conclusion numériques et noires est meilleure que numériques et noires et neige parce que tout modèle de ce dernier est aussi un modèle de la première.

Méthodes pratiques La première méthode est la version d'espaces qui exploite la structure d'un espace d'hypothèses pour maintenir des bornes sur l'ensemble des concepts cohérents avec l'ensemble d'exemples d'entraînement. Cette méthode fonctionne en traitant un exemple à la fois et est assymptotiquement optimale pour des espaces de conjonctions de litéraux positifs. La deuxième méthode est l'arbre de décision qui utilise un espace d'hypothèses très général, un biais de préférence et une heuristique pour chercher une hypothèse compacte et cohérente qui se généralise bien aux exemples non-vus. Les méthodes réseaux.

Définitions Une relation est acceptable si et seulement si on peut la définir en termes des concepts à apprendre et du langage de l'ensemble de base. Par exemple, dans notre exemple de cartes nous avions les relations numérique, face, noires et rouges et le langage restreint aux définitions conjonctives. Pour ce problème, le concept de cartes numériques et noires est acceptable mais le concept de cartes numériques ou rouge ne l'est pas. Une relation acceptable, r, est caractéristique si et seulement si elle est satisfaite dans tous les exemples positifs. Une relation acceptable, r, est discriminante si et seulement si elle n'est pas satisfaite par n'importe quel exemple négatif. Une relation acceptable est admissible si et seulement si elle est caractéristique et discriminante. Dans l'exemple des cartes, la relation numérique est caractéristique mais non discriminante pusique elle couvre tous les exemples positifs mais aussi quelques exemples négatifs. La relation trèfle est discriminante mais non caractéristique puisqu'elle exclut tous les exemples négatifs mais aussi quelques exemples positifs. La relation formée de l'intersection des relations numérique et noire est admissible.

Attributs, propriétés et dimensions Un attribut est une variable utilisée pour décrire les objets dans l'espace des exemples d'entraînement possibles. Pour un x X, on assigne à chaque attribut une de ses valeurs possibles. Un attribut avec toutes ses valeurs possibles (domaine) est appelé une dimension de X. Un attribut avec une seule valeur assignée est appelé une propriété de X. Dans l'exemple des cartes nous avons deux dimensions: (hauteur, {A,2,3,4,5,6,7,8,9,10,J,Q,K,Num,Fig}), (couleur, {,,,, Noire, Rouge}).

Spécialisation et généralisation de concepts Un concept C1 est considéré comme une spécialisation d'un concept C2 si C1 C2. Si C1 est une spécialisation de C2, alors C2 est une généralisation de C1.

Espace de version Un espace de version d'un concept en formation est l'ensemble de toutes les relations admissibles d'un problème. Un graphe de version est un graphe dont les noeuds sont les éléments de l'espace de version et dont un arc entre les noeuds p et q existe si et seulement si p est moins général que q (p vu comme un ensemble d'éléments est un sous-ensemble de q) il n'existe pas de noeud r qui est plus général que p et moins général que q (une spécialisation immédiate). Exemple des cartes Un graphe qui contient plus d'un noeud reflète un concept ambigu mais reste utile pour la classification de nouveaux exemples, sachant que la solution cherchée est un membre de cet espace de version.

Représentation de l'espace des versions Observation fondamentale : L'espace des versions structuré par une relation d'ordre partiel peut être représenté par : sa borne supérieure : le G-set sa borne inférieure : le S-set G-set = Ensemble de toutes les hypothèses les plus générales, cohérentes avec les exemples connus S-set = Ensemble de toutes les hypothèses les plus spécifiques, cohérentes avec les exemples connus

Apprentissage Idée : maintenir le S-set et le G-set après chaque nouvel exemple Algorithme d'élimination des candidats

Algorithme d'élimination des candidats Initialiser S et G par (resp.) : l'ensemble des hypothèses les plus spécifiques (les plus générales) cohérentes avec le 1er exemple positif connu. Pour chaque nouvel exemple (positif ou négatif) mettre à jour S mettre à jour G Jusqu'à convergence ou jusqu'à ce que S=G=Ø

Mise à jour de S xi est négatif (contre-exemple) Éliminer les hypothèses de S couvrant (indûment) xi (on ne retient que les généralisations de S qui ne couvrent pas xi) xi est positif Généraliser les hypothèses de S ne couvrant pas xi juste assez pour qu'elles le couvrent Puis éliminer les hypothèses de S couvrant un ou plusieurs exemples négatifs plus générales que des hypothèses de G

Mise à jour de G xi est positif Éliminer les hypothèses de G ne couvrant pas xi (on ne retient que les généralisations de G qui couvrent xi) xi est négatif Spécialiser les hypothèses de G couvrant xi juste assez pour qu'elles ne le couvrent plus Puis éliminer les hypothèses de G n'étant pas plus générales qu'au moins un élément de S plus spécifiques qu'au moins une autre hypothèse de G

Les propriétés de l algorithme S résume les informations relatives aux exemples positifs (il ne sont pas stockés explicitement) G résume les informations relatives aux exemples négatifs (il ne sont pas stockés explicitement) Le résultat est indépendant de l ordre de présentation Les exemples positifs déplacent S, les négatifs, G Si S et G deviennent vide, il n y a pas d hypothèse cohérente dans le langage.

Espaces de version

Algorithme d élimination des candidats Pour chaque exemple suivant i : Begin if i est un exemple négatif then begin - ne retenir dans S que les généralisations ne couvrant pas i - rendre plus spécifiques les généralisations de G couvrant i juste assez pour qu'elles ne couvrent plus i, et seulement de manière que chacune reste plus générale que certaines généralisations de S - Retirer de G tout élément plus spécifique que d'autres éléments de G fin if else, if i est un exemple positif then begin - ne retenir dans G que les généralisations couvrant i - généraliser les éléments de S ne couvrant pas i juste assez pour leur permettre de couvrir i, et seulement de telle manière que chacune reste plus spécifique que certaines généralisations de G - retirer de S tout élément plus général que d'autres éléments de S fin if fin pour chaque

Mondrian

Mondrian Ex Lignes Type Trait Rectangles Couleurs Mondrian? 1 5 1 8 4 Oui 2 4 2 8 5 Non 3 5 2 7 4 Oui 4 6 1 10 4 Non 5 5 1 10 5 Non