Apprentissage Automatique



Documents pareils
Introduction au datamining

Introduction au Data-Mining

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Modélisation du comportement habituel de la personne en smarthome

Introduction au Data-Mining

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Pourquoi l apprentissage?

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Agenda de la présentation

4.2 Unités d enseignement du M1

N SIMON Anne-Catherine

Vérification audiovisuelle de l identité

CarrotAge, un logiciel pour la fouille de données agricoles

Ministère de l Enseignement Supérieur et de la Recherche Scientifique

La classification automatique de données quantitatives

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

données en connaissance et en actions?

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

TEXT MINING Tour d Horizon

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Coup de Projecteur sur les Réseaux de Neurones

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Cycle de formation certifiante Sphinx

Thèse. Mathieu RAMONA

Programme scientifique Majeure INTELLIGENCE NUMERIQUE. Mentions Image et Réalité Virtuelle Intelligence Artificielle et Robotique

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Introduction à la B.I. Avec SQL Server 2008

L apprentissage automatique

Extraction de mots-clefs dans des vidéos Web par Analyse Latente de Dirichlet

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Reconnaissance du locuteur

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Enjeux mathématiques et Statistiques du Big Data

LIVRE BLANC Décembre 2014

MCMC et approximations en champ moyen pour les modèles de Markov

Extraction d informations stratégiques par Analyse en Composantes Principales

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Accélérer l agilité de votre site de e-commerce. Cas client

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Mesure agnostique de la qualité des images.

Intégration de la dimension sémantique dans les réseaux sociaux

Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

5. Apprentissage pour le filtrage collaboratif

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Laboratoire 4 Développement d un système intelligent

LES LANGUES EN DANGER : UN DÉFI POUR LES TECHNOLOGIES DE LA LANGUE

Classification Automatique de messages : une approche hybride

Évaluation et implémentation des langages

Parcours en deuxième année

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Analyse de grandes bases de données en santé

AXES DE RECHERCHE - DOMAINE D'INTERET MAJEUR LOGICIELS ET SYSTEMES COMPLEXES

DESCRIPTIF DE MODULE S4 ADG : Mathématique pour la Gestion

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Programme de la 1ère année

Les apports de l informatique. Aux autres disciplines

Modélisation aléatoire en fiabilité des logiciels

Master Informatique Aix-Marseille Université

ECTS CM TD TP. 1er semestre (S3)

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Programmes des classes préparatoires aux Grandes Ecoles

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

NON-LINEARITE ET RESEAUX NEURONAUX

Spécialité IAD. Master de Sciences et technologie de l UPMC. Mention informatique. Partenaires : ENST, ENSTA. Responsables : T. Artières, C.

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Traitement bas-niveau

Les technologies du Big Data

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Accès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Contributions à la reconnaissance robuste de la parole

Workflow/DataWarehouse/DataMining LORIA - Université d automne Informatique décisionnelle - L. Mirtain 1

Les Entrepôts de Données

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Organisation du parcours M2 IR Les unités d enseignements (UE) affichées dans la partie tronc commun sont toutes obligatoires, ainsi que le stage et

MASTER LPL : LANGUE ET INFORMATIQUE (P)

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Analyse en Composantes Principales

Trois approches du GREYC pour la classification de textes

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Présentation de la majeure ISN. ESILV - 18 avril 2013

Intérêt du découpage en sous-bandes pour l analyse spectrale

PROGRAMME DETAILLE. Parcours en première année en apprentissage. Travail personnel CC + ET réseaux

Transcription:

Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs d'étude de l'intelligence artificielle. L'apprentissage automatique fait référence au développement, à l'analyse et à l'implémentation de méthodes qui permettent à une machine (au sens large) d'évoluer grâce à un processus d'apprentissage, et ainsi de remplir des tâches qu'il est difficile ou impossible de remplir par des moyens algorithmiques plus classiques. J.F. Bonastre 2 1

Qu est ce que «l apprentissage automatique»?? Extraire de l information à partir de données (corpus based approaches) J.F. Bonastre 3 Définition (http://www.grappa.univ-lille3.fr/polys/apprentissage/index.html) Apprentissage à partir d exemples Classification supervisée Lien Apprentissage Classification J.F. Bonastre 4 2

Définition (http://indico.lal.in2p3.fr/conferencedisplay.py?confid=a0637) Apprentissage automatique un carrefour J.F. Bonastre 5 Définition (http://indico.lal.in2p3.fr/conferencedisplay.py?confid=a0637) Vision Statistique But = apprendre des fonctions à partir de données Fonctions complexes vs non paramétriques Dimensionnalité de l espace Taille des corpus Inspiration Vision Intelligence artificielle But : imiter ou reproduire des comportements intelligents naturels source de problèmes classiques (reconnaissance d écriture, parole, etc.) différences approche inductive apprentissage a partir des exemples approche probabiliste J.F. Bonastre 6 3

Définition (http://indico.lal.in2p3.fr/conferencedisplay.py?confid=a0637) Théorie des probabilités outils d analyse de modèles théoriques Théorie de l optimisation outils algorithmiques Sciences cognitives, neurosciences Sources d inspiration Théorie de l information, traitement du signal Problèmes et méthodologies partagés J.F. Bonastre 7 Types d algorithmes (Wikipedia) L'apprentissage supervisé : un expert (ou oracle) est employé pour étiqueter correctement des exemples. L'apprenant doit alors trouver ou approximer la fonction qui permet d'affecter la bonne étiquette à ces exemples. L'apprentissage non-supervisé L'apprentissage par renforcement J.F. Bonastre 8 4

Quelques algos (Wikipedia) les machines à vecteur de support le boosting les réseaux de neurones pour un apprentissage supervisé ou nonsupervisé la méthode des k plus proches voisins pour un apprentissage supervisé les arbres de décision les méthodes statistiques comme le modèle de mixture gaussienne la régression logistique l'analyse discriminante linéaire la logique floue les algorithmes génétiques et la programmation génétique J.F. Bonastre 9 A quoi ça sert?? Analyse financière : prévision d'évolution de marchés Marketing : établir un profil client, mailing Banque : attribution de prêts Médecine : aide au diagnostic, Télecom : détection de fraudes. Biométrie Robotique Reconnaissance de forme OCR Transcription de la parole Compréhension/Dialogue Recherche d information (moteur internet, moteur multimédia) J.F. Bonastre 10 5

Un exemple Un exemple d outil (1) Navigation dans des bases de données audio Orientation «moteur de recherche» Présentation synthétique de l information Technologies développées au LIA Travail (très) coopératif Nombreuses thèses dont celle de Benoît Favre (mars 2007) en collaboration avec Thales Communications J.F. Bonastre 12 6

Un exemple d outil (2) Des données (~ 100h) Un besoin d information («Chirac») Une réponse sous forme d un résumé audio par concaténation Problèmes Perte du contexte Difficulté pour naviguer Nécessité de connaître précisément l objectif Solution? Frise J.F. Bonastre 13 Un exemple d outil (3) Annexes J.F. Bonastre 14 7

Un exemple d outil (4) Commentaires ~100 heures de parole (base publique, ESTER) Peu de couverture temporelle (les données sont espacées sur une longue période) Etendu à 1700 heures. Pas de soucis hormis l interface (temps d accès aux données audio) 100 % automatique Analyse sémantique réalisée sur les données «le monde», ~ 500 millions de mots En ligne (http://pc-favre.iup.univ-avignon.fr:7777/) J.F. Bonastre 15 Un exemple d outil (5) Limites Démonstrateur! L'identité du locuteur n'est pas encore ajoutée au niveau des traitements sémantiques Id pour des marqueurs liés à la parole («émotions»/style, taux d'interaction,...) Ajout de «curseurs» couverture thématique nouveauté J.F. Bonastre 16 8

Technologies Technologies (1) Paramétrisation et Séparation en classes/locuteurs Représentation du signal (paramétrisation) Représentation tempsfréquence Atténuation des bruits, normalisations Traitements «acoustiques» Segmentation en classes Segmentation en locuteurs Identification/Suivi des locuteurs Traitement du signal Apprentissage automatique Techniques statistiques J.F. Bonastre 18 9

Technologies (2) Apprentissage automatique «statistique» Estimateur de densité GMM à partir d exemples (et connaissances) -> modèle de la distribution Mélange de Gaussiennes Multidimensionnelles Algo standards (EM, MAP ) J.F. Bonastre 19 Technologies (3) Moteur de reconnaissance de la parole Modélisation acoustique Modèles initiaux (par condition) Adaptation au locuteur Adaptation aux conditions Modélisation linguistique Algorithme de décodage Graphe d hypothèses très, trop large Apprentissage automatique Techniques statistiques + connaissances Algorithmes de parcours efficaces (Token, Stack, A* ) J.F. Bonastre 20 10

Technologies (4) Modélisation acoustique Passer du «statique au dynamique» Mot ->Modèles composés I U F Connaissances HMM (Modèles de Markov Cachés) Transitions (probabilités) Etats (p. émission -> GMM) Viterbi, Baum-Welch Lexique de mots 1 mot = suite de phone 1 phone = 1 phonème en contexte = 1 HMM 3 états Choix des triphones (contextes manquants) Constitution du lexique (mots composés ) J.F. Bonastre 21 Technologies (5) Apprentissage automatique «statistique» Modèles de langage Ngram : probabilité de i connaissant i-1,, i-n Mot i-2 Mot i-1 Mot i Nclass : probabilité de la classe i connaissant les classes i-1, i-n Mot -> classe Ngram Grammaires spécifiques, règles, combinaison Difficultés : * backoff * corpus * lexique * nettoyage * noms propres * évolutions Exemple présenté : * 3 gram * 20 M transcriptions * 550 M «le monde» J.F. Bonastre 22 11

Technologies (6) Segmentation en phase, Entités Nommées Segmentation Conditional Random Fields Informations hétérogènes Linguistique (Transcription, Étiquettes syntaxiques) Prosodiques (Pauses, Pente de f0, Tours de parole) Entités Nommées Noms de personnes, organisations, lieux Dates et quantités numériques Stratégie mixte Grammaires locales Modèles N-gram J.F. Bonastre 23 Segmentation en phrases CRF (CRF++) Mots (bigram) Etiquetage morphosyntaxique (LIA_TAG) Changement de locuteurs Prosodie Fin de segments Pause avant, entre les 2 mots Fo (sur 3 horizons t.) J.F. Bonastre 24 12

Technologies (7) Extraction de connaissance, résumé Représentation sous forme vectorielle (~dim. 65 k) Latent Semantic Analysis Représentation conceptuelle Projection des phases dans un espace conceptuel Fonction des cooccurrences Rend compte de la «proximité sémantique» Réduction de l espace (SVD) Création de «concepts» Réponse «temps réel» Espace pré-appris Maximal Marginal Relevance Sélection des phrases Maximum de couverture Minimum de redondance Séparation des calculs Intérêt général des phrases/mots (pré-calculé) Dépendant de la requête J.F. Bonastre 25 Maximal Margin Relevance (MMR) Objectifs Sélection de phrases suivant un besoin Maximiser l information, minimiser la redondance Adaptation au contexte (efficacité et interactivité) Informations sur la forme, précalculées Informations venant du besoin utilisateur, calculées à la demande Appliquée dans un «espace sémantique» J.F. Bonastre 26 13

L espace sémantique VSM - Modèle algébrique/vectoriel classique Requêtes et candidats sont exprimés sous forme d un vecteur Une dimension = 1 mot du vocabulaire Une valeur = nb occurrences du mot dans le document concerné En fait, Inverse Document Frequency J.F. Bonastre 27 L espace sémantique VSM - Modèle algébrique/vectoriel classique Modèle «sac de mots» Ne prend pas en compte l ordre des mots Ne prend pas en compte les corrélations inter mots Evolution vers GVSM Basé sur les corrélations inter mots Complexe pour peu d amélioration J.F. Bonastre 28 14

L espace sémantique Latent Semantic Analysis Même principe que GVSM (corrélations) Le point de départ est une matrice de cooccurrence Case i,j donne le nombre de cooccurrences des mots i et j dans un contexte donné Le contexte? Phrase, document, fenêtre Utilisation d une décomposition en valeurs singulières (SVD) Réduction de la complexité (représentation par une matrice de taille réduite) Emergence de «thèmes» = axes J.F. Bonastre 29 L espace sémantique Latent Semantic Analysis Matrice initiale de cooccurrences Décomposition par SVD Vecteurs singuliers orthogonaux (nvle base) «thèmes» Matrice diagonale des valeurs singulières Réduction à une dimension k J.F. Bonastre 30 15

L espace sémantique Latent Semantic Analysis Projection d un document dans LSA Mesure cosine de similarité J.F. Bonastre 31 Performances de la chaîne de structuration LIA (data de la démo) J.F. Bonastre 32 16