Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole



Documents pareils
Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Probabilités (méthodes et objectifs)

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Probabilités conditionnelles Loi binomiale

Calculs de probabilités conditionelles

Probabilités. C. Charignon. I Cours 3

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Raisonnement probabiliste

Probabilités conditionnelles

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Résumé des communications des Intervenants

GEA II Introduction aux probabilités Poly. de révision. Lionel Darondeau

TESTS D'HYPOTHESES Etude d'un exemple

Probabilités sur un univers fini

Soutenance de stage Laboratoire des Signaux et Systèmes

TSTI 2D CH X : Exemples de lois à densité 1

Couples de variables aléatoires discrètes

Qu est-ce qu une probabilité?

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Programmes des classes préparatoires aux Grandes Ecoles

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Calculs de probabilités

Exercices sur le chapitre «Probabilités»

Calcul élémentaire des probabilités

Lois de probabilité. Anita Burgun

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Université Paris 8 Introduction aux probabilités Licence Informatique Exercices Ph. Guillot. 1 Ensemble fondamental loi de probabilité

P1 : Corrigés des exercices

Moments des variables aléatoires réelles

Chapitre 3 : INFERENCE

Introduction au datamining

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

PROBABILITES ET STATISTIQUE I&II

Travaux dirigés d introduction aux Probabilités

Probabilités sur un univers fini

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Dunod, Paris, 2014 ISBN

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Probabilités Loi binomiale Exercices corrigés

Probabilités III Introduction à l évaluation d options

ÉPREUVE COMMUNE DE TIPE Partie D

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Théorie de l estimation et de la décision statistique

Algorithmes d'apprentissage

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

NOTIONS DE PROBABILITÉS

Méthodes de Simulation

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

Introduction au Calcul des Probabilités

M2 IAD UE MODE Notes de cours (3)

Logiciel Libre Cours 3 Fondements: Génie Logiciel

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

Modélisation aléatoire en fiabilité des logiciels

Apprentissage Automatique

Arbres binaires de décision

choisir H 1 quand H 0 est vraie - fausse alarme

INF 162 Probabilités pour l informatique

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Probabilités. I - Expérience aléatoire. II - Evénements

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Economie de l Incertain et des Incitations

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Filtrage stochastique non linéaire par la théorie de représentation des martingales

PROBABILITÉS CONDITIONNELLES

EI - EXERCICES DE PROBABILITES CORRIGES

Les probabilités. Guide pédagogique Le présent guide sert de complément à la série d émissions intitulée Les probabilités produite par TFO.

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Chaînes de Markov au lycée

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Estimation et tests statistiques, TD 5. Solutions

Les probabilités. Chapitre 18. Tester ses connaissances

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Texte Agrégation limitée par diffusion interne

CALCUL DES PROBABILITES

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

De la mesure à l analyse des risques

données en connaissance et en actions?

1.1 Codage de source et test d hypothèse

4 Distributions particulières de probabilités

Chapitre 2. Eléments pour comprendre un énoncé

I. Cas de l équiprobabilité

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Modélisation et simulation

Cours d introduction à la théorie de la détection

Loi d une variable discrète

Probabilités conditionnelles Exercices corrigés

Modélisation du comportement habituel de la personne en smarthome

Introduction aux probabilités. et à la statistique. Jean Bérard

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

N SIMON Anne-Catherine

Transmission d informations sur le réseau électrique

Traitement bas-niveau

Traitement automatique des entités nommées en arabe : détection et traduction

Guidance de Statistique : Epreuve de préparation à l examen

Transcription:

Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3 Quelques applications du traitement automatique du langage naturel 2.3.1 Dictionnaires et étiquetage de surface 2.3.2 Re-ponctuation et recapitalisation de textes 2.3.3 Traduction automatique statistique 3. Ingénierie de la parole 3.1 Rappels de traitement numérique du signal 3.2 Le signal de parole : analyse, unités pertinentes et variabilité 3.3 Codage et compression de la parole 3.4 Reconnaissance automatique de la parole 3.5 Synthèse de la parole Références Manning and Schutze: Foundations of Statistical Language Processing,1999, MIT Press, available online Jurafsky and Martin: Speech and Language Processing, 2000, Prentice Hall. Rajman M. «Speech and language engineering», 2007, EPFL Press. Le langage comme donnée Grandes quantités de textes disponibles sous forme numérique Milliards de documents disponibles sur le Web Dizaine de milliers de phrases annotées (arbres syntaxiques) Centaine de millions de mots traduits entre l anglais et d autres langues Compter les mots Statistiques sur le roman «Tom Sawyer» de M. Twain 1

Distributions Loi de Zipf 3993 singletons La plupart des mots apparaissent peu La plus grosse partie du texte correspond à la centaine de mots les plus fréquents Probabilités Nous pouvons estimer une distribution de probabilités à partir des fréquences des mots Cette estimation est appelée par «maximum de vraisemblance» Cette distribution répond à la question : «si je tire un mot au hasard d un texte, quelle est la probabilité que ce mot soit le mot w?» Formalisation Soit une variable aléatoire W Nous définissons la distribution de probabilités p, qui indique avec quelle vraisemblance la variable W prend la valeur w («est le mot w») 2

Probabilités conjointes On s intéresse à 2 variables aléatoires en même temps Exemple : les mots w1 et w2 qui apparaissent l un après l autre (un bigramme) ; on modélise cela avec la distribution p(w1,w2) Si l apparition de 2 mots en bigrammes est indépendante, nous pouvons écrire p(w1,w2) = p(w1)p(w2) ; cette hypothèse est probablement fausse! On peut estimer la probabilité conjointe de 2 variables de la même façon que ceci est fait pour une seule variable Probabilités conditionnelles Notée : p(w2 w1) Répond à la question : si la variable aléatoire W1 = w1, avec quelle vraisemblance la variable W2 prend la valeur w2 Mathématiquement, on écrit : Si W1 et W2 sont indépendantes on a alors p(w2 w1) = p(w2) Règle 1 («chain rule») Règle 2 (Règle de Bayes) Règle de Bayes Obtenue à partir de la règle précédente Etc. 3

Avec des ensembles P(X) signifie probabilité que X soit vrai P(baby is a boy) 0.5 (% of total that are boys) P(baby is named John) 0.001 (% of total named John) Avec des ensembles P(X, Y) signifie probabilité que X et Y soient vrais tous les deux e.g. P(brown eyes, boy) Avec des ensembles P(X Y) signifie probabilité que X soit vrai quand on sait déjà que Y est vrai P(baby is named John baby is a boy) 0.002 P(baby is a boy baby is named John ) 1 Avec des ensembles P(X Y) = P(X, Y) / P(Y) P(baby is named John baby is a boy) = P(baby is named John, baby is a boy) / P(baby is a boy) = 0.001 / 0.5 = 0.002 4

Avec des ensembles Règle de Bayes : P(X Y) = P(Y X) P(X) / P(Y) P(named John boy) = P(boy named John) P(named John) / P(boy) Esperance Esperance d une variable aléatoire X Exemple du dé à 6 faces Variance Variance Variance Ecart type 5

Distributions Uniforme Tous les événements sont équiprobables P(x)=p(y) pour tout x,y Ex : dé Binomiale Une série de tirages avec résultat binaire (ex: succès/échec) Probabilité des événements p/1-p ; le probabilité d avoir r succès sur n tirages est Distributions Normale (ou gaussienne) Ex : taille des personnes, QI, hauteur des arbres Étant donné une espérance et un écart type, la distribution gaussienne est Estimation bayésienne Modèle M, données D Quel est le modèle le plus probable étant donné les données? => p(m/d) Entropie Important concept qui mesure le «degré de désordre» p(m) : probabilité a priori du modèle L estimation d un modèle p(w) avec les fréquences des mots correspond à une estimation bayésienne avec une probabilité a priori uniforme (estimation par maximum de vraisemblance) Exemples 1 événement : P(a)=1 => H(X)=-1log1=0 2 évènements équiprobables : p(a)=0/5 ; p(b)=0.5 H(X)=-0.5log0.5-0.5log0.5=1 4 évènements équiprobables : H(X)=2 6

Entropie 4 évènements dont 1 plus probable que les autres p(a)=0.7 ; p(b)=0.1 ; p(c)=0.1 ; p(d)=0.1 Entropie Intuition : un bon modèle doit avoir une entropie faible Beaucoup de modèles probabilistes en traitement du langage consistent en une réduction d entropie Théorie de l information et entropie Supposons que nous voulons encoder une séquence d événements X Chaque événement est encodé par une séquence de bits Exemples Pièce : pile=0 ; face=1 4 événements équiprobables : a=00 ; b=01 ; c=10 ; d=11 Codage de huffmann (nombre de bits faible si lettre fréquente) Le nombre de bits nécessaires pour coder les événements de X est inférieur ou égal à l entropie de X Vers des modèles de langue Nous avons déjà parlé de la probabilité d un mot p(w) Mais les mots apparaissent en séquences Etant donné une séquence de mots, pouvons nous prévoir le mot suivant? 7

Modèles de langue Permettent de répondre à la question Quelle est la probabilité que cette chaîne de mots soit correcte? Le chat est mort =>bon Le chat est bavard =>moins bon Est chat le mort =>mauvais Utilisation Reconnaissance automatique de la parole Traduction automatique Reconnaissance des langues Reconnaissance optique de caractères. Modèles de langue Etant donnée une chaîne de mots W=w1w2w3w4 wn Hypothèse de Markov Seule l historique sur un passé limité compte Seuls les k mots précédents appartiennent à l historique Modèle d ordre k Exemple : modèle d ordre 1 (bigramme) Estimer les probabilités n-grammes Collecter des fréquences de mots et de séquences de mots sur de très grands corpus Plusieurs millions de mots Taille du modèle Pour chaque n-gramme, on doit stocker une probabilité Si on suppose un vocabulaire de 20000 mots Les modèles de langage trigrammes sont les plus utilisés 8

Exemple pratique A partir d un corpus de 275 millions de mots (journaux écrits en anglais type «Wall Street Journal») Qualité d un modèle de langue Peut être mesuré avec l entropie Ou la perplexité Exemple : unigramme Exemple : bigramme 9

Problème des événements inconnus Soit la phrase S2 they buy a new house. Le bigramme «a new» n a jamais été vu P(S2)=0!! Alors que la phrase est correcte Problème des événements inconnus Deux types de «zéros» Mots inconnus Problème traité avec une étiquette «INCONNU» La probabilité p(inconnu) est estimé Tendance à une sur-estimation de cette probabilité» Mécanismes de lissage N-grammes inconnus Lissage en leur donnant une faible probabilité (mais non nulle!) Retour en arrière (backoff) vers un n-gramme d ordre inférieur Donner une probabilité non nulle à des événements non rencontrés => ce n est plus une estimation par maximum de vraisemblance!! 10