Analyse syntaxique probabiliste

Documents pareils
Grammaires d unification

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Chap 4: Analyse syntaxique. Prof. M.D. RAHMANI Compilation SMI- S5 2013/14 1

Résolution d équations non linéaires

Compte-rendu de Hamma B., La préposition en français

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Cours de Master Recherche

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, Paris

Compilation. Algorithmes d'analyse syntaxique

Caractéristiques du nom

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Continuité et dérivabilité d une fonction

CH.6 Propriétés des langages non contextuels

Atelier ATOLL pour les grammaires d arbres adjoints

AZUR Concept 3, Rue Antoine BECQUEREL ZA du Triasis LAUNAGUET Tél. : Fax : Site internet :

modèle d atelier de LECTURE-ÉCRITURE

Calculs de probabilités avec la loi normale

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

TD 1 - Structures de Traits et Unification

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Détection des propositions syntaxiques du français : en vue de l alignement des propositions de textes parallèles français-japonais

Introduction à MATLAB R

Nom de l application

TiLT : plate-forme pour le traitement automatique des langues naturelles

Rappels sur les suites - Algorithme

Traitement bas-niveau

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

TILT-IMPORT. Régate Croisière bleue Antibes-Calvi-Antibes du 16 au 20 mai 2012

dans un cadre richement typé

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Raisonnement probabiliste

Accompagnement personnalisé 6e

mes m est mets/met mais mets

Formation Pédagogique 3h

UFR d Informatique. FORMATION MASTER Domaine SCIENCES, TECHNOLOGIE, SANTE Mention INFORMATIQUE

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

FRENCH Language (Advanced Level III)

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée

Apprentissage Automatique

Resolution limit in community detection

PROGRAMME DETAILLE. Parcours en première année en apprentissage. Travail personnel CC + ET réseaux

Cartographie Mobile à MINES ParisTech

Indicateur i 20. Manuel d utilisation

Informatique Théorique : Théorie des Langages, Analyse Lexicale, Analyse Syntaxique Jean-Pierre Jouannaud Professeur

LFRA12 RECHERCHE DOCUMENTAIRE APPLIQUEE A LA TRADUCTION

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Compression Compression par dictionnaires

IDEOGRAPHIX, BUREAU De lecture

Création d un formulaire de contact Procédure

UNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP Pointe-à-Pitre Cedex CONTRAT LE MASTER NOM DU DOMAINE STS

PROJET DE FIN D ETUDES

Compilation (INF 564)

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

chapitre 4 Nombres de Catalan

RESEAU TRES HAUT DEBIT EN FIBRE OPTIQUE - DOSSIER TECHNIQUE FTTH

DMP1 DSFT des Interfaces DMP des LPS Annexe : complément de spécification sur l impression des documents à remettre au patient

Maple: premiers calculs et premières applications

Analyse Sémantique de Nuages de Points 3D et d Images dans les Milieux Urbains

LA RECHERCHE DOCUMENTAIRE

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

! Text Encoding Initiative

scientifique de Kourou (présence du on) mois, avant, quelques jours, avant, à partir de, le dernier jour.

Analyse des Systèmes Asservis

Chapitre 4: Dérivée d'une fonction et règles de calcul

quelque quelque(s) quel(s) que/quelle(s) que quel(s) / quelle(s) qu elle(s)

La fonction exponentielle

Coordination de subordonnées relatives : identification et correction

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

TRACER LE GRAPHE D'UNE FONCTION

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

PARTIE NUMERIQUE (18 points)

Modélisation des données

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE LA FORMATION PROFESSIONNELLE. Microsoft. Excel XP

Je découvre le diagramme de Venn

Automatique Linéaire 1 Travaux Dirigés 1A ISMIN

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.


TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

ces ses c est s est sais / sait

Feuille d exercices 2 : Espaces probabilisés

Théories de champ moyen et convection à grande échelle

Réseau d'opticiens agréés par votre mutuelle Vous avez tout à y gagner!

Absence ou présence erronée d un mot ou d un groupe syntaxique

LES ESCALIERS. Du niveau du rez-de-chaussée à celui de l'étage ou à celui du sous-sol.

CHAPITRE. Le mouvement en deux dimensions CORRIGÉ DES EXERCICES

Transformation IT de l entreprise OBTENIR ENFIN UNE VUE FIABLE ET UNIFIÉE DE VOS DONNÉES, TOUT EN ALLIANT SÉCURITÉ ET AGILITÉ

De vraies perspectives d avenir Des dispositifs d accompagnement et de financements De multiples complémentarités

Équations non linéaires

Psychologie du développement cognitif

Coordonnants ou et soit : confusion

2.4 Représentation graphique, tableau de Karnaugh

Chapitre 5 : Flot maximal dans un graphe

Ouellet, Reeves (Montréal)

Table des matières. Télécharger MetaTrader 4. Première connexion à MetaTrader 4. Se connecter à MetaTrader 4. Modifier la langue

Jean-Philippe Préaux

Théorie des Langages

Projet de Traitement du Signal Segmentation d images SAR

Transcription:

Analyse syntaxique probabiliste Alexis Nasr LIF - Université de la Méditerranée GT AA-TALN, 12/10/2007 p.1/??

Plan Analyse probabiliste pour la langue naturelle Les grammaires d arbre adjoints Résultats Perspectives GT AA-TALN, 12/10/2007 p.2/??

Motivation : ambiguïté des grammaires syntaxiques 1e+08 max moy 1e+07 Nombre d analyses 1e+06 100000 10000 1000 100 10 1 0 5 10 15 20 25 30 35 40 45 50 55 Longueur de la phrase GT AA-TALN, 12/10/2007 p.3/??

Ingrédients pour un analyseur probabiliste Grammaire Modèle probabiliste Algorithme d analyse Algorithme de recherche de l analyse la plus probable GT AA-TALN, 12/10/2007 p.4/??

Grammaire : CFG Extraction à partir d une banque d arbre banque d arbre : collection de couples (phrase, arbre syntaxique). corpus Penn Treebank corpus Paris 7 mots 1 000 000 400 000 phrases 45 000 15 000 cat. syntag. 26 13 parties de discours 36 14 règles 9 657 GT AA-TALN, 12/10/2007 p.5/??

Grammaire : CFG S GN Det N GV V le chat dort S GN GV GN Det N GV V Det le N chat V dort GT AA-TALN, 12/10/2007 p.6/??

Modèle probabiliste : PCFG On associe à toute règle de la CFG une probabilité P(A α) est la probabilité que le non terminal A se réecrive α. P(T,S) = n T P(r(n)) r(n) désigne la règle qui a servi à réecrire le non terminal n estimation par maximum de vraisemblance P(A α) = #(A α) #(A) GT AA-TALN, 12/10/2007 p.7/??

Analyse Algorithmes standard : Earley ou CYK production de l ensemble des analyses sous la forme d une grammaire instanciée S[0..5] -> GN[0..3] GV[3..5] S[0..5] -> GN[0..2] GV[2..5] GN[0..3] -> D[0..1] ADJ[1..2] N[2..3] GN[0..2] -> D[0..1] N[1..2] GV[3..5] -> PRO[3..4] V[4..5] GV[2..5] -> V[2..3] GN[3..5] GN[3..5] -> D[3..4] N[4..5] D[0..1] -> la[0..1] ADJ[1..2] -> petite[1..2] N[2..3] -> ferme[2..3] PRO[3..4] -> le[3..4] V[4..5] -> voile[4..5] N[1..2] -> petite[1..2] V[2..3] -> ferme[2..3] D[3..4] -> le[3..4] N[4..5] -> voile[4..5] GT AA-TALN, 12/10/2007 p.8/??

Représentation graphique de la forêt d analyse S[0..5] S[0..5] > GN[0..2] GV[2..5] S[0..5] > GN[0..3] GV[3..5] GN[0..2] GN[0..3] GV[2..5] GV[3..5] D[0..1] N[1..2] N[2..3] V[2..3] GN[3..5] PRO[3..4] V[4..5] A[1..2] D[3..4] N[4..5] la[0..1] petite[1..2] ferme[2..3] le[3..4] voile[4..5] GT AA-TALN, 12/10/2007 p.9/??

cherche de l analyse la plus probable : algorithme de Viter δ(a[i...j]) meilleure probabilité associée à un sous-arbre de racine A couvrant la portion de la phrase m i...m j. δ(r[i...j]) même chose avec la racine réécrite par la règle R A R1 R2 Rn δ(a) = max 1 i n δ(r i ) R A1 A2 An T δ(r) = P(R) 1 i n δ(a i) δ(t) = 1 GT AA-TALN, 12/10/2007 p.10/??

mesure d évaluation : PARSEVAL (Black et al, 1991) étant donné une phrase s, un arbre candidat C pour s et l arbre référence R pour s. un constituent dans C est correct s il existe un constituent dans R étiqueté par la même catégorie et recouvrant le même segment de phrase. labeled recall (LR) = # constituents corrects dans C # constituents dans R labeled precision (LP) = # consituents corrects dans C # constituents dans C F1 : moyenne harmonique de LR et LP (F1 = 2 LR LP LR+LR ) Résultats sur le PTB : F1 = 72.62 GT AA-TALN, 12/10/2007 p.11/??

Limites des PCFG (1) Indépendance lexicale La réecriture d un symbole pré-terminal X ne dépend pas du contexte d occurrence de X mise en défaut : la préposition introduisant un complément d un verbe dépend de la nature lexicale du verbe Exemple : Jean pense à Marie cette dépendance n est pas modélisée : GV V GP V pense GP P GN P à GT AA-TALN, 12/10/2007 p.12/??

Limites des PCFG (2) Indépendance structurale le choix d une règle pour la réécriture d un symbole X est indépendant du contexte d occurrence de X mise en défaut : Dans le corpus switchboard, 91% des sujets sont des pronoms alors que seule 34% des objets le sont (Francis et al 99) Or il n y a qu une règle de la forme GN Pro et une seule probabilité lui correspondant GT AA-TALN, 12/10/2007 p.13/??

Lexicalisation (Charniak,1997) (Collins, 1999) tête lexicale : un syntagme est construit autour d une tête lexicale les catégories non terminales de la grammaire sont constituées de couples (cat,lex) où lex est la tête du syntagme de catégorie cat Exemple : (GV, penser) (V, penser)(gp, à) Explosion du nombre de catégories et du nombre de règles Problèmes sévères d estimation des probabilités des règles. GT AA-TALN, 12/10/2007 p.14/??

Grammaires fondées sur l historique (Black et al, 1992) la probabilité d appliquer une règle à une étape de la dérivation dépend de la structure dérivée jusque là R S = T 1 R 1 = 2 R n 2 R n 1 T2 =... = T n 1 = T n = T P(T) = n 1 i=1 P(R i T i ) modèle non réaliste : la partie conditionnelle est beaucoup trop importante, l estimation de la probabilité des règles est difficile. regroupement des historiques en classes d équivalence. P(R i T i ) P(R i E[T i ]) GT AA-TALN, 12/10/2007 p.15/??

Markovisation des règles (Klein Manning 03) Markovisation verticale : prise en compte des v premiers ancêtres dans la partie conditionnelle Markovisation horizontale : prise en compte des h frères de gauche dans la partie conditionnelle ordre horizontal ordre vertical h = 0 h = 1 h = 2 h = v = 1 71.72 72.50 72.96 72.62 v = 2 74.68 77.42 77.50 76.81 v = 3 76.74 79.18 79.07 78.72 GT AA-TALN, 12/10/2007 p.16/??

Divers résultats sur le Penn Tree Bank LP LR F1 Magerman 1995 84.9 84.6 84.7 Collins 1996 86.3 85.8 85.9 Charniak 1997 87.4 87.5 87.4 Collins 1999 88.7 88.6 88.6 GT AA-TALN, 12/10/2007 p.17/??

Réordonancement des sorties d un analyseur Génération des n analyses les plus probables des phrases du corpus d apprentissage. Apprentissage de modèles discriminants (Boosting, maximum entropy) Réordonancement des sorties de l analyseur sur le corpus de test. LP LR F1 Collins 1999 89.9 89.6 89.74 Charniak 2005 91 GT AA-TALN, 12/10/2007 p.18/??