Statistiques pour la linguistique

Documents pareils
Apprentissage Automatique

LIVRE BLANC Décembre 2014

Annotations manuelles et automatiques de corpus

! Text Encoding Initiative

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Raisonnement probabiliste

Modélisation aléatoire en fiabilité des logiciels

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Introduction au Data-Mining

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Traitement bas-niveau

TSTI 2D CH X : Exemples de lois à densité 1

UML (Paquetage) Unified Modeling Language

Introduction au Data-Mining

Plus courts chemins, programmation dynamique

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

N SIMON Anne-Catherine

MATHS FINANCIERES. Projet OMEGA

Apprentissage statistique dans les graphes et les réseaux sociaux

FORMULAIRE DE STATISTIQUES

Thèmes et situations : Personnel et législation sociale dans l entreprise. Fiche pédagogique

Modélisation des données

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Conférence Fanny de la Haye Maître de Conférence UBO/Professeure IUFM site de St Brieuc. Les difficultés de compréhension en lecture

: seul le dossier dossier sera cherché, tous les sousdomaines

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

CALCUL DES PROBABILITES

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

TP N 57. Déploiement et renouvellement d une constellation de satellites

CarrotAge, un logiciel pour la fouille de données agricoles

choisir H 1 quand H 0 est vraie - fausse alarme

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

Programmation Linéaire - Cours 1

Ministère de l Enseignement Supérieur et de la Recherche Scientifique

MCMC et approximations en champ moyen pour les modèles de Markov

Cycle de vie du logiciel. Unified Modeling Language UML. UML: définition. Développement Logiciel. Salima Hassas. Unified Modeling Language

Alarme domestique- Présentation

Une approche de désambiguïsation morpho_lexicale évaluée sur l analyseur morphologique Alkhalil*

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Tutoriel Mathematica Les graphiques

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Formation Pédagogique 3h

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Nom de l application

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Abdenour Hacine-Gharbi. Sélection de paramètres acoustiques pertinents pour la reconnaissance de la parole

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Multichronomètre SA10 Présentation générale

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Application d un algorithme de traduction statistique à la normalisation de textos

ADAPT: un modèle de transcodage des nombres. Une application des systèmes de production au développement

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

Représentation d une distribution

Plan de la présentation

TEXT MINING Tour d Horizon

Moments des variables aléatoires réelles

TD1 Signaux, énergie et puissance, signaux aléatoires

Mesure de la surface spécifique

CH.6 Propriétés des langages non contextuels

Contrainte de flot pour RCPSP avec temps de transfert

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

données en connaissance et en actions?

Conception de circuits numériques et architecture des ordinateurs


CHAPITRE 1 STRUCTURE DU NIVEAU B2 POUR LE FRANÇAIS

Annexe 6. Notions d ordonnancement.

À propos de Phenix Systems

TESTS D'HYPOTHESES Etude d'un exemple

QUANTIFICATION DU RISQUE

Resolution limit in community detection

Contenu du programme Gestion Commerciale

VI- Exemples de fiches pédagogiques en 3 ème année primaires

Fondements de l informatique Logique, modèles, et calculs

MEGA Application Portfolio Management. Guide d utilisation

Chapitre 3. Les distributions à deux variables

RDV E-commerce 2013 Mercredi 6 Mars, Technopark

La fonction d audit interne garantit la correcte application des procédures en vigueur et la fiabilité des informations remontées par les filiales.

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Normes graphiques / Sigma Assistel / Site Internet version 1.0 /

Modélisation du comportement habituel de la personne en smarthome

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Probabilités III Introduction à l évaluation d options

Introduction au datamining

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

4.2 Unités d enseignement du M1

Systèmes décisionnels et programmation avancée

TiLT : plate-forme pour le traitement automatique des langues naturelles

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Document d aide au suivi scolaire

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Transcription:

Statistiques pour la linguistique Damien Nouvel Damien Nouvel (Inalco) Prétraitements de corpus 1 / 18

Prétraitements Plan 1. Prétraitements 2. Statistiques textuelles 3. Annotation morpho-syntaxique Damien Nouvel (Inalco) Prétraitements de corpus 2 / 18

Prétraitements Données du corpus Corpus comme ensemble de documents (ou parties) Deux éléments Le contenu (diverses structures) Les métadonnées : Auteur Date de création Mots-clés... ñ Le titre, le résumé sont-ils du contenu ou des métadonnées? Focale sur le contenu comme texte brut : Suite de caractères UTF-8 segmentés en mots Peu de prise en compte de la mise en page ñ Un document, un fichier doc1.txt ñ Prétraitements pour accéder à la linguistique ñ Suite/ensemble de tokens porteurs de sens Damien Nouvel (Inalco) Prétraitements de corpus 3 / 18

Prétraitements Segmentation Séparer un texte (en phrases puis) en mots, les tokens Difficultés pour le français : Clitiques, composition semi-soudées Expressions multi-mots/composées ñ Utilisation d automates ñ Utilisation répandue de TreeTagger ñ En python, plusieurs tokenizers, dont la fonction word_tokenize nltk.word_tokenize("bonjour, le monde!") Damien Nouvel (Inalco) Prétraitements de corpus 4 / 18

Prétraitements Représentation séquentielle Notations Séquence : xc 1, c 2... c n y Item : c 1 élément de la séquence ñ Suite de lettres, de mots, de caractères Exemple Il m a parlé du porte-avions Charles de Gaulle Il m a parlé du porte- avions Charles de Gaulle Il m a parlé du porte- avions Charles de Gaulle Il m a parlé du porte-avions Charles de Gaulle Damien Nouvel (Inalco) Prétraitements de corpus 5 / 18

Prétraitements Ambiguïtés et graphes Formalisme pour les ambiguïtés : Nœud : mot ou suite de mots Arc (flèche) : choix d un chemin ñ Chemin est une analyse possible ñ Combinatoire des analyses Exemple Il m a parlé du porte-avions Charles de Gaulle m a porte- avions Charles de Gaulle Il parlé du m a porte-avions Charles de Gaulle Damien Nouvel (Inalco) Prétraitements de corpus 6 / 18

Prétraitements Autres représentations De nombreuses autres représentations possibles : Arbres syntaxiques Graphes de dépendances Sacs de mots Chaînes de coréférence Cadres sémantiques (frames)... ñ Et pour chacune, N possibilités pour faire des statistiques Damien Nouvel (Inalco) Prétraitements de corpus 7 / 18

Statistiques textuelles Plan 1. Prétraitements 2. Statistiques textuelles 3. Annotation morpho-syntaxique Damien Nouvel (Inalco) Prétraitements de corpus 8 / 18

Statistiques textuelles Hypothèses Corpus séparé en documents ou parties Textes déjà segmenté (tokenisé) Corpus comme matrice termes / documents (sacs de mots) ñ Fréquences des termes dans les documents t 1 t 2 t 3 d 1 f 11 f 12 f 13 d 2 f 21 f 22 f 23 d 3 f 31 f 32 f 33 Calculs statistiques facilités Taille moyenne des documents Fréquence moyenne d un terme par document Coocurrences de termes Damien Nouvel (Inalco) Prétraitements de corpus 9 / 18 Représentation matricielle

Statistiques textuelles Loi normale Principes généraux Aucun apriori sur la répartition des données Paramètres : moyenne, écart-type ñ Peu adaptée aux fréquences de termes 1 ( (x Formule : P(X = x) =? exp µ ) x) 2 σ x 2π 2σx 2 Courbe (µ x = 5, σ x = 2) : 0.4 P(X) 0.2 0 0 2 4 6 8 10 X Damien Nouvel (Inalco) Prétraitements de corpus 10 / 18

Statistiques textuelles Loi binomiale Principes généraux Répétition d une épreuve n fois avec remise Combien de «succès»? ñ Entre 0 et n, selon la probabilité Paramètres : probabilité p, répétition n Formule : P(X = k) = ( ) n p k (1 p) n k Courbe (p = 0, 3, n = 10) : k 0.4 P(X) 0.2 0 0 2 4 6 8 10 X Damien Nouvel (Inalco) Prétraitements de corpus 11 / 18

Statistiques textuelles Loi hypergéométrique Principes généraux Répétition d une épreuve n fois sans remise Combien de «succès»? ñ Entre 0 et n, avec une probabilité décroissante Paramètres : probabilité p, répétition n, nombre total N Formule : P(X = k) = ( ) ( pn (1 p)n ) ( / N n) k n k Courbe (p = 0, 3, n = 10, N = 20) : 0.4 P(X) 0.2 0 0 2 4 6 8 10 X Damien Nouvel (Inalco) Prétraitements de corpus 12 / 18

Statistiques textuelles Calcul des spécificités Statistique sur les fréquences des termes dans les parties Formule sur la matrice termes / documents (parties) f ij (fréquence dans une partie i d un terme j) T = ř ij fij (taille totale du corpus) d i = ř j f ij (taille d une partie i) t j = ř i f ij (nombre total d occurence du terme j ) ( T tj ) ñ P(f ij = k) = ( tj k ( T d i ) d i k Spécificités pour la partie au regard du corpus Probabilité faible (fréquence inattendue) selon un seuil (0,05) Spécificités positives : fréquence forte, sur-représentation Spécificités négatives : fréquence faible, sous-représentation ñ Permet de caractériser la sous-partie du corpus On peut travailler sur plusieurs partitions du corpus Damien Nouvel (Inalco) Prétraitements de corpus 13 / 18

Annotation morpho-syntaxique Plan 1. Prétraitements 2. Statistiques textuelles 3. Annotation morpho-syntaxique Damien Nouvel (Inalco) Prétraitements de corpus 14 / 18

Annotation morpho-syntaxique La catégorisation morpho-syntaxique Affecter des catégories morpho-syntaxiques aux tokens Un choix toujours ambigü Selon le lexique Selon le corpus d entraînement Selon l approche utilisée (vote, HMM, N-grammes, CRF) ñ Prise de décision selon les mots et le contexte ñ Pour une phrase de n tokens ă m 1... m n ą, déterminer les étiquettes associées ă e 1... e n ą qui sont les plus vraisemblables ñ max ăe1...e nąp(ă e 1... e n ą ă m 1... m n ą) Corpus étiqueté (TreeTagger) au format Brown corpus : Passepartout/NAM demeura/ver seul/adj dans/prp la/det maison/nom de/prp Saville-row/NAM./SENT Damien Nouvel (Inalco) Prétraitements de corpus 15 / 18

Annotation morpho-syntaxique Etiquetage par classes majoritaires Hypothèse d indépendance sur les mots et les étiquettes : ñ P(ă e 1... e n ą ă m 1... m n ą) = ś i P(e i m i ) Statistiques simples : Fréquences des mots F(m) Fréquences des étiquettes F(e) Fréquence des associations mots-étiquettes F(m, e) Étiquette qui maximise la probabilité sachant le mot : Pour un mot donné, P(e m) = P(e,m) P(m) Or (corpus de taille N), P(e, m) = F(m,e) N et P(m) = F(m) N Comparaisons pour un m donné : F(m) n a pas d influence ñ Pour un mot donné, étiquette majoritaire : max e F(m, e) me = {'avoir': {'VER': 30, 'NOM': 5}, 'auras': {'VER': 17}} etiquette = sorted(me['avoir'].items(), key=lambda x: x[1])[-1][0] Damien Nouvel (Inalco) Prétraitements de corpus 16 / 18

Annotation morpho-syntaxique Modèle de Markov Caché ñ Quelle suite d états a pu générer la phrase mot à mot? Décomposition de la probabilité : Approche bayésienne : ñ P(xe 1... e n y xm 1... m n y) = P(x(e 1, m 1 )... (e n, m n )y) P(xm 1... m n y) Hypothèse markovienne de contexte limité : ñ P(ă (e 1, m 1 )... (e n, m n ) ą= P(e 1, m 1 ) śi P(e i, m i e i 1 ) Vraisemblance selon les générations et transitions : ñ P(e i, m i e i 1 ) P(e i e i 1 ) P(m i e i ) Ajout des statistiques : D émission des mots : P(m e) = F(m,e) F(e) De transition d étiquettes (bigrammes : P(e 1 e 2 ) = F(e 1,e 2 ) F(e 2 ) Suite d étiquettes qui maximise la probabilité de génération : ñ max ăe1...e n ąp(m 1 e 1 ) śi=1...n P(e i e i 1 ) P(m i e i ) Damien Nouvel (Inalco) Prétraitements de corpus 17 / 18

Annotation morpho-syntaxique Objectifs multiples : Catégoriser les mots (morphologie, syntaxe, etc.) Affecter des classes sémantiques aux tokens Constituer ou utiliser une terminologie Normalisation de termes ou d entités spécifiques ñ Inventaire de mots ou d expressions et de propriétés ñ Reconnaissance par automates déterministes Exemple de difficultés rencontrées avec les lexiques : Synonymie : plusieurs mots peuvent avoir la même sémantique ñ Agrandit la taille du lexique Homonymie : un même mot (typographique ou phonétique) peut avoir de multiple sens ñ Ambiguïté du mot Métonymie : la sémantique d un mot peut changer en Damien Nouvel contexte (Inalco) Prétraitements de corpus 18 / 18 Utilisation des lexiques