Statistiques pour la linguistique Damien Nouvel Damien Nouvel (Inalco) Prétraitements de corpus 1 / 18
Prétraitements Plan 1. Prétraitements 2. Statistiques textuelles 3. Annotation morpho-syntaxique Damien Nouvel (Inalco) Prétraitements de corpus 2 / 18
Prétraitements Données du corpus Corpus comme ensemble de documents (ou parties) Deux éléments Le contenu (diverses structures) Les métadonnées : Auteur Date de création Mots-clés... ñ Le titre, le résumé sont-ils du contenu ou des métadonnées? Focale sur le contenu comme texte brut : Suite de caractères UTF-8 segmentés en mots Peu de prise en compte de la mise en page ñ Un document, un fichier doc1.txt ñ Prétraitements pour accéder à la linguistique ñ Suite/ensemble de tokens porteurs de sens Damien Nouvel (Inalco) Prétraitements de corpus 3 / 18
Prétraitements Segmentation Séparer un texte (en phrases puis) en mots, les tokens Difficultés pour le français : Clitiques, composition semi-soudées Expressions multi-mots/composées ñ Utilisation d automates ñ Utilisation répandue de TreeTagger ñ En python, plusieurs tokenizers, dont la fonction word_tokenize nltk.word_tokenize("bonjour, le monde!") Damien Nouvel (Inalco) Prétraitements de corpus 4 / 18
Prétraitements Représentation séquentielle Notations Séquence : xc 1, c 2... c n y Item : c 1 élément de la séquence ñ Suite de lettres, de mots, de caractères Exemple Il m a parlé du porte-avions Charles de Gaulle Il m a parlé du porte- avions Charles de Gaulle Il m a parlé du porte- avions Charles de Gaulle Il m a parlé du porte-avions Charles de Gaulle Damien Nouvel (Inalco) Prétraitements de corpus 5 / 18
Prétraitements Ambiguïtés et graphes Formalisme pour les ambiguïtés : Nœud : mot ou suite de mots Arc (flèche) : choix d un chemin ñ Chemin est une analyse possible ñ Combinatoire des analyses Exemple Il m a parlé du porte-avions Charles de Gaulle m a porte- avions Charles de Gaulle Il parlé du m a porte-avions Charles de Gaulle Damien Nouvel (Inalco) Prétraitements de corpus 6 / 18
Prétraitements Autres représentations De nombreuses autres représentations possibles : Arbres syntaxiques Graphes de dépendances Sacs de mots Chaînes de coréférence Cadres sémantiques (frames)... ñ Et pour chacune, N possibilités pour faire des statistiques Damien Nouvel (Inalco) Prétraitements de corpus 7 / 18
Statistiques textuelles Plan 1. Prétraitements 2. Statistiques textuelles 3. Annotation morpho-syntaxique Damien Nouvel (Inalco) Prétraitements de corpus 8 / 18
Statistiques textuelles Hypothèses Corpus séparé en documents ou parties Textes déjà segmenté (tokenisé) Corpus comme matrice termes / documents (sacs de mots) ñ Fréquences des termes dans les documents t 1 t 2 t 3 d 1 f 11 f 12 f 13 d 2 f 21 f 22 f 23 d 3 f 31 f 32 f 33 Calculs statistiques facilités Taille moyenne des documents Fréquence moyenne d un terme par document Coocurrences de termes Damien Nouvel (Inalco) Prétraitements de corpus 9 / 18 Représentation matricielle
Statistiques textuelles Loi normale Principes généraux Aucun apriori sur la répartition des données Paramètres : moyenne, écart-type ñ Peu adaptée aux fréquences de termes 1 ( (x Formule : P(X = x) =? exp µ ) x) 2 σ x 2π 2σx 2 Courbe (µ x = 5, σ x = 2) : 0.4 P(X) 0.2 0 0 2 4 6 8 10 X Damien Nouvel (Inalco) Prétraitements de corpus 10 / 18
Statistiques textuelles Loi binomiale Principes généraux Répétition d une épreuve n fois avec remise Combien de «succès»? ñ Entre 0 et n, selon la probabilité Paramètres : probabilité p, répétition n Formule : P(X = k) = ( ) n p k (1 p) n k Courbe (p = 0, 3, n = 10) : k 0.4 P(X) 0.2 0 0 2 4 6 8 10 X Damien Nouvel (Inalco) Prétraitements de corpus 11 / 18
Statistiques textuelles Loi hypergéométrique Principes généraux Répétition d une épreuve n fois sans remise Combien de «succès»? ñ Entre 0 et n, avec une probabilité décroissante Paramètres : probabilité p, répétition n, nombre total N Formule : P(X = k) = ( ) ( pn (1 p)n ) ( / N n) k n k Courbe (p = 0, 3, n = 10, N = 20) : 0.4 P(X) 0.2 0 0 2 4 6 8 10 X Damien Nouvel (Inalco) Prétraitements de corpus 12 / 18
Statistiques textuelles Calcul des spécificités Statistique sur les fréquences des termes dans les parties Formule sur la matrice termes / documents (parties) f ij (fréquence dans une partie i d un terme j) T = ř ij fij (taille totale du corpus) d i = ř j f ij (taille d une partie i) t j = ř i f ij (nombre total d occurence du terme j ) ( T tj ) ñ P(f ij = k) = ( tj k ( T d i ) d i k Spécificités pour la partie au regard du corpus Probabilité faible (fréquence inattendue) selon un seuil (0,05) Spécificités positives : fréquence forte, sur-représentation Spécificités négatives : fréquence faible, sous-représentation ñ Permet de caractériser la sous-partie du corpus On peut travailler sur plusieurs partitions du corpus Damien Nouvel (Inalco) Prétraitements de corpus 13 / 18
Annotation morpho-syntaxique Plan 1. Prétraitements 2. Statistiques textuelles 3. Annotation morpho-syntaxique Damien Nouvel (Inalco) Prétraitements de corpus 14 / 18
Annotation morpho-syntaxique La catégorisation morpho-syntaxique Affecter des catégories morpho-syntaxiques aux tokens Un choix toujours ambigü Selon le lexique Selon le corpus d entraînement Selon l approche utilisée (vote, HMM, N-grammes, CRF) ñ Prise de décision selon les mots et le contexte ñ Pour une phrase de n tokens ă m 1... m n ą, déterminer les étiquettes associées ă e 1... e n ą qui sont les plus vraisemblables ñ max ăe1...e nąp(ă e 1... e n ą ă m 1... m n ą) Corpus étiqueté (TreeTagger) au format Brown corpus : Passepartout/NAM demeura/ver seul/adj dans/prp la/det maison/nom de/prp Saville-row/NAM./SENT Damien Nouvel (Inalco) Prétraitements de corpus 15 / 18
Annotation morpho-syntaxique Etiquetage par classes majoritaires Hypothèse d indépendance sur les mots et les étiquettes : ñ P(ă e 1... e n ą ă m 1... m n ą) = ś i P(e i m i ) Statistiques simples : Fréquences des mots F(m) Fréquences des étiquettes F(e) Fréquence des associations mots-étiquettes F(m, e) Étiquette qui maximise la probabilité sachant le mot : Pour un mot donné, P(e m) = P(e,m) P(m) Or (corpus de taille N), P(e, m) = F(m,e) N et P(m) = F(m) N Comparaisons pour un m donné : F(m) n a pas d influence ñ Pour un mot donné, étiquette majoritaire : max e F(m, e) me = {'avoir': {'VER': 30, 'NOM': 5}, 'auras': {'VER': 17}} etiquette = sorted(me['avoir'].items(), key=lambda x: x[1])[-1][0] Damien Nouvel (Inalco) Prétraitements de corpus 16 / 18
Annotation morpho-syntaxique Modèle de Markov Caché ñ Quelle suite d états a pu générer la phrase mot à mot? Décomposition de la probabilité : Approche bayésienne : ñ P(xe 1... e n y xm 1... m n y) = P(x(e 1, m 1 )... (e n, m n )y) P(xm 1... m n y) Hypothèse markovienne de contexte limité : ñ P(ă (e 1, m 1 )... (e n, m n ) ą= P(e 1, m 1 ) śi P(e i, m i e i 1 ) Vraisemblance selon les générations et transitions : ñ P(e i, m i e i 1 ) P(e i e i 1 ) P(m i e i ) Ajout des statistiques : D émission des mots : P(m e) = F(m,e) F(e) De transition d étiquettes (bigrammes : P(e 1 e 2 ) = F(e 1,e 2 ) F(e 2 ) Suite d étiquettes qui maximise la probabilité de génération : ñ max ăe1...e n ąp(m 1 e 1 ) śi=1...n P(e i e i 1 ) P(m i e i ) Damien Nouvel (Inalco) Prétraitements de corpus 17 / 18
Annotation morpho-syntaxique Objectifs multiples : Catégoriser les mots (morphologie, syntaxe, etc.) Affecter des classes sémantiques aux tokens Constituer ou utiliser une terminologie Normalisation de termes ou d entités spécifiques ñ Inventaire de mots ou d expressions et de propriétés ñ Reconnaissance par automates déterministes Exemple de difficultés rencontrées avec les lexiques : Synonymie : plusieurs mots peuvent avoir la même sémantique ñ Agrandit la taille du lexique Homonymie : un même mot (typographique ou phonétique) peut avoir de multiple sens ñ Ambiguïté du mot Métonymie : la sémantique d un mot peut changer en Damien Nouvel contexte (Inalco) Prétraitements de corpus 18 / 18 Utilisation des lexiques