Analyse de données linguistiques

Transcription

1 Slides inspirés des cours de S. Evert et M. Baroni

2 Linguistique expérimentale? Traditionnellement en linguistique formelle, refus de l usage de données comme source d information unique: Méthode fondée d abord sur l introspection (confortée par des données) Distinction grammatical/agrammatical Raisons profondes (Chomsky): Introspection permet de généraliser Introspection permet de décider qu un exemple est agrammatical Données (corpus,expériences) représentent un échantillon fini et biaisé du langage : mauvaise généralisation Données sont bruitées, comment distinguer le bruit des faits de langue? : risque d éparpillement compétence vs performance

3 Et pourtant... Problèmes liés aux jugements introspectifs Études sur les préférences Études sur la gradience Études historiques ou diachroniques

4 Problèmes liés aux jugements introspectifs Cas limites (cités par Schutze 96):??Are/??Is John or his parents here? I, who the FBI thinks *am/*is an anarchist, will doubtless be here. Commentaires de Levelt (Schutze 96): In the early years of the transformational grammar [the low reliability of absolute grammaticality judgments] was not an important issue, since the clear cases, i.e., the highly uncontroversial cases of grammaticality and ungrammaticality, were sufficient for constructing and testing linguistic theory. It was expected that, in its tum, the theory constructed in such a way would decide on the unclear cases. This hope has vanished. (Levelt et al. 1977, p. 88) It has slowly but surely become clear that it is not possible, on the basis of incontrovertible, directly evident data, to construct a theory so extensive that all less obvious cases can be decided upon by the grammar itself. It is becoming more and more apparent that decisions on very important areas of theory are dependent on very unreliable observations...(levelt 1974, vol. 2, p. 6)

5 Études sur les préférences John gave a book to Mary John gave Mary a book John gave a book to him John gave him a book Sujet très étudié pour l anglais notamment par (Bresnan 07). L ordre n est pas aléatoire. Il y a des préférences qui dépendent de la longueur des compléments, de leur définitude, de leur caractère pronominal...

6 Gradience dans les jugements de grammaticalité Il est fréquent que les auteurs utilisent une forme de gradience grammaticale dans leurs jugements qui repose sur l intuition (Sorace, Keller 2005) investigue l expérimentation : 1 Which friend has Thomas painted a picture of? 2? Which friend has Thomas painted the picture of? 3? Which friend has Thomas torn up a picture of? 4? How many friends has Thomas painted a picture of? Commentaires Sentence (1) does not incur any constraint violations. It is more acceptable than (2), which incurs a DEF violation, i.e. extraction takes place out of a definite picture NP. (3) violates VERB, the constraint that requires that the matrix verb does not presuppose the existence of its object. VERB is satisfied by paint, but violated by tear up.(4) shows how the extraction of a non-referential wh-phrase violates the constraint REF, leading to a decrease in acceptability compared to (1).

7 Cas où l introspection ne peut s appliquer Il existe une série de cas ou l introspection ne peut pas s appliquer : 1 Etudes diachroniques (par exemple : préférences pour l ordre des compléments ditransitifs en ancien français) 2 Etudes en acquisition (langage enfant) 3 Etudes sur le français oral (jugements beaucoup plus limites) (l expérimentation non plus d ailleurs pour (2)...)

8 Propos de ce cours Investiguer comment travailler à partir de données Issues de corpus Issues d expériences Question de fond : généralisation à partir de données Recours aux statistiques

9 Plan (tentative) Partie du cours qui traite de l analyse de données issues de corpus Aperçu général Observation de données Généralisation d observations prises dans un échantillon Décrire de grosses masses de données: Résumés statistiques, visualisation de données Statistiques Descriptives Décider de la significativité de différences (moyennes, proportions) Avec volonté de généraliser au delà d un échantillon donné Statistiques inférentielles Découvrir des propriétés cachées (théoriques) dans les données : Propriétés qui reposent sur une théorie (vérifier la théorie) Chercher à identifier ces propriétés (exploration de données) Modélisation statistique (modèles de régression)

10 Portée du cours Buts du cours Formation pratique à l analyse de données sur corpus Notions élémentaires de statistiques Utilisation du langage R pour la pratique Non buts du cours Théorie statistique Analyse probabiliste (cf cours de M1) Pour les TALeux Donne une méthodologie pour l analyse de données en grande quantité Apporte les bases de certaines techniques de classification (MaxEnt, reg. logistique) Donne une perspective d application de techniques de TAL à des problèmes de linguistique

11 Support avec R Utilisation du langage R, intérêt : Gratuit (open source) Téléchargement ici : Fonctionnalités supplémentaires pour traiter des données langagières Peut se programmer, s automatiser Inconvénients : Interface ligne de commande Effort plus important à faire au début qu avec un logiciel à boutons/fenêtres Pose encore parfois qq problèmes pour les textes non-anglais (caractères accentués)

12 Bibliographie de base David Howell, Méthodes statistiques en sciences humaines, De Boeck, C. Judd, G. McClelland, C. Ryan, D. Muller, V. Yzerbyt, Analyse des données. Une approche par comparaison de modèles, De Boeck, Shravan Vasishth, Michael Broe The foundations of statistics: a simulation based approach, Springer Christopher Butler, Statistics in Linguistics, Oxford Blackwell, Harald Baayen Analyzing Linguistic Data: A practical introduction to statistics. Cambridge University Press, Peter Dalgaard, Introductory statistics with R (2nd ed), Springer, 2008.

13 Lancer R Sous UNIX : > R --gui X11 #ou > R --gui Tk

14 R comme calculatrice > 1+1 [1] 2 > a <- 2 #assignation d une valeur a une variable > a * 2 [1] 4 > log(a) # logarithme en base e de a [1] > log(a,2) # logarithme en base 2 de a [1] 1 > quit() # quitte le logiciel

15 Vecteurs R est conçu pour travailler naturellement avec des vecteurs: #(c)ombine, cree des vecteurs > a <- c(1,2,3) # operateur applique a chaque element du vecteur > a * 2 [1] > log(a) [1] > sum(a) [1] 6 > length(a) [1] 3 > sum(a) / length(a) [1] 2

16 Initialiser des vecteurs > a <- 1:100 #1,2, > a <- 10ˆ(1:100) # 10, 100, 1000,... 10e > a <- seq(0,10,0.1) # 0,0.1,0.2, ,10 > a <- rnorm(100) #100 nombres reels aleatoires (loi normale) > a <- runif(100,0,5) #100 nombres reels aleatoires (loi uniforme)

17 Statistiques descriptives de base > length(a) > summary(a) Min. 1st Qu. Median Mean 3rd Qu. Max > mean(a) > sd(a) #ecart type (standard deviation en anglais) >quantile(a) 0% 25% 50% 75% 100%

18 Faire un graphique élémentaire > x <- 1:100 > y <- sqrt(x) #Plotte la fonction racine carree > plot(x,y) > a <- 2ˆ(1:100) > plot(a) > a <- rnorm(100) #histogrammes > hist(a) > a <- runif(100) > hist(a)

19 Parametres de graphiques > hist(a,probability=true) > lines(density(a)) > hist(a,probability=true,col="cyan") > lines(density(a),lwd=3,col="red") > hist(a,probability=true,col="cyan",xlab="domaine", > lines(density(a),lwd=3,col="red")

20 Encore plus d options, d aide > help("hist") > help.search("histogram") >?hist > help.start()

21 Faire un script avec R Script: commandes mises en séquence dans un fichier texte Une par ligne Enregistrer le script en le suffixant par.r Utiliser un éditeur de texte comme Notepad++ ou Emacs Exécuter le script dans R : > source("mon_script.r") > source(file.choose()) #...pour choisir le fichier a la main Pour afficher un résultat dans un script, utiliser : > a <- sd(toto) > print(a) sinon pas d affichage!

22 Tables de données (bonne pratique, y compris en TAL) Structurer une table de données de telle sorte que : Une observation par ligne Une variable par colonne Avec optionnellement un en-tête (header) Exemple: word pos lemma les D le gentils A gentil animaux N animal Les colonnes sont séparées par une tabulation unique > read.table("toto.table",header=true) > toto <- read.table("toto.table",header=true) > toto <- read.table(file.choose(),header=true)

23 Fichiers Excel R peut lire des fichiers produits par Microsoft Excel Sauvegarder vos fichiers Excel en format csv > read.csv("toto.csv") > read.csv2("toto.csv") #Depend de la version de Excel Remarque: parfois des difficultés, Excel ne gère pas les nombres de manière standard...

24 Data Frame Les tables de données sont représentées en R par des Data Frames Une table de données R est faite de : Lignes de données (rows) ou observations Colonnes qui représentent les variables, quantités mesurées etc.

25 Fonctions utiles pour observer une data frame > brown <- read.table("brown.stats.txt",header=true) > lob <- read.table("lob.stats.txt",header=true) > summary(brown) > colnames(brown) #affiche le nom des variables > dim(brown) > head(brown) > plot(brown) #use the latter with reasonable data sets #whose columns contents are numerical

26 Comparaison rapide (corpus de Brown et LOB) Les corpus de Brown et de LOB (Lancaster Oslo Bergen) sont des corpus qui cherchent à fournir respectivement un usage représentatif de l anglais américain et de l anglais continental. Ils sont divisés en sections de genres textuels différents (presse, littéraire, sciences, religion...) Ils sont faits pour être comparables : même nombre de sections dans LOB que dans Brown, même distribution de genres, etc. On propose un exercice de mise en jambes qui a pour but de voir dans quelle mesure ils sont réellement comparables

27 Signification des variables Les lignes représentent des statistiques qui résument les différents échantillons qui constituent chacun des corpus. Les colonnes comportent les variables suivantes: ty : taille du vocabulaire de l échantillon to : nombre d occurrences de chaque échantillon se : nombre de phrases dans l échantillon towl : longueur moyenne des mots (calculée sur occurrences) tywl : longueur moyenne des mots (calculée sur le vocabulaire)

28 Accéder aux vecteurs dans le corpus de Brown > brown$to > head(brown$to) # A FAIRE : calculer des statistiques de summary() # sur les differents vecteurs #Que fait la ligne suivante a votre avis > summary(brown$to / brown$ty) #Essayer les commandes suivantes > brown$ty[1] #l index d un vecteur commence a 1 > brown[1,2] #ligne,colonne > brown$ty[1:10] #utilise un vecteur comme indice > brown[1:10,2] > brown[1,] > brown[,2]

29 Création de sous-tables > brown[brown$to < 2200, ] # ne retient que les petits textes Brown > sum(brown$to >= 2200) # Compte le nombre de longs textes dans Brown > subset (brown$to >= 2200) #idem (1) > petitstextes <- subset (brown$to >= 2200) #egalite : == #inegalite :!= # contraintes complexes : &!, # ex: brown[brown$to < 2200 & brown$to > 2000, ]

30 Observer les différences > boxplot(brown$to,lob$to) > boxplot(brown$to,lob$to,names=c("brown","lob")) >? boxplot > t.test(brown$to,lob$to) > wilcox.test(brown$to,lob$to) Juger les différences On voit sur les graphiques qu il y a une légère différence On utilise un test pour déterminer si la différence est significative ou pas

31 Corrélations On peut juger de la comparabilité des deux corpus en vérifiant par exemple le nombre de mots dans les deux corpus : > plot(lob$to,brown$to) > cor.test(lob$to,brown$to) Corrélation La tendance générale est que les petits textes dans Brown on tendance a être petits dans LOB On teste l observation graphique avec un test de corrélation (qui est significatif) : notre impression visuelle n est pas due au hasard Exercices Tester la correlation entre le nombre d occurrences (to) et la fréquence moyenne des mots dans le corpus de Brown (towl), donner une interprétation Tester la correlation entre le nombre de phrases (se) et le nombre d occurrences (to) dans le corpus de Brown, donner une interprétation

32 Généralisations La quête Un des buts du travail de linguiste est de pouvoir généraliser à la langue des observations faites sur un nombre fini d exemples Rappel : Chomsky et le refus du travail sur données (stats) Question illustrative Quelle est la proportion d usage de passif en anglais? On trouve sur le web : 10%

33 Schéma général de la démarche Utilisation Corpus Population inférence statistique Definition en extension du langage considéré Formuler une hypothèse opérationalisation Question linguistique

34 Définition en extension de la langue considérée (population) Par exemple : Langage oral / langage écrit Français de Paris / du Canada / de Belgique Langage adulte / langage enfant Genres spécifiques : journalistique / littéraire /scientifique... Exemple anglais Anglais écrit par des écrivains professionnels, américains natifs (extrait du corpus de Brown)

35 De la question à l opérationalisation Etape de travail 1 Définir la population 2 Comment on compte les passifs en anglais?

36 Différentes manières de compter... Type/Token (vocabulaire / occurrences) Type : Combien de formes de passifs différentes a-t-on? Token : Combien d occurrences de passifs a-t-on? Combien y a-t-il de passifs en anglais? (dans la population) Une infinité!

37 Comptage (fréquence relative) Il est inutile de reporter des comptes absolus (ex. j ai trouvé exemples de passifs) si on ne donne pas la taille du corpus (erreur fréquente) On peut reporter plutôt une fréquence de passifs : On considère tous les passifs potentiels, par exemple tous les VPs On reporte la fréquence relative (proportion), càd: V P passive ν = V P passif + V P actif Etat des lieux Après avoir caractérisé la population et formuler l hypothèse, on a que la question initiale devient : Est-ce que la proportion observée ν de VP passifs en anglais américain dans un corpus représentatif est différente de la proportion théorique π = 10%?

38 Nécessité d un corpus représentatif Les statistiques inférentielles cherchent à permettre une généralisation à la population à partir d un échantillon (représentatif). Pour échantilloner parfaitement (en théorie), on peut voir le langage (la population) comme une bibliothèque comportant une infinité de livres, la procédure (théorique) à suivre est la suivante : 1 Prendre un livre au hasard 2 Ouvrir le livre à une page au hasard 3 Choisir un VP au hasard dans la page Recommencer l étape précédente jusqu à obtenir un échantillon de la taille désirée. Échantilonnage aléatoire

39 Biais d échantillonnage How random is a corpus? Une technique différente qui ne choisit que quelques livres produit un échantillon biaisé (!) La raison est que le lexique (voire certaines constructions) est distribué inégalement selon les corpus, certains mots ont tendance a être sur-représentés dans les textes (ce qui reflète par exemple la thématique du texte) S. Evert, How Random is a Corpus? The Library Metaphor

40 Inférence à partir d un échantillon Principe de statistiques inférentielles : Si l échantillon est tiré de manière parfaitement aléatoire, les proportions observées dans l échantillon doivent être relativement proches des proportions observées dans la population Exemple : On a l affirmation que π = 10% de passifs en anglais On prélève dans une bibliothèque infinie 100 exemples de VP au hasard dont 19 sont passifs (ν = 12%) Peut-on conclure que l affirmation de 10% est erronée car ν > π? Autre échantillon : On prélève dans une bibliothèque infinie 100 exemples de VP au hasard dont 13 sont passifs (ν = 9%) Peut-on conclure que l affirmation de 10% est erronée car ν < π?

41 Variation d échantillonage et inférence statistique L échantillonage aléatoire nous assure que en moyenne les proportions observées dans l échantillon sont celles de la populations Il y a cependant une variance d échantillonage, s explique par le hasard du tirage au sort. Le but de l inférence statistique est d estimer et de corriger ces effets de variation due au hasard.

42 Exercice Exercice sur la variance d échantillonnage R possède une commande sample qui permet de tirer au sort artificiellement des échantillons : > ech <- sample(c("active","passive"),10,replace=true) # Tirer 10 fois au sort actif ou passif > length(ech[ech=="active"])/length(ech) # Proportion de resultats==actif Répéter la commande suivante 10 fois, noter à chaque fois la proportion de résultats = actif; calculer la moyenne d échantillonage Donner la moyenne générale et une idée de la dispersion autour de cette moyenne Recommencer l exercice, cette fois en utilisant un échantillon plus important (100 exemples) et comparer les moyennes et la dispersion > ech <- sample(c("active","passive"),100,replace=true)

43 Solution # This function prints the sampling mean and sampling sd # for samples with different sizes exosample <- function(size){ propvec <- c() for(i in c(1:10)){ ech <- sample(c("active","passive"),size,replace=true) prop <- length(ech[ech=="active"])/length(ech) propvec <- c(propvec,prop) } print(mean(propvec)) print(sd(propvec)) } > exosample(10) [1] 0.46 [1] > exosample(100) [1] [1] > exosample(1000) #Dispersion decroit! [1] [1]

44 Test d hypothèse (Intro) Une méthode destinée à décider si la différence de proportions que l on observe entre notre échantillon et la proportion réelle de la population est le test d hypothèse Ici on a l hypothèse que 10% des VPs en anglais américain seront passifs et on veut vérifier si nos observations (modulo variance d échantillonage) confirment ou pas cette hypothèse Démarche Hypothèse nulle (H 0 ): la proportion de passifs en anglais est de 10% On cherche à montrer que cette hypothèse ne tient pas Méthode brutale : on demande à beaucoup de linguistes de refaire la même expérience, et on regarde au final si en moyenne les échantillons comportent bien 10% de passifs...

45 Méthode de calcul Plutôt que de recourir à la méthode brutale, on peut remarquer que notre problème correspond à un problème mathématique connu (tirer à pile ou face à répétition): P P P F P F P F P Or les mathématiciens (probabilités) peuvent nous dire quelle est la probabilité d obtenir la proportion observée dans différents échantillons si on connait π la probabilité théorique (ici 10%) et n le nombre d éléments dans l échantillon : ( ) n P(x) = π x (1 π) n x x où x représente le nombre de passifs dans l échantillon et où P(x) dénote la probabilité d obtenir un échantillon de proportion x

46 Représentation graphique P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon Détails Chaque barre représente la probabilité de tirer un échantillon de proportion donnée sachant que la probabilité théorique est de 0.1. Par exemple, la barre numéro 14, nous dit que nous avons 5.1% de chances de tirer un échantillon avec 14 verbes au passif

47 Exercice : apprivoiser la loi binomiale On peut représenter la loi binomiale P(x) = ( n) x p x (1 p) n x dans R en utilisant les commandes suivantes: > n <- 10 > x <- 0:n > y <- dbinom(x,n,0.5) > plot(x,y,type="h",lwd=10,col="blue") Exercice Refaire la manipulation en changeant les valeurs de p : 0.1,0.3,0.7,0.9 Refaire la manipulation en fixant p = 0.5 et en changeant les valeurs de n : 10, 100, 1000, (changez le paramètre lwd = 1 pour la lisibilité) : qu observez-vous lorsque n augmente?

48 Représentation graphique P(x) = pourcentage d échantillons Variation normale Variation improbable x = proportion de passifs dans l échantillon Zones critiques On peut définir des valeurs de proportions des échantillons qui sont anormales (probabilité faible α < 0.05) Si l échantillon que l on a tombe dans cette zone, on conclut que l hypothèse de départ est à rejeter. (l échantillon constitue un contre-exemple)

49 Test d hypothèse (synthèse) 1 Poser une hypothèse nulle (π = 10%) 2 Poser un seuil d anormalité sur la loi de probabilité (α = 0.5%) 3 Conclure (ici, un échantillon avec 19% de passifs est anormal tandis qu un échantillon avec 13% de passifs est normal) Erreur de type I En rejetant l hypothèse, on court le risque qu elle soit vraie, mais que le tirage au sort de notre échantillon soit tout à fait exceptionnel. Rejeter une hypothèse dans ces conditions, c est commettre une erreur de Type I.

50 Test d hypothèse avec R # (Nombre de passifs observes,taille echantillon,proba theorique) > binom.test(13,100,0.1) Exact binomial test data: 13 and 100 number of successes = 13, number of trials = 100, p-value = alternative hypothesis: true probability of success is not equal to percent confidence interval: sample estimates: probability of success 0.13 > binom.test(19,100,0.1) Exact binomial test data: 19 and 100 number of successes = 19, number of trials = 100, p-value = alternative hypothesis: true probability of success is not equal to percent confidence interval: sample estimates: probability of success 0.19

51 Puissance d un test Erreur de type II L erreur de type II consiste à accepter à tort l hypothèse nulle. La puissance d un test est la capacité du test à nous éviter de commettre une erreur de type II Augmenter la puissance d un test Pour augmenter la puissance d un test, la règle générale est d augmenter la quantité de données dans l échantillon, c est ce que nous illustrons dans la suite

52 Inférence statistique et taille des échantillons Imaginons que l on ne connaisse pas précisément à priori la probabilité théorique π On peut se donner une idée de la proportion π dans la population uniquement à partir d un échantillon La technique consiste à utiliser les tests d hypothèses à l envers (!)

53 Intervalles de confiance Supposons que l on observe 19 passifs dans un échantillon de 100 VPs. Si on ne connait pas π, on peut réaliser des tests d hypothèses en série en essayant toutes les valeurs de π On a une série de valeurs de π où H 0 est vérifiée, cela définit en fait une intervalle dans laquelle π doit se trouver

54 Illustration p = 0.10 P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon

59 Observation On voit que les intervalles que l on a trouvés graphiquement correspondent à la rubrique intervalle du résultat du test précédent donné par R : 95 percent confidence interval: On peut voir que la taille de l intervalle de confiance diminue lorsque la taille de l échantillon augmente La taille de l intervalle de confiance augmente lorsque le seuil de significativité α diminue.

60 Exercice On calcule les intervalles de confiance avec une commande du type : > binom.test(19,100) #Directement > library(hmisc) > binconf(19,100,method="exact") PointEst Lower Upper Fixer α = 0.05 ; observer l évolution des intervalles de confiance, avec les valeurs suivantes : x=19, n=100 ; x= 190, n=1000, x = 1900, n = 1000 Observer l évolution des intervales de confiance avec les seuils α = 0.05, α = 0.01, α = (en spécifiant le paramètre conf.level = 0.95, 0.99, 0.999)

61 Solution n=100 n=1000 n=10000 k=19 k=190 k= 1900 α = α = α =

62 Intervalles de confiance et taille d échantillon Intervalle de confiance, alpha = n=20 n=100 n=1000 n=10000 MLE Proportion d observations (x/n) Intervalle plus grande quand proportion observée proche de 0.5 Intervalle plus grande quand échantillon plus petit

63 Note sur MLE Notons que pour k observations sur n tirages, l estimateur de maximum de vraisemblance (Maximum Likelihood Estimator) est le ratio k n, ce qui correspond à la valeur de p (parmi toutes les valeurs possibles) pour laquelle P(x) est maximale. L estimateur de maximum de vraisemblance assume que la probabilité théorique p de la population est k n (la fréquence des succès) même si il y a incertitude (liée à la taille de l échantillon) Exercice pour les LI Faire un graphique de la fonction de vraisemblance avec R : «n P(x, n p) = p x (1 p) n x x en fixant x = 19, n = 100, et p varie. Observez que argmax p «p 19 (1 p) = 19

64 Comparaisons de fréquences Beaucoup de problèmes de linguistique peuvent être représentés par des comparaisons de fréquences, exemples: Utilise-t-on plus de prépositions en Français moderne qu en ancien français? Les belges utilisent-ils plus la forme une fois en fin de phrase que les français? Est-ce que Miaou apparaît plus souvent dans le contexte de chat que dans le contexte d autres mots? Collocations L adjectif est-il plus souvent antéposé en Ancien français qu en français moderne?...

65 Opérationalisation Ici, comparaison de l usage du passif en anglais américain vs anglais continental (données factices) : En R 19 passifs dans 100 VPs dans Brown ; 47 passifs dans 200 VPs dans Lob Représentation des données dans une matrice 2 2: x 1 x 2 n 1 x 1 n 2 x 2 > mc <- matrix((19,81,47,153),ncol=2) > mc

66 Différents tests Test du χ 2 (au moins 5 observations dans chaque cellule, de préférence 20) Test exact de Fisher : peu d observations dans chaque cellule Test du rapport de log vraisemblance (Log likelihood ratio test, s applique dans les mêmes conditions que χ 2 ) > prop.test(mc) > chisq.test(mc) > fisher.test(mc) # pas de loglikelihood ratio test predefini.. >?chisq.test >?fisher.test

67 Interprétation des résultats On accorde de l importance à la p-valeur, pour décider Ceci, dit : Si la taille de l échantillon est trop faible, de grosses différences seront non significatives (tester la matrice suivante) > m = matrix(c(10,80,20,80),ncol=2) > chisq.test(m) > fisher.test(m) Plus, il y a de données, plus le test tend à être significatif (puissance du test) Si la taille de l échantillon est trop importante, la moindre différence devient significative (cas des tests de collocation en Tal) Il convient de faire attention non seulement à la significativité du test mais aussi à sa pertinence pour en interpréter les résultats