Analyse de données linguistiques

Dimension: px
Commencer à balayer dès la page:

Download "Analyse de données linguistiques"

Transcription

1 Slides inspirés des cours de S. Evert et M. Baroni

2 Linguistique expérimentale? Traditionnellement en linguistique formelle, refus de l usage de données comme source d information unique: Méthode fondée d abord sur l introspection (confortée par des données) Distinction grammatical/agrammatical Raisons profondes (Chomsky): Introspection permet de généraliser Introspection permet de décider qu un exemple est agrammatical Données (corpus,expériences) représentent un échantillon fini et biaisé du langage : mauvaise généralisation Données sont bruitées, comment distinguer le bruit des faits de langue? : risque d éparpillement compétence vs performance

3 Et pourtant... Problèmes liés aux jugements introspectifs Études sur les préférences Études sur la gradience Études historiques ou diachroniques

4 Problèmes liés aux jugements introspectifs Cas limites (cités par Schutze 96):??Are/??Is John or his parents here? I, who the FBI thinks *am/*is an anarchist, will doubtless be here. Commentaires de Levelt (Schutze 96): In the early years of the transformational grammar [the low reliability of absolute grammaticality judgments] was not an important issue, since the clear cases, i.e., the highly uncontroversial cases of grammaticality and ungrammaticality, were sufficient for constructing and testing linguistic theory. It was expected that, in its tum, the theory constructed in such a way would decide on the unclear cases. This hope has vanished. (Levelt et al. 1977, p. 88) It has slowly but surely become clear that it is not possible, on the basis of incontrovertible, directly evident data, to construct a theory so extensive that all less obvious cases can be decided upon by the grammar itself. It is becoming more and more apparent that decisions on very important areas of theory are dependent on very unreliable observations...(levelt 1974, vol. 2, p. 6)

5 Études sur les préférences John gave a book to Mary John gave Mary a book John gave a book to him John gave him a book Sujet très étudié pour l anglais notamment par (Bresnan 07). L ordre n est pas aléatoire. Il y a des préférences qui dépendent de la longueur des compléments, de leur définitude, de leur caractère pronominal...

6 Gradience dans les jugements de grammaticalité Il est fréquent que les auteurs utilisent une forme de gradience grammaticale dans leurs jugements qui repose sur l intuition (Sorace, Keller 2005) investigue l expérimentation : 1 Which friend has Thomas painted a picture of? 2? Which friend has Thomas painted the picture of? 3? Which friend has Thomas torn up a picture of? 4? How many friends has Thomas painted a picture of? Commentaires Sentence (1) does not incur any constraint violations. It is more acceptable than (2), which incurs a DEF violation, i.e. extraction takes place out of a definite picture NP. (3) violates VERB, the constraint that requires that the matrix verb does not presuppose the existence of its object. VERB is satisfied by paint, but violated by tear up.(4) shows how the extraction of a non-referential wh-phrase violates the constraint REF, leading to a decrease in acceptability compared to (1).

7 Cas où l introspection ne peut s appliquer Il existe une série de cas ou l introspection ne peut pas s appliquer : 1 Etudes diachroniques (par exemple : préférences pour l ordre des compléments ditransitifs en ancien français) 2 Etudes en acquisition (langage enfant) 3 Etudes sur le français oral (jugements beaucoup plus limites) (l expérimentation non plus d ailleurs pour (2)...)

8 Propos de ce cours Investiguer comment travailler à partir de données Issues de corpus Issues d expériences Question de fond : généralisation à partir de données Recours aux statistiques

9 Plan (tentative) Partie du cours qui traite de l analyse de données issues de corpus Aperçu général Observation de données Généralisation d observations prises dans un échantillon Décrire de grosses masses de données: Résumés statistiques, visualisation de données Statistiques Descriptives Décider de la significativité de différences (moyennes, proportions) Avec volonté de généraliser au delà d un échantillon donné Statistiques inférentielles Découvrir des propriétés cachées (théoriques) dans les données : Propriétés qui reposent sur une théorie (vérifier la théorie) Chercher à identifier ces propriétés (exploration de données) Modélisation statistique (modèles de régression)

10 Portée du cours Buts du cours Formation pratique à l analyse de données sur corpus Notions élémentaires de statistiques Utilisation du langage R pour la pratique Non buts du cours Théorie statistique Analyse probabiliste (cf cours de M1) Pour les TALeux Donne une méthodologie pour l analyse de données en grande quantité Apporte les bases de certaines techniques de classification (MaxEnt, reg. logistique) Donne une perspective d application de techniques de TAL à des problèmes de linguistique

11 Support avec R Utilisation du langage R, intérêt : Gratuit (open source) Téléchargement ici : Fonctionnalités supplémentaires pour traiter des données langagières Peut se programmer, s automatiser Inconvénients : Interface ligne de commande Effort plus important à faire au début qu avec un logiciel à boutons/fenêtres Pose encore parfois qq problèmes pour les textes non-anglais (caractères accentués)

12 Bibliographie de base David Howell, Méthodes statistiques en sciences humaines, De Boeck, C. Judd, G. McClelland, C. Ryan, D. Muller, V. Yzerbyt, Analyse des données. Une approche par comparaison de modèles, De Boeck, Shravan Vasishth, Michael Broe The foundations of statistics: a simulation based approach, Springer Christopher Butler, Statistics in Linguistics, Oxford Blackwell, Harald Baayen Analyzing Linguistic Data: A practical introduction to statistics. Cambridge University Press, Peter Dalgaard, Introductory statistics with R (2nd ed), Springer, 2008.

13 Lancer R Sous UNIX : > R --gui X11 #ou > R --gui Tk

14 R comme calculatrice > 1+1 [1] 2 > a <- 2 #assignation d une valeur a une variable > a * 2 [1] 4 > log(a) # logarithme en base e de a [1] > log(a,2) # logarithme en base 2 de a [1] 1 > quit() # quitte le logiciel

15 Vecteurs R est conçu pour travailler naturellement avec des vecteurs: #(c)ombine, cree des vecteurs > a <- c(1,2,3) # operateur applique a chaque element du vecteur > a * 2 [1] > log(a) [1] > sum(a) [1] 6 > length(a) [1] 3 > sum(a) / length(a) [1] 2

16 Initialiser des vecteurs > a <- 1:100 #1,2, > a <- 10ˆ(1:100) # 10, 100, 1000,... 10e > a <- seq(0,10,0.1) # 0,0.1,0.2, ,10 > a <- rnorm(100) #100 nombres reels aleatoires (loi normale) > a <- runif(100,0,5) #100 nombres reels aleatoires (loi uniforme)

17 Statistiques descriptives de base > length(a) > summary(a) Min. 1st Qu. Median Mean 3rd Qu. Max > mean(a) > sd(a) #ecart type (standard deviation en anglais) >quantile(a) 0% 25% 50% 75% 100%

18 Faire un graphique élémentaire > x <- 1:100 > y <- sqrt(x) #Plotte la fonction racine carree > plot(x,y) > a <- 2ˆ(1:100) > plot(a) > a <- rnorm(100) #histogrammes > hist(a) > a <- runif(100) > hist(a)

19 Parametres de graphiques > hist(a,probability=true) > lines(density(a)) > hist(a,probability=true,col="cyan") > lines(density(a),lwd=3,col="red") > hist(a,probability=true,col="cyan",xlab="domaine", > lines(density(a),lwd=3,col="red")

20 Encore plus d options, d aide > help("hist") > help.search("histogram") >?hist > help.start()

21 Faire un script avec R Script: commandes mises en séquence dans un fichier texte Une par ligne Enregistrer le script en le suffixant par.r Utiliser un éditeur de texte comme Notepad++ ou Emacs Exécuter le script dans R : > source("mon_script.r") > source(file.choose()) #...pour choisir le fichier a la main Pour afficher un résultat dans un script, utiliser : > a <- sd(toto) > print(a) sinon pas d affichage!

22 Tables de données (bonne pratique, y compris en TAL) Structurer une table de données de telle sorte que : Une observation par ligne Une variable par colonne Avec optionnellement un en-tête (header) Exemple: word pos lemma les D le gentils A gentil animaux N animal Les colonnes sont séparées par une tabulation unique > read.table("toto.table",header=true) > toto <- read.table("toto.table",header=true) > toto <- read.table(file.choose(),header=true)

23 Fichiers Excel R peut lire des fichiers produits par Microsoft Excel Sauvegarder vos fichiers Excel en format csv > read.csv("toto.csv") > read.csv2("toto.csv") #Depend de la version de Excel Remarque: parfois des difficultés, Excel ne gère pas les nombres de manière standard...

24 Data Frame Les tables de données sont représentées en R par des Data Frames Une table de données R est faite de : Lignes de données (rows) ou observations Colonnes qui représentent les variables, quantités mesurées etc.

25 Fonctions utiles pour observer une data frame > brown <- read.table("brown.stats.txt",header=true) > lob <- read.table("lob.stats.txt",header=true) > summary(brown) > colnames(brown) #affiche le nom des variables > dim(brown) > head(brown) > plot(brown) #use the latter with reasonable data sets #whose columns contents are numerical

26 Comparaison rapide (corpus de Brown et LOB) Les corpus de Brown et de LOB (Lancaster Oslo Bergen) sont des corpus qui cherchent à fournir respectivement un usage représentatif de l anglais américain et de l anglais continental. Ils sont divisés en sections de genres textuels différents (presse, littéraire, sciences, religion...) Ils sont faits pour être comparables : même nombre de sections dans LOB que dans Brown, même distribution de genres, etc. On propose un exercice de mise en jambes qui a pour but de voir dans quelle mesure ils sont réellement comparables

27 Signification des variables Les lignes représentent des statistiques qui résument les différents échantillons qui constituent chacun des corpus. Les colonnes comportent les variables suivantes: ty : taille du vocabulaire de l échantillon to : nombre d occurrences de chaque échantillon se : nombre de phrases dans l échantillon towl : longueur moyenne des mots (calculée sur occurrences) tywl : longueur moyenne des mots (calculée sur le vocabulaire)

28 Accéder aux vecteurs dans le corpus de Brown > brown$to > head(brown$to) # A FAIRE : calculer des statistiques de summary() # sur les differents vecteurs #Que fait la ligne suivante a votre avis > summary(brown$to / brown$ty) #Essayer les commandes suivantes > brown$ty[1] #l index d un vecteur commence a 1 > brown[1,2] #ligne,colonne > brown$ty[1:10] #utilise un vecteur comme indice > brown[1:10,2] > brown[1,] > brown[,2]

29 Création de sous-tables > brown[brown$to < 2200, ] # ne retient que les petits textes Brown > sum(brown$to >= 2200) # Compte le nombre de longs textes dans Brown > subset (brown$to >= 2200) #idem (1) > petitstextes <- subset (brown$to >= 2200) #egalite : == #inegalite :!= # contraintes complexes : &!, # ex: brown[brown$to < 2200 & brown$to > 2000, ]

30 Observer les différences > boxplot(brown$to,lob$to) > boxplot(brown$to,lob$to,names=c("brown","lob")) >? boxplot > t.test(brown$to,lob$to) > wilcox.test(brown$to,lob$to) Juger les différences On voit sur les graphiques qu il y a une légère différence On utilise un test pour déterminer si la différence est significative ou pas

31 Corrélations On peut juger de la comparabilité des deux corpus en vérifiant par exemple le nombre de mots dans les deux corpus : > plot(lob$to,brown$to) > cor.test(lob$to,brown$to) Corrélation La tendance générale est que les petits textes dans Brown on tendance a être petits dans LOB On teste l observation graphique avec un test de corrélation (qui est significatif) : notre impression visuelle n est pas due au hasard Exercices Tester la correlation entre le nombre d occurrences (to) et la fréquence moyenne des mots dans le corpus de Brown (towl), donner une interprétation Tester la correlation entre le nombre de phrases (se) et le nombre d occurrences (to) dans le corpus de Brown, donner une interprétation

32 Généralisations La quête Un des buts du travail de linguiste est de pouvoir généraliser à la langue des observations faites sur un nombre fini d exemples Rappel : Chomsky et le refus du travail sur données (stats) Question illustrative Quelle est la proportion d usage de passif en anglais? On trouve sur le web : 10%

33 Schéma général de la démarche Utilisation Corpus Population inférence statistique Definition en extension du langage considéré Formuler une hypothèse opérationalisation Question linguistique

34 Définition en extension de la langue considérée (population) Par exemple : Langage oral / langage écrit Français de Paris / du Canada / de Belgique Langage adulte / langage enfant Genres spécifiques : journalistique / littéraire /scientifique... Exemple anglais Anglais écrit par des écrivains professionnels, américains natifs (extrait du corpus de Brown)

35 De la question à l opérationalisation Etape de travail 1 Définir la population 2 Comment on compte les passifs en anglais?

36 Différentes manières de compter... Type/Token (vocabulaire / occurrences) Type : Combien de formes de passifs différentes a-t-on? Token : Combien d occurrences de passifs a-t-on? Combien y a-t-il de passifs en anglais? (dans la population) Une infinité!

37 Comptage (fréquence relative) Il est inutile de reporter des comptes absolus (ex. j ai trouvé exemples de passifs) si on ne donne pas la taille du corpus (erreur fréquente) On peut reporter plutôt une fréquence de passifs : On considère tous les passifs potentiels, par exemple tous les VPs On reporte la fréquence relative (proportion), càd: V P passive ν = V P passif + V P actif Etat des lieux Après avoir caractérisé la population et formuler l hypothèse, on a que la question initiale devient : Est-ce que la proportion observée ν de VP passifs en anglais américain dans un corpus représentatif est différente de la proportion théorique π = 10%?

38 Nécessité d un corpus représentatif Les statistiques inférentielles cherchent à permettre une généralisation à la population à partir d un échantillon (représentatif). Pour échantilloner parfaitement (en théorie), on peut voir le langage (la population) comme une bibliothèque comportant une infinité de livres, la procédure (théorique) à suivre est la suivante : 1 Prendre un livre au hasard 2 Ouvrir le livre à une page au hasard 3 Choisir un VP au hasard dans la page Recommencer l étape précédente jusqu à obtenir un échantillon de la taille désirée. Échantilonnage aléatoire

39 Biais d échantillonnage How random is a corpus? Une technique différente qui ne choisit que quelques livres produit un échantillon biaisé (!) La raison est que le lexique (voire certaines constructions) est distribué inégalement selon les corpus, certains mots ont tendance a être sur-représentés dans les textes (ce qui reflète par exemple la thématique du texte) S. Evert, How Random is a Corpus? The Library Metaphor

40 Inférence à partir d un échantillon Principe de statistiques inférentielles : Si l échantillon est tiré de manière parfaitement aléatoire, les proportions observées dans l échantillon doivent être relativement proches des proportions observées dans la population Exemple : On a l affirmation que π = 10% de passifs en anglais On prélève dans une bibliothèque infinie 100 exemples de VP au hasard dont 19 sont passifs (ν = 12%) Peut-on conclure que l affirmation de 10% est erronée car ν > π? Autre échantillon : On prélève dans une bibliothèque infinie 100 exemples de VP au hasard dont 13 sont passifs (ν = 9%) Peut-on conclure que l affirmation de 10% est erronée car ν < π?

41 Variation d échantillonage et inférence statistique L échantillonage aléatoire nous assure que en moyenne les proportions observées dans l échantillon sont celles de la populations Il y a cependant une variance d échantillonage, s explique par le hasard du tirage au sort. Le but de l inférence statistique est d estimer et de corriger ces effets de variation due au hasard.

42 Exercice Exercice sur la variance d échantillonnage R possède une commande sample qui permet de tirer au sort artificiellement des échantillons : > ech <- sample(c("active","passive"),10,replace=true) # Tirer 10 fois au sort actif ou passif > length(ech[ech=="active"])/length(ech) # Proportion de resultats==actif Répéter la commande suivante 10 fois, noter à chaque fois la proportion de résultats = actif; calculer la moyenne d échantillonage Donner la moyenne générale et une idée de la dispersion autour de cette moyenne Recommencer l exercice, cette fois en utilisant un échantillon plus important (100 exemples) et comparer les moyennes et la dispersion > ech <- sample(c("active","passive"),100,replace=true)

43 Solution # This function prints the sampling mean and sampling sd # for samples with different sizes exosample <- function(size){ propvec <- c() for(i in c(1:10)){ ech <- sample(c("active","passive"),size,replace=true) prop <- length(ech[ech=="active"])/length(ech) propvec <- c(propvec,prop) } print(mean(propvec)) print(sd(propvec)) } > exosample(10) [1] 0.46 [1] > exosample(100) [1] [1] > exosample(1000) #Dispersion decroit! [1] [1]

44 Test d hypothèse (Intro) Une méthode destinée à décider si la différence de proportions que l on observe entre notre échantillon et la proportion réelle de la population est le test d hypothèse Ici on a l hypothèse que 10% des VPs en anglais américain seront passifs et on veut vérifier si nos observations (modulo variance d échantillonage) confirment ou pas cette hypothèse Démarche Hypothèse nulle (H 0 ): la proportion de passifs en anglais est de 10% On cherche à montrer que cette hypothèse ne tient pas Méthode brutale : on demande à beaucoup de linguistes de refaire la même expérience, et on regarde au final si en moyenne les échantillons comportent bien 10% de passifs...

45 Méthode de calcul Plutôt que de recourir à la méthode brutale, on peut remarquer que notre problème correspond à un problème mathématique connu (tirer à pile ou face à répétition): P P P F P F P F P Or les mathématiciens (probabilités) peuvent nous dire quelle est la probabilité d obtenir la proportion observée dans différents échantillons si on connait π la probabilité théorique (ici 10%) et n le nombre d éléments dans l échantillon : ( ) n P(x) = π x (1 π) n x x où x représente le nombre de passifs dans l échantillon et où P(x) dénote la probabilité d obtenir un échantillon de proportion x

46 Représentation graphique P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon Détails Chaque barre représente la probabilité de tirer un échantillon de proportion donnée sachant que la probabilité théorique est de 0.1. Par exemple, la barre numéro 14, nous dit que nous avons 5.1% de chances de tirer un échantillon avec 14 verbes au passif

47 Exercice : apprivoiser la loi binomiale On peut représenter la loi binomiale P(x) = ( n) x p x (1 p) n x dans R en utilisant les commandes suivantes: > n <- 10 > x <- 0:n > y <- dbinom(x,n,0.5) > plot(x,y,type="h",lwd=10,col="blue") Exercice Refaire la manipulation en changeant les valeurs de p : 0.1,0.3,0.7,0.9 Refaire la manipulation en fixant p = 0.5 et en changeant les valeurs de n : 10, 100, 1000, (changez le paramètre lwd = 1 pour la lisibilité) : qu observez-vous lorsque n augmente?

48 Représentation graphique P(x) = pourcentage d échantillons Variation normale Variation improbable x = proportion de passifs dans l échantillon Zones critiques On peut définir des valeurs de proportions des échantillons qui sont anormales (probabilité faible α < 0.05) Si l échantillon que l on a tombe dans cette zone, on conclut que l hypothèse de départ est à rejeter. (l échantillon constitue un contre-exemple)

49 Test d hypothèse (synthèse) 1 Poser une hypothèse nulle (π = 10%) 2 Poser un seuil d anormalité sur la loi de probabilité (α = 0.5%) 3 Conclure (ici, un échantillon avec 19% de passifs est anormal tandis qu un échantillon avec 13% de passifs est normal) Erreur de type I En rejetant l hypothèse, on court le risque qu elle soit vraie, mais que le tirage au sort de notre échantillon soit tout à fait exceptionnel. Rejeter une hypothèse dans ces conditions, c est commettre une erreur de Type I.

50 Test d hypothèse avec R # (Nombre de passifs observes,taille echantillon,proba theorique) > binom.test(13,100,0.1) Exact binomial test data: 13 and 100 number of successes = 13, number of trials = 100, p-value = alternative hypothesis: true probability of success is not equal to percent confidence interval: sample estimates: probability of success 0.13 > binom.test(19,100,0.1) Exact binomial test data: 19 and 100 number of successes = 19, number of trials = 100, p-value = alternative hypothesis: true probability of success is not equal to percent confidence interval: sample estimates: probability of success 0.19

51 Puissance d un test Erreur de type II L erreur de type II consiste à accepter à tort l hypothèse nulle. La puissance d un test est la capacité du test à nous éviter de commettre une erreur de type II Augmenter la puissance d un test Pour augmenter la puissance d un test, la règle générale est d augmenter la quantité de données dans l échantillon, c est ce que nous illustrons dans la suite

52 Inférence statistique et taille des échantillons Imaginons que l on ne connaisse pas précisément à priori la probabilité théorique π On peut se donner une idée de la proportion π dans la population uniquement à partir d un échantillon La technique consiste à utiliser les tests d hypothèses à l envers (!)

53 Intervalles de confiance Supposons que l on observe 19 passifs dans un échantillon de 100 VPs. Si on ne connait pas π, on peut réaliser des tests d hypothèses en série en essayant toutes les valeurs de π On a une série de valeurs de π où H 0 est vérifiée, cela définit en fait une intervalle dans laquelle π doit se trouver

54 Illustration p = 0.10 P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon

55 Illustration p = 0.13 P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon

56 Illustration p = 0.19 P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon

57 Illustration p = 0.27 P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon

58 Illustration p = 0.30 P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon

59 Observation On voit que les intervalles que l on a trouvés graphiquement correspondent à la rubrique intervalle du résultat du test précédent donné par R : 95 percent confidence interval: On peut voir que la taille de l intervalle de confiance diminue lorsque la taille de l échantillon augmente La taille de l intervalle de confiance augmente lorsque le seuil de significativité α diminue.

60 Exercice On calcule les intervalles de confiance avec une commande du type : > binom.test(19,100) #Directement > library(hmisc) > binconf(19,100,method="exact") PointEst Lower Upper Fixer α = 0.05 ; observer l évolution des intervalles de confiance, avec les valeurs suivantes : x=19, n=100 ; x= 190, n=1000, x = 1900, n = 1000 Observer l évolution des intervales de confiance avec les seuils α = 0.05, α = 0.01, α = (en spécifiant le paramètre conf.level = 0.95, 0.99, 0.999)

61 Solution n=100 n=1000 n=10000 k=19 k=190 k= 1900 α = α = α =

62 Intervalles de confiance et taille d échantillon Intervalle de confiance, alpha = n=20 n=100 n=1000 n=10000 MLE Proportion d observations (x/n) Intervalle plus grande quand proportion observée proche de 0.5 Intervalle plus grande quand échantillon plus petit

63 Note sur MLE Notons que pour k observations sur n tirages, l estimateur de maximum de vraisemblance (Maximum Likelihood Estimator) est le ratio k n, ce qui correspond à la valeur de p (parmi toutes les valeurs possibles) pour laquelle P(x) est maximale. L estimateur de maximum de vraisemblance assume que la probabilité théorique p de la population est k n (la fréquence des succès) même si il y a incertitude (liée à la taille de l échantillon) Exercice pour les LI Faire un graphique de la fonction de vraisemblance avec R : «n P(x, n p) = p x (1 p) n x x en fixant x = 19, n = 100, et p varie. Observez que argmax p «p 19 (1 p) = 19

64 Comparaisons de fréquences Beaucoup de problèmes de linguistique peuvent être représentés par des comparaisons de fréquences, exemples: Utilise-t-on plus de prépositions en Français moderne qu en ancien français? Les belges utilisent-ils plus la forme une fois en fin de phrase que les français? Est-ce que Miaou apparaît plus souvent dans le contexte de chat que dans le contexte d autres mots? Collocations L adjectif est-il plus souvent antéposé en Ancien français qu en français moderne?...

65 Opérationalisation Ici, comparaison de l usage du passif en anglais américain vs anglais continental (données factices) : En R 19 passifs dans 100 VPs dans Brown ; 47 passifs dans 200 VPs dans Lob Représentation des données dans une matrice 2 2: x 1 x 2 n 1 x 1 n 2 x 2 > mc <- matrix((19,81,47,153),ncol=2) > mc

66 Différents tests Test du χ 2 (au moins 5 observations dans chaque cellule, de préférence 20) Test exact de Fisher : peu d observations dans chaque cellule Test du rapport de log vraisemblance (Log likelihood ratio test, s applique dans les mêmes conditions que χ 2 ) > prop.test(mc) > chisq.test(mc) > fisher.test(mc) # pas de loglikelihood ratio test predefini.. >?chisq.test >?fisher.test

67 Interprétation des résultats On accorde de l importance à la p-valeur, pour décider Ceci, dit : Si la taille de l échantillon est trop faible, de grosses différences seront non significatives (tester la matrice suivante) > m = matrix(c(10,80,20,80),ncol=2) > chisq.test(m) > fisher.test(m) Plus, il y a de données, plus le test tend à être significatif (puissance du test) Si la taille de l échantillon est trop importante, la moindre différence devient significative (cas des tests de collocation en Tal) Il convient de faire attention non seulement à la significativité du test mais aussi à sa pertinence pour en interpréter les résultats

Analyse de données linguistiques

Analyse de données linguistiques 2011-2012 Slides inspirés des cours de S. Evert et M. Baroni Linguistique expérimentale? Traditionnellement en linguistique formelle, refus de l usage de données comme source d information unique: Méthode

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2 UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 Master d économie Cours de M. Desgraupes MATHS/STATS Document 4 : Les tests statistiques 1 Généralités sur les tests

Plus en détail

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE Annexe MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE L enseignement des mathématiques au collège et au lycée a pour but de donner à chaque

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences

Plus en détail

L essentiel sur les tests statistiques

L essentiel sur les tests statistiques L essentiel sur les tests statistiques 21 septembre 2014 2 Chapitre 1 Tests statistiques Nous considérerons deux exemples au long de ce chapitre. Abondance en C, G : On considère une séquence d ADN et

Plus en détail

Travaux dirigés. Introduction à R 1

Travaux dirigés. Introduction à R 1 Introduction à R 1 1 Introduction : pourquoi R? R est un logiciel pour l analyse statistique. C est un logiciel libre ; il est disponible gratuitement et tourne sur différents systèmes (PC Linux, PC Windows,

Plus en détail

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Cours 7 : Exemples I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de

Plus en détail

Les Meta-analyses. Sibilia Quilici. Université René Descartes Paris V Faculté de Pharmacie Master Science de la vie et de la santé 28/01/2014

Les Meta-analyses. Sibilia Quilici. Université René Descartes Paris V Faculté de Pharmacie Master Science de la vie et de la santé 28/01/2014 Les Meta-analyses Sibilia Quilici Université René Descartes Paris V Faculté de Pharmacie Master Science de la vie et de la santé 28/01/2014 Nombre de publication en méta-analyses 8000 7000 6000 5000 4000

Plus en détail

Activité 1 : échantillonnage

Activité 1 : échantillonnage Activité échantillonnage, intervalle de fluctuation, prise de décision (à partir d un même thème) Les trois activités qui suivent s inspirent du document «ressources pour la classe de première générale

Plus en détail

TP1 Master Finance logiciels Introduction à R

TP1 Master Finance logiciels Introduction à R TP1 Master Finance logiciels Introduction à R Emeline Schmisser, emeline.schmisser@math.univ-lille1.fr, bureau 314 (bâtiment M3). 1 Séquences, Vecteurs, Matrice Tableaux (arrays) Pour obtenir l aide de

Plus en détail

Méthodes Statistiques Appliquées à la Qualité et à la Gestion des Risques - Le Contrôle Statistique

Méthodes Statistiques Appliquées à la Qualité et à la Gestion des Risques - Le Contrôle Statistique Méthodes Statistiques Appliquées à la Qualité et à la Gestion des Risques - Le Contrôle Statistique Jean Gaudart Laboratoire d Enseignement et de Recherche sur le Traitement de l Information Médicale jean.gaudart@univmed.fr

Plus en détail

Introduction au cours STA 102 Analyse des données : Méthodes explicatives

Introduction au cours STA 102 Analyse des données : Méthodes explicatives Analyse des données - Méthodes explicatives (STA102) Introduction au cours STA 102 Analyse des données : Méthodes explicatives Giorgio Russolillo giorgio.russolillo@cnam.fr Infos et support du cours Slide

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

Exercices corrigés de l Ethème 2 - Techniques de Sondages

Exercices corrigés de l Ethème 2 - Techniques de Sondages Exercices corrigés de l Ethème 2 - Techniques de Sondages Exercice 1 : On considère une population de N = 5 individus, pour lesquels on connaît les valeurs de la variable y : y 1 = 3, y 2 = 1, y 3 = 0,

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

Des électeurs, des boules, des cercles, des étudiants satisfaits

Des électeurs, des boules, des cercles, des étudiants satisfaits Fiche TD avec le logiciel : bem5 Des électeurs, des boules, des cercles, des étudiants satisfaits A.B. Dufour, J.R. Lobry & D. Chessel Le calcul des probabilités parle de l échantillon à partir de la population.

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

TD de statistique : tests du Chi 2

TD de statistique : tests du Chi 2 TD de statistique : tests du Chi 2 Jean-Baptiste Lamy 6 octobre 2008 1 Test du Chi 2 C est l équivalent de la comparaison de moyenne, mais pour les variables qualitatives. 1.1 Cas 1 : comparer les répartitions

Plus en détail

Des électeurs, des boules, des cercles, des étudiants satisfaits

Des électeurs, des boules, des cercles, des étudiants satisfaits Cours de biostatistique Illustrations dans Des électeurs, des boules, des cercles, des étudiants satisfaits A.B. Dufour, J.R. Lobry & D. Chessel 31 mars 2008 Le calcul des probabilités parle de l échantillon

Plus en détail

Utilisation des procédures SAS dans l enseignement des sondages

Utilisation des procédures SAS dans l enseignement des sondages Utilisation des procédures SAS dans l enseignement des sondages Yves Aragon Anne Ruiz-Gazen e-mail: aragon@cict.fr, ruiz@cict.fr 1. Introduction Depuis la version 8, SAS [6] propose trois procédures pour

Plus en détail

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN Pôle Informatique de Recherche et d Enseignement en Histoire ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN A. PREMIER PAS 1. INTEGRATION DU TABLEAU

Plus en détail

T. D. n o 3 Analyse de données quantitatives avec le logiciel R

T. D. n o 3 Analyse de données quantitatives avec le logiciel R T. D. n o 3 Analyse de données quantitatives avec le logiciel R 1 Rappel de quelques fonctions statistiques sous R Fonction summary() cumsum() sum() mean() max() min() range() median() var() sd() Description

Plus en détail

Cours 8 Les tests statistiques

Cours 8 Les tests statistiques Cours 8 Les tests statistiques Intervalle de confiance pour une proportion Dans le cas de grands échantillons (np>5 et n(1-p)>5 ) l'intervalle de confiance au niveau (1- α ) est pour la proportion inconnue

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

1998.02 Composition d un portefeuille optimal. Dinh Cung Dang

1998.02 Composition d un portefeuille optimal. Dinh Cung Dang 199802 Composition d un portefeuille optimal Dinh Cung Dang Docteur en gestion de l IAE de Paris Ingénieur Conseil Résumé : Dans ce travail, le risque est défini comme étant la probabilité de réaliser

Plus en détail

STATISTIQUE THÉORIQUE ET APPLIQUÉE COMPLÉMENTS : LOGICIEL R. Pierre Dagnelie. www.dagnelie.be

STATISTIQUE THÉORIQUE ET APPLIQUÉE COMPLÉMENTS : LOGICIEL R. Pierre Dagnelie. www.dagnelie.be STATISTIQUE THÉORIQUE ET APPLIQUÉE COMPLÉMENTS : LOGICIEL R Pierre Dagnelie www.dagnelie.be 2012 INTRODUCTION 2 Introduction Ce document présente une liste de commandes ou fonctions relatives au logiciel

Plus en détail

TD de statistique : introduction à R

TD de statistique : introduction à R TD de statistique : introduction à R Jean-Baptiste Lamy 11 octobre 2007 1 Introduction : pourquoi R? R est un logiciel pour l analyse statistique. C est un logiciel libre; il est disponible gratuitement

Plus en détail

Analyse Statistique pour Le Traitement d Enquêtes

Analyse Statistique pour Le Traitement d Enquêtes DAT 104, année 2004-2005 p. 1/90 Analyse Statistique pour Le Traitement d Enquêtes Mastère Développement Agricole Tropical Stéphanie Laffont & Vivien ROSSI UMR ENSAM-INRA Analyse des systèmes et Biométrie

Plus en détail

Normalité des rendements?

Normalité des rendements? Normalité des rendements? Daniel Herlemont 31 mars 2011 Table des matières 1 Introduction 1 2 Test de Normalité des rendements 2 3 Graphiques quantile-quantile 2 4 Estimation par maximum de vraisemblance

Plus en détail

STATISTIQUES. Cours I : Test d hypothèses. Télécom Physique Strasbourg Module 2101. Fabrice Heitz. Octobre 2014

STATISTIQUES. Cours I : Test d hypothèses. Télécom Physique Strasbourg Module 2101. Fabrice Heitz. Octobre 2014 Télécom Physique Strasbourg Module 2101 STATISTIQUES Cours I : Test d hypothèses Fabrice Heitz Octobre 2014 Fabrice Heitz (Télécom PS) Statistiques 2014 1 / 75 Cours I TESTS D HYPOTHÈSES Fabrice Heitz

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Test de Poisson à 1 échantillon et à 2 échantillons

Test de Poisson à 1 échantillon et à 2 échantillons Test de Poisson à 1 échantillon et à 2 échantillons Sous-menus de Minitab 15 : Stat>Statistiques élémentaires>test de Poisson à 1 échantillon Stat>Statistiques élémentaires>test de Poisson à 2 échantillons

Plus en détail

Le programme de mathématiques Classes de première STI2D STL

Le programme de mathématiques Classes de première STI2D STL Journée de l inspection 15 avril 2011 - Lycée F. BUISSON 18 avril 2011 - Lycée J. ALGOUD 21 avril 2011 - Lycée L. ARMAND Le programme de mathématiques Classes de première STI2D STL Déroulement de la journée

Plus en détail

Estimation de la moyenne : Une approche expérimentale versus une approche classique.

Estimation de la moyenne : Une approche expérimentale versus une approche classique. Estimation de la moyenne : Une approche expérimentale versus une approche classique Jean-François Coeurjolly & Rémy Drouilhet Labsad, BSHM, UPMF, 1251 Avenue Centrale BP 47, 38040 Grenoble Cedex 9 Jean-FrancoisCoeurjolly@upmf-grenoblefr,

Plus en détail

Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015

Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015 Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015 Quelques révisions de R 1. Manipulation de vecteur. On rappelle que e x = k 0 Créer dans

Plus en détail

Révision. Oliver Sonnentag, PhD: GÉO1512 Géographie Quantitative I

Révision. Oliver Sonnentag, PhD: GÉO1512 Géographie Quantitative I 1 Révision 2 Table des matières Pondération Révision (11 decèmbre 2012 [moi] & 17 decèmbre 2012 [Margarita]) Structure de l'examen final! Examen final: première partie! questions théoriques (exemples)!

Plus en détail

ECHANTILLONNAGES Fiche de repérage

ECHANTILLONNAGES Fiche de repérage M Objectifs pédagogiques généraux : Fiche de repérage Type : Activité d approche de la notion de fluctuation d échantillonnage et d intervalle de confiance à travers quelques simulations. Niveau : Lycée

Plus en détail

Le test triangulaire

Le test triangulaire Le test triangulaire Objectif : Détecter l absence ou la présence de différences sensorielles entre 2 produits. «les 2 produits sont-ils perçus comme différents?» Contexte : la différence sensorielle entre

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

Correction de l épreuve de Statistiques et Informatique appliquées à la Psychologie

Correction de l épreuve de Statistiques et Informatique appliquées à la Psychologie Université de Bretagne Occidentale Année Universitaire 2013-2014 U.F.R. de Lettres et Sciences Humaines CS 93837-29238 BREST CEDEX 3 Section : Psychologie - Licence 3è année Enseignant responsable : F.-G.

Plus en détail

Exercices de simulation 1

Exercices de simulation 1 Licence MIA 2ème année Année universitaire 2009-2010 Simulation stochastique C. Léonard Exercices de simulation 1 Les simulations qui suivent sont à effectuer avec Scilab. Le générateur aléatoire de Scilab.

Plus en détail

Courte initiation à R

Courte initiation à R Courte initiation à R Data science Master 2 ISIDIS Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/~verel Université du Littoral Côte d Opale Laboratoire LISIC Equipe OSMOSE

Plus en détail

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE Les résultats donnés par R et SAS donnent les valeurs des tests, la valeur-p ainsi que les intervalles de confiance. TEST DE COMPARAISON

Plus en détail

Introduction à l analyse quantitative

Introduction à l analyse quantitative Introduction à l analyse quantitative Vue d ensemble du webinaire Le webinaire sera enregistré. Les diapositives et tous les autres documents seront envoyés aux participants après la séance. La séance

Plus en détail

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE Forum HH 05.02.2013 Ghislaine Gagnon Unité HPCI Qualitatif ou quantitatif? Les 2 méthodes peuvent être utilisées séparément ou en conjonction - le qualitatif

Plus en détail

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3

Plus en détail

LOAD PROFILING : ESTIMATION D UNE COURBE DE CONSOMMATION ET PRECISION D ESTIMATION

LOAD PROFILING : ESTIMATION D UNE COURBE DE CONSOMMATION ET PRECISION D ESTIMATION LOAD PROFILING : ESTIMATION D UNE COURBE DE CONSOMMATION ET PRECISION D ESTIMATION Olivier Chaouy EDF R&D 1, avenue du Général de Gaulle - 92141 Clamart Cedex - France olivier.chaouy@edf.fr Résumé : Le

Plus en détail

Introduction à MATLAB R

Introduction à MATLAB R Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d

Plus en détail

A quoi vont-elles servir?

A quoi vont-elles servir? A quoi vont-elles servir? Décrire Distribution Position : moyenne, mode, médiane, (ordre de grandeur) Résumer paramètres et graphes Forme (symétrie, tendance ) Dispersion : écart-type, variance, quantiles,

Plus en détail

Enquête consommation - Tableaux croisés dynamiques

Enquête consommation - Tableaux croisés dynamiques Enquête consommation Tableaux croisés dynamiques 1. Chargement des données dans Excel Souvent les données collectées sont stockées dans un fichier au format texte, dont les informations sont séparées par

Plus en détail

TEST DE MONTE CARLO DE DETECTION DE MODIFICATIONS CLIMATIQUES

TEST DE MONTE CARLO DE DETECTION DE MODIFICATIONS CLIMATIQUES TEST DE MONTE CARLO DE DETECTION DE MODIFICATIONS CLIMATIQUES Jean-Cléophas ONDO (*) (*) Institut Sous-régional de Statistique et d Economie Appliquée (ISSEA) Résumé Les procédures couramment utilisées

Plus en détail

L analyse de la variance avec R commander

L analyse de la variance avec R commander L analyse de la variance avec R commander 19 mars 2014 1 Installer R Pour installer R, il vous suffit d aller sur le site http://www.r-project.org/. Choisissez un miroir pour le téléchargement. Sélectionner

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 2015 Cours de B. Desgraupes. Simulation Stochastique

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 2015 Cours de B. Desgraupes. Simulation Stochastique UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 2015 L2 MIASHS Cours de B. Desgraupes Simulation Stochastique Séance 04: Nombres pseudo-aléatoires Table des matières 1

Plus en détail

Analyse de données et méthodes numériques

Analyse de données et méthodes numériques Analyse de données et méthodes numériques Analyse de données: Que faire avec un résultat? Comment le décrire? Comment l analyser? Quels sont les «modèles» mathématiques associés? Analyse de données et

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

EXEMPLE : FAILLITE D ENTREPRISES

EXEMPLE : FAILLITE D ENTREPRISES EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : «Applied Multivariate Statistical

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

Les données manquantes en statistique

Les données manquantes en statistique Les données manquantes en statistique N. MEYER Laboratoire de Biostatistique -Faculté de Médecine Dép. Santé Publique CHU - STRASBOURG Séminaire de Statistique - 7 novembre 2006 Les données manquantes

Plus en détail

1 Générateurs à Congruences Linéaires (GCL)

1 Générateurs à Congruences Linéaires (GCL) TP 4 : Générateurs pseudo-aléatoires et applications Un générateur de nombres pseudo-aléatoires, pseudorandom number generator (PRNG) en anglais, est un algorithme qui génère une séquence de nombres présentant

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

Ch.12 : Loi binomiale

Ch.12 : Loi binomiale 4 e - programme 2007 - mathématiques ch.12 - cours Page 1 sur 5 1 RÉPÉTITION D'EXPÉRIENCES INDÉPENDANTES Lancer plusieurs fois un dé et noter les résultats successifs. Ch.12 : Loi binomiale Prélever des

Plus en détail

Statistiques industrielles Management de la production et de la qualité

Statistiques industrielles Management de la production et de la qualité Statistiques industrielles Management de la production et de la qualité Francois.Kauffmann@unicaen.fr Université de Caen Basse-Normandie 9 novembre 2015 Francois.Kauffmann@unicaen.fr UCBN MSP 9 novembre

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Conditions d application des méthodes statistiques paramétriques :

Conditions d application des méthodes statistiques paramétriques : Conditions d application des méthodes statistiques paramétriques : applications sur ordinateur GLELE KAKAÏ R., SODJINOU E., FONTON N. Cotonou, Décembre 006 Conditions d application des méthodes statistiques

Plus en détail

Procédure diagnostique en arbre utilisant les tests lisses d adéquation

Procédure diagnostique en arbre utilisant les tests lisses d adéquation Procédure diagnostique en arbre utilisant les tests lisses d adéquation Walid A AKHRAS 1 & Gilles DUCHARME 1 aboratoire de probabilités et statistique cc 051, Université Montpellier, 34095 Montpellier

Plus en détail

Exercice 2 du cours Management Bancaire : «Calcul de la VaR d une position de marché»

Exercice 2 du cours Management Bancaire : «Calcul de la VaR d une position de marché» Exercice du cours Management Bancaire : «Calcul de la VaR d une position de marché» La réglementation bancaire impose aux banques de maintenir un niveau de capital minimum pour absorber les pertes dues

Plus en détail

Chapitre VI Échantillonages et simulations

Chapitre VI Échantillonages et simulations Chapitre VI Commentaires : Récursivement, les commentaires ne sont pas à l attention des élèves.. Fluctuation d échantillonnage Définition : En statistiques, un échantillon de taille n est la liste des

Plus en détail

Eléments de statistique Introduction - Analyse de données exploratoire

Eléments de statistique Introduction - Analyse de données exploratoire Eléments de statistique Introduction - Louis Wehenkel Département d Electricité, Electronique et Informatique - Université de Liège B24/II.93 - L.Wehenkel@ulg.ac.be MATH0487-2 : 3BacIng, 3BacInf - 16/9/2014

Plus en détail

Présentation rapide du logiciel Epi Info

Présentation rapide du logiciel Epi Info Présentation rapide du logiciel Epi Info Loïc Desquilbet, PhD Département des Productions Animales et de Santé Publique Ecole Nationale Vétérinaire d Alfort ldesquilbet@vet-alfort.fr Tutoriel Epi Info

Plus en détail

Introduction à Rcommander

Introduction à Rcommander Introduction à Rcommander Pauline Scherdel Septembre 2014 Table des matières 1 Introduction à Rcmdr sous R 2 2 Interagir avec R 3 3 Installer et charger le package Rcmdr sous R 3 4 Importation des données

Plus en détail

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

Prise en main du Logiciel R 2 mots sur R R est un logiciel de statistique disponible librement sur internet.

Prise en main du Logiciel R 2 mots sur R R est un logiciel de statistique disponible librement sur internet. Prise en main du Logiciel R 2 mots sur R R est un logiciel de statistique disponible librement sur internet. Vous pouvez le télécharger à http://www.r-project.org/ Il est déjà installé dans ces salles

Plus en détail

UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES. STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre. Fiche N 7.

UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES. STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre. Fiche N 7. UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre Fiche N 7 (avec corrigé) L objet de ce TD est de vous initier à la démarche et à quelques

Plus en détail

Autour des nombres pseudo-aléatoires

Autour des nombres pseudo-aléatoires Lycée Chaptal PCSI-PC* Informatique générale pour l ingénieur Autour des nombres pseudo-aléatoires Introduction Produire des suites de nombres aléatoires est une nécessité dans de nombreux domaines de

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Master EBE Introduction à R et Statistique inférentielle

Master EBE Introduction à R et Statistique inférentielle Master EBE Introduction à R et Statistique inférentielle R est un logiciel de calcul statistique et probabiliste. Il est développé dans le cadre du projet GNU http://www.gnu.org/ ), c est donc un logiciel

Plus en détail

10 Etats rapides. Introduction

10 Etats rapides. Introduction 10 Etats rapides Introduction La génération d états récapitulatifs est l une des tâches les plus courantes et les plus élémentaires en matière de gestion de données. L éditeur d états rapides est l un

Plus en détail

Activité Intitulé de l'activité Volume horaire

Activité Intitulé de l'activité Volume horaire Informations de l'unité d'enseignement Implantation IPL Cursus de Bachelier en chimie Introduction à la statistique C1110 Cycle 1 Bloc 1 Quadrimestre 2 Pondération 1 Nombre de crédits 4 Nombre d heures

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Chacune des valeurs d une variable en est une modalité particulière.

Chacune des valeurs d une variable en est une modalité particulière. Psychologie générale Jean Paschoud STATISTIQUE Sommaire Rôle de la statistique Variables Échelles de mesure Résumer, décrire Comparer Rôle de la statistique La statistique est avant tout un outil permettant

Plus en détail

Mth2302B - Intra Été 2011

Mth2302B - Intra Été 2011 École Polytechnique de Montréal page 1 Contrôle périodique Été 2011--------------------------------Corrigé--------------------------------------T.Hammouche Question 1 (12 points) Mth2302B - Intra Été 2011

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Utilisation du serveur de calcul du LSTA

Utilisation du serveur de calcul du LSTA Utilisation du serveur de calcul du LSTA B. Michel 19 octobre 2012 Ce document contient les informations minimales à connaître pour utiliser R et Matlab sur le serveur Mac à 24 coeurs du laboratoire (ou

Plus en détail

TABLEAU 5 Nombre moyen (et écarts types) de mots produits selon le niveau scolaire et les trois conditions de révision

TABLEAU 5 Nombre moyen (et écarts types) de mots produits selon le niveau scolaire et les trois conditions de révision Dans ce tableau, si le chercheur ne s intéresse pas aux notes item par item mais simplement à la note globale, alors il conservera seulement les première et dernière colonnes et calculera des statistiques

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

L analyse de variance à un critère de classification (ANOVA)

L analyse de variance à un critère de classification (ANOVA) Bio 041 L analyse de variance à un critère de classification (ANOVA) Pierre Legendre & Daniel Borcard, Université de Montréal Référence: Scherrer (007), section 14.1.1.1 et 14.1. 1 - Introduction Objectif:

Plus en détail

Introduction aux fonctions du langage R

Introduction aux fonctions du langage R Introduction aux fonctions du langage R Pierre Legendre Octobre, décembre 2004 Département de sciences biologiques Mai, septembre 2005, janvier 2006 Université de Montréal Août 2006, novembre 2006, février

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

TP1 : Introduction à MATLAB

TP1 : Introduction à MATLAB TP1 : Introduction à MATLAB Table des matières 1 Objectif du cours et du TP 2 1.1 Généralités...................................... 2 1.2 But de ce TP..................................... 2 2 Mise en route

Plus en détail

INTRODUCTION AU LOGICIEL R. Julien JACQUES http://eric.univ-lyon2.fr/ jjacques/

INTRODUCTION AU LOGICIEL R. Julien JACQUES http://eric.univ-lyon2.fr/ jjacques/ INTRODUCTION AU LOGICIEL R Julien JACQUES http://eric.univ-lyon2.fr/ jjacques/ L objectif de ce document est de présenter une très courte introduction au logiciel R (via l interface RStudio), de sorte

Plus en détail

«Monsieur, on fait quoi?»

«Monsieur, on fait quoi?» Nous avons le plaisir aujourd hui de vous proposer une séance de travaux pratiques de statistique, c est-à-dire, une séance où vous allez pouvoir mettre les mains dans le cambouis (dans les données) et

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

UTILISATION PRATIQUE DU LOGICIEL STATISTIQUE «R»

UTILISATION PRATIQUE DU LOGICIEL STATISTIQUE «R» TP STA-MQGR UTILISATION PRATIQUE DU LOGICIEL STATISTIQUE «R» Seydou Barro SESSTIM, UMR 912, Aix-Marseille Université golo-seydou.barro@univ-amu.fr 1 INTRODUCTION R est un logiciel libre distribué gratuitement

Plus en détail