Analyse de données linguistiques

Dimension: px
Commencer à balayer dès la page:

Download "Analyse de données linguistiques"

Transcription

1 Slides inspirés des cours de S. Evert et M. Baroni

2 Linguistique expérimentale? Traditionnellement en linguistique formelle, refus de l usage de données comme source d information unique: Méthode fondée d abord sur l introspection (confortée par des données) Distinction grammatical/agrammatical Raisons profondes (Chomsky): Introspection permet de généraliser Introspection permet de décider qu un exemple est agrammatical Données (corpus,expériences) représentent un échantillon fini et biaisé du langage : mauvaise généralisation Données sont bruitées, comment distinguer le bruit des faits de langue? : risque d éparpillement compétence vs performance

3 Et pourtant... Problèmes liés aux jugements introspectifs Études sur les préférences Études sur la gradience Études historiques ou diachroniques

4 Problèmes liés aux jugements introspectifs Cas limites (cités par Schutze 96):??Are/??Is John or his parents here? I, who the FBI thinks *am/*is an anarchist, will doubtless be here. Commentaires de Levelt (Schutze 96): In the early years of the transformational grammar [the low reliability of absolute grammaticality judgments] was not an important issue, since the clear cases, i.e., the highly uncontroversial cases of grammaticality and ungrammaticality, were sufficient for constructing and testing linguistic theory. It was expected that, in its tum, the theory constructed in such a way would decide on the unclear cases. This hope has vanished. (Levelt et al. 1977, p. 88) It has slowly but surely become clear that it is not possible, on the basis of incontrovertible, directly evident data, to construct a theory so extensive that all less obvious cases can be decided upon by the grammar itself. It is becoming more and more apparent that decisions on very important areas of theory are dependent on very unreliable observations...(levelt 1974, vol. 2, p. 6)

5 Études sur les préférences John gave a book to Mary John gave Mary a book John gave a book to him John gave him a book Sujet très étudié pour l anglais notamment par (Bresnan 07). L ordre n est pas aléatoire. Il y a des préférences qui dépendent de la longueur des compléments, de leur définitude, de leur caractère pronominal...

6 Gradience dans les jugements de grammaticalité Il est fréquent que les auteurs utilisent une forme de gradience grammaticale dans leurs jugements qui repose sur l intuition (Sorace, Keller 2005) investigue l expérimentation : 1 Which friend has Thomas painted a picture of? 2? Which friend has Thomas painted the picture of? 3? Which friend has Thomas torn up a picture of? 4? How many friends has Thomas painted a picture of? Commentaires Sentence (1) does not incur any constraint violations. It is more acceptable than (2), which incurs a DEF violation, i.e. extraction takes place out of a definite picture NP. (3) violates VERB, the constraint that requires that the matrix verb does not presuppose the existence of its object. VERB is satisfied by paint, but violated by tear up.(4) shows how the extraction of a non-referential wh-phrase violates the constraint REF, leading to a decrease in acceptability compared to (1).

7 Cas où l introspection ne peut s appliquer Il existe une série de cas ou l introspection ne peut pas s appliquer : 1 Etudes diachroniques (par exemple : préférences pour l ordre des compléments ditransitifs en ancien français) 2 Etudes en acquisition (langage enfant) 3 Etudes sur le français oral (jugements beaucoup plus limites) (l expérimentation non plus d ailleurs pour (2)...)

8 Propos de ce cours Investiguer comment travailler à partir de données Issues de corpus Issues d expériences Question de fond : généralisation à partir de données Recours aux statistiques

9 Plan (tentative) Partie du cours qui traite de l analyse de données issues de corpus Aperçu général Observation de données Généralisation d observations prises dans un échantillon Décrire de grosses masses de données: Résumés statistiques, visualisation de données Statistiques Descriptives Décider de la significativité de différences (moyennes, proportions) Avec volonté de généraliser au delà d un échantillon donné Statistiques inférentielles Découvrir des propriétés cachées (théoriques) dans les données : Propriétés qui reposent sur une théorie (vérifier la théorie) Chercher à identifier ces propriétés (exploration de données) Modélisation statistique (modèles de régression)

10 Portée du cours Buts du cours Formation pratique à l analyse de données sur corpus Notions élémentaires de statistiques Utilisation du langage R pour la pratique Non buts du cours Théorie statistique Analyse probabiliste (cf cours de M1) Pour les TALeux Donne une méthodologie pour l analyse de données en grande quantité Apporte les bases de certaines techniques de classification (MaxEnt, reg. logistique) Donne une perspective d application de techniques de TAL à des problèmes de linguistique

11 Support avec R Utilisation du langage R, intérêt : Gratuit (open source) Téléchargement ici : Fonctionnalités supplémentaires pour traiter des données langagières Peut se programmer, s automatiser Inconvénients : Interface ligne de commande Effort plus important à faire au début qu avec un logiciel à boutons/fenêtres Pose encore parfois qq problèmes pour les textes non-anglais (caractères accentués)

12 Bibliographie de base David Howell, Méthodes statistiques en sciences humaines, De Boeck, C. Judd, G. McClelland, C. Ryan, D. Muller, V. Yzerbyt, Analyse des données. Une approche par comparaison de modèles, De Boeck, Shravan Vasishth, Michael Broe The foundations of statistics: a simulation based approach, Springer Christopher Butler, Statistics in Linguistics, Oxford Blackwell, Harald Baayen Analyzing Linguistic Data: A practical introduction to statistics. Cambridge University Press, Peter Dalgaard, Introductory statistics with R (2nd ed), Springer, 2008.

13 Lancer R Sous UNIX : > R --gui X11 #ou > R --gui Tk

14 R comme calculatrice > 1+1 [1] 2 > a <- 2 #assignation d une valeur a une variable > a * 2 [1] 4 > log(a) # logarithme en base e de a [1] > log(a,2) # logarithme en base 2 de a [1] 1 > quit() # quitte le logiciel

15 Vecteurs R est conçu pour travailler naturellement avec des vecteurs: #(c)ombine, cree des vecteurs > a <- c(1,2,3) # operateur applique a chaque element du vecteur > a * 2 [1] > log(a) [1] > sum(a) [1] 6 > length(a) [1] 3 > sum(a) / length(a) [1] 2

16 Initialiser des vecteurs > a <- 1:100 #1,2, > a <- 10ˆ(1:100) # 10, 100, 1000,... 10e > a <- seq(0,10,0.1) # 0,0.1,0.2, ,10 > a <- rnorm(100) #100 nombres reels aleatoires (loi normale) > a <- runif(100,0,5) #100 nombres reels aleatoires (loi uniforme)

17 Statistiques descriptives de base > length(a) > summary(a) Min. 1st Qu. Median Mean 3rd Qu. Max > mean(a) > sd(a) #ecart type (standard deviation en anglais) >quantile(a) 0% 25% 50% 75% 100%

18 Faire un graphique élémentaire > x <- 1:100 > y <- sqrt(x) #Plotte la fonction racine carree > plot(x,y) > a <- 2ˆ(1:100) > plot(a) > a <- rnorm(100) #histogrammes > hist(a) > a <- runif(100) > hist(a)

19 Parametres de graphiques > hist(a,probability=true) > lines(density(a)) > hist(a,probability=true,col="cyan") > lines(density(a),lwd=3,col="red") > hist(a,probability=true,col="cyan",xlab="domaine", > lines(density(a),lwd=3,col="red")

20 Encore plus d options, d aide > help("hist") > help.search("histogram") >?hist > help.start()

21 Faire un script avec R Script: commandes mises en séquence dans un fichier texte Une par ligne Enregistrer le script en le suffixant par.r Utiliser un éditeur de texte comme Notepad++ ou Emacs Exécuter le script dans R : > source("mon_script.r") > source(file.choose()) #...pour choisir le fichier a la main Pour afficher un résultat dans un script, utiliser : > a <- sd(toto) > print(a) sinon pas d affichage!

22 Tables de données (bonne pratique, y compris en TAL) Structurer une table de données de telle sorte que : Une observation par ligne Une variable par colonne Avec optionnellement un en-tête (header) Exemple: word pos lemma les D le gentils A gentil animaux N animal Les colonnes sont séparées par une tabulation unique > read.table("toto.table",header=true) > toto <- read.table("toto.table",header=true) > toto <- read.table(file.choose(),header=true)

23 Fichiers Excel R peut lire des fichiers produits par Microsoft Excel Sauvegarder vos fichiers Excel en format csv > read.csv("toto.csv") > read.csv2("toto.csv") #Depend de la version de Excel Remarque: parfois des difficultés, Excel ne gère pas les nombres de manière standard...

24 Data Frame Les tables de données sont représentées en R par des Data Frames Une table de données R est faite de : Lignes de données (rows) ou observations Colonnes qui représentent les variables, quantités mesurées etc.

25 Fonctions utiles pour observer une data frame > brown <- read.table("brown.stats.txt",header=true) > lob <- read.table("lob.stats.txt",header=true) > summary(brown) > colnames(brown) #affiche le nom des variables > dim(brown) > head(brown) > plot(brown) #use the latter with reasonable data sets #whose columns contents are numerical

26 Comparaison rapide (corpus de Brown et LOB) Les corpus de Brown et de LOB (Lancaster Oslo Bergen) sont des corpus qui cherchent à fournir respectivement un usage représentatif de l anglais américain et de l anglais continental. Ils sont divisés en sections de genres textuels différents (presse, littéraire, sciences, religion...) Ils sont faits pour être comparables : même nombre de sections dans LOB que dans Brown, même distribution de genres, etc. On propose un exercice de mise en jambes qui a pour but de voir dans quelle mesure ils sont réellement comparables

27 Signification des variables Les lignes représentent des statistiques qui résument les différents échantillons qui constituent chacun des corpus. Les colonnes comportent les variables suivantes: ty : taille du vocabulaire de l échantillon to : nombre d occurrences de chaque échantillon se : nombre de phrases dans l échantillon towl : longueur moyenne des mots (calculée sur occurrences) tywl : longueur moyenne des mots (calculée sur le vocabulaire)

28 Accéder aux vecteurs dans le corpus de Brown > brown$to > head(brown$to) # A FAIRE : calculer des statistiques de summary() # sur les differents vecteurs #Que fait la ligne suivante a votre avis > summary(brown$to / brown$ty) #Essayer les commandes suivantes > brown$ty[1] #l index d un vecteur commence a 1 > brown[1,2] #ligne,colonne > brown$ty[1:10] #utilise un vecteur comme indice > brown[1:10,2] > brown[1,] > brown[,2]

29 Création de sous-tables > brown[brown$to < 2200, ] # ne retient que les petits textes Brown > sum(brown$to >= 2200) # Compte le nombre de longs textes dans Brown > subset (brown$to >= 2200) #idem (1) > petitstextes <- subset (brown$to >= 2200) #egalite : == #inegalite :!= # contraintes complexes : &!, # ex: brown[brown$to < 2200 & brown$to > 2000, ]

30 Observer les différences > boxplot(brown$to,lob$to) > boxplot(brown$to,lob$to,names=c("brown","lob")) >? boxplot > t.test(brown$to,lob$to) > wilcox.test(brown$to,lob$to) Juger les différences On voit sur les graphiques qu il y a une légère différence On utilise un test pour déterminer si la différence est significative ou pas

31 Corrélations On peut juger de la comparabilité des deux corpus en vérifiant par exemple le nombre de mots dans les deux corpus : > plot(lob$to,brown$to) > cor.test(lob$to,brown$to) Corrélation La tendance générale est que les petits textes dans Brown on tendance a être petits dans LOB On teste l observation graphique avec un test de corrélation (qui est significatif) : notre impression visuelle n est pas due au hasard Exercices Tester la correlation entre le nombre d occurrences (to) et la fréquence moyenne des mots dans le corpus de Brown (towl), donner une interprétation Tester la correlation entre le nombre de phrases (se) et le nombre d occurrences (to) dans le corpus de Brown, donner une interprétation

32 Généralisations La quête Un des buts du travail de linguiste est de pouvoir généraliser à la langue des observations faites sur un nombre fini d exemples Rappel : Chomsky et le refus du travail sur données (stats) Question illustrative Quelle est la proportion d usage de passif en anglais? On trouve sur le web : 10%

33 Schéma général de la démarche Utilisation Corpus Population inférence statistique Definition en extension du langage considéré Formuler une hypothèse opérationalisation Question linguistique

34 Définition en extension de la langue considérée (population) Par exemple : Langage oral / langage écrit Français de Paris / du Canada / de Belgique Langage adulte / langage enfant Genres spécifiques : journalistique / littéraire /scientifique... Exemple anglais Anglais écrit par des écrivains professionnels, américains natifs (extrait du corpus de Brown)

35 De la question à l opérationalisation Etape de travail 1 Définir la population 2 Comment on compte les passifs en anglais?

36 Différentes manières de compter... Type/Token (vocabulaire / occurrences) Type : Combien de formes de passifs différentes a-t-on? Token : Combien d occurrences de passifs a-t-on? Combien y a-t-il de passifs en anglais? (dans la population) Une infinité!

37 Comptage (fréquence relative) Il est inutile de reporter des comptes absolus (ex. j ai trouvé exemples de passifs) si on ne donne pas la taille du corpus (erreur fréquente) On peut reporter plutôt une fréquence de passifs : On considère tous les passifs potentiels, par exemple tous les VPs On reporte la fréquence relative (proportion), càd: V P passive ν = V P passif + V P actif Etat des lieux Après avoir caractérisé la population et formuler l hypothèse, on a que la question initiale devient : Est-ce que la proportion observée ν de VP passifs en anglais américain dans un corpus représentatif est différente de la proportion théorique π = 10%?

38 Nécessité d un corpus représentatif Les statistiques inférentielles cherchent à permettre une généralisation à la population à partir d un échantillon (représentatif). Pour échantilloner parfaitement (en théorie), on peut voir le langage (la population) comme une bibliothèque comportant une infinité de livres, la procédure (théorique) à suivre est la suivante : 1 Prendre un livre au hasard 2 Ouvrir le livre à une page au hasard 3 Choisir un VP au hasard dans la page Recommencer l étape précédente jusqu à obtenir un échantillon de la taille désirée. Échantilonnage aléatoire

39 Biais d échantillonnage How random is a corpus? Une technique différente qui ne choisit que quelques livres produit un échantillon biaisé (!) La raison est que le lexique (voire certaines constructions) est distribué inégalement selon les corpus, certains mots ont tendance a être sur-représentés dans les textes (ce qui reflète par exemple la thématique du texte) S. Evert, How Random is a Corpus? The Library Metaphor

40 Inférence à partir d un échantillon Principe de statistiques inférentielles : Si l échantillon est tiré de manière parfaitement aléatoire, les proportions observées dans l échantillon doivent être relativement proches des proportions observées dans la population Exemple : On a l affirmation que π = 10% de passifs en anglais On prélève dans une bibliothèque infinie 100 exemples de VP au hasard dont 19 sont passifs (ν = 12%) Peut-on conclure que l affirmation de 10% est erronée car ν > π? Autre échantillon : On prélève dans une bibliothèque infinie 100 exemples de VP au hasard dont 13 sont passifs (ν = 9%) Peut-on conclure que l affirmation de 10% est erronée car ν < π?

41 Variation d échantillonage et inférence statistique L échantillonage aléatoire nous assure que en moyenne les proportions observées dans l échantillon sont celles de la populations Il y a cependant une variance d échantillonage, s explique par le hasard du tirage au sort. Le but de l inférence statistique est d estimer et de corriger ces effets de variation due au hasard.

42 Exercice Exercice sur la variance d échantillonnage R possède une commande sample qui permet de tirer au sort artificiellement des échantillons : > ech <- sample(c("active","passive"),10,replace=true) # Tirer 10 fois au sort actif ou passif > length(ech[ech=="active"])/length(ech) # Proportion de resultats==actif Répéter la commande suivante 10 fois, noter à chaque fois la proportion de résultats = actif; calculer la moyenne d échantillonage Donner la moyenne générale et une idée de la dispersion autour de cette moyenne Recommencer l exercice, cette fois en utilisant un échantillon plus important (100 exemples) et comparer les moyennes et la dispersion > ech <- sample(c("active","passive"),100,replace=true)

43 Solution # This function prints the sampling mean and sampling sd # for samples with different sizes exosample <- function(size){ propvec <- c() for(i in c(1:10)){ ech <- sample(c("active","passive"),size,replace=true) prop <- length(ech[ech=="active"])/length(ech) propvec <- c(propvec,prop) } print(mean(propvec)) print(sd(propvec)) } > exosample(10) [1] 0.46 [1] > exosample(100) [1] [1] > exosample(1000) #Dispersion decroit! [1] [1]

44 Test d hypothèse (Intro) Une méthode destinée à décider si la différence de proportions que l on observe entre notre échantillon et la proportion réelle de la population est le test d hypothèse Ici on a l hypothèse que 10% des VPs en anglais américain seront passifs et on veut vérifier si nos observations (modulo variance d échantillonage) confirment ou pas cette hypothèse Démarche Hypothèse nulle (H 0 ): la proportion de passifs en anglais est de 10% On cherche à montrer que cette hypothèse ne tient pas Méthode brutale : on demande à beaucoup de linguistes de refaire la même expérience, et on regarde au final si en moyenne les échantillons comportent bien 10% de passifs...

45 Méthode de calcul Plutôt que de recourir à la méthode brutale, on peut remarquer que notre problème correspond à un problème mathématique connu (tirer à pile ou face à répétition): P P P F P F P F P Or les mathématiciens (probabilités) peuvent nous dire quelle est la probabilité d obtenir la proportion observée dans différents échantillons si on connait π la probabilité théorique (ici 10%) et n le nombre d éléments dans l échantillon : ( ) n P(x) = π x (1 π) n x x où x représente le nombre de passifs dans l échantillon et où P(x) dénote la probabilité d obtenir un échantillon de proportion x

46 Représentation graphique P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon Détails Chaque barre représente la probabilité de tirer un échantillon de proportion donnée sachant que la probabilité théorique est de 0.1. Par exemple, la barre numéro 14, nous dit que nous avons 5.1% de chances de tirer un échantillon avec 14 verbes au passif

47 Exercice : apprivoiser la loi binomiale On peut représenter la loi binomiale P(x) = ( n) x p x (1 p) n x dans R en utilisant les commandes suivantes: > n <- 10 > x <- 0:n > y <- dbinom(x,n,0.5) > plot(x,y,type="h",lwd=10,col="blue") Exercice Refaire la manipulation en changeant les valeurs de p : 0.1,0.3,0.7,0.9 Refaire la manipulation en fixant p = 0.5 et en changeant les valeurs de n : 10, 100, 1000, (changez le paramètre lwd = 1 pour la lisibilité) : qu observez-vous lorsque n augmente?

48 Représentation graphique P(x) = pourcentage d échantillons Variation normale Variation improbable x = proportion de passifs dans l échantillon Zones critiques On peut définir des valeurs de proportions des échantillons qui sont anormales (probabilité faible α < 0.05) Si l échantillon que l on a tombe dans cette zone, on conclut que l hypothèse de départ est à rejeter. (l échantillon constitue un contre-exemple)

49 Test d hypothèse (synthèse) 1 Poser une hypothèse nulle (π = 10%) 2 Poser un seuil d anormalité sur la loi de probabilité (α = 0.5%) 3 Conclure (ici, un échantillon avec 19% de passifs est anormal tandis qu un échantillon avec 13% de passifs est normal) Erreur de type I En rejetant l hypothèse, on court le risque qu elle soit vraie, mais que le tirage au sort de notre échantillon soit tout à fait exceptionnel. Rejeter une hypothèse dans ces conditions, c est commettre une erreur de Type I.

50 Test d hypothèse avec R # (Nombre de passifs observes,taille echantillon,proba theorique) > binom.test(13,100,0.1) Exact binomial test data: 13 and 100 number of successes = 13, number of trials = 100, p-value = alternative hypothesis: true probability of success is not equal to percent confidence interval: sample estimates: probability of success 0.13 > binom.test(19,100,0.1) Exact binomial test data: 19 and 100 number of successes = 19, number of trials = 100, p-value = alternative hypothesis: true probability of success is not equal to percent confidence interval: sample estimates: probability of success 0.19

51 Puissance d un test Erreur de type II L erreur de type II consiste à accepter à tort l hypothèse nulle. La puissance d un test est la capacité du test à nous éviter de commettre une erreur de type II Augmenter la puissance d un test Pour augmenter la puissance d un test, la règle générale est d augmenter la quantité de données dans l échantillon, c est ce que nous illustrons dans la suite

52 Inférence statistique et taille des échantillons Imaginons que l on ne connaisse pas précisément à priori la probabilité théorique π On peut se donner une idée de la proportion π dans la population uniquement à partir d un échantillon La technique consiste à utiliser les tests d hypothèses à l envers (!)

53 Intervalles de confiance Supposons que l on observe 19 passifs dans un échantillon de 100 VPs. Si on ne connait pas π, on peut réaliser des tests d hypothèses en série en essayant toutes les valeurs de π On a une série de valeurs de π où H 0 est vérifiée, cela définit en fait une intervalle dans laquelle π doit se trouver

54 Illustration p = 0.10 P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon

55 Illustration p = 0.13 P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon

56 Illustration p = 0.19 P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon

57 Illustration p = 0.27 P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon

58 Illustration p = 0.30 P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon

59 Observation On voit que les intervalles que l on a trouvés graphiquement correspondent à la rubrique intervalle du résultat du test précédent donné par R : 95 percent confidence interval: On peut voir que la taille de l intervalle de confiance diminue lorsque la taille de l échantillon augmente La taille de l intervalle de confiance augmente lorsque le seuil de significativité α diminue.

60 Exercice On calcule les intervalles de confiance avec une commande du type : > binom.test(19,100) #Directement > library(hmisc) > binconf(19,100,method="exact") PointEst Lower Upper Fixer α = 0.05 ; observer l évolution des intervalles de confiance, avec les valeurs suivantes : x=19, n=100 ; x= 190, n=1000, x = 1900, n = 1000 Observer l évolution des intervales de confiance avec les seuils α = 0.05, α = 0.01, α = (en spécifiant le paramètre conf.level = 0.95, 0.99, 0.999)

61 Solution n=100 n=1000 n=10000 k=19 k=190 k= 1900 α = α = α =

62 Intervalles de confiance et taille d échantillon Intervalle de confiance, alpha = n=20 n=100 n=1000 n=10000 MLE Proportion d observations (x/n) Intervalle plus grande quand proportion observée proche de 0.5 Intervalle plus grande quand échantillon plus petit

63 Note sur MLE Notons que pour k observations sur n tirages, l estimateur de maximum de vraisemblance (Maximum Likelihood Estimator) est le ratio k n, ce qui correspond à la valeur de p (parmi toutes les valeurs possibles) pour laquelle P(x) est maximale. L estimateur de maximum de vraisemblance assume que la probabilité théorique p de la population est k n (la fréquence des succès) même si il y a incertitude (liée à la taille de l échantillon) Exercice pour les LI Faire un graphique de la fonction de vraisemblance avec R : «n P(x, n p) = p x (1 p) n x x en fixant x = 19, n = 100, et p varie. Observez que argmax p «p 19 (1 p) = 19

64 Comparaisons de fréquences Beaucoup de problèmes de linguistique peuvent être représentés par des comparaisons de fréquences, exemples: Utilise-t-on plus de prépositions en Français moderne qu en ancien français? Les belges utilisent-ils plus la forme une fois en fin de phrase que les français? Est-ce que Miaou apparaît plus souvent dans le contexte de chat que dans le contexte d autres mots? Collocations L adjectif est-il plus souvent antéposé en Ancien français qu en français moderne?...

65 Opérationalisation Ici, comparaison de l usage du passif en anglais américain vs anglais continental (données factices) : En R 19 passifs dans 100 VPs dans Brown ; 47 passifs dans 200 VPs dans Lob Représentation des données dans une matrice 2 2: x 1 x 2 n 1 x 1 n 2 x 2 > mc <- matrix((19,81,47,153),ncol=2) > mc

66 Différents tests Test du χ 2 (au moins 5 observations dans chaque cellule, de préférence 20) Test exact de Fisher : peu d observations dans chaque cellule Test du rapport de log vraisemblance (Log likelihood ratio test, s applique dans les mêmes conditions que χ 2 ) > prop.test(mc) > chisq.test(mc) > fisher.test(mc) # pas de loglikelihood ratio test predefini.. >?chisq.test >?fisher.test

67 Interprétation des résultats On accorde de l importance à la p-valeur, pour décider Ceci, dit : Si la taille de l échantillon est trop faible, de grosses différences seront non significatives (tester la matrice suivante) > m = matrix(c(10,80,20,80),ncol=2) > chisq.test(m) > fisher.test(m) Plus, il y a de données, plus le test tend à être significatif (puissance du test) Si la taille de l échantillon est trop importante, la moindre différence devient significative (cas des tests de collocation en Tal) Il convient de faire attention non seulement à la significativité du test mais aussi à sa pertinence pour en interpréter les résultats

Analyse de données linguistiques

Analyse de données linguistiques 2011-2012 Slides inspirés des cours de S. Evert et M. Baroni Linguistique expérimentale? Traditionnellement en linguistique formelle, refus de l usage de données comme source d information unique: Méthode

Plus en détail

Activité 1 : échantillonnage

Activité 1 : échantillonnage Activité échantillonnage, intervalle de fluctuation, prise de décision (à partir d un même thème) Les trois activités qui suivent s inspirent du document «ressources pour la classe de première générale

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2 UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 Master d économie Cours de M. Desgraupes MATHS/STATS Document 4 : Les tests statistiques 1 Généralités sur les tests

Plus en détail

TD de statistique : introduction à R

TD de statistique : introduction à R TD de statistique : introduction à R Jean-Baptiste Lamy 11 octobre 2007 1 Introduction : pourquoi R? R est un logiciel pour l analyse statistique. C est un logiciel libre; il est disponible gratuitement

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

L essentiel sur les tests statistiques

L essentiel sur les tests statistiques L essentiel sur les tests statistiques 21 septembre 2014 2 Chapitre 1 Tests statistiques Nous considérerons deux exemples au long de ce chapitre. Abondance en C, G : On considère une séquence d ADN et

Plus en détail

ECHANTILLONNAGES Fiche de repérage

ECHANTILLONNAGES Fiche de repérage M Objectifs pédagogiques généraux : Fiche de repérage Type : Activité d approche de la notion de fluctuation d échantillonnage et d intervalle de confiance à travers quelques simulations. Niveau : Lycée

Plus en détail

11. Tests d hypothèses (partie 1/2)

11. Tests d hypothèses (partie 1/2) 11. Tests d hypothèses (partie 1/2) MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v1) MTH2302D: tests d hypothèses 1/30 Plan 1. Introduction 2. Hypothèses et erreurs 3. Tests d hypothèses

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

a) Il n y a pas de contre indication à utiliser la loi normale. On peut donc utiliser des tests basés sur la loi normale comme ceux vus au cours.

a) Il n y a pas de contre indication à utiliser la loi normale. On peut donc utiliser des tests basés sur la loi normale comme ceux vus au cours. Probabilités et statistique Été 2006 ELEC, MICRO, MX Dr. Diego Kuonen Corrigé du TP 2 Exercice 1. Test de Student Normal Q Q Plot Sample Quantiles 985 990 995 1000 1005 1.5 1.0 0.5 0.0 0.5 1.0 1.5 a) Il

Plus en détail

Prise en main du Logiciel R 2 mots sur R R est un logiciel de statistique disponible librement sur internet.

Prise en main du Logiciel R 2 mots sur R R est un logiciel de statistique disponible librement sur internet. Prise en main du Logiciel R 2 mots sur R R est un logiciel de statistique disponible librement sur internet. Vous pouvez le télécharger à http://www.r-project.org/ Il est déjà installé dans ces salles

Plus en détail

Chapitre VI Échantillonages et simulations

Chapitre VI Échantillonages et simulations Chapitre VI Commentaires : Récursivement, les commentaires ne sont pas à l attention des élèves.. Fluctuation d échantillonnage Définition : En statistiques, un échantillon de taille n est la liste des

Plus en détail

Introduction au cours STA 102 Analyse des données : Méthodes explicatives

Introduction au cours STA 102 Analyse des données : Méthodes explicatives Analyse des données - Méthodes explicatives (STA102) Introduction au cours STA 102 Analyse des données : Méthodes explicatives Giorgio Russolillo giorgio.russolillo@cnam.fr Infos et support du cours Slide

Plus en détail

TD de statistique : tests du Chi 2

TD de statistique : tests du Chi 2 TD de statistique : tests du Chi 2 Jean-Baptiste Lamy 6 octobre 2008 1 Test du Chi 2 C est l équivalent de la comparaison de moyenne, mais pour les variables qualitatives. 1.1 Cas 1 : comparer les répartitions

Plus en détail

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Cours 7 : Exemples I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de

Plus en détail

Méthodes Statistiques Appliquées à la Qualité et à la Gestion des Risques - Le Contrôle Statistique

Méthodes Statistiques Appliquées à la Qualité et à la Gestion des Risques - Le Contrôle Statistique Méthodes Statistiques Appliquées à la Qualité et à la Gestion des Risques - Le Contrôle Statistique Jean Gaudart Laboratoire d Enseignement et de Recherche sur le Traitement de l Information Médicale jean.gaudart@univmed.fr

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

A quoi vont-elles servir?

A quoi vont-elles servir? A quoi vont-elles servir? Décrire Distribution Position : moyenne, mode, médiane, (ordre de grandeur) Résumer paramètres et graphes Forme (symétrie, tendance ) Dispersion : écart-type, variance, quantiles,

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

La nouvelle planification de l échantillonnage

La nouvelle planification de l échantillonnage La nouvelle planification de l échantillonnage Pierre-Arnaud Pendoli Division Sondages Plan de la présentation Rappel sur le Recensement de la population (RP) en continu Description de la base de sondage

Plus en détail

Test de Poisson à 1 échantillon et à 2 échantillons

Test de Poisson à 1 échantillon et à 2 échantillons Test de Poisson à 1 échantillon et à 2 échantillons Sous-menus de Minitab 15 : Stat>Statistiques élémentaires>test de Poisson à 1 échantillon Stat>Statistiques élémentaires>test de Poisson à 2 échantillons

Plus en détail

Introduction à Rcommander

Introduction à Rcommander Introduction à Rcommander Pauline Scherdel Septembre 2014 Table des matières 1 Introduction à Rcmdr sous R 2 2 Interagir avec R 3 3 Installer et charger le package Rcmdr sous R 3 4 Importation des données

Plus en détail

T. D. n o 3 Analyse de données quantitatives avec le logiciel R

T. D. n o 3 Analyse de données quantitatives avec le logiciel R T. D. n o 3 Analyse de données quantitatives avec le logiciel R 1 Rappel de quelques fonctions statistiques sous R Fonction summary() cumsum() sum() mean() max() min() range() median() var() sd() Description

Plus en détail

1 Générateurs à Congruences Linéaires (GCL)

1 Générateurs à Congruences Linéaires (GCL) TP 4 : Générateurs pseudo-aléatoires et applications Un générateur de nombres pseudo-aléatoires, pseudorandom number generator (PRNG) en anglais, est un algorithme qui génère une séquence de nombres présentant

Plus en détail

«Monsieur, on fait quoi?»

«Monsieur, on fait quoi?» Nous avons le plaisir aujourd hui de vous proposer une séance de travaux pratiques de statistique, c est-à-dire, une séance où vous allez pouvoir mettre les mains dans le cambouis (dans les données) et

Plus en détail

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE

MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE MÉTHODES ET STATISTIQUES POUR LIRE UN ARTICLE Forum HH 05.02.2013 Ghislaine Gagnon Unité HPCI Qualitatif ou quantitatif? Les 2 méthodes peuvent être utilisées séparément ou en conjonction - le qualitatif

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 2015 Cours de B. Desgraupes. Simulation Stochastique

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 2015 Cours de B. Desgraupes. Simulation Stochastique UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2014 2015 L2 MIASHS Cours de B. Desgraupes Simulation Stochastique Séance 04: Nombres pseudo-aléatoires Table des matières 1

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

Correction de l épreuve de Statistiques et Informatique appliquées à la Psychologie

Correction de l épreuve de Statistiques et Informatique appliquées à la Psychologie Université de Bretagne Occidentale Année Universitaire 2013-2014 U.F.R. de Lettres et Sciences Humaines CS 93837-29238 BREST CEDEX 3 Section : Psychologie - Licence 3è année Enseignant responsable : F.-G.

Plus en détail

Le programme de mathématiques Classes de première STI2D STL

Le programme de mathématiques Classes de première STI2D STL Journée de l inspection 15 avril 2011 - Lycée F. BUISSON 18 avril 2011 - Lycée J. ALGOUD 21 avril 2011 - Lycée L. ARMAND Le programme de mathématiques Classes de première STI2D STL Déroulement de la journée

Plus en détail

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN

ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN Pôle Informatique de Recherche et d Enseignement en Histoire ANALYSE : OUTIL D ANALYSE DE DONNEES POUR LES SCIENCES HUAMINES MANUEL DE L UTILISATEUR : PRISE EN MAIN A. PREMIER PAS 1. INTEGRATION DU TABLEAU

Plus en détail

Niveau. Situations étudiées. Type d activité. Durée. Objectifs

Niveau. Situations étudiées. Type d activité. Durée. Objectifs Fourchettes, non réponses, fausses réponses et redressements... : la cuisine mathématique des sondages Niveau Exercice 1 : 3 ème 2 nde. Exercice 2 : 3 ème 2 nde. Exercice 3 : Seconde ou première. Exercice

Plus en détail

Cours 1: lois discrétes classiques en probabilités

Cours 1: lois discrétes classiques en probabilités Cours 1: lois discrétes classiques en probabilités Laboratoire de Mathématiques de Toulouse Université Paul Sabatier-IUT GEA Ponsan Module: Stat inférentielles Définition Quelques exemples loi d une v.a

Plus en détail

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

Principe des tests statistiques

Principe des tests statistiques Principe des tests statistiques Jean Vaillant Un test de signification est une procédure permettant de choisir parmi deux hypothèses celles la plus probable au vu des observations effectuées à partir d

Plus en détail

Rédiger un rapport technique

Rédiger un rapport technique Rédiger un rapport technique Prof. N. Fatemi Plan Introduction Présentation écrite Programmation du travail Rédaction Conseils génériques Références 2 Introduction Objectifs du cours Savoir étudier un

Plus en détail

Le test triangulaire

Le test triangulaire Le test triangulaire Objectif : Détecter l absence ou la présence de différences sensorielles entre 2 produits. «les 2 produits sont-ils perçus comme différents?» Contexte : la différence sensorielle entre

Plus en détail

Introduction à l analyse quantitative

Introduction à l analyse quantitative Introduction à l analyse quantitative Vue d ensemble du webinaire Le webinaire sera enregistré. Les diapositives et tous les autres documents seront envoyés aux participants après la séance. La séance

Plus en détail

BACCALAURÉAT PROFESSIONNEL ÉPREUVE DE MATHEMATIQUES. EXEMPLE DE SUJET n 1

BACCALAURÉAT PROFESSIONNEL ÉPREUVE DE MATHEMATIQUES. EXEMPLE DE SUJET n 1 Exemple de sujet n 1 Page 1/7 BACCALAURÉAT PROFESSIONNEL ÉPREUVE DE MATHEMATIQUES EXEMPLE DE SUJET n 1 Ce document comprend : Pour l examinateur : - une fiche descriptive du sujet page 2/7 - une fiche

Plus en détail

Ch.12 : Loi binomiale

Ch.12 : Loi binomiale 4 e - programme 2007 - mathématiques ch.12 - cours Page 1 sur 5 1 RÉPÉTITION D'EXPÉRIENCES INDÉPENDANTES Lancer plusieurs fois un dé et noter les résultats successifs. Ch.12 : Loi binomiale Prélever des

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Courte initiation à R

Courte initiation à R Courte initiation à R Data science Master 2 ISIDIS Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/~verel Université du Littoral Côte d Opale Laboratoire LISIC Equipe OSMOSE

Plus en détail

Master EBE Introduction à R et Statistique inférentielle

Master EBE Introduction à R et Statistique inférentielle Master EBE Introduction à R et Statistique inférentielle R est un logiciel de calcul statistique et probabiliste. Il est développé dans le cadre du projet GNU http://www.gnu.org/ ), c est donc un logiciel

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs

Plus en détail

L analyse de la variance avec R commander

L analyse de la variance avec R commander L analyse de la variance avec R commander 19 mars 2014 1 Installer R Pour installer R, il vous suffit d aller sur le site http://www.r-project.org/. Choisissez un miroir pour le téléchargement. Sélectionner

Plus en détail

Etude des propriétés empiriques du lasso par simulations

Etude des propriétés empiriques du lasso par simulations Etude des propriétés empiriques du lasso par simulations L objectif de ce TP est d étudier les propriétés empiriques du LASSO et de ses variantes à partir de données simulées. Un deuxième objectif est

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Niveau. Situation étudiée. Type d activité. Durée. Objectifs. Seconde.

Niveau. Situation étudiée. Type d activité. Durée. Objectifs. Seconde. Simuler des expériences aléatoires avec une calculatrice Niveau Seconde. Situation étudiée Différentes selon les séances : Séance 1 : Jeu de pile ou face, tirages de boule dans une urne avec des proportions

Plus en détail

Débuter avec R. Maxime Hervé. UMR 1099 INRA Agrocampus Ouest Université Rennes 1 BiO3P. 28 avril 2011

Débuter avec R. Maxime Hervé. UMR 1099 INRA Agrocampus Ouest Université Rennes 1 BiO3P. 28 avril 2011 Débuter avec R Maxime Hervé UMR 1099 INRA Agrocampus Ouest Université Rennes 1 BiO3P 28 avril 2011 Maxime Hervé (UMR BiO3P) Débuter avec R 28 avril 2011 1 / 23 R, c est quoi? Trois caractéristiques importantes

Plus en détail

Traitement statistique. des petits échantillons. Application avec JMP - 3 jours (*)

Traitement statistique. des petits échantillons. Application avec JMP - 3 jours (*) Traitement statistique Application avec JMP - 3 jours (*) Référence : STA-N1-SPECHAJMP Durée : 3 jours soit 21 heures (*) : La durée proposée est une durée standard. Elle peut être adaptée selon les besoins,

Plus en détail

Présentation rapide du logiciel Epi Info

Présentation rapide du logiciel Epi Info Présentation rapide du logiciel Epi Info Loïc Desquilbet, PhD Département des Productions Animales et de Santé Publique Ecole Nationale Vétérinaire d Alfort ldesquilbet@vet-alfort.fr Tutoriel Epi Info

Plus en détail

Informatique TP1 : Découverte de Python CPP 1A

Informatique TP1 : Découverte de Python CPP 1A Informatique TP1 : Découverte de Python CPP 1A Romain Casati, Wafa Johal, Frederic Devernay, Matthieu Moy Avril - juin 2014 1 Découverte de l IDE : IDLE IDLE est un environnement de développement (Integrated

Plus en détail

V ERSION EXPERIMENTALE

V ERSION EXPERIMENTALE V ERSION EXPERIMENTALE Cette version de Sipina v 3.0 n est pas, et ne sera jamais, définitive, elle sert d outil de recherche, elle a plus une vocation d outil d expérimentation que de logiciel dédié au

Plus en détail

TP1 : LOGICIEL R ET RAPPEL DES PROBABILITÉS

TP1 : LOGICIEL R ET RAPPEL DES PROBABILITÉS Statistique Numérique et Analyse de Données Ecole des Ponts ParisTech, 2 ème année TP1 : LOGICIEL R ET RAPPEL DES PROBABILITÉS A propos du logiciel R Le système R est un logiciel distribué gratuitement

Plus en détail

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini.

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. 1 Introduction Des actions comme lancer un dé, tirer une carte d un jeu, observer la durée de vie d une ampoule électrique, etc...sont

Plus en détail

Chapitre cinq : Représentation des Images

Chapitre cinq : Représentation des Images Chapitre cinq : Représentation des Images Ce chapitre présente les bases pour la représentation des images et des sons. ~ 1 ~ 6. 6.1.1. Introduction Il existe plusieurs moyens de représenter des images.

Plus en détail

!-.!#- $'( 1&) &) (,' &*- %,!

!-.!#- $'( 1&) &) (,' &*- %,! 0 $'( 1&) +&&/ ( &+&& &+&))&( -.#- 2& -.#- &) (,' %&,))& &)+&&) &- $ 3.#( %, (&&/ 0 ' Il existe plusieurs types de simulation de flux Statique ou dynamique Stochastique ou déterministe A événements discrets

Plus en détail

Support du cours de Probabilités IUT d Orléans, Département d informatique

Support du cours de Probabilités IUT d Orléans, Département d informatique Support du cours de Probabilités IUT d Orléans, Département d informatique Pierre Andreoletti IUT d Orléans Laboratoire MAPMO (Bât. de Mathématiques UFR Sciences) - Bureau 126 email: pierre.andreoletti@univ-orleans.fr

Plus en détail

LES DECIMALES DE π BERNARD EGGER

LES DECIMALES DE π BERNARD EGGER LES DECIMALES DE π BERNARD EGGER La génération de suites de nombres pseudo aléatoires est un enjeu essentiel pour la simulation. Si comme le dit B Ycard dans le cours écrit pour le logiciel SEL, «Paradoxalement,

Plus en détail

Travaux dirigés. Introduction à R 1

Travaux dirigés. Introduction à R 1 Introduction à R 1 1 Introduction : pourquoi R? R est un logiciel pour l analyse statistique. C est un logiciel libre ; il est disponible gratuitement et tourne sur différents systèmes (PC Linux, PC Windows,

Plus en détail

Les Meta-analyses. Sibilia Quilici. Université René Descartes Paris V Faculté de Pharmacie Master Science de la vie et de la santé 28/01/2014

Les Meta-analyses. Sibilia Quilici. Université René Descartes Paris V Faculté de Pharmacie Master Science de la vie et de la santé 28/01/2014 Les Meta-analyses Sibilia Quilici Université René Descartes Paris V Faculté de Pharmacie Master Science de la vie et de la santé 28/01/2014 Nombre de publication en méta-analyses 8000 7000 6000 5000 4000

Plus en détail

Système de Gestion de Base de Données (SGBD) A Introduction

Système de Gestion de Base de Données (SGBD) A Introduction A Introduction - Qu est-ce qu on entend généralement par BASE DE DONNEES? - Petit historique - Vers la structuration des données - Quelques exemple de bases connues (Sécu Sociale, Fichiers d inscription

Plus en détail

Analyse de la variance à deux facteurs

Analyse de la variance à deux facteurs 1 1 IRMA, Université Louis Pasteur Strasbourg, France Master 1 Psychologie du développement 06-10-2008 Contexte Nous nous proposons d analyser l influence du temps et de trois espèces ligneuses d arbre

Plus en détail

ASI (L2) : TP3 Calculs probabilistes avec Excel et Rstat

ASI (L2) : TP3 Calculs probabilistes avec Excel et Rstat ASI (L2) : TP3 Calculs probabilistes avec Excel et Rstat Objectifs du TP : Savoir utiliser Excel et Rstat pour calculer des moyennes pondérées, des variances pondérées et savoir faire des approximations

Plus en détail

INTRODUCTION A L UTILISATION DE SYSTAT

INTRODUCTION A L UTILISATION DE SYSTAT 1 INTRODUCTION A L UTILISATION DE SYSTAT F. Lyazrhi D. Concordet 2 Systat est un logiciel statistique qui permet de préparer les graphiques et de faire des calculs nécessaires à l analyse des données.

Plus en détail

COURS DE STATISTIQUES (24h)

COURS DE STATISTIQUES (24h) COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage(4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h) Qu est-ce que la statistique?

Plus en détail

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences

Plus en détail

Langage C et aléa, séance 4

Langage C et aléa, séance 4 Langage C et aléa, séance 4 École des Mines de Nancy, séminaire d option Ingénierie Mathématique Frédéric Sur http://www.loria.fr/ sur/enseignement/courscalea/ 1 La bibliothèque GMP Nous allons utiliser

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Exercices corrigés de l Ethème 2 - Techniques de Sondages

Exercices corrigés de l Ethème 2 - Techniques de Sondages Exercices corrigés de l Ethème 2 - Techniques de Sondages Exercice 1 : On considère une population de N = 5 individus, pour lesquels on connaît les valeurs de la variable y : y 1 = 3, y 2 = 1, y 3 = 0,

Plus en détail

Evaluation d un test diagnostique - Concordance

Evaluation d un test diagnostique - Concordance Evaluation d un test diagnostique - Concordance Michaël Genin Université de Lille 2 EA 2694 - Santé Publique : Epidémiologie et Qualité des soins michaelgenin@univ-lille2fr Plan 1 Introduction 2 Evaluation

Plus en détail

Plan de la formation (1)

Plan de la formation (1) Plan de la formation (1) 1. Présentations, attentes et besoins 2. Contexte de la formation 3. Objectifs 4. Quelques rappels (commandes de base) 5. Démonstrations et expérimentation de commandes avancées

Plus en détail

Des électeurs, des boules, des cercles, des étudiants satisfaits

Des électeurs, des boules, des cercles, des étudiants satisfaits Cours de biostatistique Illustrations dans Des électeurs, des boules, des cercles, des étudiants satisfaits A.B. Dufour, J.R. Lobry & D. Chessel 31 mars 2008 Le calcul des probabilités parle de l échantillon

Plus en détail

INTRODUCTION A LA RECHERCHE QUANTITATIVE

INTRODUCTION A LA RECHERCHE QUANTITATIVE INTRODUCTION A LA RECHERCHE QUANTITATIVE Deuxième partie : de la base de données aux résultats Juin 2010 Julien Gelly, Caroline Huas, Josselin Le Bel Plan 2 1. Introduction 2. Saisie des données : Epi

Plus en détail

partie a Introduction à la statistique 1

partie a Introduction à la statistique 1 table des matières F AVANT-PROPOS À L ÉDITION AMÉRICAINE Abréviations viii xiv partie a Introduction à la statistique 1 1. Statistique et probabilité ne sont pas intuitives 3 Nous avons tendance à passer

Plus en détail

Introduction à la programmation sous Scilab : TP auto-correctifs II

Introduction à la programmation sous Scilab : TP auto-correctifs II Introduction à la programmation sous Scilab : TP auto-correctifs II Licence de Physique à distance Table des matières I Vecteurs et matrices (II) 1 a) Vecteurs........................................ 1

Plus en détail

Statistique (MATH-F-315, Cours #3)

Statistique (MATH-F-315, Cours #3) Statistique (MATH-F-315, Cours #3) Thomas Verdebout Université Libre de Bruxelles 2015 Plan de la partie Statistique du cours 1. Introduction. 2. Théorie de l estimation. 3. Tests d hypothèses et intervalles

Plus en détail

Cahier des charges. Jonathan HAEHNEL. Université de Strasbourg IUT Robert Schuman

Cahier des charges. Jonathan HAEHNEL. Université de Strasbourg IUT Robert Schuman Université de Strasbourg IUT Robert Schuman Maître de stage : Nicolas Lachiche Tuteur universitaire : Marie-Paule Muller Cahier des charges Jonathan HAEHNEL Strasbourg, le 6 mai 2011 Table des matières

Plus en détail

Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif

Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif 1 Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif Narration pour présentation Prezi (http://prezi.com/5tjog4mzpuhh/analyse-de-donneestextuelles-analyse-de-contenu-qualitative/)

Plus en détail

CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Probabilités Épreuve de Bernoulli, loi de Bernoulli.

CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Probabilités Épreuve de Bernoulli, loi de Bernoulli. 1 ère - 3 Chap.9 : Loi binomiale. Échantillonnage. 1 ère - Chapitre 9 : LOI BINOMIALE. ÉCHANTILLONNAGE. Textes officiels (30 septembre 2010) : CONTENU CAPACITÉ ATTENDUE COMMENTAIRE Probabilités Épreuve

Plus en détail

1 Un objet aléatoire de base : le dé

1 Un objet aléatoire de base : le dé Dans le monde des statistiques, il est bien évident qu on ne fait plus aucun calcul à la main. Si nous le faisons en cours de mathématiques, c est pour mieux comprendre ce que font les divers logiciels

Plus en détail

TP 1. Introduction au logiciel SAS Analyse Statistique Univariée

TP 1. Introduction au logiciel SAS Analyse Statistique Univariée IMIS : Master 1 Université Paris Est Marne la Vallée TP 1. Introduction au logiciel SAS Analyse Statistique Univariée 1. Premier contact avec SAS 1. Lancez le logiciel sas. Vous voyez apparaître les fenètres

Plus en détail

TEST DE MONTE CARLO DE DETECTION DE MODIFICATIONS CLIMATIQUES

TEST DE MONTE CARLO DE DETECTION DE MODIFICATIONS CLIMATIQUES TEST DE MONTE CARLO DE DETECTION DE MODIFICATIONS CLIMATIQUES Jean-Cléophas ONDO (*) (*) Institut Sous-régional de Statistique et d Economie Appliquée (ISSEA) Résumé Les procédures couramment utilisées

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Méthodes de Monte-Carlo Simulation de grandeurs aléatoires

Méthodes de Monte-Carlo Simulation de grandeurs aléatoires Méthodes de Monte-Carlo Simulation de grandeurs aléatoires Master Modélisation et Simulation / ENSTA TD 1 2012-2013 Les méthodes dites de Monte-Carlo consistent en des simulations expérimentales de problèmes

Plus en détail

STATISTIQUES. Cours I : Test d hypothèses. Télécom Physique Strasbourg Module 2101. Fabrice Heitz. Octobre 2014

STATISTIQUES. Cours I : Test d hypothèses. Télécom Physique Strasbourg Module 2101. Fabrice Heitz. Octobre 2014 Télécom Physique Strasbourg Module 2101 STATISTIQUES Cours I : Test d hypothèses Fabrice Heitz Octobre 2014 Fabrice Heitz (Télécom PS) Statistiques 2014 1 / 75 Cours I TESTS D HYPOTHÈSES Fabrice Heitz

Plus en détail

OBJECTIF. Fournir une introduction à ce logiciel statistique de manière à faciliter son utilisation.

OBJECTIF. Fournir une introduction à ce logiciel statistique de manière à faciliter son utilisation. Dr L. ZEMOUR OBJECTIF Fournir une introduction à ce logiciel statistique de manière à faciliter son utilisation. I. QU EST CE QUE SPSS? SPSS, dont le sigle anglais signifie «Statistical Package for Social

Plus en détail

Introduction au logiciel SAS. Olivier Godechot

Introduction au logiciel SAS. Olivier Godechot Introduction au logiciel SAS Olivier Godechot SAS (9.13). Plan d attaque À quoi ressemble le logiciel? Manipuler les données (étape data) Quelques procédures statistiques de base (étape proc) Fusion des

Plus en détail

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE Les résultats donnés par R et SAS donnent les valeurs des tests, la valeur-p ainsi que les intervalles de confiance. TEST DE COMPARAISON

Plus en détail

LES GENERATEURS DE NOMBRES ALEATOIRES

LES GENERATEURS DE NOMBRES ALEATOIRES LES GENERATEURS DE NOMBRES ALEATOIRES 1 Ce travail a deux objectifs : ====================================================================== 1. Comprendre ce que font les générateurs de nombres aléatoires

Plus en détail

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques.

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques. L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques 1 BUTS DU COURS : se familiariser avec le vocabulaire statistique o variable dépendante, variable indépendante o statistique descriptive,

Plus en détail

SUGARCRM MODULE RAPPORTS

SUGARCRM MODULE RAPPORTS SUGARCRM MODULE RAPPORTS Référence document : SYNOLIA_Support_SugarCRM_Module_Rapports_v1.0.docx Version document : 1.0 Date version : 2 octobre 2012 Etat du document : En cours de rédaction Emetteur/Rédacteur

Plus en détail

Master 1 Informatique Éléments de statistique inférentielle

Master 1 Informatique Éléments de statistique inférentielle Master 1 Informatique Éléments de statistique inférentielle Faicel Chamroukhi Maître de Conférences UTLN, LSIS UMR CNRS 7296 email: chamroukhi@univ-tln.fr web: chamroukhi.univ-tln.fr 2014/2015 Faicel Chamroukhi

Plus en détail