Analyse de données linguistiques

Dimension: px
Commencer à balayer dès la page:

Download "Analyse de données linguistiques"

Transcription

1 Slides inspirés des cours de S. Evert et M. Baroni

2 Linguistique expérimentale? Traditionnellement en linguistique formelle, refus de l usage de données comme source d information unique: Méthode fondée d abord sur l introspection (confortée par des données) Distinction grammatical/agrammatical Raisons profondes (Chomsky): Introspection permet de généraliser Introspection permet de décider qu un exemple est agrammatical Données (corpus,expériences) représentent un échantillon fini et biaisé du langage : mauvaise généralisation Données sont bruitées, comment distinguer le bruit des faits de langue? : risque d éparpillement compétence vs performance

3 Et pourtant... Problèmes liés aux jugements introspectifs Études sur les préférences Études sur la gradience Études historiques ou diachroniques

4 Problèmes liés aux jugements introspectifs Cas limites (cités par Schutze 96):??Are/??Is John or his parents here? I, who the FBI thinks *am/*is an anarchist, will doubtless be here. Commentaires de Levelt (Schutze 96): In the early years of the transformational grammar [the low reliability of absolute grammaticality judgments] was not an important issue, since the clear cases, i.e., the highly uncontroversial cases of grammaticality and ungrammaticality, were sufficient for constructing and testing linguistic theory. It was expected that, in its tum, the theory constructed in such a way would decide on the unclear cases. This hope has vanished. (Levelt et al. 1977, p. 88) It has slowly but surely become clear that it is not possible, on the basis of incontrovertible, directly evident data, to construct a theory so extensive that all less obvious cases can be decided upon by the grammar itself. It is becoming more and more apparent that decisions on very important areas of theory are dependent on very unreliable observations...(levelt 1974, vol. 2, p. 6)

5 Études sur les préférences John gave a book to Mary John gave Mary a book John gave a book to him John gave him a book Sujet très étudié pour l anglais notamment par (Bresnan 07). L ordre n est pas aléatoire. Il y a des préférences qui dépendent de la longueur des compléments, de leur définitude, de leur caractère pronominal...

6 Gradience dans les jugements de grammaticalité Il est fréquent que les auteurs utilisent une forme de gradience grammaticale dans leurs jugements qui repose sur l intuition (Sorace, Keller 2005) investigue l expérimentation : 1 Which friend has Thomas painted a picture of? 2? Which friend has Thomas painted the picture of? 3? Which friend has Thomas torn up a picture of? 4? How many friends has Thomas painted a picture of? Commentaires Sentence (1) does not incur any constraint violations. It is more acceptable than (2), which incurs a DEF violation, i.e. extraction takes place out of a definite picture NP. (3) violates VERB, the constraint that requires that the matrix verb does not presuppose the existence of its object. VERB is satisfied by paint, but violated by tear up.(4) shows how the extraction of a non-referential wh-phrase violates the constraint REF, leading to a decrease in acceptability compared to (1).

7 Cas où l introspection ne peut s appliquer Il existe une série de cas ou l introspection ne peut pas s appliquer : 1 Etudes diachroniques (par exemple : préférences pour l ordre des compléments ditransitifs en ancien français) 2 Etudes en acquisition (langage enfant) 3 Etudes sur le français oral (jugements beaucoup plus limites) (l expérimentation non plus d ailleurs pour (2)...)

8 Propos de ce cours Investiguer comment travailler à partir de données Issues de corpus Issues d expériences Question de fond : généralisation à partir de données Recours aux statistiques

9 Plan (tentative) Partie du cours qui traite de l analyse de données issues de corpus Aperçu général Observation de données Généralisation d observations prises dans un échantillon Décrire de grosses masses de données: Résumés statistiques, visualisation de données Statistiques Descriptives Décider de la significativité de différences (moyennes, proportions) Avec volonté de généraliser au delà d un échantillon donné Statistiques inférentielles Découvrir des propriétés cachées (théoriques) dans les données : Propriétés qui reposent sur une théorie (vérifier la théorie) Chercher à identifier ces propriétés (exploration de données) Modélisation statistique (modèles de régression)

10 Portée du cours Buts du cours Formation pratique à l analyse de données sur corpus Notions élémentaires de statistiques Utilisation du langage R pour la pratique Non buts du cours Théorie statistique Analyse probabiliste (cf cours de M1) Pour les TALeux Donne une méthodologie pour l analyse de données en grande quantité Apporte les bases de certaines techniques de classification (MaxEnt, reg. logistique) Donne une perspective d application de techniques de TAL à des problèmes de linguistique

11 Support avec R Utilisation du langage R, intérêt : Gratuit (open source) Téléchargement ici : Fonctionnalités supplémentaires pour traiter des données langagières Peut se programmer, s automatiser Inconvénients : Interface ligne de commande Effort plus important à faire au début qu avec un logiciel à boutons/fenêtres Pose encore parfois qq problèmes pour les textes non-anglais (caractères accentués)

12 Bibliographie de base David Howell, Méthodes statistiques en sciences humaines, De Boeck, C. Judd, G. McClelland, C. Ryan, D. Muller, V. Yzerbyt, Analyse des données. Une approche par comparaison de modèles, De Boeck, Shravan Vasishth, Michael Broe The foundations of statistics: a simulation based approach, Springer Christopher Butler, Statistics in Linguistics, Oxford Blackwell, Harald Baayen Analyzing Linguistic Data: A practical introduction to statistics. Cambridge University Press, Peter Dalgaard, Introductory statistics with R (2nd ed), Springer, 2008.

13 Lancer R Sous UNIX : > R --gui X11 #ou > R --gui Tk

14 R comme calculatrice > 1+1 [1] 2 > a <- 2 #assignation d une valeur a une variable > a * 2 [1] 4 > log(a) # logarithme en base e de a [1] > log(a,2) # logarithme en base 2 de a [1] 1 > quit() # quitte le logiciel

15 Vecteurs R est conçu pour travailler naturellement avec des vecteurs: #(c)ombine, cree des vecteurs > a <- c(1,2,3) # operateur applique a chaque element du vecteur > a * 2 [1] > log(a) [1] > sum(a) [1] 6 > length(a) [1] 3 > sum(a) / length(a) [1] 2

16 Initialiser des vecteurs > a <- 1:100 #1,2, > a <- 10ˆ(1:100) # 10, 100, 1000,... 10e > a <- seq(0,10,0.1) # 0,0.1,0.2, ,10 > a <- rnorm(100) #100 nombres reels aleatoires (loi normale) > a <- runif(100,0,5) #100 nombres reels aleatoires (loi uniforme)

17 Statistiques descriptives de base > length(a) > summary(a) Min. 1st Qu. Median Mean 3rd Qu. Max > mean(a) > sd(a) #ecart type (standard deviation en anglais) >quantile(a) 0% 25% 50% 75% 100%

18 Faire un graphique élémentaire > x <- 1:100 > y <- sqrt(x) #Plotte la fonction racine carree > plot(x,y) > a <- 2ˆ(1:100) > plot(a) > a <- rnorm(100) #histogrammes > hist(a) > a <- runif(100) > hist(a)

19 Parametres de graphiques > hist(a,probability=true) > lines(density(a)) > hist(a,probability=true,col="cyan") > lines(density(a),lwd=3,col="red") > hist(a,probability=true,col="cyan",xlab="domaine", > lines(density(a),lwd=3,col="red")

20 Encore plus d options, d aide > help("hist") > help.search("histogram") >?hist > help.start()

21 Faire un script avec R Script: commandes mises en séquence dans un fichier texte Une par ligne Enregistrer le script en le suffixant par.r Utiliser un éditeur de texte comme Notepad++ ou Emacs Exécuter le script dans R : > source("mon_script.r") > source(file.choose()) #...pour choisir le fichier a la main Pour afficher un résultat dans un script, utiliser : > a <- sd(toto) > print(a) sinon pas d affichage!

22 Tables de données (bonne pratique, y compris en TAL) Structurer une table de données de telle sorte que : Une observation par ligne Une variable par colonne Avec optionnellement un en-tête (header) Exemple: word pos lemma les D le gentils A gentil animaux N animal Les colonnes sont séparées par une tabulation unique > read.table("toto.table",header=true) > toto <- read.table("toto.table",header=true) > toto <- read.table(file.choose(),header=true)

23 Fichiers Excel R peut lire des fichiers produits par Microsoft Excel Sauvegarder vos fichiers Excel en format csv > read.csv("toto.csv") > read.csv2("toto.csv") #Depend de la version de Excel Remarque: parfois des difficultés, Excel ne gère pas les nombres de manière standard...

24 Data Frame Les tables de données sont représentées en R par des Data Frames Une table de données R est faite de : Lignes de données (rows) ou observations Colonnes qui représentent les variables, quantités mesurées etc.

25 Fonctions utiles pour observer une data frame > brown <- read.table("brown.stats.txt",header=true) > lob <- read.table("lob.stats.txt",header=true) > summary(brown) > colnames(brown) #affiche le nom des variables > dim(brown) > head(brown) > plot(brown) #use the latter with reasonable data sets #whose columns contents are numerical

26 Comparaison rapide (corpus de Brown et LOB) Les corpus de Brown et de LOB (Lancaster Oslo Bergen) sont des corpus qui cherchent à fournir respectivement un usage représentatif de l anglais américain et de l anglais continental. Ils sont divisés en sections de genres textuels différents (presse, littéraire, sciences, religion...) Ils sont faits pour être comparables : même nombre de sections dans LOB que dans Brown, même distribution de genres, etc. On propose un exercice de mise en jambes qui a pour but de voir dans quelle mesure ils sont réellement comparables

27 Signification des variables Les lignes représentent des statistiques qui résument les différents échantillons qui constituent chacun des corpus. Les colonnes comportent les variables suivantes: ty : taille du vocabulaire de l échantillon to : nombre d occurrences de chaque échantillon se : nombre de phrases dans l échantillon towl : longueur moyenne des mots (calculée sur occurrences) tywl : longueur moyenne des mots (calculée sur le vocabulaire)

28 Accéder aux vecteurs dans le corpus de Brown > brown$to > head(brown$to) # A FAIRE : calculer des statistiques de summary() # sur les differents vecteurs #Que fait la ligne suivante a votre avis > summary(brown$to / brown$ty) #Essayer les commandes suivantes > brown$ty[1] #l index d un vecteur commence a 1 > brown[1,2] #ligne,colonne > brown$ty[1:10] #utilise un vecteur comme indice > brown[1:10,2] > brown[1,] > brown[,2]

29 Création de sous-tables > brown[brown$to < 2200, ] # ne retient que les petits textes Brown > sum(brown$to >= 2200) # Compte le nombre de longs textes dans Brown > subset (brown$to >= 2200) #idem (1) > petitstextes <- subset (brown$to >= 2200) #egalite : == #inegalite :!= # contraintes complexes : &!, # ex: brown[brown$to < 2200 & brown$to > 2000, ]

30 Observer les différences > boxplot(brown$to,lob$to) > boxplot(brown$to,lob$to,names=c("brown","lob")) >? boxplot > t.test(brown$to,lob$to) > wilcox.test(brown$to,lob$to) Juger les différences On voit sur les graphiques qu il y a une légère différence On utilise un test pour déterminer si la différence est significative ou pas

31 Corrélations On peut juger de la comparabilité des deux corpus en vérifiant par exemple le nombre de mots dans les deux corpus : > plot(lob$to,brown$to) > cor.test(lob$to,brown$to) Corrélation La tendance générale est que les petits textes dans Brown on tendance a être petits dans LOB On teste l observation graphique avec un test de corrélation (qui est significatif) : notre impression visuelle n est pas due au hasard Exercices Tester la correlation entre le nombre d occurrences (to) et la fréquence moyenne des mots dans le corpus de Brown (towl), donner une interprétation Tester la correlation entre le nombre de phrases (se) et le nombre d occurrences (to) dans le corpus de Brown, donner une interprétation

32 Généralisations La quête Un des buts du travail de linguiste est de pouvoir généraliser à la langue des observations faites sur un nombre fini d exemples Rappel : Chomsky et le refus du travail sur données (stats) Question illustrative Quelle est la proportion d usage de passif en anglais? On trouve sur le web : 10%

33 Schéma général de la démarche Utilisation Corpus Population inférence statistique Definition en extension du langage considéré Formuler une hypothèse opérationalisation Question linguistique

34 Définition en extension de la langue considérée (population) Par exemple : Langage oral / langage écrit Français de Paris / du Canada / de Belgique Langage adulte / langage enfant Genres spécifiques : journalistique / littéraire /scientifique... Exemple anglais Anglais écrit par des écrivains professionnels, américains natifs (extrait du corpus de Brown)

35 De la question à l opérationalisation Etape de travail 1 Définir la population 2 Comment on compte les passifs en anglais?

36 Différentes manières de compter... Type/Token (vocabulaire / occurrences) Type : Combien de formes de passifs différentes a-t-on? Token : Combien d occurrences de passifs a-t-on? Combien y a-t-il de passifs en anglais? (dans la population) Une infinité!

37 Comptage (fréquence relative) Il est inutile de reporter des comptes absolus (ex. j ai trouvé exemples de passifs) si on ne donne pas la taille du corpus (erreur fréquente) On peut reporter plutôt une fréquence de passifs : On considère tous les passifs potentiels, par exemple tous les VPs On reporte la fréquence relative (proportion), càd: V P passive ν = V P passif + V P actif Etat des lieux Après avoir caractérisé la population et formuler l hypothèse, on a que la question initiale devient : Est-ce que la proportion observée ν de VP passifs en anglais américain dans un corpus représentatif est différente de la proportion théorique π = 10%?

38 Nécessité d un corpus représentatif Les statistiques inférentielles cherchent à permettre une généralisation à la population à partir d un échantillon (représentatif). Pour échantilloner parfaitement (en théorie), on peut voir le langage (la population) comme une bibliothèque comportant une infinité de livres, la procédure (théorique) à suivre est la suivante : 1 Prendre un livre au hasard 2 Ouvrir le livre à une page au hasard 3 Choisir un VP au hasard dans la page Recommencer l étape précédente jusqu à obtenir un échantillon de la taille désirée. Échantilonnage aléatoire

39 Biais d échantillonnage How random is a corpus? Une technique différente qui ne choisit que quelques livres produit un échantillon biaisé (!) La raison est que le lexique (voire certaines constructions) est distribué inégalement selon les corpus, certains mots ont tendance a être sur-représentés dans les textes (ce qui reflète par exemple la thématique du texte) S. Evert, How Random is a Corpus? The Library Metaphor

40 Inférence à partir d un échantillon Principe de statistiques inférentielles : Si l échantillon est tiré de manière parfaitement aléatoire, les proportions observées dans l échantillon doivent être relativement proches des proportions observées dans la population Exemple : On a l affirmation que π = 10% de passifs en anglais On prélève dans une bibliothèque infinie 100 exemples de VP au hasard dont 19 sont passifs (ν = 12%) Peut-on conclure que l affirmation de 10% est erronée car ν > π? Autre échantillon : On prélève dans une bibliothèque infinie 100 exemples de VP au hasard dont 13 sont passifs (ν = 9%) Peut-on conclure que l affirmation de 10% est erronée car ν < π?

41 Variation d échantillonage et inférence statistique L échantillonage aléatoire nous assure que en moyenne les proportions observées dans l échantillon sont celles de la populations Il y a cependant une variance d échantillonage, s explique par le hasard du tirage au sort. Le but de l inférence statistique est d estimer et de corriger ces effets de variation due au hasard.

42 Exercice Exercice sur la variance d échantillonnage R possède une commande sample qui permet de tirer au sort artificiellement des échantillons : > ech <- sample(c("active","passive"),10,replace=true) # Tirer 10 fois au sort actif ou passif > length(ech[ech=="active"])/length(ech) # Proportion de resultats==actif Répéter la commande suivante 10 fois, noter à chaque fois la proportion de résultats = actif; calculer la moyenne d échantillonage Donner la moyenne générale et une idée de la dispersion autour de cette moyenne Recommencer l exercice, cette fois en utilisant un échantillon plus important (100 exemples) et comparer les moyennes et la dispersion > ech <- sample(c("active","passive"),100,replace=true)

43 Solution # This function prints the sampling mean and sampling sd # for samples with different sizes exosample <- function(size){ propvec <- c() for(i in c(1:10)){ ech <- sample(c("active","passive"),size,replace=true) prop <- length(ech[ech=="active"])/length(ech) propvec <- c(propvec,prop) } print(mean(propvec)) print(sd(propvec)) } > exosample(10) [1] 0.46 [1] > exosample(100) [1] [1] > exosample(1000) #Dispersion decroit! [1] [1]

44 Test d hypothèse (Intro) Une méthode destinée à décider si la différence de proportions que l on observe entre notre échantillon et la proportion réelle de la population est le test d hypothèse Ici on a l hypothèse que 10% des VPs en anglais américain seront passifs et on veut vérifier si nos observations (modulo variance d échantillonage) confirment ou pas cette hypothèse Démarche Hypothèse nulle (H 0 ): la proportion de passifs en anglais est de 10% On cherche à montrer que cette hypothèse ne tient pas Méthode brutale : on demande à beaucoup de linguistes de refaire la même expérience, et on regarde au final si en moyenne les échantillons comportent bien 10% de passifs...

45 Méthode de calcul Plutôt que de recourir à la méthode brutale, on peut remarquer que notre problème correspond à un problème mathématique connu (tirer à pile ou face à répétition): P P P F P F P F P Or les mathématiciens (probabilités) peuvent nous dire quelle est la probabilité d obtenir la proportion observée dans différents échantillons si on connait π la probabilité théorique (ici 10%) et n le nombre d éléments dans l échantillon : ( ) n P(x) = π x (1 π) n x x où x représente le nombre de passifs dans l échantillon et où P(x) dénote la probabilité d obtenir un échantillon de proportion x

46 Représentation graphique P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon Détails Chaque barre représente la probabilité de tirer un échantillon de proportion donnée sachant que la probabilité théorique est de 0.1. Par exemple, la barre numéro 14, nous dit que nous avons 5.1% de chances de tirer un échantillon avec 14 verbes au passif

47 Exercice : apprivoiser la loi binomiale On peut représenter la loi binomiale P(x) = ( n) x p x (1 p) n x dans R en utilisant les commandes suivantes: > n <- 10 > x <- 0:n > y <- dbinom(x,n,0.5) > plot(x,y,type="h",lwd=10,col="blue") Exercice Refaire la manipulation en changeant les valeurs de p : 0.1,0.3,0.7,0.9 Refaire la manipulation en fixant p = 0.5 et en changeant les valeurs de n : 10, 100, 1000, (changez le paramètre lwd = 1 pour la lisibilité) : qu observez-vous lorsque n augmente?

48 Représentation graphique P(x) = pourcentage d échantillons Variation normale Variation improbable x = proportion de passifs dans l échantillon Zones critiques On peut définir des valeurs de proportions des échantillons qui sont anormales (probabilité faible α < 0.05) Si l échantillon que l on a tombe dans cette zone, on conclut que l hypothèse de départ est à rejeter. (l échantillon constitue un contre-exemple)

49 Test d hypothèse (synthèse) 1 Poser une hypothèse nulle (π = 10%) 2 Poser un seuil d anormalité sur la loi de probabilité (α = 0.5%) 3 Conclure (ici, un échantillon avec 19% de passifs est anormal tandis qu un échantillon avec 13% de passifs est normal) Erreur de type I En rejetant l hypothèse, on court le risque qu elle soit vraie, mais que le tirage au sort de notre échantillon soit tout à fait exceptionnel. Rejeter une hypothèse dans ces conditions, c est commettre une erreur de Type I.

50 Test d hypothèse avec R # (Nombre de passifs observes,taille echantillon,proba theorique) > binom.test(13,100,0.1) Exact binomial test data: 13 and 100 number of successes = 13, number of trials = 100, p-value = alternative hypothesis: true probability of success is not equal to percent confidence interval: sample estimates: probability of success 0.13 > binom.test(19,100,0.1) Exact binomial test data: 19 and 100 number of successes = 19, number of trials = 100, p-value = alternative hypothesis: true probability of success is not equal to percent confidence interval: sample estimates: probability of success 0.19

51 Puissance d un test Erreur de type II L erreur de type II consiste à accepter à tort l hypothèse nulle. La puissance d un test est la capacité du test à nous éviter de commettre une erreur de type II Augmenter la puissance d un test Pour augmenter la puissance d un test, la règle générale est d augmenter la quantité de données dans l échantillon, c est ce que nous illustrons dans la suite

52 Inférence statistique et taille des échantillons Imaginons que l on ne connaisse pas précisément à priori la probabilité théorique π On peut se donner une idée de la proportion π dans la population uniquement à partir d un échantillon La technique consiste à utiliser les tests d hypothèses à l envers (!)

53 Intervalles de confiance Supposons que l on observe 19 passifs dans un échantillon de 100 VPs. Si on ne connait pas π, on peut réaliser des tests d hypothèses en série en essayant toutes les valeurs de π On a une série de valeurs de π où H 0 est vérifiée, cela définit en fait une intervalle dans laquelle π doit se trouver

54 Illustration p = 0.10 P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon

55 Illustration p = 0.13 P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon

56 Illustration p = 0.19 P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon

57 Illustration p = 0.27 P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon

58 Illustration p = 0.30 P(x) = pourcentage d échantillons x = proportion de passifs dans l échantillon

59 Observation On voit que les intervalles que l on a trouvés graphiquement correspondent à la rubrique intervalle du résultat du test précédent donné par R : 95 percent confidence interval: On peut voir que la taille de l intervalle de confiance diminue lorsque la taille de l échantillon augmente La taille de l intervalle de confiance augmente lorsque le seuil de significativité α diminue.

60 Exercice On calcule les intervalles de confiance avec une commande du type : > binom.test(19,100) #Directement > library(hmisc) > binconf(19,100,method="exact") PointEst Lower Upper Fixer α = 0.05 ; observer l évolution des intervalles de confiance, avec les valeurs suivantes : x=19, n=100 ; x= 190, n=1000, x = 1900, n = 1000 Observer l évolution des intervales de confiance avec les seuils α = 0.05, α = 0.01, α = (en spécifiant le paramètre conf.level = 0.95, 0.99, 0.999)

61 Solution n=100 n=1000 n=10000 k=19 k=190 k= 1900 α = α = α =

62 Intervalles de confiance et taille d échantillon Intervalle de confiance, alpha = n=20 n=100 n=1000 n=10000 MLE Proportion d observations (x/n) Intervalle plus grande quand proportion observée proche de 0.5 Intervalle plus grande quand échantillon plus petit

63 Note sur MLE Notons que pour k observations sur n tirages, l estimateur de maximum de vraisemblance (Maximum Likelihood Estimator) est le ratio k n, ce qui correspond à la valeur de p (parmi toutes les valeurs possibles) pour laquelle P(x) est maximale. L estimateur de maximum de vraisemblance assume que la probabilité théorique p de la population est k n (la fréquence des succès) même si il y a incertitude (liée à la taille de l échantillon) Exercice pour les LI Faire un graphique de la fonction de vraisemblance avec R : «n P(x, n p) = p x (1 p) n x x en fixant x = 19, n = 100, et p varie. Observez que argmax p «p 19 (1 p) = 19

64 Comparaisons de fréquences Beaucoup de problèmes de linguistique peuvent être représentés par des comparaisons de fréquences, exemples: Utilise-t-on plus de prépositions en Français moderne qu en ancien français? Les belges utilisent-ils plus la forme une fois en fin de phrase que les français? Est-ce que Miaou apparaît plus souvent dans le contexte de chat que dans le contexte d autres mots? Collocations L adjectif est-il plus souvent antéposé en Ancien français qu en français moderne?...

65 Opérationalisation Ici, comparaison de l usage du passif en anglais américain vs anglais continental (données factices) : En R 19 passifs dans 100 VPs dans Brown ; 47 passifs dans 200 VPs dans Lob Représentation des données dans une matrice 2 2: x 1 x 2 n 1 x 1 n 2 x 2 > mc <- matrix((19,81,47,153),ncol=2) > mc

66 Différents tests Test du χ 2 (au moins 5 observations dans chaque cellule, de préférence 20) Test exact de Fisher : peu d observations dans chaque cellule Test du rapport de log vraisemblance (Log likelihood ratio test, s applique dans les mêmes conditions que χ 2 ) > prop.test(mc) > chisq.test(mc) > fisher.test(mc) # pas de loglikelihood ratio test predefini.. >?chisq.test >?fisher.test

67 Interprétation des résultats On accorde de l importance à la p-valeur, pour décider Ceci, dit : Si la taille de l échantillon est trop faible, de grosses différences seront non significatives (tester la matrice suivante) > m = matrix(c(10,80,20,80),ncol=2) > chisq.test(m) > fisher.test(m) Plus, il y a de données, plus le test tend à être significatif (puissance du test) Si la taille de l échantillon est trop importante, la moindre différence devient significative (cas des tests de collocation en Tal) Il convient de faire attention non seulement à la significativité du test mais aussi à sa pertinence pour en interpréter les résultats

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Cours 7 : Exemples I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de

Plus en détail

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE Les résultats donnés par R et SAS donnent les valeurs des tests, la valeur-p ainsi que les intervalles de confiance. TEST DE COMPARAISON

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

Normalité des rendements?

Normalité des rendements? Normalité des rendements? Daniel Herlemont 31 mars 2011 Table des matières 1 Introduction 1 2 Test de Normalité des rendements 2 3 Graphiques quantile-quantile 2 4 Estimation par maximum de vraisemblance

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

EXEMPLE : FAILLITE D ENTREPRISES

EXEMPLE : FAILLITE D ENTREPRISES EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : «Applied Multivariate Statistical

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

MAT 2377 Solutions to the Mi-term

MAT 2377 Solutions to the Mi-term MAT 2377 Solutions to the Mi-term Tuesday June 16 15 Time: 70 minutes Student Number: Name: Professor M. Alvo This is an open book exam. Standard calculators are permitted. Answer all questions. Place

Plus en détail

Introduction à MATLAB R

Introduction à MATLAB R Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

L analyse discriminante

L analyse discriminante L analyse discriminante À Propos de ce document... Introduction... La démarche à suivre sous SPSS... 2. Statistics... 2 2. Classify... 2 Analyse des résultats... 3. Vérification de l existence de différences

Plus en détail

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 R est un langage de programmation. L objet de base est un vecteur de données. C est un «vrai» langage c.-à-d. types

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Niveau. Situation étudiée. Type d activité. Durée. Objectifs. Seconde.

Niveau. Situation étudiée. Type d activité. Durée. Objectifs. Seconde. Simuler des expériences aléatoires avec une calculatrice Niveau Seconde. Situation étudiée Différentes selon les séances : Séance 1 : Jeu de pile ou face, tirages de boule dans une urne avec des proportions

Plus en détail

LES DECIMALES DE π BERNARD EGGER

LES DECIMALES DE π BERNARD EGGER LES DECIMALES DE π BERNARD EGGER La génération de suites de nombres pseudo aléatoires est un enjeu essentiel pour la simulation. Si comme le dit B Ycard dans le cours écrit pour le logiciel SEL, «Paradoxalement,

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

Quelques analyses simples avec R en écologie des communautés

Quelques analyses simples avec R en écologie des communautés Jérôme Mathieu janvier 2007 Quelques analyses simples avec R en écologie des communautés 1 Visualisation des données... 2 Aperçu rapide d'un tableau de données... 3 Visualiser les corrélations entre des

Plus en détail

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader Terminale STMG O. Lader Table des matières 1 Information chiffrée (4s) 4 1.1 Taux d évolution....................................... 6 1.2 indices............................................. 6 1.3 Racine

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Les défis statistiques du Big Data

Les défis statistiques du Big Data Les défis statistiques du Big Data Anne-Sophie Charest Professeure adjointe au département de mathématiques et statistique, Université Laval 29 avril 2014 Colloque ITIS - Big Data et Open Data au cœur

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Exemple PLS avec SAS

Exemple PLS avec SAS Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that

Plus en détail

Points méthodologiques Adapter les méthodes statistiques aux Big Data

Points méthodologiques Adapter les méthodes statistiques aux Big Data Points méthodologiques Adapter les méthodes statistiques aux Big Data I. Répétition de tests et inflation du risque alpha II. Significativité ou taille de l effet? 2012-12-03 Biomédecine quantitative 36

Plus en détail

Méthodes non paramétriques par permutations

Méthodes non paramétriques par permutations Méthodes non paramétriques par permutations Denis Puthier 11 juin 2008 Laboratoire INSERM TAGC/ERM206, Parc Scientifique de Luminy case 928,13288 MARSEILLE cedex 09, FRANCE. http://biologie.univ-mrs.fr/view-data.php?id=245

Plus en détail

Modélisation aléatoire en fiabilité des logiciels

Modélisation aléatoire en fiabilité des logiciels collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.

Plus en détail

MAÎTRISE DE L ENVIRONNEMENT WINDOWS VISTA

MAÎTRISE DE L ENVIRONNEMENT WINDOWS VISTA MAÎTRISE DE L ENVIRONNEMENT WINDOWS VISTA OBJECTIFS : manipuler les fenêtres et l environnement Windows, gérer ses fichiers et dossiers, lancer les applications bureautiques présentes sur son poste. PUBLIC

Plus en détail

LES GENERATEURS DE NOMBRES ALEATOIRES

LES GENERATEURS DE NOMBRES ALEATOIRES LES GENERATEURS DE NOMBRES ALEATOIRES 1 Ce travail a deux objectifs : ====================================================================== 1. Comprendre ce que font les générateurs de nombres aléatoires

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

Estimation du Quantile conditionnel par les Réseaux de neurones à fonction radiale de base

Estimation du Quantile conditionnel par les Réseaux de neurones à fonction radiale de base Estimation du Quantile conditionnel par les Réseaux de neurones à fonction radiale de base M.A. Knefati 1 & A. Oulidi 2 & P.Chauvet 1 & M. Delecroix 3 1 LUNAM Université, Université Catholique de l Ouest,

Plus en détail

THÉORIE DE L'INFORMATION : RAPPELS

THÉORIE DE L'INFORMATION : RAPPELS THÉORIE DE L'INFORMATION : RAPPELS 1920 : premières tentatives de définition de mesure de l'information à partir de 1948 : travaux de Shannon Théorie de l'information discipline fondamentale qui s'applique

Plus en détail

Utilisation du Logiciel de statistique SPSS 8.0

Utilisation du Logiciel de statistique SPSS 8.0 Utilisation du Logiciel de statistique SPSS 8.0 1 Introduction Etude épidémiologique transversale en population générale dans 4 pays d Afrique pour comprendre les différences de prévalence du VIH. 2000

Plus en détail

TESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme

TESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme TESTS D HYPOTHÈSE FONDÉS SUR LE χ² http://fr.wikipedia.org/wiki/eugénisme Logo du Second International Congress of Eugenics 1921. «Comme un arbre, l eugénisme tire ses constituants de nombreuses sources

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Le modèle linéaire généralisé avec R : fonction glm()

Le modèle linéaire généralisé avec R : fonction glm() SEMIN- Le modèle linéaire généralisé avec R : fonction glm() Sébastien BALLESTEROS UMR 7625 Ecologie Evolution Ecole Normale Supérieure 46 rue d'ulm F-75230 Paris Cedex 05 sebastien.ballesteros@biologie.ens.fr

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre. Université de Nantes Année 2013-2014 L3 Maths-Eco Feuille 6 : Tests Exercice 1 On cherche à connaître la température d ébullition µ, en degrés Celsius, d un certain liquide. On effectue 16 expériences

Plus en détail

De la gendarmerie, à l astrophysique.., mesurer une vitesse à partir de l effet Doppler

De la gendarmerie, à l astrophysique.., mesurer une vitesse à partir de l effet Doppler Terminale S Propriétés des ondes TP De la gendarmerie, à l astrophysique.., mesurer une vitesse à partir de l effet Doppler Objectifs : Mettre en oeuvre une démarche expérimentale pour mesurer une vitesse

Plus en détail

Statistique Descriptive et Inférentielle Méthodes paramétriques et non paramétriques

Statistique Descriptive et Inférentielle Méthodes paramétriques et non paramétriques Fiche TD avec le logiciel : a2-1-c Statistique Descriptive et Inférentielle Méthodes paramétriques et non paramétriques Sylvain Mousset Rappels de probabilités / statistiques Table des matières 1 Probabilités

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

C est quoi, Facebook?

C est quoi, Facebook? C est quoi, Facebook? aujourd hui l un des sites Internet les plus visités au monde. Si tu as plus de 13 ans, tu fais peut-être partie des 750 millions de personnes dans le monde qui ont une page Facebook?

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

Lancement du logiciel R à l UTES :

Lancement du logiciel R à l UTES : ISUP CS1 TP d introduction à R Le logiciel R est un logiciel libre. Pour télécharger une version du logiciel, il faut passer par CRAN (Comprehensive R Archive Network), un réseau mondial de sites qui stockent

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Approche bayésienne des modèles à équations structurelles

Approche bayésienne des modèles à équations structurelles Manuscrit auteur, publié dans "42èmes Journées de Statistique (2010)" Approche bayésienne des modèles à équations structurelles Séverine Demeyer 1,2 & Nicolas Fischer 1 & Gilbert Saporta 2 1 LNE, Laboratoire

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Cours de Programmation Orientée Objet

Cours de Programmation Orientée Objet Contrat et application à la librairie standard JAVA mailto:marc.champesme@lipn.univ-paris13.fr 6 février 2011 1 Qu est ce qu une classe? Un exemple en JAVA Résumé Expression du contrat Par des commentaires

Plus en détail

ALEATOIRE - Les enjeux du cours de Probabilités en première année de l Ecole Polytechnique

ALEATOIRE - Les enjeux du cours de Probabilités en première année de l Ecole Polytechnique ALEATOIRE - Les enjeux du cours de Probabilités en première année de l Ecole Polytechnique Télécom ParisTech, 09 mai 2012 http://www.mathematiquesappliquees.polytechnique.edu/ accueil/programmes/cycle-polytechnicien/annee-1/

Plus en détail

l École nationale des ponts et chaussées http://cermics.enpc.fr/scilab

l École nationale des ponts et chaussées http://cermics.enpc.fr/scilab scilab à l École nationale des ponts et chaussées http://cermics.enpc.fr/scilab Tests de comparaison pour l augmentation du volume de précipitation 13 février 2007 (dernière date de mise à jour) Table

Plus en détail

Introduction à la théorie des files d'attente. Claude Chaudet Claude.Chaudet@enst.fr

Introduction à la théorie des files d'attente. Claude Chaudet Claude.Chaudet@enst.fr Introduction à la théorie des files d'attente Claude Chaudet Claude.Chaudet@enst.fr La théorie des files d'attente... Principe: modélisation mathématique de l accès à une ressource partagée Exemples réseaux

Plus en détail

FIMA, 7 juillet 2005

FIMA, 7 juillet 2005 F. Corset 1 S. 2 1 LabSAD Université Pierre Mendes France 2 Département de Mathématiques Université de Franche-Comté FIMA, 7 juillet 2005 Plan de l exposé plus court chemin Origine du problème Modélisation

Plus en détail

CHAMPION Matthieu Modèles de Marché en Visual Basic ESILV S04 S6. Sommaire... 1. Introduction... 2

CHAMPION Matthieu Modèles de Marché en Visual Basic ESILV S04 S6. Sommaire... 1. Introduction... 2 Sommaire Sommaire... 1 Introduction... 2 1 Trois différentes techniques de pricing... 3 1.1 Le modèle de Cox Ross Rubinstein... 3 1.2 Le modèle de Black & Scholes... 8 1.3 Méthode de Monte Carlo.... 1

Plus en détail

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes IUT HSE Probabilités et Statistiques Feuille : variables aléatoires discrètes 1 Exercices Dénombrements Exercice 1. On souhaite ranger sur une étagère 4 livres de mathématiques (distincts), 6 livres de

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Notions de probabilités

Notions de probabilités 44 Notions de probabilités Capacités Expérimenter, d abord à l aide de pièces, de dés ou d urnes, puis à l aide d une simulation informatique prête à l emploi, la prise d échantillons aléatoires de taille

Plus en détail

La nouvelle planification de l échantillonnage

La nouvelle planification de l échantillonnage La nouvelle planification de l échantillonnage Pierre-Arnaud Pendoli Division Sondages Plan de la présentation Rappel sur le Recensement de la population (RP) en continu Description de la base de sondage

Plus en détail

4. Résultats et discussion

4. Résultats et discussion 17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

Fiche de révision sur les lois continues

Fiche de révision sur les lois continues Exercice 1 Voir la correction Le laboratoire de physique d un lycée dispose d un parc d oscilloscopes identiques. La durée de vie en années d un oscilloscope est une variable aléatoire notée X qui suit

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011 Dept. de mathématiques, Université de Fribourg (CH) SP 2011 Qu est ce que R? Un logiciel de statistiques libre et gratuit ; Un logiciel multi-plateforme (UNIX, Windows MacOS X) R permet de faire des calculs

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Compilateurs : Analyse lexicale. Vous êtes ici 2. Analyse lexicale 4. Matthieu Amiguet. En entrée d un compilateur, on a généralement un fichier

Compilateurs : Analyse lexicale. Vous êtes ici 2. Analyse lexicale 4. Matthieu Amiguet. En entrée d un compilateur, on a généralement un fichier Compilateurs : Matthieu Amiguet 2009 2010 Vous êtes ici 2 Partie Avant Analyse syntaxique Analyse sémantique Arbre syntaxique abstrait (AST) Partie Arrière Optimisation de l AST Génération de code Optimisation

Plus en détail

Chapitre 1. L algorithme génétique

Chapitre 1. L algorithme génétique Chapitre 1 L algorithme génétique L algorithme génétique (AG) est un algorithme de recherche basé sur les mécanismes de la sélection naturelle et de la génétique. Il combine une stratégie de survie des

Plus en détail

Internet est-il l avenir des enquêtes Génération?

Internet est-il l avenir des enquêtes Génération? Établissement public sous double tutelle des ministères de l'éducation nationale, de l'enseignement supérieur et de la Recherche du Travail, de l Emploi, de la Formation professionnelle et du Dialogue

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

Simulation d un système d assurance automobile

Simulation d un système d assurance automobile Simulation d un système d assurance automobile DESSOUT / PLESEL / DACHI Plan 1 Introduction... 2 Méthodes et outils utilisés... 2.1 Chaines de Markov... 2.2 Méthode de Monte Carlo... 2.3 Méthode de rejet...

Plus en détail

Classe de Terminale S

Classe de Terminale S Classe de Terminale S Programme BO HS n 4 du 30 août 001 II.3 Probabilités et statistique Après avoir introduit en classe de seconde la nature du questionnement statistique à partir de travaux sur la fluctuation

Plus en détail

De la mesure à l analyse des risques

De la mesure à l analyse des risques De la mesure à l analyse des risques Séminaire ISFA - B&W Deloitte Jean-Paul LAURENT Professeur à l'isfa, Université Claude Bernard Lyon 1 laurent.jeanpaul@free.fr http://laurent.jeanpaul.free.fr/ 0 De

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Marketing Data Set: Follow-Up to Purchases of a Consumer Panel

Marketing Data Set: Follow-Up to Purchases of a Consumer Panel Marketing Data Set: Follow-Up to Purchases of a Consumer Panel Typologie des consommateurs et Mesure de la loyauté/fidélité Stéphanie Ledauphin-Menard, Sébastien Lê Face aux problèmes de pouvoir d achat

Plus en détail

Ouvrir ce texte avec Word ou open office- Enregistrez-le dans un format portable sous le nom DM_votreNom

Ouvrir ce texte avec Word ou open office- Enregistrez-le dans un format portable sous le nom DM_votreNom STAGE DOCTORAL INFORMATIQUE POUR LA RECHERCHE Objectif général : BUREAUTIQUE TRAITEMENT DE TEXTE Il s agit de mettre en forme un document libre de droit (le discours de la méthode), de procéder à un certain

Plus en détail

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz

Plus en détail

1.The pronouns me, te, nous, and vous are object pronouns.

1.The pronouns me, te, nous, and vous are object pronouns. 1.The pronouns me, te, nous, and vous are object pronouns.! Marie t invite au théâtre?!! Oui, elle m invite au théâtre.! Elle te parle au téléphone?!! Oui, elle me parle au téléphone.! Le prof vous regarde?!!!

Plus en détail

BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION

BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION À UNE INTERPRÉTATION CAUSALE Arthur Charpentier Professeur d actuariat à l Université du Québec, Montréal Amadou Diogo Barry Chercheur à l Institut de santé

Plus en détail

TD d économétrie appliquée : Introduction à STATA

TD d économétrie appliquée : Introduction à STATA Ecole normale supérieure (ENS) Département d économie TD d économétrie appliquée : Introduction à STATA Marianne Tenand marianne.tenand@ens.fr OBJECTIFS DU TD Découvrir le logiciel d économétrie STATA,

Plus en détail

RAPPORT DE PROJET DATA MINING

RAPPORT DE PROJET DATA MINING DEA 127 : INFORMATIQUE SYSTEMES INTELLIGENTS RAPPORT DE PROJET DATA MINING «Analyse des endettements par niveau de développement des pays» Réalisé par : BELEM MAHAMADOU Sous la direction de : M. EDWIN

Plus en détail