Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Dimension: px
Commencer à balayer dès la page:

Download "Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année 2010-2011"

Transcription

1 Master 1 Biologie et technologie du végétal Année Statistiques Rappels de cours et travaux dirigés (Seul ce document sera autorisé en examen) auteur : Jean-Marc Labatte jean-marc.labatte@univ-angers.fr -1-

2 SOMMAIRE Table des matières Introduction...4 I STATISTIQUES DESCRIPTIVES...6 Fiche 1 Variable qualitative...7 Fiche Couple de variables qualitatives...8 Fiche 3 Variable quantitative...9 Fiche 4 Couple de variables quantitatives - Corrélation...11 Fiche 5 Couple variable quantitative variable qualitative...15 Fiche 6 Estimation ponctuelle d'une moyenne et d'un écart-type, Intervalle de confiance...16 Fiche 7 Estimation ponctuelle d'une fréquence, Intervalle de confiance...0 II TESTS ELEMENTAIRES SUR VARIABLES QUALITATIVES...1 Fiche 8 Comparaison d'une proportion à une référence...3 Fiche 9 Test de conformité à une distribution : test du Chi (génétique)...4 Fiche 10 Test d'indépendance : test du Chi...6 Fiche 11 Comparaison de deux ou plusieurs distributions : test du Chi...8 III TESTS ELEMENTAIRES SUR VARIABLES QUANTITATIVES...9 Fiche 1 Comparaison d'une moyenne à une valeur référence...30 Fiche 13 Comparaison de deux moyennes : t - test...33 Fiche 14 Comparaison de deux moyennes appariées : t-test apparié...35 Fiche 15 Comparaison de moyennes : tests non paramétriques de Mann Whitney - Wilcoxon. 37 Fiche 16 Comparaison de deux variances : Test F...38 Fiche 17 Test de conformité à une distribution : test du...40 Fiche 18 Normalité d'une distribution...41 Fiche 19 Test du coefficient de corrélation...43 IV COMPARAISON DE MOYENNES : ANOVA A UN FACTEUR...44 Fiche 0 Test ANOVA...54 Fiche Validation du modèle...58 Fiche 3 Robustesse de l'anova- Test de Kruskal Wallis...61 Fiche 4 Planification expérimentale...6 Fiche 5 Comparaisons multiples...65 V COMPARAISONS DE MOYENNES : ANOVA à FACTEURS...66 Fiche 6 Test ANOVA...67 Fiche 7 Validation...69 Fiche 8 Interaction entre facteurs...70 VI REGRESSION LINEAIRE SIMPLE...71 Fiche 9 Modèle de régression linéaire simple - Ajustement...7 Fiche 30 Validation du modèle de régression linéaire simple...75 Fiche 31 Remédiation par changement de variables...78 Fiche 3 Tests sur les paramètres - ANOVA...79 Fiche 33 Prédiction...81 Fiche 34 Diagnostics des points...8 VII REGRESSION LINEAIRE MULTIPLE...83 Fiche 35 Test d'un modèle...85 Fiche 36 Recherche du meilleur modèle : stepwise regression...86 Fiche 37 Validation du modèle...88 Annexe A : Lois de probabilités usuelles...90 Annexe B : Tables usuelles...9 Annexe C : Installation de R et quelques commandes

3 Introduction Logiciel, R-commander, ade4 : Le cours et les TD seront illustrés à l'aide du logiciel, version libre du logiciel S-plus. Ce logiciel développé par des statisticiens pour des statisticiens est particulièrement bien adapté à l'analyse statistique descriptive, inférentielle et exploratoire. Pour faciliter son utilisation, nous utilisons un interface appelé R commander. Pour l'analyse factorielle nous recommandons l'usage de ade4 développé par l'université de Lyon. L'apprentissage de ce logiciel est sans doute plus délicat que les logiciels commerciaux mais permet à tous de disposer d'un outil gratuit, très performant, en perpétuelle évolution, exploitable dans toutes les circonstances et permettant à l'utilisateur une totale liberté dans ses choix d'analyse. Quelques liens en statistiques : : mathsv de l'université de Lyon reprend l'ensemble des bases de mathématiques, probabilités et statistiques que devraient posséder les étudiants de biologie. Présentation simple, rigoureuse, adaptée aux biologistes. : Site développé par l'université de Lyon1 sur l'utilisation des statistiques en Biologie, le meilleur site exploitant le logiciel R. : Plan de formation à la pratique statistique développé par la formation permanente de l'inra, bien adaptée à la biologie et pouvant être utilisé à différents niveaux. : Cours de statistiques appliqués assez complet : Ensemble de documents statistiques très intéressants appliqués principalement à l'agronomie. : Présentation simple et agréable / protocoles expérimentaux) Ouvrages en accès libre de Dagnelie (en particulier pour les Quelques références en statistiques Gibert Saporta : Probabilités, analyse des données et statistique, Technip, 006. DAGNELIE, Pierre (1998), Statistique théorique et appliquée. Statistique descriptive et bases de l'inférence statistique, tome 1, De Boeck Remerciements : Merci aux auteurs cités précédemment auxquels j'ai emprunté exemples et analyses. -3-

4 Méthodes présentées Une variable qualitative : test de conformité à une fréquence, test de conformité à une distribution ( ), Test du de comparaison de deux ou plusieurs distributions Deux variables qualitatives : Test du d'indépendance, AFC avec un grand tableau de contingence Une variable quantitative Test de conformité à une moyenne avec une population Test t de comparaison de moyennes avec deux populations ANOVA avec plusieurs populations Deux variables quantitatives ou plus Nuage de points, test de la corrélation entre les deux variables Régression linéaire simple avec deux variables Régression linéaire multiple, ACP, classification avec plus de deux variables Une variable quantitative et une variable ou plusieurs variables qualitatives ANOVA à un ou deux facteurs -4-

5 I STATISTIQUES DESCRIPTIVES Les statistiques descriptives recouvrent les différentes techniques de description des données, synthèse sous forme de paramètres ou de tableaux, représentations graphiques... Pour les grands tableaux, les techniques peuvent devenir plus complexes. Elles ne sont pas abordées ici. Pour mémoire, les principales méthodes d'analyse de données sont : Analyse en composantes principales (ACP) dans le cas de plusieurs variables quantitatives, Analyse des correspondances (AFC) dans le cas de grands tableaux de contingence, Classification (CAH) Les statistiques descriptives sont importantes pour présenter les données, communiquer, déterminer les hypothèses à tester, réaliser une première analyse et interprétation... On oppose les statistiques descriptives aux statistiques inférentielles dont l'objectif est de mettre en place des règles de décision afin de réaliser des tests statistiques. Nous aborderons ce domaine dans les chapitres suivants. Les données sous R et Rcmdr : En général, une ligne d'un tableau représente un individu. Les colonnes sont les variables qualitatives ou quantitatives, mesurées sur chaque individu. Dans ce cours, toutes les données sont avec les individus en ligne et les variables quantitatives et qualitatives (facteur) en colonne. Seuls les tableaux de contingence seront sous un autre format. Ces tableaux sont appelés dataframe sous R et ont des propriétés particulières. Une colonne de nombres est considérée comme une variable quantitative (numéric). Pour créer une variable qualitative (facteur) avec Rcmdr, il faut créer une colonne character en tapant des lettres ou des nombres. Pour saisir les données, on peut utiliser le tableur de Rcmdr : Données Nouveau jeu de données Pour récupérer un fichier déjà saisi sous tableur (csv ou txt), Données Importer des données Depuis un fichier txt (ou autre) -5-

6 Fiche 1 Variable qualitative Un caractère est dit qualitatif s'il est mesuré dans une échelle nominale (couleur, marque), les modalités ne sont pas hiérarchisées, s'il est mesuré dans une échelle ordinale (stades d'une maladie, classes d'âge...), les modalités sont alors hiérarchisées. Les graphiques et les tests dépendront de la nature des caractères. effectif observé Paramètre statistique Fréquence f = effectif total Réprésentations graphiques : nominale : diagramme circulaire (pie) ordinale : diagramme en bâton ou rectangle (barplot). Etude d'un exemple : Après inoculation d'un pathogène dans une plante, le stade de la maladie a été mesuré sur 5 plantes. Le stade est noté de I (aucun symptôme) à V (plante morte). Le résultat de l'étude est décrit dans le tableau suivant : stade I II III IV V Effectif Total fréquence a. Sous quelle forme étaient les données brutes? b. Créer un tableau patho1 contenant les données (rappel : une ligne = un individu) c. Calculer les fréquences. Statistiques Résumé Distribution des fréquences d. Représenter sous R graphiquement ce tableau. Graphes Graphe en barre : barplot ou en camenbert : pie 5 var1 4 3 Frequency var1 On peut ajouter un titre en tapant sous R : title(«distribution des fréquences») -6-

7 Fiche Couple de variables qualitatives Etude d'un exemple : Le tableau résume la présence ou l'absence d'une infection bactérienne en fonction de l'utilisation ou non d'une antibiothérapie ou d'un placebo. a) Compléter le tableau en ajoutant les fréquences ainsi que les effectifs marginaux. b) Construire le tableau sous l'hypothèse d'indépendance entre les deux caractères. Tableau observé nij Antibio Placebo Total ni absence 75 7 présence 10 9 Total ni Tableau théorique sous l'hypothèse H 0 d'indépendance nij = ni n j n Antibio Placebo Total ni absence présence Total ni Statistiques Tables de contingence Remplir et analyser un tableau à double entrée saisir le tableau et cocher la case Imprimer attendues pour obtenir le tableau sous H 0. les fréquences Représentations graphiques On peut utiliser un diagramme en bâtons bidimensionnel ou comparer les distributions conditionnelles. par(mfrow=c(,1)) barplot(c(75,10)/85*100,ylim=c(0,100),main="antibio",names.arg=c("abs","pre")) barplot(c(7,9)/56*100,ylim=c(0,100),main="placebo",names.arg=c("abs","pre")) antibio abs pre placebo abs pre -7-

8 Fiche 3 Variable quantitative On appelle variable quantitative une variable qui se mesure dans une échelle discrète ou continue. 1. Tableau de répartition, calcul de fréquence, histogramme En présence d'une variable continue, les observations sont souvent regroupées par classe. Le nombre de classe N à construire est défini pour que les classes aient en général une amplitude identique et un effectif minimal suffisant. Ce nombre N peut être calculé empiriquement à partir de la règle de Sturge : N=1+ 3,3 log 10 n amplitude On détermine ensuite les classes [xi,xi+1[ avec xi+1 -xi =, en arrondissant si besoin. N Exemple hauteur : La mesure de la hauteur de 10 étudiants donne les résultats suivant : classe [165;170[ [170;175[ [175;180[ [180;185[ [185;190[ total effectif fréquence Données Gérer les variables dans le jeu de données actives Découper une variable numérique en classe. Paramètres de position et de dispersion La définition théorique de la moyenne x et de la variance S² est : n n x = xi S = x i x = et n i=1 n i=1 n n x i x i =1 Dans la pratique, on utilise un échantillon de la population pour estimer ces coefficients. On note x et s les estimateurs de ces paramètres. L'estimateur de la variance S calculé en divisant par n étant biaisé, on l'estime par s : n 1 x = xi n i =1 1 s = n 1 n x i x i =1 La médiane est le réel séparant la population en deux groupes de même effectif. On donne une définition analogue pour les quartiles, déciles... Exemple : Calculer à la main la moyenne, la médiane, les quartiles et l'écart-type de la hauteur des étudiants. -8-

9 Avec R: Statistiques Résumés Statistiques descriptives 3. Représentations graphiques : Histogramme, boxplot... Histogramme Graphe Histogramme Boxplots young h 185 Graphe Boîte de dispersion -9-

10 Fiche 4 Couple de variables quantitatives - Corrélation Sur chaque individu de l'échantillon sont mesurées maintenant deux variables quantitatives X et Y. Après un analyse de chacune de ces variables (fiche Variable quantitative), on procède à l'étude de la relation entre ces deux variables. Existe-t-il une liaison entre les deux variables? Cette relation est-elle linéaire ou non linéaire? La description de la liaison entre les deux variables se fait en premier lieu par un examen du nuage de points (xi,yi). L'observation du nuage permet de justifier la linéarité ou non de la relation (des tests existent mais nécessitent des conditions d'application rarement atteintes). relation fonctionnelle linéaire relation fonctionnelle non linéaire On procède dans le cas où la liaison est linéaire au calcul d'un paramètre de la liaison linéaire entre les deux variables, le coefficient de corrélation de Pearson : r= xi x yi y x y Ce coefficient est compris entre -1 et 1. Plus r est proche de +1, plus les variables sont positivement corrélées, lorsqu'une variable augmente l'autre a tendance à augmenter en parallèle. Plus r est proche de -1, plus les variables sont négativement corrélées, lorsqu'une variable augmente l'autre a tendance à diminuer en parallèle. Quand r est proche de 0, les variables ne sont pas significativement corrélées, les variations d'une variable n'apporte pas d'information sur les variations de l'autre variable. Il existe un test statistique permettant de tester l'hypothèse nulle H 0 «r = 0» (fiche #correlation) dans le cas d'une liaison linéaire. Dans le cas où H 0 est rejetée, on réalise en général une régression linéaire (chapitre III) de Y en X ou de X en Y

11 Quelques illustrations pour différentes valeurs de r : Etude de l'exemple arbre: Une étude de la liaison entre l âge (années) et le diamètre (cm) dans une population d arbres Age Diamètre Nuage de points Graphe Nuage de point

12 Calcul de la corrélation : Statistiques Résumé matrice de corrélation age cm age cm

13 Etude de l'exemple crabs (library MASS, fichier crabs) Données Données dans les package Lire les données dans les packages a. Etudier les relations entre les variables BD et CL CL 35 Matrice des nuages de points Graphe Nuage de point Graphe Matrice de nuages de points Corrélation et Matrice des corrélations Test du coefficient de corrélation Statistiques Résumés Matrice de corrélation Statistiques Résumés Test du coefficient BD CL CW FL BD CL CW FL BD t = ,df = 198, p-value <.e-16 H0 : Conclusion : alternative hypothesis: true correlation is not equal to 0 95 percent confidence interval: sample estimates: cor b. La relation est-elle similaire en fonction de l'espèce? Statistiques Résumés Descriptions statistiques sélectionner graphe par groupe mean sd 0% 5% 50% 75% 100% n B O sp B O 30 5 CL 35 Graphe Nuage de point 15 0 sélectionner graphe par groupe Graphe Graphe XY conditionnel sélectionner conditions BD

14 Fiche 5 Couple variable quantitative variable qualitative Il arrive fréquemment que l'on étudie une variable quantitative dans différentes populations ou en fonction d'un facteur (variable qualitative). L'objectif est donc ici d'observer d'éventuelles différences entre les populations (ou modalités d'un facteur). Exemple bébé: On considère étudie le poids des bébés en fonction du sexe et on obtient pour 5 filles.8 ; 3; 3 ; 3. ; 3.3 et pour 4 garçons 3; 3.; 3.4, 3.6. On souhaite étudier l'influence du sexe sur le poids des bébés. Statistiques Résumés Statistiques descriptives f m mean sd 0% 5% 50% 75% 100% n Boîte de dispersion Diagramme de la moyenne avec IC 95% Graphe Boîte de dispersion Graphe Graphe des moyennes

15 Fiche 6 Estimation ponctuelle d'une moyenne et d'un écarttype, Intervalle de confiance On dispose en général d'un échantillon prélevé dans une population pour laquelle la variable quantitative X a une moyenne µ et une variance inconnues. Règle pour l'estimation ponctuelle : Soit une variable quantitative X mesurée sur un échantillon de n individus, la moyenne est estimée par x = 1 n n xi i =1 n la variance est estimée par s X = 1 x x n 1 i = 1 i D'un échantillon à l'autre, les estimations ponctuelles vont varier d'autant plus que sa taille n est faible. Pour affiner l'estimation de ces paramètres, on détermine alors un intervalle de confiance dans lequel les valeurs réelles µ ou ont une probabilité déterminée à l'avance de se trouver. Cet intervalle de confiance, noté IC, permet ainsi de prendre en compte la variabilité de l'estimation ponctuelle. Simulation d'un exemple. n =50 et que l'on On suppose que la variable X suit la loi binomiale de paramètre p =0,01 et dispose d'un N-échantillon de 30 valeurs. Comment varie la moyenne estimée d'un échantillon? Distribution Distribution discrète Binomiale n=50, p=0,01 Graphe ou Echantillon Probability Mass Binomial Distribution: T rials = 50, Probability of success = Number of Successes Histogr am of apply(echantillonsbinomiaux, 1, mean) 0 5 F requency On obtient alors l'histogramme des 100 moyennes estimées (means) : apply(e chanti llonsb i nomiaux, 1, mean) Empiriquement, 95% des moyennes sur 30 échantillons tombent entre 6,4 et 8,4 (on a enlevé les 5 valeurs extrêmes sur les 100)

16 En théorie, on dispose de résultats plus précis dans les cas suivantes : On peut considérer que la variable X suit une loi normale. L'échantillon est suffisamment grand (>30) pour utiliser le théorème central limit. On peut alors considérer que la moyenne des échantillons suit une loi normale (mais pas forcément X). Théorème central limit : Soit X 1,, X n une suite de variables aléatoires indépendantes et identiquement distribuées, de même espérance et variance finies. La moyenne M n = loi normale N(, X 1 X n converge en loi vers la n ). n C'est bien ce que l'on observe par simulation dans l'exemple précédent. Propriétés de l'estimateur x cas 1 : n 30 et la variable X suit une loi normale (fiche #Normalité) x Si est connue, alors u = suit la loi normale centrée réduit n x Si est inconnue, alors t = s X suit la loi de Student à n 1 degrés de liberté. n Cas : Pour n 30 (application du théorème central limite) x t= s X suit la loi normale centrée réduite n Propriété de l'estimateur s X dans le cas où la variable X suit une loi normale Density Chi-Squared Distribution: df = 14 n 1 s X suit la loi du à n-1 ddl χ

17 Construction d'un intervalle de confiance pour la moyenne: x On recherche toutes les valeurs possibles de µ pour lesquelles t = s X soit compris entre tα / et t1-α / n t1-α / est le quantile de la loi normale ou de la loi de student à n-1 ddl pour laquelle P(t<t1-α / )=1-α/ donc P (tα / < t < t1-α /)=1- α (par symétrie tα / =- t1-α / ). On a alors l intervalle de confiance à 1-α pour : x -t1-α/ sx sx < µ < x +t1-α/ n n Pour = 5%, ce résultat signifie que "la vraie moyenne, μ", de la population a une probabilité de 95% d être dans cet intervalle. On notera par commodité cet intervalle de confiance IC 95. Construction d'un intervalle de confiance pour la variance : On recherche toutes les valeurs possibles de pour lesquelles et 1, n 1 n 1 s X soit compris entre, n 1 (ici il n'y a pas symétrie des quantiles). n 1 s X α <, n 1) = donc, n 1 est le quantile dans la table pour laquelle P( On a alors l intervalle de confiance à 1-α pour : n 1 s X / 1, n 1 < < n 1 s X /, n 1 Exemple hauteur : Reprendre l'exemple hauteur pour lequel x =177 et s X = 7 et en déduire un intervalle à 95% de et de. Calcul à la main de IC 95 :

18 Distribution de t : Chi-Squared Distribution: df = Density Density t Distribution: df = 14 5 t χ Quantile 0,975 : Distribution Distribution continue Distribution t Quantile On trouve les quantiles 0,05 ; 14 = 5,63 et 0,975 ; 14 = 6,11 Calcul avec R de IC 95 : Statistiques Moyenne t-test univarié data: hauteur$h t = , df = 14, p-value <.e-16 alternative hypothesis: true mean is not equal to 0 95 percent confidence interval: sample estimates: mean of x

19 Fiche 7 Estimation ponctuelle d'une fréquence, Intervalle de confiance Si une population contient une proportion f d individus possédant un caractère donné, l'estimateur de ce paramètre est la fréquence du caractère dans l'échantillon, noté f. Propriété de f pour n >100 et 0,1< f <0,9 f suit la loi normale N (f, f 1 f ) n Dans les autres cas, n<100 ou f < 0,1, il faut utiliser un modèle exact (binom.test dans R). Pour construire l'intervalle de confiance de f, on reprend un raisonnement analogue à la fiche précédente. Dans la pratique, comme on ne connaît pas f, on la remplace par f. Propriété : Pour un échantillon tel que n >100 et n f >10 et n(1- f )>10 : L intervalle de confiance à 1-α d une proportion est : ] f - u1-α / f 1n f ; f + u1-α / f 1n f [ où u1-α / représente le quantile de la loi normale centrée réduite. Pour =5%, u1-α /=1,96. Exemple : Un laboratoire d agronomie a effectué une étude sur le maintien du pouvoir germinatif des graines de Papivorus subquaticus après une conservation de 3 ans. Sur un lot de 80 graines, 47 ont germé. Calculer la probabilité de germination des graines de Papivorus subquaticus après trois ans de conservation avec un coefficient de confiance de 95%. Calcul à la main de IC 95 : Calcul avec R : prop.test(47,80) data: binom.test(47,80) 47 of 80, null probability 0.5 X-squared =.11,df=1, p-value = alternative hypothesis: equal to 0.5 true 95 percent confidence interval: sample estimates: p p is number of successes = 47, trials = 80, p-value = number of alternative hypothesis: true probability notof success is not equal to percent confidence interval: sample estimates: probability of success

20 II TESTS ELEMENTAIRES SUR VARIABLES QUALITATIVES La majorité des tests élémentaires repose sur le principe suivant : 1. On définit une hypothèse nulle notée H 0 contre l'hypothèse alternative H (généralement H 0 n'est pas vérifiée). Le test a pour objectif d'accepter H 0 ou de rejeter H 0 avec un risque connu à partir des données dont on dispose. Les principales hypothèses nulles H 0 sont : Variables qualitatives «la fréquence observée est conforme à la fréquence attendue» prop.test «la distribution observée est conforme à la distribution attendue» «les distributions observées sont identiques» «les variables qualitatives sont indépendantes» Variables quantitatives «la moyenne observée est conforme à une valeur attendue» test t «les moyennes sont égales» test t «les moyennes appraiées sont égales» test t apparié «les variances sont égales» test F «les q moyennes sont égales» ANOVA, test F «les q variances sont égales» Test de Bartlett «Le coefficient de corrélation est nul» test de corrélation «La distribution de la variable suit une loi normale» test de shapiro. On détermine alors une statistique qui est une variable aléatoire construite à partir des données. Sous H 0, cette variable suit une loi de probabilité connue. On détermine alors l'intervalle dans lequel doit tomber la statistique avec une probabilité donnée, 95% le plus souvent. Unilatéral (test F, ) Bilatéral (test t ) - 0 -

21 3. On définit alors la règle de décision suivante : Si la statistique tombe dans l'intervalle, on accepte H 0. Attention, cela ne veut pas dire que H 0 est vraie, mais que les données et le test ne permettent pas de voir un écart significatif à H 0. Si la statistique ne tombe pas dans l'intervalle, on rejette H 0 avec un risque de première espèce connu de se tromper. On peut donc rejeter H 0 alors que H 0 est vraie, mais on connait le risque que l'on prend, p-value. En général, les ordinateurs calculent la valeur p -value de ce risque. On concluera alors que l'on rejette H 0 avec un risque de première espèce p -value. Plus p -value est faible (<0,05), plus le rejet est significatif. 4. La validité du test dépend souvent de certaines conditions sur les données, appelées conditions d'utilisation du test. Ces conditions doivent être vérifiées avant de pouvoir conclure. Pour la majorité des tests dits paramétriques (test t, ANOVA, régression), les conditions sont : Indépendance des individus. Les variables suivent des lois normales. Les variances sont stables. Pour les tests non paramétriques, seule l'hypothèse d'indépendance est nécessaire. Par exemple : On souhaite étudier le taux de cholestérol en fonction du sexe. On prend 30 hommes à Lille et 30 femmes à Marseille. On veut comparer le taux moyen en fonction du sexe mais le fait-on vraiment ici. Les individus ne sont pas choisis aléatoirement et on risque d'étudier autre chose que le sexe, l'alimentation par exemple (huile d'olive et beurre). L'indépendance est l'hypothèse la plus importante, sans elle les données ne servent à rien. Il faut donc bien réfléchir au préalable au protocole (risques de gradient, de facteurs cachés, tirage aléatoire, ). 5. Bilan Après avoir défini H 0 et le test en conséquence, on calcule la statistique et p-value la probabilité d'observer une valeur supérieure à cette statistique sous H 0 (en valeur absolue). La conclusion dépend alors de p-value : Si p> ( p>0,05), on accepte H 0 Si p < ( p <0,05), on rejette H 0 avec un risque de première espèce égal à (ou p). En conclusion d'un test, on utilise le terme significatif (rejet) ou non significatif (acceptation), par exemple : Si on accepte H 0 p 0,05 «les moyennes sont égales», on conclut les moyennes ne sont pas significativement différentes. Si on rejette H 0 p 0,05 «les moyennes sont égales», on conclut les moyennes sont significativement différentes avec un risque de première espèce égal à p-value

22 Fiche 8 Comparaison d'une proportion à une référence Objectif : Tester si une fréquence est conforme à une fréquence attendue. Soit une variable X prenant deux modalités (absence/présence). cas favorables Le but est de savoir si un échantillon de fréquence observée f =, estimateur de f, total appartient à une population de référence connue de fréquence f 0 ( H 0 vraie) ou à une autre population inconnue de fréquence f f 0 (H vraie). Données : Une variable qualitative avec deux modalités. Hypothèse nulle : La fréquence est f 0. Principe du test : f f 0 On calcule la statistique u= f o 1 f 0 qui suit sous H 0 la loi normale centrée réduite. n On calcule alors la probabilité p -value d'observer une valeur supérieure ou égale sous H 0 (en valeur absolue). Conditions d'utilisation : Le test est applicable si n f 0 10 et n(1- f 0) 10 Si cette condition n'est pas vérifiée, on utilise un test exact (binom.test). Les individus sont indépendants. (approximation par la loi normale). Test : On teste H 0 f = f 0 contre H f f 0. Si p >0,05, on accepte H 0. Si p <0,05, on rejette H 0 avec un risque de première espèce p. Exemple : On observe le sexe de 10 bébés : M F M M F F F F M F Cette proportion est-elle conforme à 0,5. Saisir le tableau et convertir en facteur, puis utiliser : Statistiques Proportion Porportion univarié Avec R : prop.test(4,10,p=0.5) ou binom.test(4,10,p=0,5) pour un petit effectif data: 4 out of 10, null probability 0.5 X-squared = 0.1, df = 1, p-value = alternative hypothesis: true p is not equal to percent confidence interval: sample estimates: p

23 Fiche 9 Test de conformité à une distribution : test du Chi (génétique) Objectif : On considère une variable X prenant k modalités, k > (pour k =, voir la fiche précédente). L'objectif du test est de vérifier que les modalités se distribuent suivant des probabilités attendues. On utilise un tel test en génétique par exemple pour vérifier : 1 1,, pour F) les lois de Mendel, (répartition le modèle de Hardy Weinberg. (répartition p1, p 1 p, p ). Données : Les données sont regroupées dans un tableau de contingence de la forme : Variable qualitative Modalité 1 Modalité... effectif n1obs nobs... Hypothèse nulle : H 0 «Les fréquences observées sont conformes aux probabilités attendues». Principe du test : Le principe du test du χ est d estimer à partir d une loi de probabilité connue (ou estimée à partir de l'échantillon), les effectifs théoriques pour les différentes modalités du caractère étudié et les comparer aux effectifs observés dans un échantillon. Deux cas peuvent se présenter : soit la loi de probabilité est spécifiée a priori car elle résulte par exemple d un modèle déterministe tel que la distribution mendélienne des caractères. soit la loi de probabilité théorique n est pas connue a priori et elle est déduite des caractéristiques statistiques mesurées sur l échantillon (estimation de p1 et p dans le cas du modèle de Hardy Weinberg). Le test du χ consiste à mesurer l écart qui existe entre la distribution théorique et la distribution observée et à tester si cet écart est suffisamment faible pour être imputable aux fluctuations d échantillonnage. On calcule les effectifs théoriques n1th eor, nth eor... attendus sous l'hypothèse où la distribution est conforme à celle attendue. On calcule ensuite la statistique : = k i =1 niobs nith eor n ith eor suit sous H 0 la loi du à degrés de liberté. On rejette alors H 0 dans le cas où dépasse la valeur seuil 1 (v)

24 Le nombre de ddl est k c, k représente le nombre de modalités et c celui des contraintes. Si la distribution théorique est entièrement connue a priori (lois mendeliennes), la seule contrainte est que la somme des probabilités vaut 1, donc = k 1. Sinon, il faut estimer des probabilités sur l'échantillon et augmenter d'autant les contraintes. Par exemple avec le modèle de Hardy Weinberg, la somme des probabilités vaut 1 et il faut estimer p1, soit c=, donc = k. Test : On teste l hypothèse H 0 (conforme à la distribution attendue) < 1 (v), on accepte H 0 -si -sinon on rejette H 0 avec un risque de première espèce α (ou p). i ( nth eor 5). Dans le cas contraire, on peut regrouper les classes les plus faibles, utiliser un test du corrigé, utiliser le test exact de Fisher... Conditions d'application : Les effectifs théoriques doivent être supérieurs à 5 Exemple Les résultats observés par Mendel sur le croisement de pois Jaune-Rond et Vert Ridé en F ont été : Jaune Ronde : 315 Jaune Ridée : 101 Verte Ronde : 108 Verte Ridée : 3 1. Quels sont les allèles dominants, le génotype en F1?. Les lois de Mendel sont-elles vérifiées? 3. Quels sont les effectifs attendus? Avec R : > chisq.test(c(315,101,108,3),p=c(9/16,3/16,3/16,1/16)) X-squared = 0.47, df = 3, p-value = H0 : Conclusion : - 4 -

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Introduction à la Statistique Inférentielle

Introduction à la Statistique Inférentielle UNIVERSITE MOHAMMED V-AGDAL SCIENCES FACULTE DES DEPARTEMENT DE MATHEMATIQUES SMI semestre 4 : Probabilités - Statistique Introduction à la Statistique Inférentielle Prinemps 2013 0 INTRODUCTION La statistique

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

Statistique : Résumé de cours et méthodes

Statistique : Résumé de cours et méthodes Statistique : Résumé de cours et méthodes 1 Vocabulaire : Population : c est l ensemble étudié. Individu : c est un élément de la population. Effectif total : c est le nombre total d individus. Caractère

Plus en détail

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Lecture critique d article Rappels Bio statistiques Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Plan du cours Rappels fondamentaux Statistiques descriptives Notions de tests statistiques

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre. Université de Nantes Année 2013-2014 L3 Maths-Eco Feuille 6 : Tests Exercice 1 On cherche à connaître la température d ébullition µ, en degrés Celsius, d un certain liquide. On effectue 16 expériences

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences

Plus en détail

Evaluation de la variabilité d'un système de mesure

Evaluation de la variabilité d'un système de mesure Evaluation de la variabilité d'un système de mesure Exemple 1: Diamètres des injecteurs de carburant Problème Un fabricant d'injecteurs de carburant installe un nouveau système de mesure numérique. Les

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

T de Student Khi-deux Corrélation

T de Student Khi-deux Corrélation Les tests d inférence statistiques permettent d estimer le risque d inférer un résultat d un échantillon à une population et de décider si on «prend le risque» (si 0.05 ou 5 %) Une différence de moyennes

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Une introduction. Lionel RIOU FRANÇA. Septembre 2008 Une introduction INSERM U669 Septembre 2008 Sommaire 1 Effets Fixes Effets Aléatoires 2 Analyse Classique Effets aléatoires Efficacité homogène Efficacité hétérogène 3 Estimation du modèle Inférence 4

Plus en détail

Séries Statistiques Simples

Séries Statistiques Simples 1. Collecte et Représentation de l Information 1.1 Définitions 1.2 Tableaux statistiques 1.3 Graphiques 2. Séries statistiques simples 2.1 Moyenne arithmétique 2.2 Mode & Classe modale 2.3 Effectifs &

Plus en détail

TESTS D'HYPOTHESES Etude d'un exemple

TESTS D'HYPOTHESES Etude d'un exemple TESTS D'HYPOTHESES Etude d'un exemple Un examinateur doit faire passer une épreuve type QCM à des étudiants. Ce QCM est constitué de 20 questions indépendantes. Pour chaque question, il y a trois réponses

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr

Régression linéaire. Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr Régression linéaire Nicolas Turenne INRA nicolas.turenne@jouy.inra.fr 2005 Plan Régression linéaire simple Régression multiple Compréhension de la sortie de la régression Coefficient de détermination R

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision Page n 1. Tests du χ 2 une des fonctions des statistiques est de proposer, à partir d observations d un phénomène aléatoire (ou modélisé comme tel) une estimation de la loi de ce phénomène. C est que nous

Plus en détail

TESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme

TESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme TESTS D HYPOTHÈSE FONDÉS SUR LE χ² http://fr.wikipedia.org/wiki/eugénisme Logo du Second International Congress of Eugenics 1921. «Comme un arbre, l eugénisme tire ses constituants de nombreuses sources

Plus en détail

Cours de Tests paramétriques

Cours de Tests paramétriques Cours de Tests paramétriques F. Muri-Majoube et P. Cénac 2006-2007 Licence Ce document est sous licence ALC TYPE 2. Le texte de cette licence est également consultable en ligne à l adresse http://www.librecours.org/cgi-bin/main?callback=licencetype2.

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1 Premiers pas avec SES-Pegase 1 Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données www.delta-expert.com Mise à jour : Premiers pas avec SES-Pegase

Plus en détail

Statistiques descriptives

Statistiques descriptives Statistiques descriptives L3 Maths-Eco Université de Nantes Frédéric Lavancier F. Lavancier (Univ. Nantes) Statistiques descriptives 1 1 Vocabulaire de base F. Lavancier (Univ. Nantes) Statistiques descriptives

Plus en détail

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9 Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9 L analyse de variance à un facteur permet de vérifier, moyennant certaines hypothèses, si un facteur (un critère de classification,

Plus en détail

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen Probabilité et Statistique pour le DEA de Biosciences Avner Bar-Hen Université Aix-Marseille III 2000 2001 Table des matières 1 Introduction 3 2 Introduction à l analyse statistique 5 1 Introduction.................................

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

Classe de première L

Classe de première L Classe de première L Orientations générales Pour bon nombre d élèves qui s orientent en série L, la classe de première sera une fin d étude en mathématiques au lycée. On a donc voulu ici assurer à tous

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

IBM SPSS Statistics Base 20

IBM SPSS Statistics Base 20 IBM SPSS Statistics Base 20 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 316. Cette version s applique à IBM SPSS

Plus en détail

ANTISELECTION ET CHOIX D'ASSURANCE : LE CAS DU VOL EN HABITATION UNE APPROCHE DE LA MESURE DU PHENOMENE

ANTISELECTION ET CHOIX D'ASSURANCE : LE CAS DU VOL EN HABITATION UNE APPROCHE DE LA MESURE DU PHENOMENE ANTISELECTION ET CHOIX D'ASSURANCE : LE CAS DU VOL EN HABITATION UNE APPROCHE DE LA MESURE DU PHENOMENE Yannick MACÉ Statisticien-Economiste Responsable du Secteur Analyses Techniques, Groupama (C.C.A.M.A.)

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

Le risque Idiosyncrasique

Le risque Idiosyncrasique Le risque Idiosyncrasique -Pierre CADESTIN -Magali DRIGHES -Raphael MINATO -Mathieu SELLES 1 Introduction Risque idiosyncrasique : risque non pris en compte dans le risque de marché (indépendant des phénomènes

Plus en détail

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014 Tests du χ 2 Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux 4 2013-2014 A. Lourme http://alexandrelourme.free.fr Outline

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

Cours 9 : Plans à plusieurs facteurs

Cours 9 : Plans à plusieurs facteurs Cours 9 : Plans à plusieurs facteurs Table des matières Section 1. Diviser pour regner, rassembler pour saisir... 3 Section 2. Définitions et notations... 3 2.1. Définitions... 3 2.2. Notations... 4 Section

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

SIG ET ANALYSE EXPLORATOIRE

SIG ET ANALYSE EXPLORATOIRE SIG ET ANALYSE EXPLORATOIRE VERS DE NOUVELLES PRATIQUES EN GÉOGRAPHIE Jean-Marc ORHAN Equipe P.A.R.I.S., URA 1243 du CNRS Paris Résumé L'offre actuelle dans le domaine des logiciels de type Système d'information

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr

Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr Dominique Muller Laboratoire Inter-universitaire de Psychologie Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr Supports de cours : webcom.upmf-grenoble.fr/lip/perso/dmuller/m2r/acm/

Plus en détail

LES GENERATEURS DE NOMBRES ALEATOIRES

LES GENERATEURS DE NOMBRES ALEATOIRES LES GENERATEURS DE NOMBRES ALEATOIRES 1 Ce travail a deux objectifs : ====================================================================== 1. Comprendre ce que font les générateurs de nombres aléatoires

Plus en détail

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES Enseignement du Deuxième Cycle des Etudes Médicales Faculté de Médecine de Toulouse Purpan et Toulouse Rangueil Module I «Apprentissage de l exercice médical» Coordonnateurs Pr Alain Grand Pr Daniel Rougé

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie» Centre de recherche en démographie et sociétés UCL/IACCHOS/DEMO Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie» 1 2 3+ analyses univariées Type de variables

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

Théorie des sondages : cours 5

Théorie des sondages : cours 5 Théorie des sondages : cours 5 Camelia Goga IMB, Université de Bourgogne e-mail : camelia.goga@u-bourgogne.fr Master Besançon-2010 Chapitre 5 : Techniques de redressement 1. poststratification 2. l estimateur

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Exercices supplémentaires sur l introduction générale à la notion de probabilité 2009-2010

Exercices supplémentaires sur l introduction générale à la notion de probabilité 2009-2010 Exercices supplémentaires sur l introduction générale à la notion de probabilité 2009-2010 Exercices fortement conseillés : 6, 10 et 14 1) Un groupe d étudiants est formé de 20 étudiants de première année

Plus en détail

Localisation des fonctions

Localisation des fonctions MODALISA 7 Localisation des fonctions Vous trouverez dans ce document la position des principales fonctions ventilées selon l organisation de Modalisa en onglets. Sommaire A. Fonctions communes à tous

Plus en détail

Probabilités conditionnelles Loi binomiale

Probabilités conditionnelles Loi binomiale Exercices 23 juillet 2014 Probabilités conditionnelles Loi binomiale Équiprobabilité et variable aléatoire Exercice 1 Une urne contient 5 boules indiscernables, 3 rouges et 2 vertes. On tire au hasard

Plus en détail

Un exemple de régression logistique sous

Un exemple de régression logistique sous Fiche TD avec le logiciel : tdr341 Un exemple de régression logistique sous A.B. Dufour & A. Viallefont Etude de l apparition ou non d une maladie cardiaque des coronaires 1 Présentation des données Les

Plus en détail

Méthodes quantitatives en sciences humaines. 2 Pratique : 2 Étude personnelle : 2. BUREAU poste courriel ou site web

Méthodes quantitatives en sciences humaines. 2 Pratique : 2 Étude personnelle : 2. BUREAU poste courriel ou site web 360-300-RE HIVER 2008 MATHÉMATIQUES Plan de cours COURS : Méthodes quantitatives en sciences humaines PROGRAMME : 300.A0 Sciences humaines DISCIPLINE : Mathématiques Pondération : Théorie : 2 Pratique

Plus en détail

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) CIVILITE-SES.doc - 1 - Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants) 1 PRÉSENTATION DU DOSSIER CIVILITE On s intéresse

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1 INTRODUCTION ça L'INFçERENCE STATISTIQUE 1. Introduction 2. Notion de variable alçeatoire íprçesentation ívariables alçeatoires discrçetes ívariables alçeatoires continues 3. Reprçesentations d'une distribution

Plus en détail

Étude des flux d individus et des modalités de recrutement chez Formica rufa

Étude des flux d individus et des modalités de recrutement chez Formica rufa Étude des flux d individus et des modalités de recrutement chez Formica rufa Bruno Labelle Théophile Olivier Karl Lesiourd Charles Thevenin 07 Avril 2012 1 Sommaire Remerciements I) Introduction p3 Intérêt

Plus en détail

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1 33 Math. Inf. Sci. hum., (33 e année, n 130, 1995, pp.33-42) UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES Éric TÉROUANNE 1 RÉSUMÉ Le stéréogramme de liaison est

Plus en détail

Loi binomiale Lois normales

Loi binomiale Lois normales Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli

Plus en détail

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Agence fédérale pour la Sécurité de la Chaîne alimentaire Administration des Laboratoires Procédure DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES Date de mise en application

Plus en détail

Feuille d exercices 2 : Espaces probabilisés

Feuille d exercices 2 : Espaces probabilisés Feuille d exercices 2 : Espaces probabilisés Cours de Licence 2 Année 07/08 1 Espaces de probabilité Exercice 1.1 (Une inégalité). Montrer que P (A B) min(p (A), P (B)) Exercice 1.2 (Alphabet). On a un

Plus en détail

Résumé du Cours de Statistique Descriptive. Yves Tillé

Résumé du Cours de Statistique Descriptive. Yves Tillé Résumé du Cours de Statistique Descriptive Yves Tillé 15 décembre 2010 2 Objectif et moyens Objectifs du cours Apprendre les principales techniques de statistique descriptive univariée et bivariée. Être

Plus en détail

Statistique inférentielle TD 1 : Estimation

Statistique inférentielle TD 1 : Estimation POLYTECH LILLE Statistique inférentielle TD : Estimation Exercice : Maîtrise Statistique des Procédés Une entreprise de construction mécanique fabrique de pièces demoteurdevoiturepourungrandconstructeur

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail