BIOSTATISTIQUES AVANCEES PLAN. Quelques références. Master Biologie Intégrative 1 ère année

Dimension: px
Commencer à balayer dès la page:

Download "BIOSTATISTIQUES AVANCEES PLAN. Quelques références. Master Biologie Intégrative 1 ère année"

Transcription

1 Master Biologie Intégrative 1 ère année 1 BIOSTATISTIQUES AVANCEES Yves Desdevises! Observatoire Océanologique de Banyuls-sur-Mer (www.obs-banyuls.fr)! ! PLAN 2 1. Rappels : données, tests, plans d expérience, distributions 2. Comparaison de 2 groupes : variances et moyennes 3. Comparaison de plus de 2 groupes : test d homogénéité des variances, analyses de variance à 1 et 2 facteurs 4. Relations entre variables : corrélation 5. Relations entre variables : régression simple 6. Régression multiple et analyse de covariance 7. Analyse multivariable 8. Analyse de survie Générales Quelques références Sokal RR & Rohlf FJ Biometry. 4th Revised Edition, Freeman and co., New York. Zar JH Biostatistical Analysis. 5th Edition, Pearson. Frontier S, Davoult D, Gentilhomme V & Lagadeuc Y Statistique pour les sciences de la vie et de l environnement. Cours et exercices corrigés. Dunod. Triola MM & Triola MF Biostatistics for the Biological and Health Science. Pearson. Traduction française en 2009 : Biostatistiques pour les sciences de la vie et de la santé. Scherrer B Biostatistiques volumes 1 et 2. Gaëtan Morin. 3 Simplifiées Dytham C Choosing and Using Statistics. A Biologist s Guide. 3 rd Edition. Blackwell Publishing. McKillup S Statistics Explained. 2nd Edition. Cambridge University Press.! van Emden H Statistics for Terrified Biologists. Blackwell Publishing. Plus spécialisées Legendre P & Legendre L Numerical Ecology. 3rd English Edition. Development in Environmental Modelling, 20. Elsevier. Underwood AJ Experiments in Ecology. Cambridge University Press. 4

2 Quelques logiciels 5 R (www.r-project.org) JMP (www.jmp.com) Statdisk (http://statdisk.com/) XLStat (www.xlstat.com) Minitab (www.minitab.com) Statistica (www.statsoft.com) SAS (www.sas.com/technologies/analytics/stat) 6 1. INTRODUCTION RAPPELS Statistique : Etude scientifique des données numériques décrivant les variations naturelles Biostatistique Application à la biologie Biometry Important : savoir décider de la méthode à utiliser Bien connaître les méthodes : conditions d utilisation, limitations,... Penser aux statistiques avant de collecter les données 7 Utilité et utilisation des statistiques en biologie Description Vue synthétique et rationnelle des données Inférence Economie de travail par l étude d échantillons représentatifs Décision Test d hypothèse 8

3 Pourquoi utiliser les statistiques en biologie? 9 Biologie : incertitude des résultats expérimentaux ou des observations Variabilité génétique Variabilité de réaction individuelle Variabilité du développement Définitions 10 Objet = observation = élément = unité d échantillonnage : élément sur lequel on mesure des caractéristiques (variables) Echantillon : ensemble des objets Population cible : ensemble des objets visés par une étude scientifique Population statistique : ensemble des objets représentés par l échantillon. C est sur elle que se fait l inférence 11 Variable = descripteur = facteur = trait : caractéristique mesurée ou observée sur les objets. Ex : longueur, température,... Variable dépendante (Y) = réponse Variable indépendante (X) = explicative Variable aléatoire : résultat d un processus aléatoire, valeur précise inconnue avant la mesure Variable contrôlée : décidée par l expérimentateur, erreur = mesure seulement Paramètre : caractéristique quantitative permettant une représentation condensée d information contenue dans un ensemble de données. Ex : moyenne, pente,... Variance = inertie = carré moyen : somme des carrés des écarts à la moyenne (SCE)/nombre d objets (paramètre de dispersion) 12

4 Ecart-type (standard deviation) : racine carrée de la variance. Même unité que la variable S x = S x 2 13 Erreur-type (standard error) : écart-type de la distribution d échantillonnage de la moyenne (dispersion des estimations de la moyenne de plusieurs échantillons d une même population). Sert à calculer un intervalle de confiance Interprétation de l'écart-type 14 Barres d'erreurs : attention! 15? 16

5 Modèle déterministe Variables Modèle aléatoire 17 Intensité de la déformation Force de frappe 1 cause : 1 effet Dose d'engrais Terme déterministe : loi du phénomène Terme aléatoire : variabilité du phénomène Hasard, fluctuations Autres facteurs, souvent à expliquer Croissance 1 cause : n effets variabilité Analyse statistique : étude des phénomènes stochastiques Discrimination de la loi du phénomène et de sa variabilité 18 Différents types de variables 19 Binaire : 2 états. Ex : présence-absence Multiple : plus de 2 états Non-ordonnée = qualitative = nominale. Ex : couleur Ordonnée Semi-quantitative = ordinale = de rang. Ex : classes Quantitative Discontinue = discrète. Ex : nombre d individus Continue. Ex : longueur 20 Transformations Standardisation : y' = (y - y )/s (s = écart-type ; on obtient une variable centrée et réduite). y = 0 et s = 1, variables non-dimensionnelles Normalisation et stabilisation des variances : y' = log (b 0 + b 1 y) ; y' = y ;... Linéarisation Pondération

6 Statistiques descriptives 21 Exploration des données A calculer avant chaque test Mesures standards : n, moyenne, variance (écart-type), distribution (histogramme ou graphe de quantilenormale),... Identifier les valeurs extrêmes ou aberrantes A ne pas oublier Statdisk - Explore Data Printed on Mer 10 sep 2008 at 9:08 Statdisk - Scatterplot Printed on Mer 10 sep 2008 at 9:08 X Value Plans d échantillonnage Principalement pour organismes fixes (ou localités,...) Echantillonnage aléatoire : représentatif Aléatoire : chaque membre de la population a la même probabilité d être choisi Aléatoire simple : chaque échantillon de taille n a la même probabilité d être choisi. Condition pour de nombreux tests 23 Echantillonnage systématique : mieux avec des informations supplémentaires (nombre total, organisation spatiale) Risque (faible) de coïncider avec une périodicité naturelle 24

7 Echantillonnage aléatoire stratifié : échantillonnage aléatoire au sein de zones définies (strates), souvent selon des caractéristiques définies (âge, sexe, végétation,...) 25 Echantillonnage en grappe Division de la population en sections (grappes) Sélection aléatoire des grappes Choix de tous les membres des grappes sélectionnées Echantillonnage opportun En fonction des circonstances Sur les objets faciles à obtenir Exemple : réponses seulement de ceux qui participent de façon active à un sondage Pas un bon plan d'échantillonnage! Plans d expérience 28 Méthode expérimentale Travail sur un système simplifié dont on étudie la réponse à la variation de peu de facteurs à la fois Important : rigueur Construction : hypothèse nulle et hypothèse contraire Répondre spécifiquement à une question (critère de validité générale) Minimiser l erreur de Type I Application : analyse de variance (ANOVA)

8 Concepts 29 Elément d observation Sur lequel on fait les mesures de la (des) variable(s) Ex : individus, quadrats,... Unité d expérimentation Contient les éléments Reçoit le traitement Ex : parcelle, bassin, Facteur : plusieurs valeurs possibles Niveaux ou traitements Contrôle Groupe non traité Traitement (placebo, manipulation seule,...) Bloc Groupe d unités d échantillonnage, défini a priori Expérience de mesure d un phénomène naturel En milieu naturel : pas (peu) de contrôle des variables Mesure du profil de variabilité du phénomène Expérience contrôlée Utilisation de traitements contrôlés Réduction de l influence des autres facteurs Elimination Constance Inclusion dans l analyse 31 Répétition (= replication) Mesure de la variabilité du système (répétitions biologiques, pas techniques) Pseudoréplication Due à la non-indépendance des observations, qui ne sont pas alors de vrais réplicats 32 Validité générale Variations dues exclusivement au facteur étudié Validité externe Généralisation à d autres systèmes Simplification pas trop importante

9 Aléatoire 33 Blocs randomisés Systématique Ségrégation simple Ségrégation agrégée Ségrégation isolative Répétitions physiquement interdépendantes Pas de répétitions Tests statistiques Important de bien définir l hypothèse nulle (H 0 ) La seule que l on étudie = hypothèse principale Contient généralement "=" La statistique testée possède une distribution connue Hypothèse contraire (H ; "hypothèse alternative") 1 Contient généralement " ", ">"ou "<" On ne peut la prouver, elle est plausible si H 0 est rejetée Grande importance de l hypothèse biologique Statistique magie!! Conditions En général 3 conditions pour un test : Loi (Normale, Student, F,...) Indépendance des observations Homogénéité des variances (homoscédasticité) Loi de distribution théorique générée à partir des processus naturels, sous certaines conditions : probabilité d apparition de toutes les valeurs d une variable Besoin de tester la distribution observée sur l échantillon (impossible sur la population) Erreur de Type I (α) : probabilité de se tromper en rejetant H 0 (donc H 0 est vraie). Seuil fixé 36 Robustesse d un test : sensibilité aux conditions d applications Un test est robuste s il fonctionne bien même quand les conditions nécessaires à son fonctionnement ne sont pas optimales Puissance d un test : capacité à mettre en évidence de petites différences Aptitude à rejeter H lorsqu elle est fausse (= 1 - ß 0 (erreur de Type II)) Fonction de : test, nombre d observations, variance, α

10 37 H0 H1 Puissance d un test : n optimal 38 Question récurrente : de combien d objets (observations, prélèvements,...) a-t-on besoin pour établir une différence significative, s il y en a une? Exemple : utilisation de la statistique-test t Il faut d abord estimer la variance et avoir une idée de l écart entre populations (étude préalable) Utilisation de la formule de t pour trouver le n nécessaire à mettre en évidence un écart significatif défini à l aide de la valeur critique de t Importance de l amplitude de la différence entre la vraie valeur du paramètre testé et sa valeur supposée par hypothèse On affine la puissance (en modifiant α, n,...) en fonction de l écart choisi (qui dépend du degré de précision souhaité) Exemple : si la vraie valeur est 0,5, un test plus puissant est nécessaire pour identifier comme significativement différente de celle-ci une valeur mesurée de 0,501 qu une valeur de 0,6 On cherche souvent à obtenir une puissance de 0,8 : 80 % de chance de prendre la bonne décision de rejeter une hypothèse nulle fausse 39 Test unilatéral ou bilatéral 40 Dépend de la formulation de H 1 : hypothèse biologique Unilatéral : la différence est attendue dans un certain sens (> ou <). Bilatéral : on cherche seulement à savoir s il y a une différence, quel qu en soit le sens. Valeurs critiques différentes (dans les tables statistiques) : seuils à partir duquel on rejette H 0 Différence au niveau de la puissance

11 41 But du test : savoir si on doit rejeter ou non H 0 Risque d erreur due à la variabilité des observations Référence à une distribution, dans laquelle se place la statistique (= paramètre) testée Loi de distribution théorique Exemple de la loi Normale : tests paramétriques Génération empirique de la distribution Tests par permutations Pas de distribution Tests non paramétriques Les tests non paramétriques sont basés sur la notion de rang Permettent de mettre en évidence des relations monotones Pour 2 variables : augmentation ou diminution constante d une variable quand l autre augmente monotones non monotone Test par permutations : exemple 20 individus en 2 groupes de 10 ; variable = taille Question : la taille moyenne est-elle différente dans chaque groupe? H : la taille moyenne est la même 0 Statistique testée (= variable auxiliaire) : différence entre les moyennes Sous H 0, elle devrait se situer autour de 0 44

12 N importe quelle combinaison aléatoire de 2 groupes de 10 parmi les 20 individus correspond à une réalisation de H 0 45 Chacune de ces réalisations va donner une différence de moyenne entre les deux groupes plus ou moins grande Un grand nombre de ces réalisations permet de générer une distribution de la statistique sous H 0 Ces réalisations sont obtenues en permutant au hasard les données originales : test par permutations On compare ensuite la valeur observée de la statistique à cette distribution 46 t* <!t! t* =!t!!t!< t* <!t! t* =!t! t* >!t! Statistic t Distribution théoriques 47 Variables discontinues Loi binomiale Loi de Poisson Variables continues Loi Normale Loi du Khi-2 (X 2 ) Loi de Fisher Loi de Student 48 Distribution la plus importante : distribution Normale (= Gaussienne) Théorème de la limite centrale (central limit theorem) Quand une variable aléatoire résulte de nombreux effets indépendants et additifs, dont aucun n est dominant, cette variable tend à suivre une distribution normale, même si les effets ne suivent pas une telle distribution Souvent le cas dans la nature

13 Normalité : évaluation visuelle de la distribution des données Histogramme : en cloche Graphe quantile-normale (= quantile-quantile) : points en ligne droite Mieux pour petits échantillons Statdisk - Normal Quantile Plot Printed on Mar 9 sep 2008 at 14:40 49 X Value Tests de normalité 50 A faire avant d utiliser les tests paramétriques Exemple : test de Kolmogorov-Smirnov, Shapiro-Wilks H 0 : Distribution normale KS : Compare la distribution observée d une variable avec une distribution normale de mêmes paramètres, mesure l écart entre les deux distribution Données multinormales : test de multinormalité Test de Dagnelie Transformations 51 Beaucoup de méthodes d analyse statistiques requièrent que les données suivent une certaine distribution, notamment la distribution Normale Si la distribution n est pas normale Méthodes non-paramétriques Transformation des données : normalité Autre intérêt : stabilisation des variances (doivent être indépendantes des moyennes) Exemples 52 Données d abondance Distribution asymétrique Distribution de Poisson Distribution contagieuse Données en proportions ou pourcentages

14 Transformation Logarithme y = ln(y + c) Distributions contagieuses 53 Transformation racine y = (y + c) Distributions de Poisson : variance = moyenne Transformation arcsinus y = arcsin p Distributions en proportions 56 Transformation Box-Cox Formule générale Quand tout le reste a échoué Pas calculable à la main : technique itérative

15 Choix d une méthode 1 variable 2 groupes : test t, test U,... 2 variables Liaison : corrélation, test du Χ 2 Modèle : régression simple > 2 variables Description : ordination sans contrainte, groupement > 2 groupes : ANOVA, ANCOVA, test de Kruskal-Wallis,... Test : test de Mantel, régression multiple, analyse canonique, MANOVA COMPARAISON DE DEUX GROUPES 2 groupes d observations indépendantes : 2 échantillons pouvant être Indépendants Appariés H 0 : Les 2 groupes sont issus de la même population, avec donc la même moyenne NB : il existe des tests spécifiques pour comparer des proportions 2 étapes : Comparaison des variances Comparaison des moyennes Important de tester préalablement l homogénéité des variances car c est une condition d application de certains tests (tests paramétriques) Sinon, en cas d hétéroscédasticité : test simultané de 2 hypothèses nulles Problème de Behrens-Fisher Le rejet de H 0 peut être due à la différence des moyennes (la seule hypothèse qu on veut tester) ou à celle des variances

16 Comparaison de 2 variances 61 Test de Fisher-Snedecor (test F), pour données quantitatives normalement distribuées Statistique F : rapport des variances, tenant compte du nombre d objets par groupes par l intermédiaire des degrés de liberté Si égalité des variances, F doit se situer autour de 1 La variable F obéit à une loi de distribution de F 62 Pour 2 groupes à n 1 et n 2 objets F = s 2 1 /s2 2 Sous H 0, F suit une loi à (n 1-1) et (n 2-1) ddl Conditions Indépendance des observations Normalité des données Souvent, les tables ne donnent que les valeurs critiques de F dans la droite de la distribution F = plus grande variance/plus petite variance Test unilatéral (souvent) ou bilatéral On peut également tester les écarts-types par un test F

17 Comparaison de 2 moyennes Test t Pour échantillons appariés ou non appariés Test statistique Paramétrique : référence à la loi Normale Comparaison de t au seuil dans une table de Student Par permutations Tests non paramétriques Test U de Wilcoxon-Mann-Whitney (échantillons non appariés) Test des rangs signés de Wilcoxon (échantillons appariés) Test t pour échantillons indépendants Parfois appelé test Z H 0 : µ 1 = µ 2 Statistique t : différence des moyennes des deux échantillons tenant compte des variances et des n différents t suit une loi de distribution de Student à n 1 +n 2-2 degrés de liberté sous H 0 67 Conditions d utilisation Variable quantitative Grands échantillons (n i >30) Normalité des données (sauf si test par permutations) Egalité des variances (homoscédasticité) Indépendance des observations Quand n i < 30, on utilise une statistique t corrigée Les variances estimées des 2 échantillons sont combinées : meilleure approximation de la variance de la population Test t de certains livres/logiciels 68

18 Si les variances sont inégales, il existe également une correction Test t modifié selon Welch Même calcul de la statistique-test Distribution différente : formule pour modifier le nombre de ddl 69 Test t pour données appariées 70 Correspondance 2 à 2 des observations Mesures avant-après des mêmes sujets Mesures de deux caractères sur les mêmes individus Informations supplémentaires Pas nécessaire de tester l homogénéité des variances Analyse des différences observées pour chaque paire d observations d i = x i1 - x i2 71 Moyenne des différences = différences des moyennes µ d = µ 1 - µ 2 Erreur-type (écart-type de la moyenne) s d = s d / n Statistique-test t = d /s d Sous H 0 (µ d = 0), t obéit à une loi de Student à (n - 1) ddl, où n est le nombre de paires Test non paramétrique U de Wilcoxon-Mann-Whitney Pour deux groupes indépendants Données quantitatives Distribution non normale Variances inégales Echantillons trop petits pour test t (ex : n = 3) Données semi-quantitatives Moins puissants que les tests paramétriques Efficacité (/test t) = 0,95 : pour obtenir la même puissance, il faut 100 observations au test U contre 95 au test t Basé sur les rangs 72

19 On place l ensemble des valeurs en ordre (les exaequos reçoivent un rang médian) Plus les groupes sont séparés, moins les valeurs seront entremêlées Le test consiste à estimer l écart à un entremêlement moyen des valeurs placées en rang La statistique testée, U, mesure le degré de mélange des deux échantillons (H 0 : pas de différence) 73 Comparaison de la valeur observée par rapport à la valeur critique (Table) Convergence vers une loi Normale quand n augmente Exemple Groupe 1 : 0,5 2 2,1 (n 1 = 3) 74 Groupe 2 : 0,7 2,2 3 3,1 (n 2 = 4) Valeurs en ordre Provenance U 1 : nombre de fois qu un élément du groupe 2 en précède un du groupe 1 ; U 1 = = 2 U 2 : l inverse ; = = 10 Il y a en tout n 1 n 2 comparaisons : 4 x 3 = U 2 = n 1 n 2 - U 1 Si les groupes sont parfaitement séparés U 2 = 0 et U 1 = n 1 n 2, ou l inverse Si les groupes sont parfaitement entremêlés U 1 = U 2 = n 1 n 2 /2 Tester H 0 revient à mesurer l écart du plus petit des U à la valeur n 1 n 2 /2 (valeur sous H 0 ) Statistique-test = min (U 1, U 2 ) : Table Test non paramétrique de Wilcoxon 76 Pour données appariées Mêmes conditions que pour le test U Efficacité (/test t) = 0,95 Plus puissant que le test des signes (non développé) : Efficacité (/test t) = 0,63 Etude des différences entre paires de données H 0 : pas de différence entre les moyennes des groupes

20 On place en rang les valeurs absolues des différences (en excluant les valeurs nulles et en donnant un rang médian en cas d ex-aequo) On attribue à chaque rang le signe de la différence originale On somme les rangs positifs (T+) et les rangs négatifs (T-) Sous H 0, T+ = T- = n(n + 1)/4 (n excluant les différences nulles) Statistique-test = min (T+, T-) = Table 77 (pour des échantillons non appariés) Comparaison de 2 groupes Oui Données normales? Non n i petit 78 Test F Succès Normaliser Echec Homoscédasticité Oui Test t paramétrique permutation n i > 50? Succès Hétéroscédasticité Non Test t Welch Homogénéiser les variances Oui Test t permutation n i > 50? Echec Non Homoscédasticité Oui Non Test U (ou si variables semiquantitatives) Risque relatif (RR) et Rapport de cotes (RC) Mesures de risque Mesure de l'efficacité d'un traitement dans un groupe traité (ou exposé) par rapport à un groupe non traité Exemple : rapport entre le nombre de sujets développant une pathologie dans un groupe recevant un médicament et ce nombre dans un groupe contrôle Très important en santé humaine et en épidémiologie, dans le cadre d'études prospectives et rétrospectives 79 Tableau d'une étude prospective ou rétrospective 80! Maladie Pas de maladie! Traité (exposé) a b Non! traité (ou placebo ou non exposé) c! RR = (a/(a+b)/(c/(c+d)), que pour études prospectives RC = (a/b)/(c/d) = ad/bc Si RR ou RC = 1, le traitement n'a pas d'effet, sinon il en a un (dans un sens ou l'autre) Possibilité de calcul d'un intervalle de confiance d

21 Risque relatif RR = relative risk Incidence d'un événement dans un groupe/incidence du même événement dans un autre groupe Exemple : survenue d'une maladie dans un groupe vacciné et un groupe témoin non vacciné RR = chance de tomber malade dans le groupe traité par rapport à cette chance dans le groupe témoin Souvent incidence dans groupe témoin pas connue : calcul du RC, qui estime bien le RR Rapport de cotes RC = odds ratio Cote = nombre de fois qu'un événement s'est produit dans un groupe/nombre de fois où il ne s'est pas produit. Exemple : 3 contre 1 En sciences de la santé : comparaison du risque (par exemple de développer une maladie) entre les individus traités et les individus contrôles RC = Probabilité pour le groupe traité (ou exposé) / Probabilité pour le groupe contrôle COMPARAISON DE PLUS DE DEUX GROUPES La comparaison de moyennes de plus de deux échantillons se fait généralement par une analyse de variance (ANOVA) L analyse de variance suppose l homogénéité des variances et la normalité des données Sinon : problème de Behrens-Fisher (test simultané de 2 hypothèses nulles) Si ces conditions ne peuvent être atteintes par des transformations, il faut utiliser d autres méthodes Les tests d homogénéité des variances (THV) requièrent la normalité des données 84

22 THV : Test de Bartlett 85 Données normalement distribuées H 0 : toutes les variances sont égales H 1 : au moins une des variances est différente Test d une variable auxiliaire (statistique-test) B qui suit une loi du χ 2 sous H 0 (test unilatéral) 86 avec En divisant B par C B, on obtient une statistique suivant une loi du χ 2 à (k - 1) ddl : test Analyse de variance (ANOVA) 87 k groupes indépendants d observations Comparaison des moyennes (par l intermédiaire des variances totale, intergroupe et intragroupe) H 0 : Les moyennes des k groupes sont égales H 1 : Au moins une des moyennes est différente (l ANOVA ne dit pas lesquelles) On ne peut pas remplacer une ANOVA par une série de tests t : inflation de l erreur de Type I (problème des tests multiples) Les groupes sont définis par un ou plusieurs critère(s) de classification ou facteur, contrôlé ou aléatoire Conditions d application Variable quantitative Normalité ( équivalents NP : Test de Kruskal-Wallis, Friedman,...) Homoscédasticité Indépendance des observations n 5 observations/groupe 88

23 Le cas échéant, pour savoir à quelle(s) moyenne(s) est due le rejet de H 0 : tests a posteriori 89 Test LSD (Least Significant Difference, Fisher) Test HSD (Honestly Significant Difference, Tukey) Test SNK (Student, Newmann, Keuls) Test de Scheffé Test de Dunnet (pour comparer groupe témoin aux autres) Diffèrent entre eux et du test t par leur définition de l erreur de Type I Souvent réalisés dans la foulée par les logiciels Différentes formes d ANOVA X X X X X X X X X X X X X X X X X X X X X X X X X X X X ANOVA à 1 facteur A X X X X B X X X X C X X X X ANOVA à 2 facteurs croisés X X X X X X X X A X X X X X X X X X X X X X X X X X X X X B X X X X X X X X X X X X ANOVA à 2 facteurs croisés avec répétitions A B C D E F X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X ANOVA hiérarchique ANOVA à > 2 facteurs et/ou avec plusieurs variables 91 Avec > 2 facteurs : ANOVA multifactorielle Implique de nombreuses possibilités d interactions entre les facteurs. A définir a priori Mêmes principes que ANOVA factorielle Avec plusieurs variables : analyse de variance multivariable ou MANOVA Généralisation de l ANOVA univariable Les variables doivent être pas ou peu corrélées ANOVA à 1 facteur 92 1 variable k groupes (k > 2), définis par 1 critère Exemple variable = croissance d une plante critère = différentes intensités lumineuses Facteur contrôlé ( expérimental ) ou aléatoire ( naturel )

24 Sources de variation : décomposition de la variance totale Dispersion totale SCT : SC par rapport à la moyenne générale Dispersion intragroupe SCE, due aux erreurs : somme des SC pour chaque groupe par rapport à sa propre moyenne Dispersion intergroupe SCI : SC des moyennes des groupes par rapport à la moyenne générale (pondération : SC multipliés par le nombre d éléments par groupe) 93 Représentation graphique 94 Cas où H1 est vraie : il y a une différence entre les groupes SCE 2 SCE X SCE 1 X X 3 SCT X SCI SCE = SCE 1 + SCE 2 + SCE 3 On peut montrer que SCT = SCE + SCI Cas où H0 est vraie : pas de différence entre les groupes SCE SCE 1 2 X SCE3 X X SCT X SCI Pour calculer les variances (= carrés moyens), il faut diviser les SCE par les nombres de ddl correspondants SCT : n - 1 ddl, donc S2 T = SCT/(n - 1) Variance totale SCE : (n 1-1) + (n 2-1) (n k - 1) = n - k ddl, donc S 2 E = SCE/(n - k) 95 Variance due aux erreurs = variance résiduelle : variabilité naturelle, toujours là SCI : k - 1 ddl, donc S2 I = SCI/(k - 1) Variance intergroupe = variance factorielle : effet éventuel du facteur Si H 0 est vraie (pas d effet du facteur) : S2 E et S2 I sont deux estimations indépendantes de la fluctuation aléatoire σ 2 (S 2 T en est également une) Sous H 0, chaque groupe est un échantillon d une population, sa variance est donc une estimation de σ 2. La moyenne pondérée des variances de tous les groupes en est une estimation encore meilleure : S 2 E Sous H, les moyennes de chaque groupe estiment la 0 moyenne de la population, µ, et la variance calculée à partir de la dispersion des moyennes est une estimation de σ 2 : S 2 I 96

25 97 Si H 0 n est pas vraie (il y a un effet du facteur) S2 E reste une estimation de σ2 (d où l importance de l homogénéité des variances!) S2 I n est plus une estimation de σ2, mais elle est nécessairement plus grande car la distribution d échantillonnage des moyennes (différentes si H 0 n est pas vraie) est plus large que celle de µ Test 98 Donc sous H 0, S2 I /S2 E 1 On teste ce rapport avec une statistique F à (k - 1) et (n - k) ddl Test unilatéral L ANOVA ne dit pas quelle moyenne est différente Formules 99 SCE = x 2 - (Ti 2 /ni) SCI = (Ti 2 /ni) - T 2 /n avec T = x = somme de toutes les valeurs Ti = x = somme des valeurs de chaque groupe i ni = effectif de chaque groupe n = effectif total Test de Kruskal-Wallis 100 Equivalent non paramétrique de l ANOVA à 1 facteur Efficacité (/ANOVA) = 0,95 Distribution non Normale Variances inégales Petits groupes Variable semi-quantitative Généralisation du test U

26 Principe 101 Les valeurs sont toutes mélangées et placées en rang Pour chaque groupe, on somme les rangs : R j Pour les k groupes, on obtient k valeurs de R j Statistique-test H c = 12/(n(n+1))Σ(R j 2 /nj ) - 3(n + 1) Sous H 0 la statistique-test suit une loi du χ2 à (k - 1) ddl Il existe une correction pour les ex-aequo (plusieurs données égales donc de même rang) Utilisation d une statistique corrigée H corr = H c /C 102 avec C = 1 - (Σ(ex 3 - ex l l )/(n 3 - n)) où ex l est le nombre d individus ex-aequo pour la valeur l la somme se fait sur le nombre de groupes d ex-aequo ANOVA à 2 facteurs croisés 103 Groupes identifiés par 2 critères de classification indépendants, à r et s niveaux Dans ce cas, on considère une seule observation par combinaison de niveaux On peut tester l effet de chaque facteur, car chacun comprend des répétitions B A r 1 X X X X... X X X X s X X X X Exemple 104 On veut connaître l effet de la température (4 températures différentes) et de la profondeur (5 profondeurs) sur la productivité du phytoplancton. On prélève pour cela un échantillon d eau par profondeur dans 4 masses d eau de températures différentes Variable : productivité (µg chl a/mg) Facteur A : température Facteur B : profondeur

27 105 Test de 2 hypothèses nulles Les moyennes sont identiques selon le facteur A H 0 : µ1. = µ2. = µ3. = µr. Les moyennes sont identiques selon le facteur B H 0 : µ.1 = µ.2 = µ.3 = µ.s Hypothèses contraires correspondantes : au moins une des moyennes est différente des autres Sources de variation Dispersion totale SCT : SCE par rapport à la moyenne générale Dispersion selon le facteur A : SCEA = SCE des moyennes des groupes de A par rapport à la moyenne générale Dispersion selon le facteur B : SCEB = SCE des moyennes des groupes de B par rapport à la moyenne générale Dispersion résiduelle SCEE : dispersion totale SCET moins celle due aux facteurs A et B 106 Pour calculer les variances, il faut diviser les SCE par les nombres de ddl correspondants SCEA : (r - 1) donc S2 A = SCEA/(r - 1) SCEB : (s - 1) donc S2 B = SCEB/(s - 1) SCEE : (r - 1)(s - 1) donc S2 E = SCEE/(r - 1)(s - 1) Tests H 0A : F = S2 A /S2 E avec (r - 1) et (r - 1)(s - 1) ddl H 0B : F = S2 B /S2 E avec (s - 1) et (r - 1)(s - 1) ddl 107 Formules 108 avec T = somme de toutes les valeurs Ti ou j = somme des valeurs des lignes ou des colonnes SCEE = SCET - (SCEA + SCEB)!

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Séance 8 : Régression Logistique

Séance 8 : Régression Logistique Séance 8 : Régression Logistique Sommaire Proc LOGISTIC : Régression logistique... 2 Exemple commenté : Achat en (t+1) à partir du sexe et du chiffre d affaires de la période précédente. 4 La régression

Plus en détail

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012 LES STATISTIQUES INFERENTIELLES LES STATISTIQUES INFERENTIELLES (test de Student) L inférence statistique est la partie des statistiques qui, contrairement à la statistique descriptive, ne se contente pas de décrire des observations,

Plus en détail

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation

Programme des épreuves des concours externes de recrutement des personnels techniques et administratifs de recherche et de formation Programme des épreuves des concours externes de recrutement des personnels E1 RECRUTEMENT DES ASSISTANTS INGENIEURS DE RECHERCHE ET DE FORMATION...2 E1.1 Gestionnaire de base de données...2 E1.2 Développeur

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions :

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions : Probabilités I- Expérience aléatoire, espace probabilisé : 1- Définitions : Ω : Ensemble dont les points w sont les résultats possibles de l expérience Des évènements A parties de Ω appartiennent à A une

Plus en détail

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES

UFR de Sciences Economiques Année 2008-2009 TESTS PARAMÉTRIQUES Université Paris 13 Cours de Statistiques et Econométrie I UFR de Sciences Economiques Année 2008-2009 Licence de Sciences Economiques L3 Premier semestre TESTS PARAMÉTRIQUES Remarque: les exercices 2,

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL

La régression logistique. Par Sonia NEJI et Anne-Hélène JIGOREL La régression logistique Par Sonia NEJI et Anne-Hélène JIGOREL Introduction La régression logistique s applique au cas où: Y est qualitative à 2 modalités Xk qualitatives ou quantitatives Le plus souvent

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Tests de comparaison de moyennes Dr Sahar BAYAT MASTER 1 année 2009-2010 UE «Introduction à la biostatistique» Test de Z ou de l écart réduit Le test de Z : comparer des paramètres en testant leurs différences

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

VI. Tests non paramétriques sur un échantillon

VI. Tests non paramétriques sur un échantillon VI. Tests non paramétriques sur un échantillon Le modèle n est pas un modèle paramétrique «TESTS du CHI-DEUX» : VI.1. Test d ajustement à une loi donnée VI.. Test d indépendance de deux facteurs 96 Différentes

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Précision d un résultat et calculs d incertitudes

Précision d un résultat et calculs d incertitudes Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Points méthodologiques Adapter les méthodes statistiques aux Big Data

Points méthodologiques Adapter les méthodes statistiques aux Big Data Points méthodologiques Adapter les méthodes statistiques aux Big Data I. Répétition de tests et inflation du risque alpha II. Significativité ou taille de l effet? 2012-12-03 Biomédecine quantitative 36

Plus en détail

Estimation et tests statistiques, TD 5. Solutions

Estimation et tests statistiques, TD 5. Solutions ISTIL, Tronc commun de première année Introduction aux méthodes probabilistes et statistiques, 2008 2009 Estimation et tests statistiques, TD 5. Solutions Exercice 1 Dans un centre avicole, des études

Plus en détail

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Cours 7 : Exemples I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

M1 IMAT, Année 2009-2010 MODELES LINEAIRES. C.Chouquet Laboratoire de Statistique et Probabilités - Université Paul Sabatier - Toulouse

M1 IMAT, Année 2009-2010 MODELES LINEAIRES. C.Chouquet Laboratoire de Statistique et Probabilités - Université Paul Sabatier - Toulouse M1 IMAT, Année 2009-2010 MODELES LINEAIRES C.Chouquet Laboratoire de Statistique et Probabilités - Université Paul Sabatier - Toulouse Table des matières 1 Préambule 1 1.1 Démarche statistique...................................

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Statistique descriptive et prévision

Statistique descriptive et prévision Statistique descriptive et prévision Année 2010/2011 L. Chaumont Contents 1. Étude d une variable 5 1.1. Définitions................................ 5 1.2. Représentations graphiques usuelles................

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

CAPTEURS - CHAINES DE MESURES

CAPTEURS - CHAINES DE MESURES CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,

Plus en détail

Lois de probabilité à densité Loi normale

Lois de probabilité à densité Loi normale DERNIÈRE IMPRESSIN LE 31 mars 2015 à 14:11 Lois de probabilité à densité Loi normale Table des matières 1 Lois à densité 2 1.1 Introduction................................ 2 1.2 Densité de probabilité

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé A. P. M. E. P. Exercice 1 5 points 1. Réponse d. : 1 e Le coefficient directeur de la tangente est négatif et n est manifestement pas 2e

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Scoring - Modélisation. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Scoring - Modélisation Data Management, Data Mining, Text Mining 1 Guide du Data Miner Scoring - Modélisation Le logiciel décrit dans le manuel est diffusé dans le cadre d un accord

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen Probabilité et Statistique pour le DEA de Biosciences Avner Bar-Hen Université Aix-Marseille III 2000 2001 Table des matières 1 Introduction 3 2 Introduction à l analyse statistique 5 1 Introduction.................................

Plus en détail

Principales caractéristiques de Mixmod

Principales caractéristiques de Mixmod Modèle de mélanges Principales caractéristiques de Mixmod Gérard Govaert et Gilles Celeux 24 octobre 2006 1 Plan Le modèledemélange Utilisations du modèle de mélange Les algorithmes de Mixmod Modèle de

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Chapitre 5 UE4 : Biostatistiques Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés.

Plus en détail

Le modèle linéaire généralisé avec R : fonction glm()

Le modèle linéaire généralisé avec R : fonction glm() SEMIN- Le modèle linéaire généralisé avec R : fonction glm() Sébastien BALLESTEROS UMR 7625 Ecologie Evolution Ecole Normale Supérieure 46 rue d'ulm F-75230 Paris Cedex 05 sebastien.ballesteros@biologie.ens.fr

Plus en détail

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre. Université de Nantes Année 2013-2014 L3 Maths-Eco Feuille 6 : Tests Exercice 1 On cherche à connaître la température d ébullition µ, en degrés Celsius, d un certain liquide. On effectue 16 expériences

Plus en détail

Les variables indépendantes catégorielles

Les variables indépendantes catégorielles Les variables indépendantes catégorielles Jean-François Bickel Statistique II SP08 Jusqu à maintenant, nous avons considéré comme variables indépendantes uniquement des variables intervalles (âge) ou traitées

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE UE4 : Biostatistiques Chapitre 6 Test de comparaison de pourcentages χ² José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Nature des variables

Plus en détail

Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr

Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr Dominique Muller Laboratoire Inter-universitaire de Psychologie Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr Supports de cours : webcom.upmf-grenoble.fr/lip/perso/dmuller/m2r/acm/

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Théorie des sondages : cours 5

Théorie des sondages : cours 5 Théorie des sondages : cours 5 Camelia Goga IMB, Université de Bourgogne e-mail : camelia.goga@u-bourgogne.fr Master Besançon-2010 Chapitre 5 : Techniques de redressement 1. poststratification 2. l estimateur

Plus en détail

MASTER 2 : Pharmacologie Clinique et Développement Thérapeutique. Evaluation de nouvelles drogues Critères de jugement clinique

MASTER 2 : Pharmacologie Clinique et Développement Thérapeutique. Evaluation de nouvelles drogues Critères de jugement clinique MASTER 2 : Pharmacologie Clinique et Développement Thérapeutique Evaluation de nouvelles drogues Critères de jugement clinique Jean-Marie BOHER, PhD, Institut Paoli-Calmettes, Marseille Novembre 2011 Typologie

Plus en détail

Décrire les données. Chapitre 2

Décrire les données. Chapitre 2 Chapitre 2 Décrire les données La description des données est une étape importante de la démarche d analyse. Beaucoup d enquêtes se limitent à cette étape, qui donne un premier niveau de lecture des résultats

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Chapitre 3 : INFERENCE

Chapitre 3 : INFERENCE Chapitre 3 : INFERENCE 3.1 L ÉCHANTILLONNAGE 3.1.1 Introduction 3.1.2 L échantillonnage aléatoire 3.1.3 Estimation ponctuelle 3.1.4 Distributions d échantillonnage 3.1.5 Intervalles de probabilité L échantillonnage

Plus en détail

l École nationale des ponts et chaussées http://cermics.enpc.fr/scilab

l École nationale des ponts et chaussées http://cermics.enpc.fr/scilab scilab à l École nationale des ponts et chaussées http://cermics.enpc.fr/scilab Tests de comparaison pour l augmentation du volume de précipitation 13 février 2007 (dernière date de mise à jour) Table

Plus en détail

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites

La problématique des tests. Cours V. 7 mars 2008. Comment quantifier la performance d un test? Hypothèses simples et composites La problématique des tests Cours V 7 mars 8 Test d hypothèses [Section 6.1] Soit un modèle statistique P θ ; θ Θ} et des hypothèses H : θ Θ H 1 : θ Θ 1 = Θ \ Θ Un test (pur) est une statistique à valeur

Plus en détail

Cours STAT 2150. "Statistique non paramétrique: Méthodes de lissage"

Cours STAT 2150. Statistique non paramétrique: Méthodes de lissage Cours STAT 2150 "Statistique non paramétrique: Méthodes de lissage" Année académique 2008-2009 Séance 1 1 Table de matière du cours 1. Introduction (Fonction de répartition, histogramme, propriétés d un

Plus en détail

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année 2010-2011

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année 2010-2011 Master 1 Biologie et technologie du végétal Année 010-011 Statistiques Rappels de cours et travaux dirigés (Seul ce document sera autorisé en examen) auteur : Jean-Marc Labatte jean-marc.labatte@univ-angers.fr

Plus en détail

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader Terminale STMG O. Lader Table des matières 1 Information chiffrée (4s) 4 1.1 Taux d évolution....................................... 6 1.2 indices............................................. 6 1.3 Racine

Plus en détail

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Lecture critique d article Rappels Bio statistiques Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888 Plan du cours Rappels fondamentaux Statistiques descriptives Notions de tests statistiques

Plus en détail

Introduction à la statistique non paramétrique

Introduction à la statistique non paramétrique Introduction à la statistique non paramétrique Catherine MATIAS CNRS, Laboratoire Statistique & Génome, Évry http://stat.genopole.cnrs.fr/ cmatias Atelier SFDS 27/28 septembre 2012 Partie 2 : Tests non

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

TESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme

TESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme TESTS D HYPOTHÈSE FONDÉS SUR LE χ² http://fr.wikipedia.org/wiki/eugénisme Logo du Second International Congress of Eugenics 1921. «Comme un arbre, l eugénisme tire ses constituants de nombreuses sources

Plus en détail

Loi binomiale Lois normales

Loi binomiale Lois normales Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli

Plus en détail

T de Student Khi-deux Corrélation

T de Student Khi-deux Corrélation Les tests d inférence statistiques permettent d estimer le risque d inférer un résultat d un échantillon à une population et de décider si on «prend le risque» (si 0.05 ou 5 %) Une différence de moyennes

Plus en détail

4. Résultats et discussion

4. Résultats et discussion 17 4. Résultats et discussion La signification statistique des gains et des pertes bruts annualisés pondérés de superficie forestière et du changement net de superficie forestière a été testée pour les

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Evaluation de la variabilité d'un système de mesure

Evaluation de la variabilité d'un système de mesure Evaluation de la variabilité d'un système de mesure Exemple 1: Diamètres des injecteurs de carburant Problème Un fabricant d'injecteurs de carburant installe un nouveau système de mesure numérique. Les

Plus en détail

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry Outils mathématiques pour le datamining http://wwwelsewarefr/univevry Géométrie Distance Distance entre parties Matrice de variance/covariance Inertie Minimisation Probabilités Définition Théorème de Bayes

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Résumé du Cours de Statistique Descriptive. Yves Tillé

Résumé du Cours de Statistique Descriptive. Yves Tillé Résumé du Cours de Statistique Descriptive Yves Tillé 15 décembre 2010 2 Objectif et moyens Objectifs du cours Apprendre les principales techniques de statistique descriptive univariée et bivariée. Être

Plus en détail

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie» Centre de recherche en démographie et sociétés UCL/IACCHOS/DEMO Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie» 1 2 3+ analyses univariées Type de variables

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision Page n 1. Tests du χ 2 une des fonctions des statistiques est de proposer, à partir d observations d un phénomène aléatoire (ou modélisé comme tel) une estimation de la loi de ce phénomène. C est que nous

Plus en détail

Travaux Dirigés de Probabilités - Statistiques, TD 4. Lois limites ; estimation.

Travaux Dirigés de Probabilités - Statistiques, TD 4. Lois limites ; estimation. Travaux Dirigés de Probabilités - Statistiques, TD 4 Lois limites ; estimation. Exercice 1. Trois machines, A, B, C fournissent respectivement 50%, 30%, 20% de la production d une usine. Les pourcentages

Plus en détail

Cours 9 : Plans à plusieurs facteurs

Cours 9 : Plans à plusieurs facteurs Cours 9 : Plans à plusieurs facteurs Table des matières Section 1. Diviser pour regner, rassembler pour saisir... 3 Section 2. Définitions et notations... 3 2.1. Définitions... 3 2.2. Notations... 4 Section

Plus en détail

Marketing quantitatif M2-MASS

Marketing quantitatif M2-MASS Marketing quantitatif M2-MASS Francois.Kauffmann@unicaen.fr UCBN 2 décembre 2012 Francois.Kauffmann@unicaen.fr UCBN Marketing quantitatif M2-MASS 2 décembre 2012 1 / 61 Première partie I Analyse Analyse

Plus en détail

Quelques analyses simples avec R en écologie des communautés

Quelques analyses simples avec R en écologie des communautés Jérôme Mathieu janvier 2007 Quelques analyses simples avec R en écologie des communautés 1 Visualisation des données... 2 Aperçu rapide d'un tableau de données... 3 Visualiser les corrélations entre des

Plus en détail

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN Table des matières. Introduction....3 Mesures et incertitudes en sciences physiques

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours

Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours R.R. Université Lyon 2 1 Fichier de données Prédiction de la consommation de véhicules (1) Prédire la consommation des véhicules à partir de ses

Plus en détail