BIOSTATISTIQUES AVANCEES PLAN. Quelques références. Master Biologie Intégrative 1 ère année



Documents pareils
TABLE DES MATIERES. C Exercices complémentaires 42

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyse de la variance Comparaison de plusieurs moyennes

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Introduction à l approche bootstrap

Principe d un test statistique

Biostatistiques : Petits effectifs

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Relation entre deux variables : estimation de la corrélation linéaire

Logiciel XLSTAT version rue Damrémont PARIS

STATISTIQUES. UE Modélisation pour la biologie

FORMULAIRE DE STATISTIQUES

La classification automatique de données quantitatives

Table des matières. I Mise à niveau 11. Préface

Chapitre 3. Les distributions à deux variables

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Précision d un résultat et calculs d incertitudes

1. Vocabulaire : Introduction au tableau élémentaire

VI. Tests non paramétriques sur un échantillon

Aide-mémoire de statistique appliquée à la biologie

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Introduction aux Statistiques et à l utilisation du logiciel R

Estimation et tests statistiques, TD 5. Solutions

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Statistiques Descriptives à une dimension

CAPTEURS - CHAINES DE MESURES

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Item 169 : Évaluation thérapeutique et niveau de preuve

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Annexe commune aux séries ES, L et S : boîtes et quantiles

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Théorie des sondages : cours 5

Statistique Descriptive Élémentaire

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Introduction à la statistique non paramétrique

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Exemples d application

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

23. Interprétation clinique des mesures de l effet traitement

Loi binomiale Lois normales

Arbres binaires de décision

Chapitre 2 Le problème de l unicité des solutions

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

4. Résultats et discussion

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Chapitre 3 : INFERENCE

Evaluation de la variabilité d'un système de mesure

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Évaluation de la régression bornée

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Résumé du Cours de Statistique Descriptive. Yves Tillé

Cours de méthodes de scoring

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Classe de première L

T de Student Khi-deux Corrélation

LES MODELES DE SCORE

Cours 9 : Plans à plusieurs facteurs

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

TSTI 2D CH X : Exemples de lois à densité 1

MESURE ET PRECISION. Il est clair que si le voltmètre mesure bien la tension U aux bornes de R, l ampèremètre, lui, mesure. R mes. mes. .

Régression linéaire. Nicolas Turenne INRA

Fonctions de plusieurs variables

Lois de probabilité. Anita Burgun

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Résolution de systèmes linéaires par des méthodes directes

IBM SPSS Statistics Base 20

Cours de Tests paramétriques

IBM SPSS Regression 21

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Extraction d informations stratégiques par Analyse en Composantes Principales

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Introduction au datamining

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Coup de Projecteur sur les Réseaux de Neurones

données en connaissance et en actions?

Introduction à la Statistique Inférentielle

INF6304 Interfaces Intelligentes

Le risque Idiosyncrasique

3. Caractéristiques et fonctions d une v.a.

CCP PSI Mathématiques 1 : un corrigé

DOCM Solutions officielles = n 2 10.

Analyse en Composantes Principales

4 Distributions particulières de probabilités

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Transcription:

Master Biologie Intégrative 1 ère année 1 BIOSTATISTIQUES AVANCEES Yves Desdevises! Observatoire Océanologique de Banyuls-sur-Mer (www.obs-banyuls.fr)! 04 68 88 73 13! desdevises@obs-banyuls.fr! http://desdevises.free.fr http://www.edu.upmc.fr/sdv/desdevises! 2014-2015 PLAN 2 1. Rappels : données, tests, plans d expérience, distributions 2. Comparaison de 2 groupes : variances et moyennes 3. Comparaison de plus de 2 groupes : test d homogénéité des variances, analyses de variance à 1 et 2 facteurs 4. Relations entre variables : corrélation 5. Relations entre variables : régression simple 6. Régression multiple et analyse de covariance 7. Analyse multivariable 8. Analyse de survie Générales Quelques références Sokal RR & Rohlf FJ. 2012. Biometry. 4th Revised Edition, Freeman and co., New York. Zar JH. 2009. Biostatistical Analysis. 5th Edition, Pearson. Frontier S, Davoult D, Gentilhomme V & Lagadeuc Y. 2007. Statistique pour les sciences de la vie et de l environnement. Cours et exercices corrigés. Dunod. Triola MM & Triola MF. 2006. Biostatistics for the Biological and Health Science. Pearson. Traduction française en 2009 : Biostatistiques pour les sciences de la vie et de la santé. Scherrer B. 2008-2009. Biostatistiques volumes 1 et 2. Gaëtan Morin. 3 Simplifiées Dytham C. 2011. Choosing and Using Statistics. A Biologist s Guide. 3 rd Edition. Blackwell Publishing. McKillup S. 2011. Statistics Explained. 2nd Edition. Cambridge University Press.! van Emden H. 2008. Statistics for Terrified Biologists. Blackwell Publishing. Plus spécialisées Legendre P & Legendre L. 2012. Numerical Ecology. 3rd English Edition. Development in Environmental Modelling, 20. Elsevier. Underwood AJ. 1997. Experiments in Ecology. Cambridge University Press. 4

Quelques logiciels 5 R (www.r-project.org) JMP (www.jmp.com) Statdisk (http://statdisk.com/) XLStat (www.xlstat.com) Minitab (www.minitab.com) Statistica (www.statsoft.com) SAS (www.sas.com/technologies/analytics/stat) 6 1. INTRODUCTION RAPPELS Statistique : Etude scientifique des données numériques décrivant les variations naturelles Biostatistique Application à la biologie Biometry Important : savoir décider de la méthode à utiliser Bien connaître les méthodes : conditions d utilisation, limitations,... Penser aux statistiques avant de collecter les données 7 Utilité et utilisation des statistiques en biologie Description Vue synthétique et rationnelle des données Inférence Economie de travail par l étude d échantillons représentatifs Décision Test d hypothèse 8

Pourquoi utiliser les statistiques en biologie? 9 Biologie : incertitude des résultats expérimentaux ou des observations Variabilité génétique Variabilité de réaction individuelle Variabilité du développement Définitions 10 Objet = observation = élément = unité d échantillonnage : élément sur lequel on mesure des caractéristiques (variables) Echantillon : ensemble des objets Population cible : ensemble des objets visés par une étude scientifique Population statistique : ensemble des objets représentés par l échantillon. C est sur elle que se fait l inférence 11 Variable = descripteur = facteur = trait : caractéristique mesurée ou observée sur les objets. Ex : longueur, température,... Variable dépendante (Y) = réponse Variable indépendante (X) = explicative Variable aléatoire : résultat d un processus aléatoire, valeur précise inconnue avant la mesure Variable contrôlée : décidée par l expérimentateur, erreur = mesure seulement Paramètre : caractéristique quantitative permettant une représentation condensée d information contenue dans un ensemble de données. Ex : moyenne, pente,... Variance = inertie = carré moyen : somme des carrés des écarts à la moyenne (SCE)/nombre d objets (paramètre de dispersion) 12

Ecart-type (standard deviation) : racine carrée de la variance. Même unité que la variable S x = S x 2 13 Erreur-type (standard error) : écart-type de la distribution d échantillonnage de la moyenne (dispersion des estimations de la moyenne de plusieurs échantillons d une même population). Sert à calculer un intervalle de confiance Interprétation de l'écart-type 14 Barres d'erreurs : attention! 15? 16

Modèle déterministe Variables Modèle aléatoire 17 Intensité de la déformation Force de frappe 1 cause : 1 effet Dose d'engrais Terme déterministe : loi du phénomène Terme aléatoire : variabilité du phénomène Hasard, fluctuations Autres facteurs, souvent à expliquer Croissance 1 cause : n effets variabilité Analyse statistique : étude des phénomènes stochastiques Discrimination de la loi du phénomène et de sa variabilité 18 Différents types de variables 19 Binaire : 2 états. Ex : présence-absence Multiple : plus de 2 états Non-ordonnée = qualitative = nominale. Ex : couleur Ordonnée Semi-quantitative = ordinale = de rang. Ex : classes Quantitative Discontinue = discrète. Ex : nombre d individus Continue. Ex : longueur 20 Transformations Standardisation : y' = (y - y )/s (s = écart-type ; on obtient une variable centrée et réduite). y = 0 et s = 1, variables non-dimensionnelles Normalisation et stabilisation des variances : y' = log (b 0 + b 1 y) ; y' = y ;... Linéarisation Pondération

Statistiques descriptives 21 Exploration des données A calculer avant chaque test Mesures standards : n, moyenne, variance (écart-type), distribution (histogramme ou graphe de quantilenormale),... Identifier les valeurs extrêmes ou aberrantes A ne pas oublier... 22 Statdisk - Explore Data Printed on Mer 10 sep 2008 at 9:08 Statdisk - Scatterplot Printed on Mer 10 sep 2008 at 9:08 X Value Plans d échantillonnage Principalement pour organismes fixes (ou localités,...) Echantillonnage aléatoire : représentatif Aléatoire : chaque membre de la population a la même probabilité d être choisi Aléatoire simple : chaque échantillon de taille n a la même probabilité d être choisi. Condition pour de nombreux tests 23 Echantillonnage systématique : mieux avec des informations supplémentaires (nombre total, organisation spatiale) Risque (faible) de coïncider avec une périodicité naturelle 24

Echantillonnage aléatoire stratifié : échantillonnage aléatoire au sein de zones définies (strates), souvent selon des caractéristiques définies (âge, sexe, végétation,...) 25 Echantillonnage en grappe Division de la population en sections (grappes) Sélection aléatoire des grappes Choix de tous les membres des grappes sélectionnées 26 27 Echantillonnage opportun En fonction des circonstances Sur les objets faciles à obtenir Exemple : réponses seulement de ceux qui participent de façon active à un sondage Pas un bon plan d'échantillonnage! Plans d expérience 28 Méthode expérimentale Travail sur un système simplifié dont on étudie la réponse à la variation de peu de facteurs à la fois Important : rigueur Construction : hypothèse nulle et hypothèse contraire Répondre spécifiquement à une question (critère de validité générale) Minimiser l erreur de Type I Application : analyse de variance (ANOVA)

Concepts 29 Elément d observation Sur lequel on fait les mesures de la (des) variable(s) Ex : individus, quadrats,... Unité d expérimentation Contient les éléments Reçoit le traitement Ex : parcelle, bassin,... 30 Facteur : plusieurs valeurs possibles Niveaux ou traitements Contrôle Groupe non traité Traitement (placebo, manipulation seule,...) Bloc Groupe d unités d échantillonnage, défini a priori Expérience de mesure d un phénomène naturel En milieu naturel : pas (peu) de contrôle des variables Mesure du profil de variabilité du phénomène Expérience contrôlée Utilisation de traitements contrôlés Réduction de l influence des autres facteurs Elimination Constance Inclusion dans l analyse 31 Répétition (= replication) Mesure de la variabilité du système (répétitions biologiques, pas techniques) Pseudoréplication Due à la non-indépendance des observations, qui ne sont pas alors de vrais réplicats 32 Validité générale Variations dues exclusivement au facteur étudié Validité externe Généralisation à d autres systèmes Simplification pas trop importante

Aléatoire 33 Blocs randomisés Systématique Ségrégation simple Ségrégation agrégée Ségrégation isolative Répétitions physiquement interdépendantes Pas de répétitions Tests statistiques Important de bien définir l hypothèse nulle (H 0 ) La seule que l on étudie = hypothèse principale Contient généralement "=" La statistique testée possède une distribution connue Hypothèse contraire (H ; "hypothèse alternative") 1 Contient généralement " ", ">"ou "<" On ne peut la prouver, elle est plausible si H 0 est rejetée Grande importance de l hypothèse biologique Statistique magie!! Conditions En général 3 conditions pour un test : Loi (Normale, Student, F,...) Indépendance des observations Homogénéité des variances (homoscédasticité) Loi de distribution théorique générée à partir des processus naturels, sous certaines conditions : probabilité d apparition de toutes les valeurs d une variable Besoin de tester la distribution observée sur l échantillon (impossible sur la population) 34 35 Erreur de Type I (α) : probabilité de se tromper en rejetant H 0 (donc H 0 est vraie). Seuil fixé 36 Robustesse d un test : sensibilité aux conditions d applications Un test est robuste s il fonctionne bien même quand les conditions nécessaires à son fonctionnement ne sont pas optimales Puissance d un test : capacité à mettre en évidence de petites différences Aptitude à rejeter H lorsqu elle est fausse (= 1 - ß 0 (erreur de Type II)) Fonction de : test, nombre d observations, variance, α

37 H0 H1 Puissance d un test : n optimal 38 Question récurrente : de combien d objets (observations, prélèvements,...) a-t-on besoin pour établir une différence significative, s il y en a une? Exemple : utilisation de la statistique-test t Il faut d abord estimer la variance et avoir une idée de l écart entre populations (étude préalable) Utilisation de la formule de t pour trouver le n nécessaire à mettre en évidence un écart significatif défini à l aide de la valeur critique de t Importance de l amplitude de la différence entre la vraie valeur du paramètre testé et sa valeur supposée par hypothèse On affine la puissance (en modifiant α, n,...) en fonction de l écart choisi (qui dépend du degré de précision souhaité) Exemple : si la vraie valeur est 0,5, un test plus puissant est nécessaire pour identifier comme significativement différente de celle-ci une valeur mesurée de 0,501 qu une valeur de 0,6 On cherche souvent à obtenir une puissance de 0,8 : 80 % de chance de prendre la bonne décision de rejeter une hypothèse nulle fausse 39 Test unilatéral ou bilatéral 40 Dépend de la formulation de H 1 : hypothèse biologique Unilatéral : la différence est attendue dans un certain sens (> ou <). Bilatéral : on cherche seulement à savoir s il y a une différence, quel qu en soit le sens. Valeurs critiques différentes (dans les tables statistiques) : seuils à partir duquel on rejette H 0 Différence au niveau de la puissance

41 But du test : savoir si on doit rejeter ou non H 0 Risque d erreur due à la variabilité des observations Référence à une distribution, dans laquelle se place la statistique (= paramètre) testée Loi de distribution théorique Exemple de la loi Normale : tests paramétriques Génération empirique de la distribution Tests par permutations Pas de distribution Tests non paramétriques Les tests non paramétriques sont basés sur la notion de rang Permettent de mettre en évidence des relations monotones Pour 2 variables : augmentation ou diminution constante d une variable quand l autre augmente 42 43 monotones non monotone Test par permutations : exemple 20 individus en 2 groupes de 10 ; variable = taille Question : la taille moyenne est-elle différente dans chaque groupe? H : la taille moyenne est la même 0 Statistique testée (= variable auxiliaire) : différence entre les moyennes Sous H 0, elle devrait se situer autour de 0 44

N importe quelle combinaison aléatoire de 2 groupes de 10 parmi les 20 individus correspond à une réalisation de H 0 45 Chacune de ces réalisations va donner une différence de moyenne entre les deux groupes plus ou moins grande Un grand nombre de ces réalisations permet de générer une distribution de la statistique sous H 0 Ces réalisations sont obtenues en permutant au hasard les données originales : test par permutations On compare ensuite la valeur observée de la statistique à cette distribution 46 t* <!t! t* =!t!!t!< t* <!t! t* =!t! t* >!t! Statistic t 8 0 974 1 17 Distribution théoriques 47 Variables discontinues Loi binomiale Loi de Poisson Variables continues Loi Normale Loi du Khi-2 (X 2 ) Loi de Fisher Loi de Student 48 Distribution la plus importante : distribution Normale (= Gaussienne) Théorème de la limite centrale (central limit theorem) Quand une variable aléatoire résulte de nombreux effets indépendants et additifs, dont aucun n est dominant, cette variable tend à suivre une distribution normale, même si les effets ne suivent pas une telle distribution Souvent le cas dans la nature

Normalité : évaluation visuelle de la distribution des données Histogramme : en cloche Graphe quantile-normale (= quantile-quantile) : points en ligne droite Mieux pour petits échantillons Statdisk - Normal Quantile Plot Printed on Mar 9 sep 2008 at 14:40 49 X Value Tests de normalité 50 A faire avant d utiliser les tests paramétriques Exemple : test de Kolmogorov-Smirnov, Shapiro-Wilks H 0 : Distribution normale KS : Compare la distribution observée d une variable avec une distribution normale de mêmes paramètres, mesure l écart entre les deux distribution Données multinormales : test de multinormalité Test de Dagnelie Transformations 51 Beaucoup de méthodes d analyse statistiques requièrent que les données suivent une certaine distribution, notamment la distribution Normale Si la distribution n est pas normale Méthodes non-paramétriques Transformation des données : normalité Autre intérêt : stabilisation des variances (doivent être indépendantes des moyennes) Exemples 52 Données d abondance Distribution asymétrique Distribution de Poisson Distribution contagieuse Données en proportions ou pourcentages

Transformation Logarithme y = ln(y + c) Distributions contagieuses 53 Transformation racine y = (y + c) Distributions de Poisson : variance = moyenne 54 55 Transformation arcsinus y = arcsin p Distributions en proportions 56 Transformation Box-Cox Formule générale Quand tout le reste a échoué Pas calculable à la main : technique itérative

Choix d une méthode 1 variable 2 groupes : test t, test U,... 2 variables Liaison : corrélation, test du Χ 2 Modèle : régression simple > 2 variables Description : ordination sans contrainte, groupement > 2 groupes : ANOVA, ANCOVA, test de Kruskal-Wallis,... Test : test de Mantel, régression multiple, analyse canonique, MANOVA 57 58 2. COMPARAISON DE DEUX GROUPES 2 groupes d observations indépendantes : 2 échantillons pouvant être Indépendants Appariés H 0 : Les 2 groupes sont issus de la même population, avec donc la même moyenne NB : il existe des tests spécifiques pour comparer des proportions 2 étapes : Comparaison des variances Comparaison des moyennes 59 60 Important de tester préalablement l homogénéité des variances car c est une condition d application de certains tests (tests paramétriques) Sinon, en cas d hétéroscédasticité : test simultané de 2 hypothèses nulles Problème de Behrens-Fisher Le rejet de H 0 peut être due à la différence des moyennes (la seule hypothèse qu on veut tester) ou à celle des variances

Comparaison de 2 variances 61 Test de Fisher-Snedecor (test F), pour données quantitatives normalement distribuées Statistique F : rapport des variances, tenant compte du nombre d objets par groupes par l intermédiaire des degrés de liberté Si égalité des variances, F doit se situer autour de 1 La variable F obéit à une loi de distribution de F 62 Pour 2 groupes à n 1 et n 2 objets F = s 2 1 /s2 2 Sous H 0, F suit une loi à (n 1-1) et (n 2-1) ddl Conditions Indépendance des observations Normalité des données 63 64 Souvent, les tables ne donnent que les valeurs critiques de F dans la droite de la distribution F = plus grande variance/plus petite variance Test unilatéral (souvent) ou bilatéral On peut également tester les écarts-types par un test F

Comparaison de 2 moyennes Test t Pour échantillons appariés ou non appariés Test statistique Paramétrique : référence à la loi Normale Comparaison de t au seuil dans une table de Student Par permutations Tests non paramétriques Test U de Wilcoxon-Mann-Whitney (échantillons non appariés) Test des rangs signés de Wilcoxon (échantillons appariés) Test t pour échantillons indépendants 65 66 Parfois appelé test Z H 0 : µ 1 = µ 2 Statistique t : différence des moyennes des deux échantillons tenant compte des variances et des n différents t suit une loi de distribution de Student à n 1 +n 2-2 degrés de liberté sous H 0 67 Conditions d utilisation Variable quantitative Grands échantillons (n i >30) Normalité des données (sauf si test par permutations) Egalité des variances (homoscédasticité) Indépendance des observations Quand n i < 30, on utilise une statistique t corrigée Les variances estimées des 2 échantillons sont combinées : meilleure approximation de la variance de la population Test t de certains livres/logiciels 68

Si les variances sont inégales, il existe également une correction Test t modifié selon Welch Même calcul de la statistique-test Distribution différente : formule pour modifier le nombre de ddl 69 Test t pour données appariées 70 Correspondance 2 à 2 des observations Mesures avant-après des mêmes sujets Mesures de deux caractères sur les mêmes individus Informations supplémentaires Pas nécessaire de tester l homogénéité des variances Analyse des différences observées pour chaque paire d observations d i = x i1 - x i2 71 Moyenne des différences = différences des moyennes µ d = µ 1 - µ 2 Erreur-type (écart-type de la moyenne) s d = s d / n Statistique-test t = d /s d Sous H 0 (µ d = 0), t obéit à une loi de Student à (n - 1) ddl, où n est le nombre de paires Test non paramétrique U de Wilcoxon-Mann-Whitney Pour deux groupes indépendants Données quantitatives Distribution non normale Variances inégales Echantillons trop petits pour test t (ex : n = 3) Données semi-quantitatives Moins puissants que les tests paramétriques Efficacité (/test t) = 0,95 : pour obtenir la même puissance, il faut 100 observations au test U contre 95 au test t Basé sur les rangs 72

On place l ensemble des valeurs en ordre (les exaequos reçoivent un rang médian) Plus les groupes sont séparés, moins les valeurs seront entremêlées Le test consiste à estimer l écart à un entremêlement moyen des valeurs placées en rang La statistique testée, U, mesure le degré de mélange des deux échantillons (H 0 : pas de différence) 73 Comparaison de la valeur observée par rapport à la valeur critique (Table) Convergence vers une loi Normale quand n augmente Exemple Groupe 1 : 0,5 2 2,1 (n 1 = 3) 74 Groupe 2 : 0,7 2,2 3 3,1 (n 2 = 4) Valeurs en ordre 1 2 3 4 5 6 7 Provenance 1 2 1 1 2 2 2 U 1 : nombre de fois qu un élément du groupe 2 en précède un du groupe 1 ; U 1 = 0 + 1 + 1 = 2 U 2 : l inverse ; = 1 + 3 + 3 + 3 = 10 Il y a en tout n 1 n 2 comparaisons : 4 x 3 = 12 75 U 2 = n 1 n 2 - U 1 Si les groupes sont parfaitement séparés U 2 = 0 et U 1 = n 1 n 2, ou l inverse Si les groupes sont parfaitement entremêlés U 1 = U 2 = n 1 n 2 /2 Tester H 0 revient à mesurer l écart du plus petit des U à la valeur n 1 n 2 /2 (valeur sous H 0 ) Statistique-test = min (U 1, U 2 ) : Table Test non paramétrique de Wilcoxon 76 Pour données appariées Mêmes conditions que pour le test U Efficacité (/test t) = 0,95 Plus puissant que le test des signes (non développé) : Efficacité (/test t) = 0,63 Etude des différences entre paires de données H 0 : pas de différence entre les moyennes des groupes

On place en rang les valeurs absolues des différences (en excluant les valeurs nulles et en donnant un rang médian en cas d ex-aequo) On attribue à chaque rang le signe de la différence originale On somme les rangs positifs (T+) et les rangs négatifs (T-) Sous H 0, T+ = T- = n(n + 1)/4 (n excluant les différences nulles) Statistique-test = min (T+, T-) = Table 77 (pour des échantillons non appariés) Comparaison de 2 groupes Oui Données normales? Non n i petit 78 Test F Succès Normaliser Echec Homoscédasticité Oui Test t paramétrique permutation n i > 50? Succès Hétéroscédasticité Non Test t Welch Homogénéiser les variances Oui Test t permutation n i > 50? Echec Non Homoscédasticité Oui Non Test U (ou si variables semiquantitatives) Risque relatif (RR) et Rapport de cotes (RC) Mesures de risque Mesure de l'efficacité d'un traitement dans un groupe traité (ou exposé) par rapport à un groupe non traité Exemple : rapport entre le nombre de sujets développant une pathologie dans un groupe recevant un médicament et ce nombre dans un groupe contrôle Très important en santé humaine et en épidémiologie, dans le cadre d'études prospectives et rétrospectives 79 Tableau d'une étude prospective ou rétrospective 80! Maladie Pas de maladie! Traité (exposé) a b Non! traité (ou placebo ou non exposé) c! RR = (a/(a+b)/(c/(c+d)), que pour études prospectives RC = (a/b)/(c/d) = ad/bc Si RR ou RC = 1, le traitement n'a pas d'effet, sinon il en a un (dans un sens ou l'autre) Possibilité de calcul d'un intervalle de confiance d

Risque relatif RR = relative risk Incidence d'un événement dans un groupe/incidence du même événement dans un autre groupe Exemple : survenue d'une maladie dans un groupe vacciné et un groupe témoin non vacciné RR = chance de tomber malade dans le groupe traité par rapport à cette chance dans le groupe témoin Souvent incidence dans groupe témoin pas connue : calcul du RC, qui estime bien le RR Rapport de cotes 81 82 RC = odds ratio Cote = nombre de fois qu'un événement s'est produit dans un groupe/nombre de fois où il ne s'est pas produit. Exemple : 3 contre 1 En sciences de la santé : comparaison du risque (par exemple de développer une maladie) entre les individus traités et les individus contrôles RC = Probabilité pour le groupe traité (ou exposé) / Probabilité pour le groupe contrôle 83 3. COMPARAISON DE PLUS DE DEUX GROUPES La comparaison de moyennes de plus de deux échantillons se fait généralement par une analyse de variance (ANOVA) L analyse de variance suppose l homogénéité des variances et la normalité des données Sinon : problème de Behrens-Fisher (test simultané de 2 hypothèses nulles) Si ces conditions ne peuvent être atteintes par des transformations, il faut utiliser d autres méthodes Les tests d homogénéité des variances (THV) requièrent la normalité des données 84

THV : Test de Bartlett 85 Données normalement distribuées H 0 : toutes les variances sont égales H 1 : au moins une des variances est différente Test d une variable auxiliaire (statistique-test) B qui suit une loi du χ 2 sous H 0 (test unilatéral) 86 avec En divisant B par C B, on obtient une statistique suivant une loi du χ 2 à (k - 1) ddl : test Analyse de variance (ANOVA) 87 k groupes indépendants d observations Comparaison des moyennes (par l intermédiaire des variances totale, intergroupe et intragroupe) H 0 : Les moyennes des k groupes sont égales H 1 : Au moins une des moyennes est différente (l ANOVA ne dit pas lesquelles) On ne peut pas remplacer une ANOVA par une série de tests t : inflation de l erreur de Type I (problème des tests multiples) Les groupes sont définis par un ou plusieurs critère(s) de classification ou facteur, contrôlé ou aléatoire Conditions d application Variable quantitative Normalité ( équivalents NP : Test de Kruskal-Wallis, Friedman,...) Homoscédasticité Indépendance des observations n 5 observations/groupe 88

Le cas échéant, pour savoir à quelle(s) moyenne(s) est due le rejet de H 0 : tests a posteriori 89 Test LSD (Least Significant Difference, Fisher) Test HSD (Honestly Significant Difference, Tukey) Test SNK (Student, Newmann, Keuls) Test de Scheffé Test de Dunnet (pour comparer groupe témoin aux autres) Diffèrent entre eux et du test t par leur définition de l erreur de Type I Souvent réalisés dans la foulée par les logiciels Différentes formes d ANOVA 90 1 2 3 4 5 X X X X X X X X X X X X X X X X X X X X X X X X X X X X ANOVA à 1 facteur 1 2 3 4 A X X X X B X X X X C X X X X ANOVA à 2 facteurs croisés 1 2 3 4 X X X X X X X X A X X X X X X X X X X X X X X X X X X X X B X X X X X X X X X X X X ANOVA à 2 facteurs croisés avec répétitions 1 2 3 A B C D E F X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X ANOVA hiérarchique ANOVA à > 2 facteurs et/ou avec plusieurs variables 91 Avec > 2 facteurs : ANOVA multifactorielle Implique de nombreuses possibilités d interactions entre les facteurs. A définir a priori Mêmes principes que ANOVA factorielle Avec plusieurs variables : analyse de variance multivariable ou MANOVA Généralisation de l ANOVA univariable Les variables doivent être pas ou peu corrélées ANOVA à 1 facteur 92 1 variable k groupes (k > 2), définis par 1 critère Exemple variable = croissance d une plante critère = différentes intensités lumineuses Facteur contrôlé ( expérimental ) ou aléatoire ( naturel )

Sources de variation : décomposition de la variance totale Dispersion totale SCT : SC par rapport à la moyenne générale Dispersion intragroupe SCE, due aux erreurs : somme des SC pour chaque groupe par rapport à sa propre moyenne Dispersion intergroupe SCI : SC des moyennes des groupes par rapport à la moyenne générale (pondération : SC multipliés par le nombre d éléments par groupe) 93 Représentation graphique 94 Cas où H1 est vraie : il y a une différence entre les groupes SCE 2 SCE X SCE 1 X X 3 SCT X SCI SCE = SCE 1 + SCE 2 + SCE 3 On peut montrer que SCT = SCE + SCI Cas où H0 est vraie : pas de différence entre les groupes SCE SCE 1 2 X SCE3 X X SCT X SCI Pour calculer les variances (= carrés moyens), il faut diviser les SCE par les nombres de ddl correspondants SCT : n - 1 ddl, donc S2 T = SCT/(n - 1) Variance totale SCE : (n 1-1) + (n 2-1) +... + (n k - 1) = n - k ddl, donc S 2 E = SCE/(n - k) 95 Variance due aux erreurs = variance résiduelle : variabilité naturelle, toujours là SCI : k - 1 ddl, donc S2 I = SCI/(k - 1) Variance intergroupe = variance factorielle : effet éventuel du facteur Si H 0 est vraie (pas d effet du facteur) : S2 E et S2 I sont deux estimations indépendantes de la fluctuation aléatoire σ 2 (S 2 T en est également une) Sous H 0, chaque groupe est un échantillon d une population, sa variance est donc une estimation de σ 2. La moyenne pondérée des variances de tous les groupes en est une estimation encore meilleure : S 2 E Sous H, les moyennes de chaque groupe estiment la 0 moyenne de la population, µ, et la variance calculée à partir de la dispersion des moyennes est une estimation de σ 2 : S 2 I 96

97 Si H 0 n est pas vraie (il y a un effet du facteur) S2 E reste une estimation de σ2 (d où l importance de l homogénéité des variances!) S2 I n est plus une estimation de σ2, mais elle est nécessairement plus grande car la distribution d échantillonnage des moyennes (différentes si H 0 n est pas vraie) est plus large que celle de µ Test 98 Donc sous H 0, S2 I /S2 E 1 On teste ce rapport avec une statistique F à (k - 1) et (n - k) ddl Test unilatéral L ANOVA ne dit pas quelle moyenne est différente Formules 99 SCE = x 2 - (Ti 2 /ni) SCI = (Ti 2 /ni) - T 2 /n avec T = x = somme de toutes les valeurs Ti = x = somme des valeurs de chaque groupe i ni = effectif de chaque groupe n = effectif total Test de Kruskal-Wallis 100 Equivalent non paramétrique de l ANOVA à 1 facteur Efficacité (/ANOVA) = 0,95 Distribution non Normale Variances inégales Petits groupes Variable semi-quantitative Généralisation du test U

Principe 101 Les valeurs sont toutes mélangées et placées en rang Pour chaque groupe, on somme les rangs : R j Pour les k groupes, on obtient k valeurs de R j Statistique-test H c = 12/(n(n+1))Σ(R j 2 /nj ) - 3(n + 1) Sous H 0 la statistique-test suit une loi du χ2 à (k - 1) ddl Il existe une correction pour les ex-aequo (plusieurs données égales donc de même rang) Utilisation d une statistique corrigée H corr = H c /C 102 avec C = 1 - (Σ(ex 3 - ex l l )/(n 3 - n)) où ex l est le nombre d individus ex-aequo pour la valeur l la somme se fait sur le nombre de groupes d ex-aequo ANOVA à 2 facteurs croisés 103 Groupes identifiés par 2 critères de classification indépendants, à r et s niveaux Dans ce cas, on considère une seule observation par combinaison de niveaux On peut tester l effet de chaque facteur, car chacun comprend des répétitions B A 1...... r 1 X X X X... X X X X s X X X X Exemple 104 On veut connaître l effet de la température (4 températures différentes) et de la profondeur (5 profondeurs) sur la productivité du phytoplancton. On prélève pour cela un échantillon d eau par profondeur dans 4 masses d eau de températures différentes Variable : productivité (µg chl a/mg) Facteur A : température Facteur B : profondeur

105 Test de 2 hypothèses nulles Les moyennes sont identiques selon le facteur A H 0 : µ1. = µ2. = µ3. = µr. Les moyennes sont identiques selon le facteur B H 0 : µ.1 = µ.2 = µ.3 = µ.s Hypothèses contraires correspondantes : au moins une des moyennes est différente des autres Sources de variation Dispersion totale SCT : SCE par rapport à la moyenne générale Dispersion selon le facteur A : SCEA = SCE des moyennes des groupes de A par rapport à la moyenne générale Dispersion selon le facteur B : SCEB = SCE des moyennes des groupes de B par rapport à la moyenne générale Dispersion résiduelle SCEE : dispersion totale SCET moins celle due aux facteurs A et B 106 Pour calculer les variances, il faut diviser les SCE par les nombres de ddl correspondants SCEA : (r - 1) donc S2 A = SCEA/(r - 1) SCEB : (s - 1) donc S2 B = SCEB/(s - 1) SCEE : (r - 1)(s - 1) donc S2 E = SCEE/(r - 1)(s - 1) Tests H 0A : F = S2 A /S2 E avec (r - 1) et (r - 1)(s - 1) ddl H 0B : F = S2 B /S2 E avec (s - 1) et (r - 1)(s - 1) ddl 107 Formules 108 avec T = somme de toutes les valeurs Ti ou j = somme des valeurs des lignes ou des colonnes SCEE = SCET - (SCEA + SCEB)!