Master Biologie Intégrative et Physiologie 1 ère année BIOSTATISTIQUES AVANCEES Yves Desdevises Observatoire Océanologique de Banyuls-sur-Mer (www.obs-banyuls.fr) 04 68 88 73 13 desdevises@obs-banyuls.fr http://desdevises.free.fr http://www.edu.upmc.fr/sdv/desdevises 2017-2018
PLAN 1. Rappels : données, tests, plans d expérience, distributions 2. Comparaison de 2 groupes : variances et moyennes 3. Comparaison de plus de 2 groupes : test d homogénéité des variances, analyses de variance à 1 et 2 facteurs 4. Relations entre variables : corrélation 5. Relations entre variables : régression simple 6. Régression multiple et analyse de covariance 7. Analyse multivariable 8. Analyse de survie
Quelques références Générales Sokal RR & Rohlf FJ. 2012. Biometry. 4th Revised Edition, Freeman and co., New York. Zar JH. 2009. Biostatistical Analysis. 5th Edition, Pearson. Frontier S, Davoult D, Gentilhomme V & Lagadeuc Y. 2007. Statistique pour les sciences de la vie et de l environnement. Cours et exercices corrigés. Dunod. Triola MM & Triola MF. 2006. Biostatistics for the Biological and Health Science. Pearson. Traduction française en 2009 (2ème édition 2012) : Biostatistiques pour les sciences de la vie et de la santé. Morin. Scherrer B. 2008-2009. Biostatistiques volumes 1 et 2. Gaëtan Millot G. 2014. Comprendre et réaliser les tests statistiques à l'aide de R. 3 ème édition. De Boeck.
Simplifiées Dytham C. 2011. Choosing and Using Statistics. A Biologist s Guide. 3 rd Edition. Blackwell Publishing. McKillup S. 2011. Statistics Explained. 2nd Edition. Cambridge University Press. van Emden H. 2008. Statistics for Terrified Biologists. Blackwell Publishing. Plus spécialisées Legendre P & Legendre L. 2012. Numerical Ecology. 3rd English Edition. Development in Environmental Modelling, 20. Elsevier. Underwood AJ. 1997. Experiments in Ecology. Cambridge University Press.
Quelques logiciels R (www.r-project.org) Statdisk (http://statdisk.com/) XLStat (www.xlstat.com) Minitab (www.minitab.com) JMP (www.jmp.com) Statistica (www.statsoft.com) SAS (www.sas.com/technologies/analytics/stat)
1. INTRODUCTION RAPPELS
Statistique : Etude scientifique des données numériques décrivant les variations naturelles Biostatistique Application à la biologie Important : savoir décider de la méthode à utiliser Bien connaître les méthodes : conditions d utilisation, limitations,... Penser aux statistiques avant de collecter les données
Utilité et utilisation des statistiques en biologie Description Vue synthétique et rationnelle des données Inférence Economie de travail par l étude d échantillons représentatifs Décision Test d hypothèse
Pourquoi utiliser les statistiques en biologie? Biologie : incertitude des résultats expérimentaux ou des observations Variabilité génétique Variabilité de réaction individuelle Variabilité du développement
Définitions Objet = observation = élément = unité d échantillonnage : élément sur lequel on mesure des caractéristiques (variables) Echantillon : ensemble des objets Population cible : ensemble des objets visés par une étude scientifique Population statistique : ensemble des objets représentés par l échantillon. C est sur elle que se fait l inférence
Variable = descripteur = facteur = trait : caractéristique mesurée ou observée sur les objets. Ex : longueur, température,... Variable dépendante (Y) = réponse Variable indépendante (X) = explicative Variable aléatoire : résultat d un processus aléatoire, valeur précise inconnue avant la mesure Variable contrôlée : décidée par l expérimentateur, erreur = mesure seulement
Paramètre : caractéristique quantitative permettant une représentation condensée d information contenue dans un ensemble de données. Ex : moyenne, pente,... Variance = inertie = carré moyen : somme des carrés des écarts à la moyenne (SCE)/nombre d objets (paramètre de dispersion)
Ecart-type (standard deviation) : racine carrée de la variance. Même unité que la variable S x = S x 2 Erreur-type (standard error) : écart-type de la distribution d échantillonnage de la moyenne (dispersion des estimations de la moyenne de plusieurs échantillons d une même population). Sert à calculer un intervalle de confiance
Interprétation de l'écart-type
Barres d'erreurs : attention!?
Variables Modèle déterministe Modèle aléatoire Intensité de la déformation Force de frappe 1 cause : 1 effet Croissance Dose d'engrais 1 cause : n effets variabilité Terme déterministe : loi du phénomène Terme aléatoire : variabilité du phénomène Hasard, fluctuations Autres facteurs, souvent à expliquer
Analyse statistique : étude des phénomènes stochastiques Discrimination de la loi du phénomène et de sa variabilité
Différents types de variables Binaire : 2 états. Ex : présence-absence Multiple : plus de 2 états Non-ordonnée = qualitative = nominale. Ex : couleur Ordonnée Semi-quantitative = ordinale = de rang. Ex : classes Quantitative Discontinue = discrète. Ex : nombre d individus Continue. Ex : longueur
Transformations Standardisation : y' = (y - y )/s (s = écart-type ; on obtient une variable centrée et réduite). y = 0 et s = 1, variables non-dimensionnelles Normalisation et stabilisation des variances : y' = log (b 0 + b 1 y) ; y' = y ;... Linéarisation
Statistiques descriptives Exploration des données A calculer avant chaque test Mesures standards : n, moyenne, variance (écart-type), distribution (histogramme ou graphe de quantilenormale),... Identifier les valeurs extrêmes ou aberrantes A ne pas oublier...
Plans d échantillonnage Principalement pour organismes fixes (ou localités,...) Echantillonnage aléatoire : représentatif Aléatoire : chaque membre de la population a la même probabilité d être choisi Aléatoire simple : chaque échantillon de taille n a la même probabilité d être choisi. Condition pour de nombreux tests
Echantillonnage systématique : mieux avec des informations supplémentaires (nombre total, organisation spatiale) Risque (faible) de coïncider avec une périodicité naturelle
Echantillonnage aléatoire stratifié : échantillonnage aléatoire au sein de zones définies (strates), souvent selon des caractéristiques définies (âge, sexe, végétation,...)
Echantillonnage en grappe Division de la population en sections (grappes) Sélection aléatoire des grappes Choix de tous les membres des grappes sélectionnées
Echantillonnage opportun En fonction des circonstances Sur les objets faciles à obtenir Exemple : réponses seulement de ceux qui participent de façon active à un sondage Pas un bon plan d'échantillonnage!
Plans d expérience Méthode expérimentale Travail sur un système simplifié dont on étudie la réponse à la variation de peu de facteurs à la fois Important : rigueur Construction : hypothèse nulle et hypothèse contraire Répondre spécifiquement à une question (critère de validité générale) Minimiser l erreur de Type I Application : analyse de variance (ANOVA)
Concepts Elément d observation Sur lequel on fait les mesures de la (des) variable(s) Ex : individus, quadrats,... Unité d expérimentation Contient les éléments Reçoit le traitement Ex : parcelle, bassin,...
Facteur : plusieurs valeurs possibles Niveaux ou traitements Contrôle Groupe non traité Traitement (placebo, manipulation seule,...) Bloc Groupe d unités d échantillonnage, défini a priori
Expérience de mesure d un phénomène naturel En milieu naturel : pas (peu) de contrôle des variables Mesure du profil de variabilité du phénomène Expérience contrôlée Utilisation de traitements contrôlés Réduction de l influence des autres facteurs Elimination Constance Inclusion dans l analyse
Répétition (= replication) Mesure de la variabilité du système (répétitions biologiques, pas techniques) Pseudoréplication Due à la non-indépendance des observations, qui ne sont pas alors de vrais réplicats Validité générale Variations dues exclusivement au facteur étudié Validité externe Généralisation à d autres systèmes Simplification pas trop importante
Aléatoire Blocs randomisés Systématique Ségrégation simple Ségrégation agrégée Ségrégation isolative Répétitions physiquement interdépendantes Pas de répétitions
Tests statistiques Important de bien définir l hypothèse nulle (H 0 ) La seule que l on étudie = hypothèse principale Contient généralement "=" La statistique testée possède une distribution connue Hypothèse contraire (H 1 ; "hypothèse alternative") Contient généralement " ", ">"ou "<" On ne peut la prouver, elle est plausible si H 0 est rejetée Grande importance de l hypothèse biologique
Conditions En général 3 conditions pour un test : Loi (Normale, Student, F,...) Indépendance des observations Homogénéité des variances (homoscédasticité) Loi de distribution théorique générée à partir des processus naturels, sous certaines conditions : probabilité d apparition de toutes les valeurs d une variable Besoin de tester la distribution observée sur l échantillon (impossible sur la population)
Erreur de Type I (α) : probabilité de se tromper en rejetant H 0 (donc H 0 est vraie). Seuil fixé Robustesse d un test : sensibilité aux conditions d applications Un test est robuste s il fonctionne bien même quand les conditions nécessaires à son fonctionnement ne sont pas optimales Puissance d un test : capacité à mettre en évidence de petites différences Aptitude à rejeter H 0 lorsqu elle est fausse (= 1 - ß (erreur de Type II)) Fonction de : test, nombre d observations, variance, α
H0 H1
p-value ("valeur-p") Test : calcul d une statistique-test (ou variable auxiliaire, p. ex. t ou F - voir plus loin) à l aide des données On peut calculer (logiciel) la probabilité d obtenir cette valeur (ou une valeur plus extrême) dans le cas où H0 est vraie : c est la p-value, P Interprétation en terme de rejet ou non de H0, en fonction du seuil α choisi, généralement 0,05 (5 %) : P > 0,05 : non rejet de H0 P 0,05 : rejet de H0
Puissance d un test : n optimal Question récurrente : de combien d objets (observations, prélèvements,...) a-t-on besoin pour établir une différence significative, s il y en a une? Exemple : utilisation de la statistique-test t Il faut d abord estimer la variance et avoir une idée de l écart entre populations (étude préalable) Utilisation de la formule de t pour trouver le n nécessaire à mettre en évidence un écart significatif défini à l aide de la valeur critique de t
Importance de l amplitude de la différence entre la vraie valeur du paramètre testé et sa valeur supposée par hypothèse On affine la puissance (en modifiant α, n,...) en fonction de l écart choisi (qui dépend du degré de précision souhaité) Exemple : si la vraie valeur est 0,5, un test plus puissant est nécessaire pour identifier comme significativement différente de celle-ci une valeur mesurée de 0,501 qu une valeur de 0,6 On cherche souvent à obtenir une puissance de 0,8 : 80 % de chance de prendre la bonne décision de rejeter une hypothèse nulle fausse
Test unilatéral ou bilatéral Dépend de la formulation de H 1 : hypothèse biologique Unilatéral : la différence est attendue dans un certain sens (> ou <). Bilatéral : on cherche seulement à savoir s il y a une différence, quel qu en soit le sens. Valeurs critiques différentes (dans les tables statistiques) : seuils à partir duquel on rejette H 0 Différence au niveau de la puissance
But du test : savoir si on doit rejeter ou non H 0 Risque d erreur due à la variabilité des observations Référence à une distribution, dans laquelle se place la statistique (= paramètre) testée Loi de distribution théorique Exemple de la loi Normale : tests paramétriques Génération empirique de la distribution Tests par permutations Pas de distribution Tests non paramétriques
Les tests non paramétriques sont basés sur la notion de rang Permettent de mettre en évidence des relations monotones Pour 2 variables : augmentation ou diminution constante d une variable quand l autre augmente monotones non monotone
Test par permutations : exemple 20 individus en 2 groupes de 10 ; variable = taille Question : la taille moyenne est-elle différente dans chaque groupe? H 0 : la taille moyenne est la même Statistique testée (= variable auxiliaire) : différence entre les moyennes Sous H, elle devrait se situer autour de 0 0
N importe quelle combinaison aléatoire de 2 groupes de 10 parmi les 20 individus correspond à une réalisation de H 0 Chacune de ces réalisations va donner une différence de moyenne entre les deux groupes plus ou moins grande Un grand nombre de ces réalisations permet de générer une distribution de la statistique sous H 0 Ces réalisations sont obtenues en permutant au hasard les données originales : test par permutations On compare ensuite la valeur observée de la statistique à cette distribution
t* <!t! t* =!t!!t!< t* <!t! t* =!t! t* >!t! Statistic t 8 0 974 1 17
Distribution théoriques Variables discontinues Loi binomiale Loi de Poisson Variables continues Loi Normale Loi du Khi-2 (X 2 ) Loi de Fisher Loi de Student
Distribution la plus importante : distribution Normale (= Gaussienne) Théorème de la limite centrale (central limit theorem) Quand une variable aléatoire résulte de nombreux effets indépendants et additifs, dont aucun n est dominant, cette variable tend à suivre une distribution normale, même si les effets ne suivent pas une telle distribution Souvent le cas dans la nature
Normalité : évaluation visuelle de la distribution des données Histogramme : en cloche Graphe quantile-normale (= quantile-quantile) : points en ligne droite Mieux pour petits échantillons X Value
Tests de normalité A faire avant d utiliser les tests paramétriques Exemple : test de Shapiro-Wilk, Kolmogorov-Smirnov, H 0 : Distribution normale Données multinormales : test de multinormalité Test de Dagnelie
Transformations Beaucoup de méthodes d analyse statistiques requièrent que les données suivent une certaine distribution, notamment la distribution Normale Si la distribution n est pas normale Méthodes non-paramétriques Transformation des données : normalité Autre intérêt : stabilisation des variances (doivent être indépendantes des moyennes)
Exemples Données d abondance Distribution asymétrique Distribution de Poisson Distribution contagieuse Données en proportions ou pourcentages
Transformation Logarithme y = ln(y + c) Distributions contagieuses
Transformation racine y = (y + c) Distributions de Poisson : variance = moyenne
Transformation arcsinus y = arcsin p Distributions en proportions
Transformation Box-Cox Formule générale Quand tout le reste a échoué Pas calculable à la main : technique itérative
Choix d une méthode 1 variable 2 groupes : test t, test U,... > 2 groupes : ANOVA, ANCOVA, test de Kruskal-Wallis,... 2 variables Liaison : corrélation, test du Χ 2 Modèle : régression simple > 2 variables Description : ordination sans contrainte, groupement Test : test de Mantel, régression multiple, analyse canonique, MANOVA