BIOSTATISTIQUES AVANCEES

Documents pareils
BIOSTATISTIQUES AVANCEES PLAN. Quelques références. Master Biologie Intégrative 1 ère année

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

TESTS D'HYPOTHESES Etude d'un exemple

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

TABLE DES MATIERES. C Exercices complémentaires 42

Biostatistiques : Petits effectifs

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction à la statistique non paramétrique

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Principe d un test statistique

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Aide-mémoire de statistique appliquée à la biologie

Evaluation de la variabilité d'un système de mesure

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Lois de probabilité. Anita Burgun

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Analyse de la variance Comparaison de plusieurs moyennes

Représentation d une distribution

Table des matières. I Mise à niveau 11. Préface

Loi binomiale Lois normales

Précision d un résultat et calculs d incertitudes

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Lire ; Compter ; Tester... avec R

Optimisation du rééchantillonnage dans un logiciel d Amélioration des Plantes

TSTI 2D CH X : Exemples de lois à densité 1

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

CAPTEURS - CHAINES DE MESURES

Théorie des sondages : cours 5

Introduction à la Statistique Inférentielle

Exemples d application

Chapitre 3. Les distributions à deux variables

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

TP N 57. Déploiement et renouvellement d une constellation de satellites

FORMULAIRE DE STATISTIQUES

PROBABILITES ET STATISTIQUE I&II

La simulation probabiliste avec Excel

Section «Maturité fédérale» EXAMENS D'ADMISSION Session de février 2014 RÉCAPITULATIFS DES MATIÈRES EXAMINÉES. Formation visée

23. Interprétation clinique des mesures de l effet traitement

1 Définition de la non stationnarité

Estimation et tests statistiques, TD 5. Solutions

Cours de Tests paramétriques

Arbres binaires de décision

La classification automatique de données quantitatives

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Probabilités conditionnelles Loi binomiale

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Relation entre deux variables : estimation de la corrélation linéaire

De la mesure à l analyse des risques

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Corps des nombres complexes, J Paul Tsasa

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

PROPOSITION TECHNIQUE ET FINANCIERE

Statistiques Descriptives à une dimension

Item 169 : Évaluation thérapeutique et niveau de preuve

LA CONDUITE D UNE MISSION D AUDIT INTERNE

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Données longitudinales et modèles de survie

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Dimensionnement d une roue autonome pour une implantation sur un fauteuil roulant

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

La nouvelle planification de l échantillonnage

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Théorie des probabilités

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

2.4 Représentation graphique, tableau de Karnaugh

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

CHAPITRE 5. Stratégies Mixtes

Chapitre 3 : INFERENCE

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Logiciel XLSTAT version rue Damrémont PARIS

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

4 Distributions particulières de probabilités

Chapitre 2/ La fonction de consommation et la fonction d épargne

Régression linéaire. Nicolas Turenne INRA

FICHE 1 Fiche à destination des enseignants

Mesures et incertitudes

Introduction à l approche bootstrap

VI. Tests non paramétriques sur un échantillon

Annexe commune aux séries ES, L et S : boîtes et quantiles

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Cours de méthodes de scoring

Incertitudes expérimentales

données en connaissance et en actions?

Essais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire

Transcription:

Master Biologie Intégrative et Physiologie 1 ère année BIOSTATISTIQUES AVANCEES Yves Desdevises Observatoire Océanologique de Banyuls-sur-Mer (www.obs-banyuls.fr) 04 68 88 73 13 desdevises@obs-banyuls.fr http://desdevises.free.fr http://www.edu.upmc.fr/sdv/desdevises 2017-2018

PLAN 1. Rappels : données, tests, plans d expérience, distributions 2. Comparaison de 2 groupes : variances et moyennes 3. Comparaison de plus de 2 groupes : test d homogénéité des variances, analyses de variance à 1 et 2 facteurs 4. Relations entre variables : corrélation 5. Relations entre variables : régression simple 6. Régression multiple et analyse de covariance 7. Analyse multivariable 8. Analyse de survie

Quelques références Générales Sokal RR & Rohlf FJ. 2012. Biometry. 4th Revised Edition, Freeman and co., New York. Zar JH. 2009. Biostatistical Analysis. 5th Edition, Pearson. Frontier S, Davoult D, Gentilhomme V & Lagadeuc Y. 2007. Statistique pour les sciences de la vie et de l environnement. Cours et exercices corrigés. Dunod. Triola MM & Triola MF. 2006. Biostatistics for the Biological and Health Science. Pearson. Traduction française en 2009 (2ème édition 2012) : Biostatistiques pour les sciences de la vie et de la santé. Morin. Scherrer B. 2008-2009. Biostatistiques volumes 1 et 2. Gaëtan Millot G. 2014. Comprendre et réaliser les tests statistiques à l'aide de R. 3 ème édition. De Boeck.

Simplifiées Dytham C. 2011. Choosing and Using Statistics. A Biologist s Guide. 3 rd Edition. Blackwell Publishing. McKillup S. 2011. Statistics Explained. 2nd Edition. Cambridge University Press. van Emden H. 2008. Statistics for Terrified Biologists. Blackwell Publishing. Plus spécialisées Legendre P & Legendre L. 2012. Numerical Ecology. 3rd English Edition. Development in Environmental Modelling, 20. Elsevier. Underwood AJ. 1997. Experiments in Ecology. Cambridge University Press.

Quelques logiciels R (www.r-project.org) Statdisk (http://statdisk.com/) XLStat (www.xlstat.com) Minitab (www.minitab.com) JMP (www.jmp.com) Statistica (www.statsoft.com) SAS (www.sas.com/technologies/analytics/stat)

1. INTRODUCTION RAPPELS

Statistique : Etude scientifique des données numériques décrivant les variations naturelles Biostatistique Application à la biologie Important : savoir décider de la méthode à utiliser Bien connaître les méthodes : conditions d utilisation, limitations,... Penser aux statistiques avant de collecter les données

Utilité et utilisation des statistiques en biologie Description Vue synthétique et rationnelle des données Inférence Economie de travail par l étude d échantillons représentatifs Décision Test d hypothèse

Pourquoi utiliser les statistiques en biologie? Biologie : incertitude des résultats expérimentaux ou des observations Variabilité génétique Variabilité de réaction individuelle Variabilité du développement

Définitions Objet = observation = élément = unité d échantillonnage : élément sur lequel on mesure des caractéristiques (variables) Echantillon : ensemble des objets Population cible : ensemble des objets visés par une étude scientifique Population statistique : ensemble des objets représentés par l échantillon. C est sur elle que se fait l inférence

Variable = descripteur = facteur = trait : caractéristique mesurée ou observée sur les objets. Ex : longueur, température,... Variable dépendante (Y) = réponse Variable indépendante (X) = explicative Variable aléatoire : résultat d un processus aléatoire, valeur précise inconnue avant la mesure Variable contrôlée : décidée par l expérimentateur, erreur = mesure seulement

Paramètre : caractéristique quantitative permettant une représentation condensée d information contenue dans un ensemble de données. Ex : moyenne, pente,... Variance = inertie = carré moyen : somme des carrés des écarts à la moyenne (SCE)/nombre d objets (paramètre de dispersion)

Ecart-type (standard deviation) : racine carrée de la variance. Même unité que la variable S x = S x 2 Erreur-type (standard error) : écart-type de la distribution d échantillonnage de la moyenne (dispersion des estimations de la moyenne de plusieurs échantillons d une même population). Sert à calculer un intervalle de confiance

Interprétation de l'écart-type

Barres d'erreurs : attention!?

Variables Modèle déterministe Modèle aléatoire Intensité de la déformation Force de frappe 1 cause : 1 effet Croissance Dose d'engrais 1 cause : n effets variabilité Terme déterministe : loi du phénomène Terme aléatoire : variabilité du phénomène Hasard, fluctuations Autres facteurs, souvent à expliquer

Analyse statistique : étude des phénomènes stochastiques Discrimination de la loi du phénomène et de sa variabilité

Différents types de variables Binaire : 2 états. Ex : présence-absence Multiple : plus de 2 états Non-ordonnée = qualitative = nominale. Ex : couleur Ordonnée Semi-quantitative = ordinale = de rang. Ex : classes Quantitative Discontinue = discrète. Ex : nombre d individus Continue. Ex : longueur

Transformations Standardisation : y' = (y - y )/s (s = écart-type ; on obtient une variable centrée et réduite). y = 0 et s = 1, variables non-dimensionnelles Normalisation et stabilisation des variances : y' = log (b 0 + b 1 y) ; y' = y ;... Linéarisation

Statistiques descriptives Exploration des données A calculer avant chaque test Mesures standards : n, moyenne, variance (écart-type), distribution (histogramme ou graphe de quantilenormale),... Identifier les valeurs extrêmes ou aberrantes A ne pas oublier...

Plans d échantillonnage Principalement pour organismes fixes (ou localités,...) Echantillonnage aléatoire : représentatif Aléatoire : chaque membre de la population a la même probabilité d être choisi Aléatoire simple : chaque échantillon de taille n a la même probabilité d être choisi. Condition pour de nombreux tests

Echantillonnage systématique : mieux avec des informations supplémentaires (nombre total, organisation spatiale) Risque (faible) de coïncider avec une périodicité naturelle

Echantillonnage aléatoire stratifié : échantillonnage aléatoire au sein de zones définies (strates), souvent selon des caractéristiques définies (âge, sexe, végétation,...)

Echantillonnage en grappe Division de la population en sections (grappes) Sélection aléatoire des grappes Choix de tous les membres des grappes sélectionnées

Echantillonnage opportun En fonction des circonstances Sur les objets faciles à obtenir Exemple : réponses seulement de ceux qui participent de façon active à un sondage Pas un bon plan d'échantillonnage!

Plans d expérience Méthode expérimentale Travail sur un système simplifié dont on étudie la réponse à la variation de peu de facteurs à la fois Important : rigueur Construction : hypothèse nulle et hypothèse contraire Répondre spécifiquement à une question (critère de validité générale) Minimiser l erreur de Type I Application : analyse de variance (ANOVA)

Concepts Elément d observation Sur lequel on fait les mesures de la (des) variable(s) Ex : individus, quadrats,... Unité d expérimentation Contient les éléments Reçoit le traitement Ex : parcelle, bassin,...

Facteur : plusieurs valeurs possibles Niveaux ou traitements Contrôle Groupe non traité Traitement (placebo, manipulation seule,...) Bloc Groupe d unités d échantillonnage, défini a priori

Expérience de mesure d un phénomène naturel En milieu naturel : pas (peu) de contrôle des variables Mesure du profil de variabilité du phénomène Expérience contrôlée Utilisation de traitements contrôlés Réduction de l influence des autres facteurs Elimination Constance Inclusion dans l analyse

Répétition (= replication) Mesure de la variabilité du système (répétitions biologiques, pas techniques) Pseudoréplication Due à la non-indépendance des observations, qui ne sont pas alors de vrais réplicats Validité générale Variations dues exclusivement au facteur étudié Validité externe Généralisation à d autres systèmes Simplification pas trop importante

Aléatoire Blocs randomisés Systématique Ségrégation simple Ségrégation agrégée Ségrégation isolative Répétitions physiquement interdépendantes Pas de répétitions

Tests statistiques Important de bien définir l hypothèse nulle (H 0 ) La seule que l on étudie = hypothèse principale Contient généralement "=" La statistique testée possède une distribution connue Hypothèse contraire (H 1 ; "hypothèse alternative") Contient généralement " ", ">"ou "<" On ne peut la prouver, elle est plausible si H 0 est rejetée Grande importance de l hypothèse biologique

Conditions En général 3 conditions pour un test : Loi (Normale, Student, F,...) Indépendance des observations Homogénéité des variances (homoscédasticité) Loi de distribution théorique générée à partir des processus naturels, sous certaines conditions : probabilité d apparition de toutes les valeurs d une variable Besoin de tester la distribution observée sur l échantillon (impossible sur la population)

Erreur de Type I (α) : probabilité de se tromper en rejetant H 0 (donc H 0 est vraie). Seuil fixé Robustesse d un test : sensibilité aux conditions d applications Un test est robuste s il fonctionne bien même quand les conditions nécessaires à son fonctionnement ne sont pas optimales Puissance d un test : capacité à mettre en évidence de petites différences Aptitude à rejeter H 0 lorsqu elle est fausse (= 1 - ß (erreur de Type II)) Fonction de : test, nombre d observations, variance, α

H0 H1

p-value ("valeur-p") Test : calcul d une statistique-test (ou variable auxiliaire, p. ex. t ou F - voir plus loin) à l aide des données On peut calculer (logiciel) la probabilité d obtenir cette valeur (ou une valeur plus extrême) dans le cas où H0 est vraie : c est la p-value, P Interprétation en terme de rejet ou non de H0, en fonction du seuil α choisi, généralement 0,05 (5 %) : P > 0,05 : non rejet de H0 P 0,05 : rejet de H0

Puissance d un test : n optimal Question récurrente : de combien d objets (observations, prélèvements,...) a-t-on besoin pour établir une différence significative, s il y en a une? Exemple : utilisation de la statistique-test t Il faut d abord estimer la variance et avoir une idée de l écart entre populations (étude préalable) Utilisation de la formule de t pour trouver le n nécessaire à mettre en évidence un écart significatif défini à l aide de la valeur critique de t

Importance de l amplitude de la différence entre la vraie valeur du paramètre testé et sa valeur supposée par hypothèse On affine la puissance (en modifiant α, n,...) en fonction de l écart choisi (qui dépend du degré de précision souhaité) Exemple : si la vraie valeur est 0,5, un test plus puissant est nécessaire pour identifier comme significativement différente de celle-ci une valeur mesurée de 0,501 qu une valeur de 0,6 On cherche souvent à obtenir une puissance de 0,8 : 80 % de chance de prendre la bonne décision de rejeter une hypothèse nulle fausse

Test unilatéral ou bilatéral Dépend de la formulation de H 1 : hypothèse biologique Unilatéral : la différence est attendue dans un certain sens (> ou <). Bilatéral : on cherche seulement à savoir s il y a une différence, quel qu en soit le sens. Valeurs critiques différentes (dans les tables statistiques) : seuils à partir duquel on rejette H 0 Différence au niveau de la puissance

But du test : savoir si on doit rejeter ou non H 0 Risque d erreur due à la variabilité des observations Référence à une distribution, dans laquelle se place la statistique (= paramètre) testée Loi de distribution théorique Exemple de la loi Normale : tests paramétriques Génération empirique de la distribution Tests par permutations Pas de distribution Tests non paramétriques

Les tests non paramétriques sont basés sur la notion de rang Permettent de mettre en évidence des relations monotones Pour 2 variables : augmentation ou diminution constante d une variable quand l autre augmente monotones non monotone

Test par permutations : exemple 20 individus en 2 groupes de 10 ; variable = taille Question : la taille moyenne est-elle différente dans chaque groupe? H 0 : la taille moyenne est la même Statistique testée (= variable auxiliaire) : différence entre les moyennes Sous H, elle devrait se situer autour de 0 0

N importe quelle combinaison aléatoire de 2 groupes de 10 parmi les 20 individus correspond à une réalisation de H 0 Chacune de ces réalisations va donner une différence de moyenne entre les deux groupes plus ou moins grande Un grand nombre de ces réalisations permet de générer une distribution de la statistique sous H 0 Ces réalisations sont obtenues en permutant au hasard les données originales : test par permutations On compare ensuite la valeur observée de la statistique à cette distribution

t* <!t! t* =!t!!t!< t* <!t! t* =!t! t* >!t! Statistic t 8 0 974 1 17

Distribution théoriques Variables discontinues Loi binomiale Loi de Poisson Variables continues Loi Normale Loi du Khi-2 (X 2 ) Loi de Fisher Loi de Student

Distribution la plus importante : distribution Normale (= Gaussienne) Théorème de la limite centrale (central limit theorem) Quand une variable aléatoire résulte de nombreux effets indépendants et additifs, dont aucun n est dominant, cette variable tend à suivre une distribution normale, même si les effets ne suivent pas une telle distribution Souvent le cas dans la nature

Normalité : évaluation visuelle de la distribution des données Histogramme : en cloche Graphe quantile-normale (= quantile-quantile) : points en ligne droite Mieux pour petits échantillons X Value

Tests de normalité A faire avant d utiliser les tests paramétriques Exemple : test de Shapiro-Wilk, Kolmogorov-Smirnov, H 0 : Distribution normale Données multinormales : test de multinormalité Test de Dagnelie

Transformations Beaucoup de méthodes d analyse statistiques requièrent que les données suivent une certaine distribution, notamment la distribution Normale Si la distribution n est pas normale Méthodes non-paramétriques Transformation des données : normalité Autre intérêt : stabilisation des variances (doivent être indépendantes des moyennes)

Exemples Données d abondance Distribution asymétrique Distribution de Poisson Distribution contagieuse Données en proportions ou pourcentages

Transformation Logarithme y = ln(y + c) Distributions contagieuses

Transformation racine y = (y + c) Distributions de Poisson : variance = moyenne

Transformation arcsinus y = arcsin p Distributions en proportions

Transformation Box-Cox Formule générale Quand tout le reste a échoué Pas calculable à la main : technique itérative

Choix d une méthode 1 variable 2 groupes : test t, test U,... > 2 groupes : ANOVA, ANCOVA, test de Kruskal-Wallis,... 2 variables Liaison : corrélation, test du Χ 2 Modèle : régression simple > 2 variables Description : ordination sans contrainte, groupement Test : test de Mantel, régression multiple, analyse canonique, MANOVA