BIOSTATISTIQUES AVANCEES PLAN. Quelques références. Master Biologie Intégrative 1 ère année

Transcription

1 Master Biologie Intégrative 1 ère année 1 BIOSTATISTIQUES AVANCEES Yves Desdevises! Observatoire Océanologique de Banyuls-sur-Mer ( ! [email protected]! PLAN 2 1. Rappels : données, tests, plans d expérience, distributions 2. Comparaison de 2 groupes : variances et moyennes 3. Comparaison de plus de 2 groupes : test d homogénéité des variances, analyses de variance à 1 et 2 facteurs 4. Relations entre variables : corrélation 5. Relations entre variables : régression simple 6. Régression multiple et analyse de covariance 7. Analyse multivariable 8. Analyse de survie Générales Quelques références Sokal RR & Rohlf FJ Biometry. 4th Revised Edition, Freeman and co., New York. Zar JH Biostatistical Analysis. 5th Edition, Pearson. Frontier S, Davoult D, Gentilhomme V & Lagadeuc Y Statistique pour les sciences de la vie et de l environnement. Cours et exercices corrigés. Dunod. Triola MM & Triola MF Biostatistics for the Biological and Health Science. Pearson. Traduction française en 2009 : Biostatistiques pour les sciences de la vie et de la santé. Scherrer B Biostatistiques volumes 1 et 2. Gaëtan Morin. 3 Simplifiées Dytham C Choosing and Using Statistics. A Biologist s Guide. 3 rd Edition. Blackwell Publishing. McKillup S Statistics Explained. 2nd Edition. Cambridge University Press.! van Emden H Statistics for Terrified Biologists. Blackwell Publishing. Plus spécialisées Legendre P & Legendre L Numerical Ecology. 3rd English Edition. Development in Environmental Modelling, 20. Elsevier. Underwood AJ Experiments in Ecology. Cambridge University Press. 4

2 Quelques logiciels 5 R ( JMP ( Statdisk ( XLStat ( Minitab ( Statistica ( SAS ( INTRODUCTION RAPPELS Statistique : Etude scientifique des données numériques décrivant les variations naturelles Biostatistique Application à la biologie Biometry Important : savoir décider de la méthode à utiliser Bien connaître les méthodes : conditions d utilisation, limitations,... Penser aux statistiques avant de collecter les données 7 Utilité et utilisation des statistiques en biologie Description Vue synthétique et rationnelle des données Inférence Economie de travail par l étude d échantillons représentatifs Décision Test d hypothèse 8

3 Pourquoi utiliser les statistiques en biologie? 9 Biologie : incertitude des résultats expérimentaux ou des observations Variabilité génétique Variabilité de réaction individuelle Variabilité du développement Définitions 10 Objet = observation = élément = unité d échantillonnage : élément sur lequel on mesure des caractéristiques (variables) Echantillon : ensemble des objets Population cible : ensemble des objets visés par une étude scientifique Population statistique : ensemble des objets représentés par l échantillon. C est sur elle que se fait l inférence 11 Variable = descripteur = facteur = trait : caractéristique mesurée ou observée sur les objets. Ex : longueur, température,... Variable dépendante (Y) = réponse Variable indépendante (X) = explicative Variable aléatoire : résultat d un processus aléatoire, valeur précise inconnue avant la mesure Variable contrôlée : décidée par l expérimentateur, erreur = mesure seulement Paramètre : caractéristique quantitative permettant une représentation condensée d information contenue dans un ensemble de données. Ex : moyenne, pente,... Variance = inertie = carré moyen : somme des carrés des écarts à la moyenne (SCE)/nombre d objets (paramètre de dispersion) 12

4 Ecart-type (standard deviation) : racine carrée de la variance. Même unité que la variable S x = S x 2 13 Erreur-type (standard error) : écart-type de la distribution d échantillonnage de la moyenne (dispersion des estimations de la moyenne de plusieurs échantillons d une même population). Sert à calculer un intervalle de confiance Interprétation de l'écart-type 14 Barres d'erreurs : attention! 15? 16

5 Modèle déterministe Variables Modèle aléatoire 17 Intensité de la déformation Force de frappe 1 cause : 1 effet Dose d'engrais Terme déterministe : loi du phénomène Terme aléatoire : variabilité du phénomène Hasard, fluctuations Autres facteurs, souvent à expliquer Croissance 1 cause : n effets variabilité Analyse statistique : étude des phénomènes stochastiques Discrimination de la loi du phénomène et de sa variabilité 18 Différents types de variables 19 Binaire : 2 états. Ex : présence-absence Multiple : plus de 2 états Non-ordonnée = qualitative = nominale. Ex : couleur Ordonnée Semi-quantitative = ordinale = de rang. Ex : classes Quantitative Discontinue = discrète. Ex : nombre d individus Continue. Ex : longueur 20 Transformations Standardisation : y' = (y - y )/s (s = écart-type ; on obtient une variable centrée et réduite). y = 0 et s = 1, variables non-dimensionnelles Normalisation et stabilisation des variances : y' = log (b 0 + b 1 y) ; y' = y ;... Linéarisation Pondération

6 Statistiques descriptives 21 Exploration des données A calculer avant chaque test Mesures standards : n, moyenne, variance (écart-type), distribution (histogramme ou graphe de quantilenormale),... Identifier les valeurs extrêmes ou aberrantes A ne pas oublier Statdisk - Explore Data Printed on Mer 10 sep 2008 at 9:08 Statdisk - Scatterplot Printed on Mer 10 sep 2008 at 9:08 X Value Plans d échantillonnage Principalement pour organismes fixes (ou localités,...) Echantillonnage aléatoire : représentatif Aléatoire : chaque membre de la population a la même probabilité d être choisi Aléatoire simple : chaque échantillon de taille n a la même probabilité d être choisi. Condition pour de nombreux tests 23 Echantillonnage systématique : mieux avec des informations supplémentaires (nombre total, organisation spatiale) Risque (faible) de coïncider avec une périodicité naturelle 24

7 Echantillonnage aléatoire stratifié : échantillonnage aléatoire au sein de zones définies (strates), souvent selon des caractéristiques définies (âge, sexe, végétation,...) 25 Echantillonnage en grappe Division de la population en sections (grappes) Sélection aléatoire des grappes Choix de tous les membres des grappes sélectionnées Echantillonnage opportun En fonction des circonstances Sur les objets faciles à obtenir Exemple : réponses seulement de ceux qui participent de façon active à un sondage Pas un bon plan d'échantillonnage! Plans d expérience 28 Méthode expérimentale Travail sur un système simplifié dont on étudie la réponse à la variation de peu de facteurs à la fois Important : rigueur Construction : hypothèse nulle et hypothèse contraire Répondre spécifiquement à une question (critère de validité générale) Minimiser l erreur de Type I Application : analyse de variance (ANOVA)

8 Concepts 29 Elément d observation Sur lequel on fait les mesures de la (des) variable(s) Ex : individus, quadrats,... Unité d expérimentation Contient les éléments Reçoit le traitement Ex : parcelle, bassin, Facteur : plusieurs valeurs possibles Niveaux ou traitements Contrôle Groupe non traité Traitement (placebo, manipulation seule,...) Bloc Groupe d unités d échantillonnage, défini a priori Expérience de mesure d un phénomène naturel En milieu naturel : pas (peu) de contrôle des variables Mesure du profil de variabilité du phénomène Expérience contrôlée Utilisation de traitements contrôlés Réduction de l influence des autres facteurs Elimination Constance Inclusion dans l analyse 31 Répétition (= replication) Mesure de la variabilité du système (répétitions biologiques, pas techniques) Pseudoréplication Due à la non-indépendance des observations, qui ne sont pas alors de vrais réplicats 32 Validité générale Variations dues exclusivement au facteur étudié Validité externe Généralisation à d autres systèmes Simplification pas trop importante

9 Aléatoire 33 Blocs randomisés Systématique Ségrégation simple Ségrégation agrégée Ségrégation isolative Répétitions physiquement interdépendantes Pas de répétitions Tests statistiques Important de bien définir l hypothèse nulle (H 0 ) La seule que l on étudie = hypothèse principale Contient généralement "=" La statistique testée possède une distribution connue Hypothèse contraire (H ; "hypothèse alternative") 1 Contient généralement " ", ">"ou "<" On ne peut la prouver, elle est plausible si H 0 est rejetée Grande importance de l hypothèse biologique Statistique magie!! Conditions En général 3 conditions pour un test : Loi (Normale, Student, F,...) Indépendance des observations Homogénéité des variances (homoscédasticité) Loi de distribution théorique générée à partir des processus naturels, sous certaines conditions : probabilité d apparition de toutes les valeurs d une variable Besoin de tester la distribution observée sur l échantillon (impossible sur la population) Erreur de Type I (α) : probabilité de se tromper en rejetant H 0 (donc H 0 est vraie). Seuil fixé 36 Robustesse d un test : sensibilité aux conditions d applications Un test est robuste s il fonctionne bien même quand les conditions nécessaires à son fonctionnement ne sont pas optimales Puissance d un test : capacité à mettre en évidence de petites différences Aptitude à rejeter H lorsqu elle est fausse (= 1 - ß 0 (erreur de Type II)) Fonction de : test, nombre d observations, variance, α

10 37 H0 H1 Puissance d un test : n optimal 38 Question récurrente : de combien d objets (observations, prélèvements,...) a-t-on besoin pour établir une différence significative, s il y en a une? Exemple : utilisation de la statistique-test t Il faut d abord estimer la variance et avoir une idée de l écart entre populations (étude préalable) Utilisation de la formule de t pour trouver le n nécessaire à mettre en évidence un écart significatif défini à l aide de la valeur critique de t Importance de l amplitude de la différence entre la vraie valeur du paramètre testé et sa valeur supposée par hypothèse On affine la puissance (en modifiant α, n,...) en fonction de l écart choisi (qui dépend du degré de précision souhaité) Exemple : si la vraie valeur est 0,5, un test plus puissant est nécessaire pour identifier comme significativement différente de celle-ci une valeur mesurée de 0,501 qu une valeur de 0,6 On cherche souvent à obtenir une puissance de 0,8 : 80 % de chance de prendre la bonne décision de rejeter une hypothèse nulle fausse 39 Test unilatéral ou bilatéral 40 Dépend de la formulation de H 1 : hypothèse biologique Unilatéral : la différence est attendue dans un certain sens (> ou <). Bilatéral : on cherche seulement à savoir s il y a une différence, quel qu en soit le sens. Valeurs critiques différentes (dans les tables statistiques) : seuils à partir duquel on rejette H 0 Différence au niveau de la puissance

11 41 But du test : savoir si on doit rejeter ou non H 0 Risque d erreur due à la variabilité des observations Référence à une distribution, dans laquelle se place la statistique (= paramètre) testée Loi de distribution théorique Exemple de la loi Normale : tests paramétriques Génération empirique de la distribution Tests par permutations Pas de distribution Tests non paramétriques Les tests non paramétriques sont basés sur la notion de rang Permettent de mettre en évidence des relations monotones Pour 2 variables : augmentation ou diminution constante d une variable quand l autre augmente monotones non monotone Test par permutations : exemple 20 individus en 2 groupes de 10 ; variable = taille Question : la taille moyenne est-elle différente dans chaque groupe? H : la taille moyenne est la même 0 Statistique testée (= variable auxiliaire) : différence entre les moyennes Sous H 0, elle devrait se situer autour de 0 44

12 N importe quelle combinaison aléatoire de 2 groupes de 10 parmi les 20 individus correspond à une réalisation de H 0 45 Chacune de ces réalisations va donner une différence de moyenne entre les deux groupes plus ou moins grande Un grand nombre de ces réalisations permet de générer une distribution de la statistique sous H 0 Ces réalisations sont obtenues en permutant au hasard les données originales : test par permutations On compare ensuite la valeur observée de la statistique à cette distribution 46 t* <!t! t* =!t!!t!< t* <!t! t* =!t! t* >!t! Statistic t Distribution théoriques 47 Variables discontinues Loi binomiale Loi de Poisson Variables continues Loi Normale Loi du Khi-2 (X 2 ) Loi de Fisher Loi de Student 48 Distribution la plus importante : distribution Normale (= Gaussienne) Théorème de la limite centrale (central limit theorem) Quand une variable aléatoire résulte de nombreux effets indépendants et additifs, dont aucun n est dominant, cette variable tend à suivre une distribution normale, même si les effets ne suivent pas une telle distribution Souvent le cas dans la nature

13 Normalité : évaluation visuelle de la distribution des données Histogramme : en cloche Graphe quantile-normale (= quantile-quantile) : points en ligne droite Mieux pour petits échantillons Statdisk - Normal Quantile Plot Printed on Mar 9 sep 2008 at 14:40 49 X Value Tests de normalité 50 A faire avant d utiliser les tests paramétriques Exemple : test de Kolmogorov-Smirnov, Shapiro-Wilks H 0 : Distribution normale KS : Compare la distribution observée d une variable avec une distribution normale de mêmes paramètres, mesure l écart entre les deux distribution Données multinormales : test de multinormalité Test de Dagnelie Transformations 51 Beaucoup de méthodes d analyse statistiques requièrent que les données suivent une certaine distribution, notamment la distribution Normale Si la distribution n est pas normale Méthodes non-paramétriques Transformation des données : normalité Autre intérêt : stabilisation des variances (doivent être indépendantes des moyennes) Exemples 52 Données d abondance Distribution asymétrique Distribution de Poisson Distribution contagieuse Données en proportions ou pourcentages

14 Transformation Logarithme y = ln(y + c) Distributions contagieuses 53 Transformation racine y = (y + c) Distributions de Poisson : variance = moyenne Transformation arcsinus y = arcsin p Distributions en proportions 56 Transformation Box-Cox Formule générale Quand tout le reste a échoué Pas calculable à la main : technique itérative

15 Choix d une méthode 1 variable 2 groupes : test t, test U,... 2 variables Liaison : corrélation, test du Χ 2 Modèle : régression simple > 2 variables Description : ordination sans contrainte, groupement > 2 groupes : ANOVA, ANCOVA, test de Kruskal-Wallis,... Test : test de Mantel, régression multiple, analyse canonique, MANOVA COMPARAISON DE DEUX GROUPES 2 groupes d observations indépendantes : 2 échantillons pouvant être Indépendants Appariés H 0 : Les 2 groupes sont issus de la même population, avec donc la même moyenne NB : il existe des tests spécifiques pour comparer des proportions 2 étapes : Comparaison des variances Comparaison des moyennes Important de tester préalablement l homogénéité des variances car c est une condition d application de certains tests (tests paramétriques) Sinon, en cas d hétéroscédasticité : test simultané de 2 hypothèses nulles Problème de Behrens-Fisher Le rejet de H 0 peut être due à la différence des moyennes (la seule hypothèse qu on veut tester) ou à celle des variances

16 Comparaison de 2 variances 61 Test de Fisher-Snedecor (test F), pour données quantitatives normalement distribuées Statistique F : rapport des variances, tenant compte du nombre d objets par groupes par l intermédiaire des degrés de liberté Si égalité des variances, F doit se situer autour de 1 La variable F obéit à une loi de distribution de F 62 Pour 2 groupes à n 1 et n 2 objets F = s 2 1 /s2 2 Sous H 0, F suit une loi à (n 1-1) et (n 2-1) ddl Conditions Indépendance des observations Normalité des données Souvent, les tables ne donnent que les valeurs critiques de F dans la droite de la distribution F = plus grande variance/plus petite variance Test unilatéral (souvent) ou bilatéral On peut également tester les écarts-types par un test F

17 Comparaison de 2 moyennes Test t Pour échantillons appariés ou non appariés Test statistique Paramétrique : référence à la loi Normale Comparaison de t au seuil dans une table de Student Par permutations Tests non paramétriques Test U de Wilcoxon-Mann-Whitney (échantillons non appariés) Test des rangs signés de Wilcoxon (échantillons appariés) Test t pour échantillons indépendants Parfois appelé test Z H 0 : µ 1 = µ 2 Statistique t : différence des moyennes des deux échantillons tenant compte des variances et des n différents t suit une loi de distribution de Student à n 1 +n 2-2 degrés de liberté sous H 0 67 Conditions d utilisation Variable quantitative Grands échantillons (n i >30) Normalité des données (sauf si test par permutations) Egalité des variances (homoscédasticité) Indépendance des observations Quand n i < 30, on utilise une statistique t corrigée Les variances estimées des 2 échantillons sont combinées : meilleure approximation de la variance de la population Test t de certains livres/logiciels 68

18 Si les variances sont inégales, il existe également une correction Test t modifié selon Welch Même calcul de la statistique-test Distribution différente : formule pour modifier le nombre de ddl 69 Test t pour données appariées 70 Correspondance 2 à 2 des observations Mesures avant-après des mêmes sujets Mesures de deux caractères sur les mêmes individus Informations supplémentaires Pas nécessaire de tester l homogénéité des variances Analyse des différences observées pour chaque paire d observations d i = x i1 - x i2 71 Moyenne des différences = différences des moyennes µ d = µ 1 - µ 2 Erreur-type (écart-type de la moyenne) s d = s d / n Statistique-test t = d /s d Sous H 0 (µ d = 0), t obéit à une loi de Student à (n - 1) ddl, où n est le nombre de paires Test non paramétrique U de Wilcoxon-Mann-Whitney Pour deux groupes indépendants Données quantitatives Distribution non normale Variances inégales Echantillons trop petits pour test t (ex : n = 3) Données semi-quantitatives Moins puissants que les tests paramétriques Efficacité (/test t) = 0,95 : pour obtenir la même puissance, il faut 100 observations au test U contre 95 au test t Basé sur les rangs 72

19 On place l ensemble des valeurs en ordre (les exaequos reçoivent un rang médian) Plus les groupes sont séparés, moins les valeurs seront entremêlées Le test consiste à estimer l écart à un entremêlement moyen des valeurs placées en rang La statistique testée, U, mesure le degré de mélange des deux échantillons (H 0 : pas de différence) 73 Comparaison de la valeur observée par rapport à la valeur critique (Table) Convergence vers une loi Normale quand n augmente Exemple Groupe 1 : 0,5 2 2,1 (n 1 = 3) 74 Groupe 2 : 0,7 2,2 3 3,1 (n 2 = 4) Valeurs en ordre Provenance U 1 : nombre de fois qu un élément du groupe 2 en précède un du groupe 1 ; U 1 = = 2 U 2 : l inverse ; = = 10 Il y a en tout n 1 n 2 comparaisons : 4 x 3 = U 2 = n 1 n 2 - U 1 Si les groupes sont parfaitement séparés U 2 = 0 et U 1 = n 1 n 2, ou l inverse Si les groupes sont parfaitement entremêlés U 1 = U 2 = n 1 n 2 /2 Tester H 0 revient à mesurer l écart du plus petit des U à la valeur n 1 n 2 /2 (valeur sous H 0 ) Statistique-test = min (U 1, U 2 ) : Table Test non paramétrique de Wilcoxon 76 Pour données appariées Mêmes conditions que pour le test U Efficacité (/test t) = 0,95 Plus puissant que le test des signes (non développé) : Efficacité (/test t) = 0,63 Etude des différences entre paires de données H 0 : pas de différence entre les moyennes des groupes

20 On place en rang les valeurs absolues des différences (en excluant les valeurs nulles et en donnant un rang médian en cas d ex-aequo) On attribue à chaque rang le signe de la différence originale On somme les rangs positifs (T+) et les rangs négatifs (T-) Sous H 0, T+ = T- = n(n + 1)/4 (n excluant les différences nulles) Statistique-test = min (T+, T-) = Table 77 (pour des échantillons non appariés) Comparaison de 2 groupes Oui Données normales? Non n i petit 78 Test F Succès Normaliser Echec Homoscédasticité Oui Test t paramétrique permutation n i > 50? Succès Hétéroscédasticité Non Test t Welch Homogénéiser les variances Oui Test t permutation n i > 50? Echec Non Homoscédasticité Oui Non Test U (ou si variables semiquantitatives) Risque relatif (RR) et Rapport de cotes (RC) Mesures de risque Mesure de l'efficacité d'un traitement dans un groupe traité (ou exposé) par rapport à un groupe non traité Exemple : rapport entre le nombre de sujets développant une pathologie dans un groupe recevant un médicament et ce nombre dans un groupe contrôle Très important en santé humaine et en épidémiologie, dans le cadre d'études prospectives et rétrospectives 79 Tableau d'une étude prospective ou rétrospective 80! Maladie Pas de maladie! Traité (exposé) a b Non! traité (ou placebo ou non exposé) c! RR = (a/(a+b)/(c/(c+d)), que pour études prospectives RC = (a/b)/(c/d) = ad/bc Si RR ou RC = 1, le traitement n'a pas d'effet, sinon il en a un (dans un sens ou l'autre) Possibilité de calcul d'un intervalle de confiance d

21 Risque relatif RR = relative risk Incidence d'un événement dans un groupe/incidence du même événement dans un autre groupe Exemple : survenue d'une maladie dans un groupe vacciné et un groupe témoin non vacciné RR = chance de tomber malade dans le groupe traité par rapport à cette chance dans le groupe témoin Souvent incidence dans groupe témoin pas connue : calcul du RC, qui estime bien le RR Rapport de cotes RC = odds ratio Cote = nombre de fois qu'un événement s'est produit dans un groupe/nombre de fois où il ne s'est pas produit. Exemple : 3 contre 1 En sciences de la santé : comparaison du risque (par exemple de développer une maladie) entre les individus traités et les individus contrôles RC = Probabilité pour le groupe traité (ou exposé) / Probabilité pour le groupe contrôle COMPARAISON DE PLUS DE DEUX GROUPES La comparaison de moyennes de plus de deux échantillons se fait généralement par une analyse de variance (ANOVA) L analyse de variance suppose l homogénéité des variances et la normalité des données Sinon : problème de Behrens-Fisher (test simultané de 2 hypothèses nulles) Si ces conditions ne peuvent être atteintes par des transformations, il faut utiliser d autres méthodes Les tests d homogénéité des variances (THV) requièrent la normalité des données 84

22 THV : Test de Bartlett 85 Données normalement distribuées H 0 : toutes les variances sont égales H 1 : au moins une des variances est différente Test d une variable auxiliaire (statistique-test) B qui suit une loi du χ 2 sous H 0 (test unilatéral) 86 avec En divisant B par C B, on obtient une statistique suivant une loi du χ 2 à (k - 1) ddl : test Analyse de variance (ANOVA) 87 k groupes indépendants d observations Comparaison des moyennes (par l intermédiaire des variances totale, intergroupe et intragroupe) H 0 : Les moyennes des k groupes sont égales H 1 : Au moins une des moyennes est différente (l ANOVA ne dit pas lesquelles) On ne peut pas remplacer une ANOVA par une série de tests t : inflation de l erreur de Type I (problème des tests multiples) Les groupes sont définis par un ou plusieurs critère(s) de classification ou facteur, contrôlé ou aléatoire Conditions d application Variable quantitative Normalité ( équivalents NP : Test de Kruskal-Wallis, Friedman,...) Homoscédasticité Indépendance des observations n 5 observations/groupe 88

23 Le cas échéant, pour savoir à quelle(s) moyenne(s) est due le rejet de H 0 : tests a posteriori 89 Test LSD (Least Significant Difference, Fisher) Test HSD (Honestly Significant Difference, Tukey) Test SNK (Student, Newmann, Keuls) Test de Scheffé Test de Dunnet (pour comparer groupe témoin aux autres) Diffèrent entre eux et du test t par leur définition de l erreur de Type I Souvent réalisés dans la foulée par les logiciels Différentes formes d ANOVA X X X X X X X X X X X X X X X X X X X X X X X X X X X X ANOVA à 1 facteur A X X X X B X X X X C X X X X ANOVA à 2 facteurs croisés X X X X X X X X A X X X X X X X X X X X X X X X X X X X X B X X X X X X X X X X X X ANOVA à 2 facteurs croisés avec répétitions A B C D E F X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X ANOVA hiérarchique ANOVA à > 2 facteurs et/ou avec plusieurs variables 91 Avec > 2 facteurs : ANOVA multifactorielle Implique de nombreuses possibilités d interactions entre les facteurs. A définir a priori Mêmes principes que ANOVA factorielle Avec plusieurs variables : analyse de variance multivariable ou MANOVA Généralisation de l ANOVA univariable Les variables doivent être pas ou peu corrélées ANOVA à 1 facteur 92 1 variable k groupes (k > 2), définis par 1 critère Exemple variable = croissance d une plante critère = différentes intensités lumineuses Facteur contrôlé ( expérimental ) ou aléatoire ( naturel )

24 Sources de variation : décomposition de la variance totale Dispersion totale SCT : SC par rapport à la moyenne générale Dispersion intragroupe SCE, due aux erreurs : somme des SC pour chaque groupe par rapport à sa propre moyenne Dispersion intergroupe SCI : SC des moyennes des groupes par rapport à la moyenne générale (pondération : SC multipliés par le nombre d éléments par groupe) 93 Représentation graphique 94 Cas où H1 est vraie : il y a une différence entre les groupes SCE 2 SCE X SCE 1 X X 3 SCT X SCI SCE = SCE 1 + SCE 2 + SCE 3 On peut montrer que SCT = SCE + SCI Cas où H0 est vraie : pas de différence entre les groupes SCE SCE 1 2 X SCE3 X X SCT X SCI Pour calculer les variances (= carrés moyens), il faut diviser les SCE par les nombres de ddl correspondants SCT : n - 1 ddl, donc S2 T = SCT/(n - 1) Variance totale SCE : (n 1-1) + (n 2-1) (n k - 1) = n - k ddl, donc S 2 E = SCE/(n - k) 95 Variance due aux erreurs = variance résiduelle : variabilité naturelle, toujours là SCI : k - 1 ddl, donc S2 I = SCI/(k - 1) Variance intergroupe = variance factorielle : effet éventuel du facteur Si H 0 est vraie (pas d effet du facteur) : S2 E et S2 I sont deux estimations indépendantes de la fluctuation aléatoire σ 2 (S 2 T en est également une) Sous H 0, chaque groupe est un échantillon d une population, sa variance est donc une estimation de σ 2. La moyenne pondérée des variances de tous les groupes en est une estimation encore meilleure : S 2 E Sous H, les moyennes de chaque groupe estiment la 0 moyenne de la population, µ, et la variance calculée à partir de la dispersion des moyennes est une estimation de σ 2 : S 2 I 96

25 97 Si H 0 n est pas vraie (il y a un effet du facteur) S2 E reste une estimation de σ2 (d où l importance de l homogénéité des variances!) S2 I n est plus une estimation de σ2, mais elle est nécessairement plus grande car la distribution d échantillonnage des moyennes (différentes si H 0 n est pas vraie) est plus large que celle de µ Test 98 Donc sous H 0, S2 I /S2 E 1 On teste ce rapport avec une statistique F à (k - 1) et (n - k) ddl Test unilatéral L ANOVA ne dit pas quelle moyenne est différente Formules 99 SCE = x 2 - (Ti 2 /ni) SCI = (Ti 2 /ni) - T 2 /n avec T = x = somme de toutes les valeurs Ti = x = somme des valeurs de chaque groupe i ni = effectif de chaque groupe n = effectif total Test de Kruskal-Wallis 100 Equivalent non paramétrique de l ANOVA à 1 facteur Efficacité (/ANOVA) = 0,95 Distribution non Normale Variances inégales Petits groupes Variable semi-quantitative Généralisation du test U

26 Principe 101 Les valeurs sont toutes mélangées et placées en rang Pour chaque groupe, on somme les rangs : R j Pour les k groupes, on obtient k valeurs de R j Statistique-test H c = 12/(n(n+1))Σ(R j 2 /nj ) - 3(n + 1) Sous H 0 la statistique-test suit une loi du χ2 à (k - 1) ddl Il existe une correction pour les ex-aequo (plusieurs données égales donc de même rang) Utilisation d une statistique corrigée H corr = H c /C 102 avec C = 1 - (Σ(ex 3 - ex l l )/(n 3 - n)) où ex l est le nombre d individus ex-aequo pour la valeur l la somme se fait sur le nombre de groupes d ex-aequo ANOVA à 2 facteurs croisés 103 Groupes identifiés par 2 critères de classification indépendants, à r et s niveaux Dans ce cas, on considère une seule observation par combinaison de niveaux On peut tester l effet de chaque facteur, car chacun comprend des répétitions B A r 1 X X X X... X X X X s X X X X Exemple 104 On veut connaître l effet de la température (4 températures différentes) et de la profondeur (5 profondeurs) sur la productivité du phytoplancton. On prélève pour cela un échantillon d eau par profondeur dans 4 masses d eau de températures différentes Variable : productivité (µg chl a/mg) Facteur A : température Facteur B : profondeur

27 105 Test de 2 hypothèses nulles Les moyennes sont identiques selon le facteur A H 0 : µ1. = µ2. = µ3. = µr. Les moyennes sont identiques selon le facteur B H 0 : µ.1 = µ.2 = µ.3 = µ.s Hypothèses contraires correspondantes : au moins une des moyennes est différente des autres Sources de variation Dispersion totale SCT : SCE par rapport à la moyenne générale Dispersion selon le facteur A : SCEA = SCE des moyennes des groupes de A par rapport à la moyenne générale Dispersion selon le facteur B : SCEB = SCE des moyennes des groupes de B par rapport à la moyenne générale Dispersion résiduelle SCEE : dispersion totale SCET moins celle due aux facteurs A et B 106 Pour calculer les variances, il faut diviser les SCE par les nombres de ddl correspondants SCEA : (r - 1) donc S2 A = SCEA/(r - 1) SCEB : (s - 1) donc S2 B = SCEB/(s - 1) SCEE : (r - 1)(s - 1) donc S2 E = SCEE/(r - 1)(s - 1) Tests H 0A : F = S2 A /S2 E avec (r - 1) et (r - 1)(s - 1) ddl H 0B : F = S2 B /S2 E avec (s - 1) et (r - 1)(s - 1) ddl 107 Formules 108 avec T = somme de toutes les valeurs Ti ou j = somme des valeurs des lignes ou des colonnes SCEE = SCET - (SCEA + SCEB)!

28 Test de Friedman Appelé aussi Méthode de Friedman pour blocs randomisés Equivalent non-paramétrique de l ANOVA à 2 facteurs sans répétitions Pas de présupposé sur la distribution Pour variables quantitatives ou semi-quantitatives Moins puissant que l ANOVA Deux hypothèses nulles : moyennes égales selon chaque facteur 109 Principe Le test doit être conduit deux fois : une fois pour chaque facteur A et B, à a et b niveaux (ex. pour A) Placer les valeurs selon le facteur A en rangs dans les niveaux (qui jouent le rôle de blocs) du facteur B Sommer les rangs selon les niveaux : (Σ b Rij) Calculer X 2 = ((12/(ab(a + 1))Σ a (Σ b Rij) 2 ) - 3b(a + 1) Cette valeur suit une loi du χ 2 à (a - 1) ddl sous H0 Idem pour B 110 ANOVA à 2 facteurs avec répétitions Permet de tester en plus l interaction entre les 2 facteurs Interaction : influence du niveau d un facteur sur l effet de l autre facteur sur la variable dépendante B A r t t t t t t t t s t t t t 111 Exemple 112 On cherche à évaluer les effets de la dose d un médicament et de l âge sur le rythme cardiaque de patients. On veut en outre savoir si l effet éventuel du médicament diffère selon l âge. Variable : rythme cardiaque au repos Facteur A : dose de médicament Facteur B : catégorie d âge Effet différentiel selon l âge (ou l inverse) : interaction A X B

29 Effets des facteurs et de l interaction B : âge A : médicament Dose forte Dose faible 113 Var : Rythme cardiaque Jeune Adulte Âgé Pas d effet Jeune Adulte Âgé Effet de B Jeune Adulte Âgé Effet de A Jeune Adulte Âgé Effet de A et B Var : Rhytme cardiaque A : médicament Dose forte Dose faible B : âge 50 Jeune Adulte Âgé Interaction + effet de A 50 Jeune Adulte Âgé Interaction et pas d effet de A et B La présence d une interaction rend complexe l étude de l effet des facteurs individuels Dans ce cas, ceux-ci doivent être étudiés plus précisément, ou non considérés Test de 3 hypothèses nulles Les moyennes sont identiques selon le facteur A H 0 : µ1. = µ2. = µ3. = µr. Les moyennes sont identiques selon le facteur B H 0 : µ.1 = µ.2 = µ.3 = µ.s Les facteurs A et B n interagissent pas sur la variable Sources de variation Dispersion selon le facteur A : SCEA = SCE des moyennes des groupes de A par rapport à la moyenne générale Dispersion selon le facteur B : SCEB = SCE des moyennes des groupes de B par rapport à la moyenne générale Dispersion cellulaire SCEC : au sein des cases du tableau Dispersion due à l interaction SCEAB Dispersion résiduelle SCEE : dispersion totale SCET moins SCEC 116

30 117 Variances : division par les ddl SCEA : (r - 1) donc S2 A = SCEA/(r - 1) SCEB : (s - 1) donc S2 B = SCEB/(s - 1) SCEAB : (r - 1)(s - 1) donc S2 AB = SCEAB/ (r - 1)(s - 1) SCEE : rs(t - 1) donc S2 E = SCEE/rs(t - 1) 118 Tests H 0A : F = S2 A /S2 E avec (r - 1) et rs(t - 1) ddl H 0B : F = S2 B /S2 avec (s - 1) et rs(t - 1) ddl E H 0AB : F = S2 AB /S2 E avec (r - 1)(s - 1) et rs(t - 1) ddl Formules 119 SCEAB = SCEC - (SCEA + SCEB) SCEE = SCET - SCEC Tableau d ANOVA 120 Exemple pour deux facteurs à 3 et 2 niveaux, et 8 répétitions par niveau Source ddl Somme des carrés Carré moyen F Probabilité A 2 181,32 90,66 9,483 0,0004 B 1 16,64 16,64 1,74 0,194 A X B 2 23,93 11,96 1,251 0,297 Erreur ,52 9,56

31 Test de Scheirer-Ray-Hare 121 Equivalent non-paramétrique de l ANOVA à deux facteurs avec répétitions Extension du test de Kruskal-Wallis (mêmes conditions) Parfois appelé test H Test de l effet de chaque facteur et de l interaction Facteur A, à a niveaux, facteur B à b niveaux, n répétitions par combinaison de niveaux Principe Placer l ensemble des valeurs en rang Remplacer les valeurs originales par leurs rangs Effectuer une ANOVA factorielle sur ces rangs, on obtient pour chaque facteur les SCE Calculer le carré moyen CM = abn(abn + 1)/12 Pour chaque facteur et l interaction, calculer les statistiques H, telles que H = SCE/CM 122 Sous H 0 les statistiques-test suivent une loi du χ2 à un nombre de ddl correspondant au SCE testé ANOVA hiérarchique 123 Extension de l ANOVA à 1 facteur Niveaux emboîtés (nested) = hiérarchisés Pas de correspondances entre les modalités des facteurs 1... a 1... b 1... b 1... b n n n n n n n n n Exemple Prélèvement et mesure de la taille de plantes dans 12 localités réparties également dans 3 chaînes de montagnes Variable : taille (pouvant faire l objet de n répétitions par localité) Facteur A : chaîne (3 niveaux) Facteur B = sous-facteur : localités (4 niveaux) Les facteurs sont emboîtés : la localité 1 de la chaîne 2 n a pas de rapport avec la localité 1 des deux autres chaînes 124

32 125 Test de 2 hypothèses nulles 1. Les moyennes sont identiques selon le sousfacteur B 2. Les moyennes sont identiques selon le facteur A Les hypothèses sont testées dans cet ordre 126 Tests Effet des sous-groupes H 0B : F = S 2 SG /S2 E avec a(b-1) et ab(n-1) ddl Effet du facteur proprement dit, tenant compte de l effet des sous-groupes H 0A : F = S 2 A /S2 SG avec (a-1) et a(b-1) ddl 127 ANOVA : modèles I, II et III (= modèle mixte) Fonction du caractère contrôlé (niveaux fixés par l'expérimentateur) ou aléatoire (niveaux choisis au hasard parmi une gamme de possibilité) des facteurs (= critères de classification) Ce qu'on a vu jusque là est l'anova de modèle I : 2 facteurs contrôlés ANOVA de modèle II : 2 facteurs aléatoires ANOVA de modèle III (ou mixte) : 1 facteur contrôlé et 1 facteur aléatoire 128

33 Pas toujours aisé de différencier un facteur fixe d'un facteur aléatoire : il faut savoir si on considère les niveaux comme un échantillon aléatoire d'un groupe plus vaste (exemple : quelques années sur une longue période) Modèle II rarement rencontré en biologie Tous les calculs des SCE. restent les mêmes, ce sont les calculs des F qui changent L'estimation de l'effet d'un facteur doit tenir compte du caractère aléatoire de l'autre facteur le cas échéant, par l'intermédiaire de l'effet de l'interaction Modèle mixte (III) avec facteur A contrôlé et B aléatoire : H 0A : F = S2 A /S2 AB avec (r - 1) et (r - 1)(s - 1) ddl H 0B : F = S2 B /S2 E avec (s - 1) et rs(t - 1) ddl H 0AB : F = S2 AB /S2 E avec (r - 1)(s - 1) et rs(t - 1) ddl 131 Modèle II avec facteur A et B aléatoires : H 0A : F = S2 A /S2 AB avec (r - 1) et (r - 1)(s - 1) ddl H 0B : F = S2 B /S2 AB avec (s - 1) et (r - 1)(s - 1) ddl H 0AB : F = S2 AB /S2 E avec (r - 1)(s - 1) et rs(t - 1) ddl Comparaison de > 2 groupes Données normales? Oui Non n i petit 132 Test d homogénéité des variances Oui Succès Echec Normaliser n i > 145? Homoscédasticité Hétéroscédasticité Non Echec ANOVA Succès Homogénéiser les variances Echec Test non paramétrique (K-W, Friedman,...)

34 LIEN ENTRE VARIABLES : CORRÉLATION Etude de 2 variables variables mesurées sur les mêmes objets Analyse simultanée des variables Au moins une des 2 variables doit être aléatoire Etude de la liaison entre 2 variables : covariance et corrélation 135 Covariance : dispersion de 2 variables quantitatives Variance de 2 variables simultanées Non bornée Peut être négative Pas d indication sur la liaison y B 136 A Covariances différentes x Avec ν = nombre de ddl (généralement (n-1))

35 Mesure de la liaison linéaire entre 2 variables : corrélation linéaire de Pearson Covariance sur données centrées-réduites Même signe que la covariance Varie entre -1 et 1 y B 137 A Corrélations identiques x rxy = Sxy/(SxSy) Test de signification de la corrélation Variables quantitatives Distribution (bi)normale Indépendance des observations H 0 : corrélation nulle dans la population de référence Variables auxiliaires F ou t (test de Student n-2 ddl) On peut tester r par permutations Test unilatéral ou bilatéral Corrélation causalité Test de H 0 : r = x (x 0) Test habituel H 0 : r = 0 ; recherche d un lien Parfois, l hypothèse biologique est différente Relations allométriques Lois métaboliques : BMR vs densité,... Relations prédateurs-proies r varie entre -1 et 1 : distribution symétrique autour de 0 Besoin d une transformation pour H 0 : r = x ( 0) Transformation Transformation de Fisher z = 0,5ln((1 + r)/(1 - r)) = tgh -1 r (arc-tangente hyperbolique) Distribution de - à + Opérations sur données transformées puis, si besoin, retour aux vraies valeurs par tgh On obtient un intervalle de confiance du r Valable pour n > 50 (25 à la rigueur) Correction pour les petits échantillons 140

36 Test 141 Transformation de la valeur observée de r en z Transformation du r de l hypothèse nulle (ρ 0 ) en ζ 0 On construit une statistique-test appelée t t = (z-ζ 0 ) (n-3) La statistique-test suit à peu près une distribution normale centrée-réduite Corrélation non paramétrique 142 Quand les données ne suivent pas une distribution binormale Pour variables semi-quantitatives Basée sur les rangs Il existe des corrections pour les ex-aequo ρ de Spearman Equivalent au r de Pearson calculé sur les rangs des variables originales Efficacité (/r) = 0,91 Varie entre -1 et 1 corrélation ρ = 1 - Avec d = différence entre les rangs d un même objet pour les deux variables p = nombre total d objets 6 p 2 d j j =1 p 3 - p 143 Exemple 144 Objets Var Var Var Var d = 3 d = 3 rangs rangs rangs rangs p = 5 ρ (1,2) = 1 - (6(0))/(5 3-5) = 1 ρ (3,4) = 1 - (6( ))/(5 3-5) = 0,1

37 145 Il existe une correction pour les ex-aequo (utile seulement si leur nombre est important) La corrélation de Spearman peut se tester : on calcule une statistique-test qui obéit à une loi normale (si n est suffisamment grand : 30) sous H 0 (pas de corrélation) 146 τ de Kendall Permet le calcul de corrélations partielles Varie entre -1 et 1 corrélation τ a = 2 S p (p - 1) Exemple Objets Var Var Classement des objets en ordre croissant selon la première variable τ (1,2) = 2( )/5(5-1) = 0 Objets Var Var etc Le τ de Kendall peut se tester La statistique-test sous H suit une loi 0 normale pour n > 8

38 Lien entre 2 variables qualitatives : test du χ 2 Etude d un tableau de fréquences : tableau de contingence Plusieurs utilisations du test Liaison entre 2 variables qualitatives Comparer plusieurs groupes décrits par une variable qualitative Conformité distribution observée vs théorique (ex : distribution mendélienne en génétique) 149 Les variables qualitatives comportent différents états : modalités Exemple : variable = couleur ; modalités : rouge, bleu, vert Les fréquences (absolues ou relatives) sont les nombres d objets caractérisés par une modalité de chaque variable Exemple (couleur et forme) : 35 carrés et rouges, 20 triangles et rouges,... Les chiffres sur lesquels se fait l analyse ne sont pas les mesures d une variable mais des fréquences Tableau de contingence Variable qualitative (ex : couleur) Variable qualitative (ex : forme) Rond Carré Triangle... Ovale Rouge Bleu Vert... Jaune Fréquence 1,1 Fréquence 2,1 Fréquence i,j Fréquence n,p Principe Mesurer les écarts entre la distribution observée (O) et la distribution théorique (E : espérée sous hypothèse d indépendance) Comparaison à une statistique-test : χ 2 χ 2 = corrélation pour variables qualitatives Cette statistique suit une distribution particulière sous H Les écarts observés sont-ils assez petits pour être dus au hasard?

39 Variable 2 Variable 2 Modalité 1 Modalité 2 Modalité 1 Modalité 2 Modalité k x Variable 1 Modalité r x x x Variable 1 Modalité 1 Modalité 2 Modalité k Modalité 1 E x Modalité 2 E x Modalité r E E x x x x x 153 E 11 = x 1. x.1 /n χ 2 = Σ(E - O) 2 /E 154 Plus l écart entre les valeurs observées et théoriques augmente, plus la valeur de χ 2 augmente Plus cet écart augmente, plus le numérateur de la statistique-test augmente, quel que soit le signe de cette différence : test unilatéral Le nombre de degrés de liberté est associé au nombre de (E - O) 2 /E calculés : il y en a autant que de cases dans le tableau, soit (r x k) En retirant le nombre de paramètres estimés, il reste (r - 1)(k - 1) ddl Recherche des correspondances 155 Quelles sont les associations entre modalités (cases du tableau) responsables de la relation éventuelle? Ce sont les cases ou E est la plus différente de O : correspondances entre les modalités Il est possible de visualiser les correspondances par une analyse factorielle des correspondances (AFC) Conditions d application variables qualitatives, ou 1 variable qualitative et des variables quantitatives ou semi-quantitatives divisées en classes Indépendance des observations Fréquences absolues E pas trop petites, n assez grand (n > (5 x r x k)) Pour petits effectifs : Test Exact de Fisher (tableaux 2 X 2)

40 LIEN ENTRE VARIABLES : RÉGRESSION SIMPLE Régression linéaire simple 158 Modèle corrélation Fonction de la forme Y = ax + b, premier ordre Pertinent que si r significatif et plutôt élevé Variable dépendante Y (= réponse) : dont on cherche à comprendre la variation Variable indépendante (= explicative) X : par rapport à laquelle on cherche à expliquer les variations de Y Plusieurs variables X : régression multiple Types de régression 159 X contrôlé, Y aléatoire : modèle I X et Y aléatoires : modèle II Droites passent par X et Y moyens 160 Démarche expérimentale/démarche corrélative Exemple : dans quelle mesure la température influence-telle la croissance d une espèce? Démarche expérimentale : individus placés à des températures différentes, mesure de la croissance et des processus biologiques liés : test de liens de causalité, élaboration de modèles prédictifs...

41 161 Démarche corrélative : on recherche dans la nature des situations où l espèce est présente dans des conditions variables de température. On mesure la corrélation entre la taille observée et la température régression = modèle Mise en évidence de corrélations Corrélation causalité!! Absence de corrélation absence de lien 162 Utilisations de la régression Description : modèle fonctionnel Trouver le meilleur modèle Génération d hypothèses Inférence : test d une hypothèse Tests des paramètres Lien entre variables Prévision et prédiction Valeurs de Y pour de nouvelles valeurs de X Interpolation (prévision) extrapolation (prédiction) Régression de modèle I Variation sur Y >> X Typiquement utilisée dans un contexte expérimental : X contrôlé Méthode des moindres carrés ordinaires MCO (ordinary least-squares : OLS) Parfois utilisable quand X et Y sont aléatoires si on ne cherche pas une estimation parfaite des paramètres, ni leur significativité Parfois (souvent) le seul type de régression des logiciels

42 Principe des moindres carrés intercept 165 Y ^ Y = ax+b pente ^ Y i Y i résidus X ^ On veut minimiser la somme des (Y i -Y i ) Après développement mathématique (minimisation de la somme des carrés des résidus), on trouve a = S xy /S x 2 = rxy (S y /S x ) b = Y - ax car la droite passe par le centre de gravité du nuage de point (coordonnées = moyennes) Coefficient de détermination : r 2 C est le carré du coefficient de corrélation r r 2 = variance expliquée par le modèle de régression : 167 Y ^ Y = ax+b Y ^ Y i Y i X Test de signification : on peut tester r ou a (idem) La pente a H 0 : a = 0 H 1 : a 0 Test F (analyse de variance), avec F = S yr 2 /Se 2 avec 1 et (n - 2) ddl 168 =! variance expliquée par la régression = SCER variance due aux erreurs = SCEE/(n - 2)

43 Tableau d ANOVA 169 Exemple pour une régression Age-Taille sur 54 individus Variable réponse = Age Source ddl Somme des carrés Carré moyen F Probabilité Taille , ,9 55,581 0 Résidus ,6 560,2 170 Conditions d application du test Distribution normale des variables explicatives Homogénéité des variances Indépendance des résidus 171 Tester le r 2 est équivalent à tester le coefficient de corrélation r On emploie la statistique t vue précédemment (ci-dessous, suit une loi de Student), ou la Table donnant le rcritique t = F = (r (n - 2))/( (1 - r 2 )) Test unilatéral ou bilatéral à (n - 2) ddl Test réalisable par permutations Intervalles de confiance 172 Pente : relation (0?), hypothèse ( 0) Ordonnée à l origine (0?) Estimation : intervalle d un Y i pour un X i Prédiction d une estimation : pour une nouvelle observation d un Y i, intervalle plus large Estimation de la moyenne : pour une nouvelle série de valeurs de Y pour une seule valeur de X, intervalle plus étroit

44 173 Calculs Intervalle de confiance de la pente La vraie pente (α) se situe entre a ± tbil. (S a 2 ); où (Sa 2 ) est l erreur type de a 174 S 2 a = Se 2 /(n - 1)Sx 2 = SCEE/((n - 2)(n - 1)Sx 2 ) (rappel : S 2 e = SCEE/(n -2) ; SCEE = Σ(Σ(y i - y i )2 ) = (n - 1)S 2 y (1 - r 2 ) t suit une loi de Student à (n - 2) ddl 175 Intervalle de confiance de l ordonnée à l origine Le vrai intercept (β) se situe entre b ± tbil. (S b 2 ); où (Sb 2 ) est l erreur type de b S b 2 = (Se 2 ΣXi 2 )/(nσ(xi - X ) 2 ) = (S y 2 (1-r 2 )ΣXi 2 )/(Sx 2 n(n - 2)) t suit une loi de Student à (n - 2) ddl 176 Intervalle de confiance d une estimation Une estimation de y, y, se situe entre y ± tbil. (S y 2 ); où (Sy 2 ) est l écart type de y S y 2 = Se 2 (1/n + (Xi - X ) 2 /Σ(X i - X ) 2 ) = ((n - 1)S y 2 (1 - r 2 )/(n - 2))(1/n + (Xi - X ) 2 /Σ(X i - X ) 2 ) t suit une loi de Student à (n - 2) ddl

45 177 On utilise également la régression de modèle I Quand on a une raison claire de postuler quelle variable influence l autre Quand on veut simplement faire de la prévision Quand seulement le r 2 est important Régression de modèle II 178 X et Y aléatoires, erreurs de même ordre En modèle I : la régression de Y sur X X sur Y Cas typique des relations dans la nature Relation poids-longueur, entre abondances,... Plusieurs méthodes Axe majeur AM Axe majeur réduit AMR Axe majeur sur données cadrées AMDC 179 Axe majeur intercept Y Y = ax+b pente ^ Y i Y i ^ X i X i résidus X Axe majeur : plus grande variabilité du nuage de points = première composante principale Plus complexe à calculer Sensible aux échelles des variables (contrairement au modèle I basé sur la corrélation) On transforme souvent les variables en ln Axe majeur réduit : sur données centrées-réduites Nécessite une forte corrélation (r significatif) entre les variables et un grand nombre d observations Pente non testable 180

46 Si les données ne sont pas exprimées dans les mêmes unités Axe majeur sur données cadrées Cadrage Xi = (Xi - Xmin)/(Xmax - Xmin) Yi = (Yi - Ymin)/(Ymax - Ymin) Avec un minimum à 0, la transformation devient Xi = Xi/Xmax 181 Yi = Yi/Ymax 182 Les données varient ainsi entre 0 et 1 A éviter en cas de valeurs aberrantes 183 Pente de l axe majeur : a m a m = (d ± (d 2 + 4))/2 ; (± suivant le signe de r) avec d = (a 2 - r 2 )/(ar 2 ) où a = pente de la droite MCO et r = coefficient de corrélation Ordonnée à l origine b m = Y - a m X Intervalle de confiance laborieux à calculer 184

47 But? Choisir le bon type de régression Estimation Variation sur Y > 3 fois celle sur X? 185 Prédiction Lien Comparer valeurs prédites et valeurs observées Oui Non MCO test par permutations Non Données normales? (transformation) Oui X et Y de mêmes unités et variances semblables? AM Oui AMR Oui Non r significatif? Non AMDC (si pas de valeurs aberrantes) RÉGRESSION AVEC PLUS DE 2 VARIABLES Plusieurs variables indépendantes : régression multiple 187 Y = f(x 1, X 2,..., X n ) But : expliquer une variable dépendante par plusieurs variables indépendantes Permet la prise en compte de l effet de variables confondantes Régression linéaire multiple 188 Y = b + a 1 X 1 + a 2 X a k X k 2 variables indépendantes : plan ; au-delà : hyperplan a (coefficient de régression partielle) : contribution de i la variable X i à l'explication de la variable Y, quand les variables explicatives sont tenues constantes

48 2 variables indépendantes (explicatives) : plan R 2 global = coefficient de détermination multiple : donne la proportion de variance expliquée par toutes les variables r 2 partiels = coefficients de détermination partiels : donnent la proportion de variance expliquée par chacune des variables en contrôlant l effet des autres Les deux peuvent être testés (mêmes conditions que pour la régression simple) Test du coefficient de détermination multiple R F RM = R 2 (n - p)/((1 - R 2 )(p - 1)) où p est le nombre total de variables (incluant Y), et n celui des observations F RM suit une loi de F à (p - 1) et (n - p) ddl R 2 ajusté 192 Problèmes du R 2 : augmente avec le nombre de variables, même aléatoires Comparaison difficile des équations de régressions multiples avec des nombres différents de variables indépendantes Le R 2 ajusté tient compte du nombre de variables et diminue d autant la valeur du R 2 R 2 ajusté = 1 - ((n - 1)/(n - p))(1 - R 2 )

49 Calcul des paramètres de régression 193 Calcul des coefficients de régression et de l ordonnée à l origine Il faut connaître Coefficients de corrélation linéaire simple entre toutes les paires de variables (Y, X 1, X 2,...) : r X 1X2, r YX,... 1 Ecarts types de toutes les variables Moyennes de toutes les variables 194 Exemple pour Y = b + a 1 X 1 + a 2 X 2 + a 3 X 3 Calcul des coefficients de régression centrés-réduits (a i ) à l aide des équations normales r YX 1 = a 1 + r X1X2 a 2 + r X1X3 a 3 r YX 2 = r X 2 X 1a 1 + a 2 + r X 2 X 3a 3 r YX 3 = r X 3 X 1a 1 + r X 3 X 2a 2 + a 3 Système de 3 équations à 3 inconnues : on trouve les a i On revient aux coefficients de régression originaux (non centrés-réduits) 195 a 1 = a 1 S Y /S X 1 a 2 = a 2 S Y /S X 2 a 3 = a 3 S Y /S X 3 On trouve l ordonnée à l origine b = Y - a 1 X 1 - a 2 X 2 - a 3 X 3 Cela permet également de calculer R 2, car R 2 = Σa i r iy où y est la variable dépendante 196 Sélection des variables X Colinéarité entre les variables X : besoin de procédures de sélection des variables significatives Elimination descendante (backward elimination) Toutes les variables sont incluses dans le modèle et les paramètres de régression partiels calculés Si une ou plusieurs variables ne sont pas significatives, la moins significative est retirée du modèle et les paramètres de régression sont recalculés Et ainsi de suite jusqu'à ce que toutes les variables restantes soient significatives

50 197 Sélection ascendante (forward selection) Même chose mais en ajoutant les variables une à une d après leur corrélations partielles avec Y, en commençant par la plus significative individuellement Procédure pas à pas (stepwise procedure) Mélange des deux procédures précédentes : chaque étape de sélection ascendante est suivie d une élimination descendante pour voir si une des variables incluse jusque là n est plus significative Partitionnement de la variation 198 Effet de deux variables X 1 et X 2 sur une variable Y Exemple : effet de la température (X 1 ) et de l humidité (X 2 ) sur la croissance (Y) d un organisme La température et l humidité ont chacune une influence sur la croissance La température et l humidité sont ici corrélées : redondance dans l explication de la variation Variation expliquée par X 1 = R 2 1 = a+b 199 Variation expliquée par X 2 = R 2 2 = b+c a b c d 100 % de la variation de Y Variation expliquée à la fois par X 1 et X 2 = R 2 1,2 = a+b+c Avec a+b+c+d = 100 % Variation inexpliquée = d a, b, c, et d sont déduits par soustraction Régression partielle 200 Etude de l effet d une variable X 1 sur une autre, X 2, tout en contrôlant l effet d une troisième, X 3 (la covariable) Consiste à régresser X 2 sur X 3 puis à étudier ensuite le lien entre les résidus de cette régression (la variation de X 2 qui n est pas expliqué par X 3 ) et X 1 Cela revient à tenir X 3 constante Exemples : contrôle de l effet de l échantillonnage, de la taille des hôtes, du temps,...

51 Exemple Relation entre l abondance d une espèce de nématode et la longévité de l hôte, tout en contrôlant la taille de l hôte 201 Graphe de régression 22, ,5 Abondance 15 12,5 10 7,5 5 2, Longévité Y = 6,191 +,106 * X; R^2 =,392 Tableau d ANOVA Abondance vs Longévité DDL Somme des carrés Carré moyen Valeur de F Valeur de p Régression 1 177, ,695 7,094,0221 Résidu ,536 25,049 Total ,231 Longévité Graphe de régression Abondance Graphe de régression 22, , ,5 10 7,5 5 2, Taille Y = -16,966 +,563 * X; R^2 =, Résidus Longévité Y = 12,538 -,05 * X; R^2 =,009 Tableau d ANOVA Abondance vs Résidus Longévité DDL Somme des carrés Carré moyen Valeur de F Valeur de p Régression 1 4,246 4,246,104,7531 Résidu ,984 40,817 Total ,231 Régression polynomiale 203 Permet d ajuster des courbes de formes variées, non linéaires, entre une variable dépendante Y et une ou plusieurs variables explicatives X 1 variable X : courbe 2 variables X : surface (plan) plus ou moins bosselée > 2 variables X : hyperplan bosselé 204 Variante de la régression multiple : ajout de variables supplémentaires par l intermédiaire des variables originales élevées à différents ordres (carré, cube,...) Exemple avec une variable X : ajout de X 2, X 3,... Y = b + a 1 X + a 2 X 2 + a 3 X Les variables à différents ordres sont sélectionnées par les procédures habituelles

52 Chaque ordre ajoute un pli à la courbe 205 Ordre 1 (X) Ordre 2 (X 2 ) Ordre 3 (X 3 ) Ordre 4 (X 4 ) Plus l ordre est élevé, plus on perd de degrés de liberté, plus l explication biologique est difficile Il faut trouver un bon compromis Pour les biologistes, la régression du deuxième ordre (parabole) est souvent utile Les organismes ont souvent des préférences situées autour d un optimum : distribution unimodale 206 On peut ajuster une courbe!!! u t a1 a2 207!! r 2 = 0,875 Calcul de l optimum u et de la tolérance t (= 1 unité d'écart-type) Relation régression et analyse de variance : utilisation de variables muettes 208 En ANOVA, les variables indépendantes sont qualitatives (facteurs) Il est possible de les recoder afin de les utiliser dans une régression : variables muettes (dummy variables) Le tableau d'anova de la régression donne ainsi le même résultat qu'une ANOVA

53 Le recodage se fait avec des 0 et 1 Exemple : Mâle = 0 ; Femelle = 1 On pourrait estimer : Taille = f(poids, Âge, Sexe)!!!! Taille Poids Âge Sexe Taille = 152,03 + 0,43Poids - 0,07Âge - 10,90Sexe Une personne de 30 ans pesant 70 Kg mesurera 180 cm si c'est un homme, et 169 cm si c'est une femme On procède de même avec des facteurs à plus de 2 niveaux Exemple : couleur des cheveux!!! Brun Blond Châtain Roux ! On peut éliminer la dernière colonne, qui est définie en fonction des autres (Roux = 000) On pourrait aussi recoder des variables quantitatives pour une utilisation en ANOVA Variables indépendantes quantitative et qualitative : Analyse de covariance ANCOVA : mélange d ANOVA à un facteur et de régression linéaire simple 1 variable dépendante quantitative Y 2 variables indépendantes 1 quantitative X 1 qualitative Z Comparaison de la relation entre deux variables quantitatives (covariance) sous différentes conditions (k classes de la variable qualitative) Exemple : relation entre dose d engrais et croissance dans plusieurs types de sols 212

54 Hypothèses testées questions se posent 1. Influence de X sur Y 2. Influence de Z sur la relation entre Y et X ; influence de X sur la relation entre Z et Y : interaction 3. Influence de Z sur Y Tests 214 Tests des 3 hypothèses 1. k régressions linéaires simples 2. Tests des différences entre les pentes des k régressions 3. Si les droites sont parallèles, test des différences entre les ordonnées à l origine (a-t-on affaire à plusieurs droites?) Procédure détaillée 215 Régressions linéaires de Y sur X On répond à la question 1 : Y a-t-il une relation (linéaire) significative entre ces deux variables? Les erreurs résiduelles de chaque droite de régression sont additionnées : variation totale non expliquée par les relations linéaires entre X et Y = SCEET 216

55 On construit k droites de régressions parallèles de pente égale à la pente moyenne des pentes d origine, et on additionne les erreurs résiduelles de toutes ces droites = SCEEDP 217 On soustrait ces 2 quantités : erreur résiduelle due à la variation des pentes : SCEEVP = SCEEDP - SCEET On teste si l erreur résiduelle due à la variation des pentes (SCEEVP) est significativement plus importante que des variations aléatoires. On répond à la question 2 : les droites sont-elles parallèles? Rapport de variances : on utilise une statistique F F vp = (SCEEVP/(k-1))/(SCEET/(n-2k)) 218 avec k-1 et n-2k ddl Si rejet de H 0 (= pas de différence) : relations différentes d un groupe à l autre (présence d une interaction) et fin du test 219 Si les droites sont parallèles, on teste si les ordonnées à l origine sont différentes. C est la question 3. On combine toutes les données et on mesure l erreur résiduelle globale de la droite de régression commune = SCEEC On soustrait à cette quantité l erreur résiduelle des droites parallèles séparées : erreur due aux écarts d ordonnées à l origine : SCEEVOO = SCEEC - SCEEDP On teste si cette erreur est plus grande que ce qui est dû au hasard. Là encore on utilise une statistique F F voo = (SCEEVOO/(k-1))/(SCEEDP/(n-k-1)) 220 avec k-1 et n-k-1 ddl Si l hypothèse nulle est rejetée, on peut dire que Z a une influence sur Y On pourrait traiter le problème comme une ANOVA à deux facteurs croisés avec répétitions en transformant la variable quantitative X en classes, représentant les niveaux du second facteur (Z étant le premier). Il faut nécessairement des répétitions pour tester l interaction.

56 Formules 221 SCEET = ΣSCEEj SCEEDP = ΣSCEEDPj SCEEVOO = SCEEC - SCEEDP ANALYSE MULTIDIMENSIONNELLE Généralités 223 Statistiques classiques Uni- ou bi-dimensionnelles Statistiques multidimensionnelles = analyse multivariable Traitent simultanément d ensembles d objets caractérisés par plusieurs variables 224 En biologie, on a souvent affaire à des objets caractérisés par un grand nombre de variables Variables = descripteurs = dimensions Longueur Largeur Masse Longévité Fécondité... Variable p Objets = éléments Individu 1 Mesure 1,1 Individu 2 Mesure 2,1 Individu 3... Mesure i,j Individu n Mesure n,p

57 Analyse multivariable 225 Problème : visualisation des données en plus de 3 dimensions O Masse O O O O O Fécondité Masse? Largeur Longueur Longévité Longueur Types de méthodes Analyse descriptive Groupement (n variables) : recherche de discontinuités (partitions) dans les ensembles de données Ordination (n variables) : recherche de gradients n Ce ne sont pas des statistiques : pas de tests Interprétation des structures Tests : hypothèses Régression multiple : 1 variable dépendante, p variables indépendantes 227 Y = f(x 1, X 2,..., X n ) Analyse canonique : n variables dépendantes, p variables indépendantes Tests statistiques : comparaison entre matrices d associations Test de Mantel : corrélation entre 2 matrices 228 Test de Mantel partiel : comparaison entre 2 matrices en contrôlant l effet d une troisième

58 Buts 229 Simplifier la vision des données Réduire leur dimensionalité Dégager les tendances de la variabilité des données Recherche des structures Interprétation des données Prise en compte des variables confondantes 230 Important de bien connaître les méthodes et leurs propriétés planification d une étude : avant sa réalisation... réponse adéquate à la question posée limites de l interprétation un ordinateur (nécessaire ici!) donne toujours une réponse, mais pas forcément la bonne Matrices d association 231 Variables Objets Objets Objets Mode Q : Objets X Objets Ressemblance Variables Variables Mode R : Variables X Variables Dépendance Mesure de similarité (Mode Q) 232 Problème du double zéro La présence de la valeur 0 dans deux objets implique-t-elle leur ressemblance? Oui : indices symétriques Non : indices asymétriques

59 Indice de similarité binaires symétriques Coefficient de simple concordance (S 1 ) Bois Peint > 1 kg Objet Objet Objet Objet S 1 entre objets 1 et 2 : nombre de descripteurs à valeur identique = 2 nombre total de descripteurs = 3! S 1 = 2/3 = 0,67 Matrice de similarité 234 Objet 1 Objet 2 Objet 3 Objet 4 Objet 1 1 0,67 0,33 1 Objet ,67 Objet 3 1 0,33 Objet 4 1 Objet 2 Objet a c 0 b d a : nombre de 1 dans les 2 objets b : nombre de 1 dans l objet 1 c : nombre de 1 dans l objet 2 d : nombre de 0 dans les 2 objets! a + b + c + d = nombre total de descripteurs a et d : ressemblances b et c : différences 235 S 1 = (a + d)/(a + b + c + d) S 2 = (a + d)/(a + 2b + 2c + d) S 3 = (2a + 2d)/(2a + b + c + 2d) Indices de similarité binaires asymétriques Coefficient de communauté de Jaccard (S 7 ) S 7 = a/(a + b + c) Espèce 1 Espèce 2 Espèce 3 Milieu Milieu Milieu Milieu Milieu 1 Milieu 2 Milieu 3 Milieu 4 Milieu 1 1 0,5 0,33 1 Milieu ,5 Milieu 3 1 0,33 Milieu 4 1

60 237 Coefficient de Sorensen (S 8 ) S 8 = 2a/(2a + b + c) Equivalent asymétrique de S 3 Indices de similarités quantitatifs asymétriques Coefficient de Steinhaus (S 17 ) 238 sp 1 sp 2 sp 3 sp 4 sp 5 sp 6 A B W Milieu Milieu Minima S 17 = W/((A + B)/2) = 2W/(A + B) Ex : S 17 = (2 X 76)/( ) = 0,921 Coefficient de Kulcynski (S 18 ) S 18 = (W/A + W/B)/2 Mesure de distance (Mode Q) 239 Coefficient de distance métrique Si a = b, D(a,b) = 0 Si a b, D(a,b) > 0 D(a,b) = D(b,a) D(a,b) + D(b,c) D(a,c) Coefficient semi-métriques N obéissent pas à la quatrième propriété Coefficient de distance métriques Distance Euclidienne (D 1 ) 240 Taille (mm) Fécondité Parasite Parasite Fécondité D1 P2 12 Taille P1 25 D 1 (P 1,P 2 ) = ((T 1 - T 2 ) 2 + (F 1 - F 2 ) 2 ) = ((25-12) 2 + (70-30) 2 ) = 42,1

61 Y1 Y2... Yi 241 X1 Y11 Y21 Yi1 X2 Y12 Y22 Yi2 D 1 = (Σ(y i1 - y i2 ) 2 ) Problèmes : D 1 est sensible au double-zéro D 1 est sensible à l échelle des variables On standardise souvent les variables avant le calcul de D 1 D 2 = (1/ n)d 1 Distance de corde (D 3 ) et métrique géodésique (D 4 ) 242 Non affectées par le double-zéro D bornée à D 4 = arc cos (1 - (D 3 / 2)) Espèce 2 1 Echantillon 1 D 3 D 4 Echantillon 2 1 Espèce Coefficient de distance semi-métriques Distance de Watson et al. (D 13 ) = 1 - S 8 Distance de Bray-Curtis (D 14 ) = 1 - S 17 Appelée différence de pourcentage Très utilisée pour les abondances d espèces Coefficients de dépendance (Mode R) 244 Ils existent pour différents types de variables Quantitatives Semi-quantitatives Qualitatives

62 245 Coefficients de dépendance pour variables quantitatives Covariance : dispersion des 2 variables Corrélation : intensité de la liaison Objets Variables Variables S S 1 S Variables S S S 246 S Matrice de dispersion ou de variance-covariance Variables Variables 1 r 1 1 r 3 1 Matrice de corrélation Coefficients de dépendance pour variables semiquantitatives ρ de Spearman τ de Kendall Coefficient de dépendance pour variables qualitatives Le χ 2 Tableau de contingence Hôtes Exemple Parasites Espèce 1 Espèce 2 Espèce 3 Espèce 1 x x Espèce 2 x x Espèce 3 x x x x x x x Certains parasites sont-ils associés à certains hôtes? 248

63 Mesure d association : χ Variable 1 Variable 2 Modalité 1 Modalité 2 Modalité k Modalité 1 x x Modalité 2 x x Modalité i x x x x x x x Valeur espérée si indépendance des variables E = (x i.. x.k )/x.. χ 2 = Σ((O-E) 2 /E) avec O = valeur observée test statistique possible (ν = (i-1)(k-1)) Groupements n Recherche des discontinuités dans les ensembles de données Une partition est une division de l'ensemble en sousensembles, telle que chaque objet (ou descripteur) appartienne à une et une seule sous-collection Grandes familles de méthodes de groupement Algorithmes séquentiels ou simultanés 2. Agglomération ou division 3. Méthodes monothétiques ou polythétiques 4. Méthodes hiérarchiques ou non 5. Méthodes probabilistes ou non Exemple 252 Classification écologique de prélèvements (1-5) sur la base des abondances des espèces présentes Mesure de distance : D 14 On obtiendrait exactement la même chose avec S 17 Idée sous-jacente : les milieux partageant les mêmes espèces sont écologiquement proches

64 Groupement agglomératif à liens 253 Groupement agglomératif à liens simples Lien avec un seul élément du groupe D Paires formées 0, , , , , , , , , ,8 1-5 Groupement agglomératif à liens complets Lien avec tous les éléments du groupe D Paires formées 0, , , , , , , , , , Liens simples : contracte l espace entre objets (enchaînements) Liens complets : dilate l espace entre les objets (groupes bien séparés) Groupement agglomératif à liens intermédiaires Lien avec une proportion donnée des éléments du groupe Proportion = connexité. Varie entre 0 (liens simples) et 1 (liens complets) 256 Connexité = 0,

65 Groupement agglomératif moyen 257 Groupement selon l association moyenne UPGMA (unweighted pair-group method using arithmetic average) Chaque élément du groupe garde le même poids pendant l analyse La matrice d association est reformée à chaque étape ( groupement à liens) Chaque nouveau groupe formé est remplacé par sa valeur moyenne Objets ,2 0,25 0,45 0,8 2-0,4 0,35 0,5 3-0,3 0,6 4-0, ,325 0,4 0,65 3 0,3 0,6 4 0, ,3625 0, , , WPGMA Idem UPGMA mais avec pondération selon le nombre d éléments dans le groupe Augmente le contraste entre les groupes Groupement centroïde UPGMC et WPGMC Comme UPGMA et WPGMA mais en utilisant une moyenne géométrique plutôt qu arithmétique : centroïde (= barycentre, point de coordonnées moyennes) Peut conduire à des inversions dans le dendrogramme Violation de la propriété ultramétrique : D(A,B) Max D(A,C), D(B,C) Interprétation : polytomie 260

66 UPGMC A 4 B ,32 6 C 9, D 0 A B C D Méthode de Ward 263 Hiérarchique Sur données brutes ou matrices de distance Minimise la somme des carrés des distances au centroïde de chaque groupe (variance à l'intérieur de chaque groupe) si appliquée aux données brutes, ou la somme des carrés des distances entre paires si appliquée à une matrice de distance Distances Euclidiennes (double zéro) sur données brutes (méthode originale), ou tout type de distance si matrice de distance K-means 264 Non hiérarchique Méthode divisive Nombre de groupes défini par l'utilisateur Minimise la variance intragroupe des données brutes Distances Euclidiennes (double zéro)

67 La matrice cophénétique Appelée aussi matrice ultramétrique car elle répond aux 4 propriétés d'une matrice métrique, et en plus à la propriété ultramétrique citée plus haut (si pas d'inversion) Matrice d association dont les distances (ou similarités) sont calculées à partir de l arbre A partir d un arbre phylogénétique, c est la matrice de distances patristiques n 265 n n 266 La corrélation cophénétique r et le coefficient de détermination r 2 Corrélation cophénétique r : corrélation linéaire de Pearson entre la matrice d'association de départ et la matrice cophénétique Coefficient de détermination r 2 : variance exprimée par la matrice cophénétique par rapport à la matrice d'association de départ La corrélation cophénétique ne peut être testée : deux distributions pas indépendantes Exemple Corrélation cophénétique r : 0,89 Coefficient de détermination r 2 : (0,89) 2 = 0,79 donc le dendrogramme du groupement selon l'association moyenne de l'exemple reproduit 79 % de la variance de la matrice de distances Euclidiennes On peut utiliser le τ de Kendall ou le ρ de Spearman si on est plus intéressé par la topologie du dendrogramme que par la longueur des branches Exemples Classification de métagénomes de communautés microbiennes marines (Distance Euclidienne + UPGMA ; Quaiser et al. 2010)

68 Expression de nombreux gènes dans différentes conditions (Choi et al. 2012) 269 Ordination en espace réduit 270 Représentation de n objets sur lesquels on a mesuré p variables (avec généralement p < n) But : passer d un espace multidimensionnel complexe à un espace comprenant moins de dimensions (2 voire 3) L ensemble des données (objets et/ou variables) sera représenté (ordonné) dans cet espace réduit Problème : comment choisir ces dimensions? Le nuage de points 271 Les points-objets forment dans le repère d origine (les p dimensions) une hyperellipsoïde Si la distribution des objets est multinormale, on connaît certaines propriétés mathématiques du nuage de points (les méthodes d ordination sont assez robustes) Ces propriétés vont être utilisées pour choisir les meilleures dimensions représentant la variabilité des données La forme du nuage de points dépend des relations entre les variables 272 r = 0,7 r = -0,3 r = 0 r = 1

69 Axes principaux 273 On peut établir les axes passant par le maximum de variance du nuage de points Ils s ajustent au nuage de points selon le critère des moindres carrés Chaque axe est perpendiculaire aux autres (donc ils sont linéairement indépendants) Ces axes sont des combinaisons linéaires des variables d origine On les appelle les axes principaux (parfois facteurs) 274 Axe Principal 1 Masse Longueur Axe Principal 2 Hauteur Valeur propre et vecteur propre 275 A chaque axe sont associés une valeur propre et un vecteur propre Valeur propre (λ) : variance exprimée par l axe Vecteur propre (u) : direction de l axe La variance exprimée par un plan formé par deux axes principaux est la somme des variances (valeur propres) exprimées par ces axes Il y a autant de λ et de u que de variables d origines : redécoupage et hiérarchisation de la variance 276 Coordonnées dans le nouveau système d axes : composantes principales Axe Principal 1 λ 1 = 50 % u 2 u 1 Axe Principal 2 λ 2 = 30 % Plan 1 X 2 : 80 % de la variance totale du nuage de points

70 Nombre de composantes interprétables Problème : la variance de n importe quel nuage de point peut-être exprimée sur des axes principaux, mais il ne contient pas forcément de structure informative Critères pour savoir si la variance exprimée est intéressante, et le nombre d axes à interpréter λ > λmoyen Bâton brisé Diagramme de Shepard Modèle du bâton brisé % variance Valeurs propres Aléatoire Observé Diagramme de Shepard 279 Passage en espace réduit : projection des points sur le plan exprimant le maximum de variance (1 X 2) Le plan 1 X 2 peut ne pas suffire, on peut alors utiliser d autres projections (1 X 3, 2 X 3) Axe 2 Axe Axe 1 Axe

71 281 Mise en évidence des : Ressemblances entre les objets (observations) Ressemblances entre les variables Relations entre les variables et les observations Ordination sans contrainte : toute la variation de l hyperellipsoïde est exprimée puis interprétée a posteriori (analyse indirecte) Analyse en composantes principales (ACP) Pour des données quantitatives ou semi-quantitatives Suppose une relation linéaire ou monotone entre les variables Utilisable avec des abondances d espèces avec certaines transformations (ex. Legendre & Gallagher 2001) Transpose un nuage de points-objets, situé dans un espace multidimensionnel complexe, dans un sousespace plus simple, pour observer graphiquement les relations entre les objets 282 Principales étapes du calcul 283 Matrice de données de départ : centrage ou centrage et réduction des données Calcul de la matrice de covariance (= matrice de corrélation si données standardisées, c est le cas général) Calcul des valeurs propres et vecteurs propres à partir de cette matrice 284 Calcul des nouvelles coordonnées des objets dans le repère formé par les axes principaux : ce sont les composantes principales Projection des points dans un espace réduit, en général les deux premiers axes Calcul des coordonnées des descripteurs originaux dans le nouveau repère

72 285 Représentation graphique Diagramme d ordination : projection sur le plan choisi Diagramme de double projection dans l espace réduit (= biplot) : objets et descripteurs II Descripteurs I Objets Interprétation dans l espace réduit Position des objets Proximité des points : préserve la distance Euclidienne Position des descripteurs Flèches se terminant sur les points-descripteurs Angle entre les flèches : covariance ou corrélation Interpréter les descripteurs ayant suffisamment d influence sur le plan de projection : dépassant le cercle des contributions équilibrées (longueur des axes si contribution égale à chaque dimension) et proches du cercle de rayon 1 (pour une matrice de corrélation) Cercle des contributions équilibrées II I Cercle de rayon Projection des objets sur les descripteurs : contribution de l objet à l axe. Plus la projection est loin du centre, plus la valeur est loin de la moyenne II I

73 Pour un angle α entre deux variables i et j : cosα = r ij Entre une variable i et un axe descripteur k, l abscisse de i sur k (projection) est égal à r ik, pour des variables centrées-réduites (matrice de corrélation) 289 II α V 1 r V1,I I Les deux principaux types d ACP 290 Vecteurs propres normés à 1 Les distances entre les objets sont interprétables Angles entre descripteurs non interprétables Vecteurs propres normés à λ Angles entre descripteurs = corrélations Distances entre objets non préservées Résumé 291 Individus u normés à 1 : proximités = distances Variables II I u normés à λ : angles = corrélations Individus = objets II Biplot I Variables = descripteurs Cercle des contributions équilibrées Cercle de rayon Exemples Classification d espèces de Gyrodactylus (parasites) sur la base de variables morphologiques mesurées sur les pièces sclérifiées du hapteur (Shinn et al. 2001)

74 Classification de populations humaines sur la base de données génomiques ( SNPs ; Schuster et al. 2010) 293 Analyse factorielle de correspondances (AFC) Même principe que l ACP Pour variables qualitatives, binaires, semi-quantitatives et quantitatives Typiquement : étude des relations entre deux variables nominales Données sous forme de tableau de contingence : l analyse cherche à mettre en évidence les correspondances (relations) entre les lignes et les colonnes 294 En écologie : traitement des données d abondance d espèces (descripteurs ici) 295 Espèces Trucus Machinus Bidulus... Exempla S 1 Fréquence 1,1 S 2 Fréquence 2,1 Stations S 3... Fréquence i,j S 4 Fréquence n,p Idée sous-jacente : expliquer la répartition des stations et/ou des espèces selon des critères écologiques Préserve la distance du χ 2 entre les points Non affectée par le problème du double-zéro Suppose une relation unimodale avec les variables environnementales 296

75 Principales étapes du calcul Transformation des fréquences absolues en probabilités : fréquences relatives centrées 297 fi Σ p = fi p = fi Σ Σ p = f Σ = 1 Fréquences absolues Fréquences relatives Q q Avec q ij = p ij - p i. p.j / p i. p.j soit - centrage (- fréquence théorique) - pondération Fréquences relatives centrées Calcul de la matrice de covariance à partir de la matrice Q Calcul des valeurs propres et vecteurs propres à partir de cette matrice de covariance Calcul des nouvelles coordonnées des objets dans le repère formé par les axes principaux Projection des points dans un espace réduit, en général les deux premiers axes On peut placer les lignes et les colonnes du tableau de contingence dans le même espace factoriel 298 Inertie totale = I = Σλ On peut effectuer un test d indépendance des deux variables Test du χ 2, avec (n-1)(p-1) degrés de liberté χ 2 = npi avec np = effectif total H 0 : quelle que soit la station, la distribution des espèces est la même H 0 : quelle que soit l espèce, la répartition selon les stations est la même 299 Interprétation dans l espace réduit 300 Variance du plan liée à celles des valeurs propres Comme en ACP, on peut ne placer que les sites (objets) ou les espèces (descripteurs) sur le diagramme ; ou les deux (biplot) Proximité entre objets (stations) et descripteurs (espèces) : ressemblance. Attention, cela est fonction de la variance exprimée par le plan considéré Plus les points sont proches du centre, plus ils sont proches des caractéristiques moyennes de l échantillon

76 301 Interprétation des axes principaux en terme de facteurs biologiques, en relation avec la projection des objets et des descripteurs (comme ACP) Relations de type barycentrique. On a deux options pour la projection : Type I. Placer les lignes (sites) au barycentre (= centroïde) des colonnes (espèces) : meilleure ordination des sites 302 Type II. L inverse donne une meilleure ordination des espèces : Espèces placées au centre de gravité (= barycentre = centroïde) des sites où elles sont présentes Chaque site est pondéré par la fréquence relative de l espèce considérée Les points-espèces sont donc plus proches des points-sites où leur occurrence est la plus forte 303 Fréquence relative du site 8 pour l espèce 11 : rareté à ce site Fréquence relative de l espèce 3 au site 5 : occurrence forte Espèce 4 Espèce 9 Espèce 2 Site 8 Espèce 11 Site 5 Site 9 Espèce 3 Site 12 Site 2 Espèce 19 Type I Type II Exemple 304 Espèces Descripteurs = espèces II Sites I Objets = stations

77 Ordination sur matrices de distances Analyse en coordonnées principales (PCoA) : permet l utilisation de beaucoup de coefficients. Méthode basée sur les vecteurs propres pour représenter objets ou variables Nonmetric multidimensional scaling (NMDS) : méthode non basée sur les vecteurs propres, place les objets dans un repère comportant un nombre prédéfini d axes, en minimisant une fonction de stress (0 à 1, bien si 0,2). Fonctionne avec des valeurs manquantes. Procédé itératif assez intense en calcul 305 Analyse discriminante 306 Analyse discriminante linéaire, généralement But : trouver la meilleure combinaison de variables permettant d expliquer des groupes prédéfinis (hypothèse biologique, groupement sur un autre jeu de données, ) Test préalable que les groupes sont différents Pas délimitation des groupes ici, mais interprétation Recherche de la meilleure combinaison de variables expliquant les groupes : fonction discriminante Test de Mantel 307 Test de la corrélation linéaire entre deux matrices de distances ou de similarités obtenues indépendamment Hypothèse nulle H 0 : les distances (ou similarités) entre les objets dans la matrice A ne sont pas en relation linéaire avec les distances (ou similarités) correspondantes dans la matrice B L hypothèse nulle est testée par permutations des objets, car les distances ne sont pas indépendantes les unes des autres Statistique Z de Mantel 308 A B C D A B C D A B x A B y C C D D x X + X +... y

78 Test 1. Permutation aléatoire des objets (A-D) Calcul d un nouveau Z : Z p 3. Répétition n fois (ex : 999) des étapes 1 et 2 4. Ajout de la valeur observée Z aux 999 valeurs de Z p 5. Tracé de la distribution : histogramme de fréquences 6. H 0 est rejetée si Z fait partie des valeurs extrêmes (ex : 5 %) 310 Statistique r de Mantel centrée-réduite (corrélation linéaire de Pearson) r = [ ] 1/(n-1) i j [ ] (x ij - x)/s x [(y ij - y)/s y ] On peut aussi transformer les valeurs en rangs et calculer le ρ de Spearman Exemple Deux matrices de distances entre 4 sites (S 1 -S 4 ) Distances en terme d abondances d espèces (D 14 ) Distances environnementales (D 1 ), sur la base de plusieurs descripteurs du milieu 311 Matrice de distance D 14 S S S S 0,25 0,43 0,55 S 0,17 0,39 S 0,66 Matrice de distances D 1 S S S S 0,43 0,41 0,47 S 0,22 0,6 S 0,71 Calcul du Z de Mantel Z = (0,25 x 0,43) + (0,43 x 0,41) + (0,55 x 0,47) + (0,17 x 0,22) + (0,39 x 0,60) + (0,66 x 0,71) = 1,2823 (valeur observée) Test : confrontation de la valeur observée à l ensemble des valeurs obtenues par permutations aléatoires (100 ici) 312 Z r Observé Permutations (Z Proba (z) Z < Z = Z > Z 1, ,05 (P = (2 + 3)/( ) = 5/100 = 0,05) Observé Permutations Proba (r) r < r = r > r 0, ,05

79 Le pourcentage de variance expliquée (R 2 ), ainsi que la puissance du test sont moins élevés pour un test de Mantel que pour une corrélation de Pearson sur les données brutes correspondantes Mieux d utiliser les données brutes quand c est possible Réserver le test de Mantel et ses dérivés dans les cas ou l utilisation des matrices de distance est nécessaire Pour contrôler l effet d une troisième matrice (ex : données temporelles ou spatiales), il existe un test de Mantel partiel 313 Régression multiple sur matrices de distance 314 Généralisation du test de Mantel à plusieurs matrices de distance : régression multiple Une matrice dépendante (Y) N matrices indépendantes (X 1, X 2, X 3,...) Test par permutations des objets de la matrice Y Test des coefficients de régression ANALYSE DE SURVIE Etude de la durée à laquelle survient un événement binaire Typiquement : étude de la variation de la probabilité de survie de patients au cours du temps à partir d'un instant t0, par leur suivi jusqu'à leur décès (vie/mort) Peut s'appliquer à toute autre variable binaire qu'on peut dater : apparition d'une pathologie, hospitalisation, panne d'un appareil, perte d'emploi, divorce, etc. 2 méthodes principales Méthode actuarielle Méthode de Kaplan-Meier 316

80 Méthode de Kaplan-Meier Prend en compte les décès individuellement et les indique sur la courbe par un palier Mieux avec des effectifs peu importants Méthode actuarielle Moins utilisée Divise la durée totale de l'étude en intervalles réguliers Mieux quand les effectifs sont importants (> 200 individus) 317 Principe En théorie, il faudrait suivre tous les individus jusqu'à la survenue de l'événement, à partir d'une date fixée t0 En pratique, on fixe une date de fin de suivi (= date de point : dp) Certains individus n'ont pas présenté l'événement à la date de point : ils sont dits "censurés" Les individus n'entrent pas tous dans l'étude au même moment (date d'origine différente) Certains individus sont "perdus de vue", on ne sait pas si l'événement est survenu ou pas, mais ils sont pris en compte dans l'étude 318 Données 319 t0 Individus Evénement Temps de participation Perdu de vue dp Censuré Censuré Calcul de la probabilité de ne pas avoir présenté l'événement à un instant t (l'événement survient après t) = probabilité (ou fonction) de survie S(t) Basé sur les probabilités conditionnelles, tenant compte des événements et censures survenus et des effectifs (qui ne peuvent que baisser) Probabilité = 1 à l'origine, puis diminue Représentation graphique = courbe de survie : variation de S(t) en fonction du temps Possibilité de calcul d'intervalles de confiance Comparaison de courbes : test du logrank (= test de Mantel-Cox = test de Peto-Mantel-Haenszel) 320

81 Méthode de Kaplan-Meier 321!!!! Méthode actuarielle

Montrer encore