Statistiques multivariées : aspects descriptifs et inférentiels

Formation thématique ProVeg (3-6 juillet 2015) Statistiques multivariées : aspects descriptifs et inférentiels Biostatistiques Appliquées en Protection des Végétaux Prof Bi I. Arsène ZORO (Agronome généticien)

Programme du module 4 2 1. Analyse de la variance multivariée (MANOVA) 2. Analyse en Composante Principale (ACP) 3. Analyse Factorielle Discriminante (AFD)

Prof ZORO Modules 4 Analyse multivariée Chapitre 1 Analyse de la variance multivariée

Plan du chapitre 4 1. Principes généraux 2. MANOVA 1 pour deux échantillons indépendants 3. MANOVA 1 pour plus de deux échantillons indépendants

1 Principes généraux 5 La MANOVA un test statistique approprié quand l analyse de la variance (ANOVA) doit prendre en compte plus d une variable dépendante. L objectif de la MANOVA est de savoir si les différences entre des groupes, basées sur une combinaison de plusieurs variables dépendantes ont une forte probabilité ou non d être dues à une erreur d échantillonnage. La MANOVA est un test multivarié (à ne pas confondre avec un test multifactoriel), c est à dire qu elle explore plus de deux variables dépendantes (VD) en rapport avec deux ou plus de deux variables indépendantes (VI).

1 Principes généraux 6 Avantages de la MANOVA (/ ANOVA) La préférence à la réalisation de la MANOVA au lieu de plusieurs ANOVA peut s expliquer par plusieurs raisons : o l utilisation de plusieurs analyses univariées augmente le risque α. Par exemple dans le cas de 10 variables dépendantes, α avoisine 0,60 ; o les tests univariés ne tiennent pas compte de la corrélation entre variables dépendantes alors que la MANOVA le fait ; o des différences systématiques mais petites entre groupes de variables indépendantes peuvent être individuellement non significatives mais une MANOVA fait ressortir l effet cumulatif.

1 Principes généraux 7 Conditions d application de la MANOVA La ou les variables indépendantes doit/doivent être catégorielle(s), avec au moins deux groupes. Les observations sont indépendantes. Les échantillonnages sont aléatoires et simples. Les variables dépendantes ont chacune une distribution normale. Il doit avoir une homogénéité de variance entre les groupes (vérifiée par le test de Levene).

1 Principes généraux 8 Conditions d application de la MANOVA La corrélation entre les variables dépendantes doit être la même à travers les groupes. Il doit avoir une corrélation entre les variables dépendantes ; si non il ne va pas avoir un effet multivarié (1 R 2 <= 0,30). Il faut éviter un trop grand nombre de variables dépendantes (en fonction de la capacité du processeur de l ordinateur).

1 Principes généraux 9 Réalisation de la MANOVA La méthode de calcul de la statistique du test est analogue à celle de l'anova, mais au lieu de considérer les sommes de carrés total (SCEt) factorielle (SCEa) et résiduelle (SCEr) pour la variable, on introduit les matrices totale T, factorielle H et résiduelle E. Chacune de ces matrices est carrée d'ordre p, et symétrique. Pour chacune d'elles : o sur la diagonale, on retrouve les sommes de carrés habituelles ; o en dehors de la diagonale, on trouve des sommes de produits d'écarts.

1 Principes généraux 10 Réalisation de la MANOVA On observe p variables dépendantes X 1, X 2,..., X p pour chacun des individus de chaque échantillon. L'ANOVA à un facteur permet de tester l'égalité des moyennes dans les populations parentes, pour chaque variable dépendante prise isolément. Mais la MANOVA, quant à elle, permet de tester l'égalité des vecteurs de moyennes dans les différentes populations parentes. La situation la plus simple est celle où on dispose de deux niveaux de la variable indépendante (deux échantillons indépendants).

2 MANOVA 1 pour deux échantillons 11 Les notifications suivantes peuvent être adoptées : o Population 1 : X 11, X 12,, X 1n1 o Population 2 : X 21, X 22,, X 2n2. Ici, le vecteur Xij représente toutes les données pour de toutes les variables de l échantillon j de la population i. Ce vecteur contient les éléments X ijk où k varie de 1 à p, pour p différentes variables considérées dans l analyse. Ainsi, X ijk est l observation k effectuée sur l individu j de la population i.

2 MANOVA 1 pour deux échantillons 12 On cherche à tester l égalité des vecteurs de moyennes des deux populations parentes, c est à dire : Cette hypothèse nulle peut être testé en utilisant le test statistique T2 de Hotelling pour deux échantillons. Il s agit de la version multivariée du test t de Student pour échantillons indépendants. Il est basé sur la formule :

2 MANOVA 1 pour deux échantillons 13 Pour des échantillons de grands effectifs, cette statistique suit approximativement une distribution Khi-2 à p degrés de liberté (p étant le nombre de variables dépendantes). Cependant, on peut transformer le T2 en F de Fisher Snedecor par l expression suivante : Cette statistique est à p et n 1 + n 2 p degrés de liberté.

2 MANOVA 1 pour deux échantillons 14 Lorsqu un test préliminaire tel que le test Box s M amène à rejeter l hypothèse de l égalité des vecteurs de variances, une alternative au test T2 peut être effectuée. Dans ce contexte, le test proposé par Nel et van der Merwe (1986) donne des résultats satisfaisants.

2 MANOVA 1 pour deux échantillons 15 Application A certain type of tropical disease is characterized by fever, low blood pressure and body aches. A pharmaceutical company is working on a new drug to treat this type of disease and wanted to determine whether the drug is effective. They took a random sample of 20 people with this type of disease and 18 with a placebo. Based on the data they wanted to determine whether the drug is effective at reducing these three symptoms.

2 MANOVA 1 pour deux échantillons 16 Drug (i = 1) Placebo (i = 2) Fever (k=1) Pressure (k=2) Aches (k=3) Fever (k=1) Pressure (k=2) Aches (k=3) 38,4 73 18 40,9 54 14 36,8 85 14 39,5 75 18 40 58 20 39,4 57 24 39,8 80 20 38,2 71 24 38,6 68 25 39,7 65 22 39,1 52 27 38,9 49 30 38,9 79 26 38,6 58 25 36,8 100 8 39,9 52 17 40,4 64 21 41,3 62 18 39,4 53 22 38,1 57 20 38 70 15 39,6 78 19 38,6 75 14 37,1 92 15 40,1 48 28 39,5 63 13 38,1 57 22 40,3 52 25 37,2 78 16 41,5 46 27 39,5 65 18 39,3 56 14 37,3 77 13 37,6 86 16 39,1 67 16 40,6 48 21 39,9 52 10 37,8 68 13 Résultats du test n1 = 20 n2 = 18 p = 3 T 2 = 4,12 F = 1,30 P = 0,29

3 MANOVA 1 pour plus de 2 échantillons 17 Aspects descriptifs La décomposition de la variance se fait de la même façon que celle de l ANOVA1 : On a donc affaire à des matrices de produits croisés au lieu des sommes de carrés total (SCEt) factorielle (SCEa) et résiduelle (SCEr) habituelles dans le cas univarié.

3 MANOVA 1 pour plus de 2 échantillons 18 Aspects descriptifs L équation de l analyse de la variance multivariée à un facteur est donc : o T (Total) : total des produits croisés des matrices des sommes des carrés o B (Between) : produits croisés des matrices des sommes des carrés liés à la variables indépendante (facteur) o W : (Within) produits croisés des matrices des sommes des carrés liés à la variation résiduelle T = B + W

3 MANOVA 1 pour plus de 2 échantillons 19 Aspects inférentiels Dans le cas du modèle fixe (modèle I), l hypothèse nulle à laquelle on s intéresse est l hypothèse d égalité des matrices de moyennes :

3 MANOVA 1 pour plus de 2 échantillons 20 Aspects inférentiels Sur cette base, on peut calculer une statistique similaire à F de Fischer-Snedecor en divisant B par W, comme dans le cas de l ANOVA. L équivalent de cette quantité en termes de matrice est BW -1. On rejettera l hypothèse nulle lorsque B trop grande par rapport à W.

3 MANOVA 1 pour plus de 2 échantillons 21 Aspects inférentiels En MANOVA, quatre différents tests pour savoir si B est trop élevée, comparée à W : o Hotelling-Lawley Trace : T 2 = trace(he -1 ). Approprié quand la VI à deux nieaux ou modalités (deux échantillons). o Pillai-Bartlett Trace : V = trace(h(h+e) -1 ). Approprié quand les échantillons sont de même effectifs. o Roy s Largest Root : Θ = eigenvalues de (HE -1 ). Test le plus puissant mais très sensible aux violations. o Wilk s Lambda : Λ =. Approprié quand la VI à plus de deux niveaux (modalités). C est le test le plus untilisé.

3 MANOVA 1 pour plus de 2 échantillons 22 Aspects inférentiels Tableau de l analyse de la variance à un critère de classification Sources de variation DL SSCP Statistique P Différences entre échantillons p 1 SSCP B Différences entre observations n - p SSCP W Totaux n -1 SSCP T

3 MANOVA 1 pour plus de 2 échantillons 23 Application Dans le cadre d une évaluation comparative de la productivité du manioc, on analyse chez trois variétés (Six mois, Boko et Yacé), trois variables dépendantes : temps de maturation (Mat en mois), le rendement (Rdt en tonnes par hectare) et le nombre de thalles (Tha). Les données sont présentées dans le tableau ci-après. Peut-on dire que les deux premières variétés (Six mois et Bokou) ont des productivités différentes? Six mois i = 1 Bokou i = 2 Yacé i = 3 Rdt Tha Mat Rdt Tha Mat Rdt k = 2 k = 3 k = 1 k = 2 k = 3 k = 1 k = 2 6 15 3 09 31 5 13 20 4 6 09 3 10 30 6 11 17 2 5 13 4 08 25 4 14 16 3 6 13 2 11 29 6 12 16 3 7 10 3 12 35 4 10 19 3 Mat k = 1 Tha k = 3

Prof ZORO Modules 4 Analyse multivariée Chapitre 2 Analyse en Composante Principale (ACP)

Plan du chapitre 25 1. Principes généraux 2. Réalisation de l ACP 3. Interprétation des résultats

1 Principes généraux 26 Objectif de l ACP : décrire à l aide de q < p composantes un maximum de cette variabilité. Ce qui permet : o une réduction des données à q nouveaux descripteurs o une visualisation des données à 2 ou 3 dimensions (si q = 2 ou 3) o une interprétation des données (essentiellement les liaisons inter-variables). L ACP est une étape intermédiaire souvent utilisée avant d autre analyse.

2 Réalisation de l ACP 27 Traitement des données o Standardisation des données brutes (morphologiques) o Analyse de corrélations entre variables (tolérance = 1- R2) o Suppression de variables fortement corrélées à un trop grand nombre de variables. Choisir le nombre q d axes factoriels (ou de composantes principales) à retenir pour obtenir un résumé suffisamment précis de l information contenue dans le tableau initial. Construire les graphiques (cercle de corrélation et ACP) Donner une signification aux nouvelles variables. Évaluer la qualité de ce résumé (éventuellement par d autres analyses).

2 Réalisation de l ACP 28 Choix du nombre d axes à retenir Deux critères empiriques sont habituellement pris en compte : o Critère du coude : sur la courbe de distribution des valeurs propres, on observe un décrochement (coude) suivi d une décroissance régulière. On sélectionne les axes avant le décrochement o Critère de Kaiser : on ne retient que les axes dont l inertie est supérieure à l inertie moyenne I/p (un peu étroit). Kaiser en ACP normée : I/p= 1 : On ne retiendra que les axes associés à des valeurs propres supérieures à 1

2 Réalisation de l ACP 29 Choix du nombre d axes à retenir 80 70 60 50 40 30 Coude 20 10 0 1 2 3 4 5 6

2 Réalisation de l ACP 30 Construction des graphiques (nuages de points projetés) Chaque nuage de points (variables et individus) est construit en projection sur les plans factoriels : un plan factoriel est un repère du plan défini par deux des q axes factoriels retenus. L examen des plans factoriels permettra de visualiser les corrélations entre les variables et d identifier les groupes d individus ayant pris des valeurs proches sur certaines variables. Mais avant de lire directement les graphiques il faut interpréter les axes et s assurer que la projection est fidèle a la réalité.

3 Interprétation des résultats 31 Deux type de facteurs peuvent être identifiés, selon l effet des variables : o Effet taille Si les variables sont toutes du même coté d un l axe cela veut dire qu elles contribuent toutes dans le même sens à la formation de cet axe). o Effet forme Deux groupes de variables en positions opposées peuvent être observés : celles qui contribuent positivement à l axe et celles qui contribuent négativement.

3 Interprétation des résultats 32 Contribution des points (individus et variables) Pour chaque axe retenu et chaque nuage, on regarde : o Quelles sont les variables qui participent le plus à la formation de l axe. o Quels sont les individus qui participent le plus à la formation de l axe. L outil de mesure est la contribution des points (individus ou les variables) à l inertie de l axe. Ce sont les points dont la contribution est supérieure à la moyenne qui permettent de donner un sens à l axe. L interprétation des nouvelles variables (des axes factoriel) se fera à l aide des individus et variables contribuant le plus à l axe avec la règle suivante : si une variable a une forte contribution positive à l axe, les individus ayant une forte contribution positive à l axe sont caractérisés par une valeur élevée de la variable.

3 Interprétation des résultats 33 Etude des proximités entre points (individus et variables) Cet examen qui porte surtout sur la qualité des proximités permet : o de mettre en évidence des proximités éventuelles que l on n a pas remarquées lors de l interprétation des axes. On interprète les proximités d éléments bien représentés sur le plan factoriel ; o de repérer les points qui ne contribuent pas fortement à l inertie de l axe, mais qui sont bien représentés par cet axe, c'est-à-dire qui présentent des caractéristiques propres à l axe.

3 Interprétation des résultats 34 Etude des proximités entre points (individus et variables) La proximité dans l espace entre deux individus bien représentés traduit la ressemblance réelle de ces deux individus du point de vue des valeurs prises par les variables. La proximité entre deux variables sur un axe donne, si les deux variables sont bien représentées sur l axe, une approximation de leur corrélation : o Deux variables proches sont corrélées positivement. o Deux variables qui s opposent sont corrélées négativement. o Deux variables orthogonales sont non corrélées.

3 Interprétation des résultats 35 Exemple (Koffi et al., 2009)

3 Interprétation des résultats 39 Exemple (Tro, 2014)

3 Interprétation des résultats 40 Exemple (Tro, 2014)

Prof ZORO Modules 4 Analyse multivariée Chapitre 2 Analyse Factorielle Discriminante (AFD)

Principes généraux de l AFD 42 L analyse factorielle discriminante (AFD) est une méthode descriptive et explicative, apparentée à l analyse en composantes principales (ACP), s appliquant à des données quantitatives sur lesquelles est déjà définie une typologie ou partition. Le but de la méthode, comme en ACP, est de réduire le nombre de dimensions des données, en recherchant celles suivant lesquelles les classes se séparent le mieux. Les directions factorielles discriminantes successives sont déterminées, tandis que des graphiques factoriels plans permettent ici encore de visualiser les individus ou les variables.

Principes généraux de l AFD 43 Divers indicateurs et tests sont également calculés, qui permettent de juger de l'intérêt et de la pertinence des résultats obtenus : o Distance de Mahalanobis (D 2 ) calculée entre les quatre groupes issus des analyses factorielles. Significativeité testée par Lamda de Wilk o Test de classification correcte des individus (CAH)

Principes généraux de l AFD 44