Statistiques appliquées à la biologie et l environnement Daniel Petit UMR INRA 161 Université de Limoges Université de Biskra, janvier 212
Plan Techniques de base Régressions multiples Analyses des peuplements Climagrammes Logiciel puissant et cher Logiciel convivial, évolutif et gratuit
Techniques de base Catégories de variables Variable qualitative : couleur, catégorie, condition de culture ou d élevage, espèce Variable quantitative : mesure de poids, longueur, concentration, fréquence Variable semi-quantitative : abondance, classe d abondance Nombre de variables à traiter 2-3 variables : statistiques univariées Plus de 5 variables : statistiques multivariées
Statistiques univariées 1 variable quantitative + 1 variable qualitative Analyse de variance Régression logistique 2 variables quantitatives Analyse de corrélation Régression n variables quantitatives Régression multiple Statistiques multivariées n variables quantitatives Analyse en Composantes Principales ACP n variables qualitatives Analyse Factorielle des Correspondances AFC Detrended Correspondance DC Multidimensional Scaling MDS
Stratégie d analyse 1. Analyses multivariées 2. Analyses univariées Dégrossissage Visualisation des tendances Affinage Statistiques descriptives Statistiques inférencielles
AFC : avec données d abondance Pelouse écorchée Pelouse à Fétuque Pelouse à Brachypode Clairière sèche espèces code PE1 PE2 PE3 PE4 PE5 PE6 PE7 PE8 PE9 PE1 PF1 PF2 PF3 PF4 PF5 PF6 PF7 PF8 PF9 PF1 PB1 PB2 PB3 PB4 PB5 PB6 PB7 PB8 PB9 PB1 PS1 PS2 PS3 PS4 PS5 PS6 PS7 PS8 PS9 PS1 Omocestus petraeus Opetr 1 3 1 2 1 1 2 2 Calliptamus barbarus Cbarb 3 1 1 2 2 4 2 1 3 1 3 2 Euchorthipus pulvinatus Epulv 2 1 3 2 5 2 1 5 3 3 5 6 3 3 8 8 6 1 1 3 6 1 2 1 1 Oedipoda caerulea Ocaer 1 1 2 2 Pezotettix giornai Pgior 1 5 2 5 4 6 1 1 1 1 Euchorthipus declivus Edecl 1 3 2 1 2 2 1 1 1 1 Chorthippus biguttulus Cbigu 1 1 Stenobothrus lineatus Sline 1 1 1 Gomphocerripus rufus Gomp 2 Tylopsis liliifolia Tlili 2 2 2 1 1 2 3 2 2 2 1 Platycleis grisea Pgris 1 2 1 2 1 2 1 1 1 1 1 1 1 Platycleis tessellata Ptess 1 Ruspolia nitidula Rnitid 2 1 1 2 2 1 2 Phaneroptera nana Pnana 1 1 1 1 3 Mantis religiosa Mreli 1 1 1 1 1 1 1 1 1 1 1 1 2 2 Gryllus campestris Gcamp 1
1. Transposer la matrice = intervertir les lignes et les colonnes 2. Marquer les intitulés de lignes par des couleurs = définition des groupes
Axis 2 : 15, 8 % AFC simple 4 Gcamp 3.2 Pnana 2.4 1.6.8 Gomp Edecl Clairières sèches Mreli Cbarb Pelouse écorchée Ocaer Opetr -.8 Tlili Rnitid Pelouse à Brachypode Sline Pgris Enveloppes automatiques -1.6-2.4 Pgior Cbigu Ptess Epulv Pelouse à Fétuque -4-3 -2-1 1 2 3 4 Axis 1 : 18,5 %
Axis 2 Axis 2 AFC ou DCA (Detrended Correspondence Analysis) 7 6 5 4 3 2 1-1 -2 S2F2 S2Ja1 S2Ja2 S1D2 S2F1 S1D1 S1Av1 S2D2 S1M1 S1M2 S1F2 S1F1 S2D1 S1N1 S1Av2 S1Mai1 S1N2 S1Ju1 SIMai2 S1Ju2 SIJut1 S1Jut2 S1Ao1 S1Ao2 S1S1 S2S1 S2Av1 S2M1 S1S2 S2O1 S2S2 S2M2 S2Jut1 S2Ju2 S2Mai2 S2Ju1 S2Jut2 S2Mai1 S2Ao2 S2Ao1 S2Av2 S1O1 S1O2 S2O2 -.6.6 1.2 1.8 2.4 3 3.6 4.2 Axis 1 S1Ja2 S1Ja1 S2N1 S2N2 AFC simple : superposition à cause de points éloignés 2.4 2 1.6 1.2.8.4 -.4 -.8 S1Ao1 SIJut1 S1Jut2 S1Ao2 S1S1 S1S2 S1O1 S1Ju2 S2Ao2 S2Ao1 S2S1 S1O2 S2O1 S2S2 S1N1 S1Ju1 S2Jut1 S2Jut2 S2O2 S2Ju2 S2Av2 S1N2 S2Mai2 S2Mai1 S2Ju1 S2Av1 S1D1 S1D2 SIMai2 S2M1 S2M2 S1Mai1 S1Av2 S1M1 S1M2 S1Av1 S1F2 S2N2 S2N1 S2F2 S2Ja1 S2Ja2 S2F1 S2D1 S2D2 S1F1 S1Ja2 S1Ja1-1 -.5.5 1 1.5 2 2.5 3 3.5 Axis 1 L option «detrending» permet de mieux disperser le nuage de points Relevés de l entomofaune associée au Peuplier noir (Z. Djazouli et al., en révision)
Classification hiérarchique 1. obtenir les coordonnées des facteurs lignes et colonnes sur les premiers axes Combien d axes fautil considérer?
Classification hiérarchique 2. Coordonnées sur 3 axes factoriels Choix de l indice de similarité = distance euclidienne Y A y B y x A A : x A, y A x B B : x B, y B D AB = (x B - x A )² + (y B -y A )² Méthode d agglomération Paired group =UPGMA Ward s method x -4 6 12 18 24 3 36 42 48 54-3.6 Paired group =UPGMA Similarity -1.2-1.6-2 -2.4-2.8-3.2 -.8 -.4 Gomp PB8 PS4 PB9 PS2 Tlili PS1 Edecl PS3 PE7 PE3 PE6 PE4 PE1 Cbarb Opetr PE2 PE1 Ocaer PE5 PE9 PB1 PB5 Sline PB3 PB7 PF1 PF6 PF3 PF2 PF5 Ptess Pgior Cbigu PE8 PF8 PF9 Epulv PF4 PF1 PB4 PF7 PB2 PB6 Pgris PS5 PS9 PB1 PS8 PS1 Mreli PS7 Rnitid Pnana PS6 Gcamp
Ward s method : minimisation de la variance intra-groupe -9.6-11.2-12.8-14.4 6 12 18 24 3 36 42 48 54 Similarity -8-4.8-6.4-3.2-1.6 Gcamp PS3 PE4 PF7 PE7 PE1 PE3 PE6 Cbarb PS6 PE5 PE9 Ocaer Opetr PE1 PE2 PS1 Edecl Gomp PB6 Pgris PS5 PS9 PB8 PS4 PB9 PS2 Tlili PB4 PF4 PF1 PE8 PF8 PF9 Epulv Pgior Cbigu PF2 PF3 PF1 PF6 PF5 Ptess PS1 PS7 Pnana Mreli PB1 PS8 PB2 Sline PB1 PB5 PB3 PB7 Rnitid
Coordinate 2 Coordinate 2 Coordinate 2 Coordinate 2 Non-metric Multidimensional scaling Les calculs ne se font pas sur les valeurs absolues mais sur les rangs.15.1.5 Rho de Spearman.16.12.8.4 Bray-Curtis Augmente le % de représentation sur les 2 premiers axes -.5 -.1 -.15 -.2 -.25 -.4 -.8 -.12 -.16 -.2 -.4 -.32 -.24 -.16 -.8.8.16.24 Coordinate 1 -.3 -.24 -.18 -.12 -.6.6.12.18.24 Coordinate 1 Ne permet pas de représenter à la fois les facteurs lignes et colonnes.16.12.8 Morisita.16 Chord.4.12 Meilleure mesure de similarité ou distance? Regarder le diagramme de Shepard sur les rangs observés et préservés dans la projection: y = x -.4 -.8 -.12 -.16 -.2 -.4 -.32 -.24 -.16 -.8.8.16.24 Coordinate 1.8.4 -.4 -.8 -.12 -.16 -.2 -.3 -.24 -.18 -.12 -.6.6.12.18.24 Coordinate 1
Coordinate 2 Obtained rank Coordinate 2 Obtained rank Coordinate 2 Obtained rank Coordinate 2 Obtained rank Diagrammes de Shepard.15.1.5 -.5 -.1 Rho de Spearman -.15 -.2 -.25 -.3 -.24 -.18 -.12 -.6.6.12.18.24 Coordinate 1.16.12 72 64 56 48 4 32 24 16 8 8 16 24 32 4 48 56 64 72 Target rank 72 64 Stress =.34.8.4 56 48 4 Stress =.281 -.4 32 -.8 24 Bray-Curtis -.12 -.16 -.2 -.4 -.32 -.24 -.16 -.8.8.16.24 Coordinate 1 16 8 6 12 18 24 3 36 42 48 54 Target rank.16 72.12 64.8.4 56 48 4 Stress =.2528 -.4 32 -.8 24 Morisita -.12 -.16 -.2 -.4 -.32 -.24 -.16 -.8.8.16.24 Coordinate 1 16 8 6 12 18 24 3 36 42 48 54 Target rank.16.12.8 72 64 Chord.4 -.4 -.8 -.12 -.16 56 48 4 32 24 16 8 Stress =.2357 -.2 -.3 -.24 -.18 -.12 -.6.6.12.18.24 Coordinate 1 6 12 18 24 3 36 42 48 54 Target rank
ACP : avec variables quantitatives site$ Age haut Rec Gram nbesp_v div_vgt div_ins Dens_ins nbesp_ins Ma61.5 4.5 11.25 15 3.67 2.56 53. 9 Ma62.5 4.9 21.72 11 2.9 1.16 28. 3 Te62 1. 5.8 6.35 12 2.28 2.22 61.6 8 Ma71 1.5 3.5 16. 1 2.81 1.14 26. 3 Ma73 1.5 3.5 16. 1 2.81 2.55 36. 7 Ma74 1.5 55.5 13. 9 2.25 1.49 11. 3 Pa51 1.5 23.6 17.14 8 2.95 2.12 53.3 5 Pa52 1.5 2.8 34.72 11 3.17 1.87 25. 4 Pa53 1.5 15.8 3.67 12 3.32 1.84 2. 4 Pb61 1.5 25.7 3. 7 2.35 1.9 12. 6 Pb63 1.5 4.9 78.26 7 1.49 2. 56. 5 Te71 2. 25 1. 37. 13 3.41 1.37 39. 3 Te72 2. 6 1. 47. 17 3.39 1.74 25. 4 Pa61 2.5 5.6 15. 14 3.27 2.16 91.7 7 Pa64 2.5 2.8 36.4 1 3.9 2.99 53. 1 Pa65 2.5 2 1. 78.82 6 2.18 3.9 56. 9 Pb72 2.5 5.5 21. 7 1.94 2.31 96. 7 Pa71 3.5 15.6 29. 9 2.6 1.83 75. 4 Pa72 3.5 2.75 36. 7 2.48 2.18 58. 6 Pa74 3.5 15 1. 84. 9 2.43 2.84 33. 8 Pa75 3.5 15 1. 62. 9 2.43 2.59 44. 7 Pa81 4.5 1 1. 76.3 7 1.7 2.6 161. 11 Pm61 4.5 4.98 4.2 14 2.14 1.91 47. 5 Pm64 4.5 5 1. 61.97 18 2.47 2.14 22.2 5 Pm65 5.5 15.9 52. 12 2.52 2.97 97. 1 Pm71 5.5 3.98 71. 14 2.64 2.33 76. 7 Mg51 7. 15 1. 54.74 7 2.75 2.22 52. 5 Mg53 7. 45 1. 8.2 14 3.31 2.36 52.8 6 Mg54 7. 5 1. 73.78 8 2.44 2.3 72.2 6 Mg61 8. 15 1. 63.64 5 1.51 2.7 42. 5 Mg62 8. 3 1. 89.61 7 1.2 1.4 67. 3 Mg63 8. 45 1. 94.44 6 1.38.76 25. 2 Mg71 9. 2.9 4. 16 3. 1.19 44. 3 Mg72 9. 15.95 6. 16 2.44 1.46 78. 3
ACP
Analyse de corrélation P-values, probabilité associée, risque d erreur r de Pearson, coefficient de corrélation linéaire Conforte les observations de l ACP avec indication du risque d erreur
Frequency Frequency Frequency Distribution d une variable quantitative Appréciation visuelle de la distribution par histogramme 18 16 14 12 1 8 6 4 2.4.8 1.2 1.6 2 2.4 2.8 3.2 3.6 4 Variable diversité (H ) des insectes : distribution symétrique 18 16 14 12 1 8 6 4 2 18 16 14 12 1 8 6 4 2 Variable densité des insectes : distribution dissymétrique 2 4 6 8 1 12 14 16 18 Transformation logarithmique y = ln x -.4 -.2.2.4.6.8 1 1.2 Pas d amélioration de la symétrie inutile
Dens_ins_ Graphe de corrélation 18 16 14 12 1 8 6 4 2 Équation de la droite de régression : densité = -1.24 haut + 82.98 8 16 24 32 4 48 56 64 Haut (cm) r = -,49 P =,31
Régression multiple Hétérocarpie des Astéraceae du Maroc 45 localités Type biologique Type de dissémination : hétérocarpie ou homocarpie Leontodon taraxacoides subsp. longirostris Hyoseris radiata
Bilan des prospections Cardueae Lactuceae nombre de taxa 78 82 nombre d'espèces hétérocarpes 3 21 nombre hétéroc thérophytes 3 14 nombre hétéroc hémicryptophytes 7 Problème : forte liaison entre hétérocarpie et type biologique thérophyte Nécessité d enlever l effet thérophyte pour tester l influence climatique
Comment extraire l information? m C Préc Théro Hétéro Théro Hétéro NonThéro Hétéroc Total Card-lact Essaouira 9.6 234.5 8 3 1 4 5 Kenitra 6.9 64.7 12 5 2 7 14 Sk-el-arba 6.3 641.2 8 3 1 4 6 Casablanca 8.6 481.2 15 4 1 5 12 Tanger 9.9 892.4 19 6 3 9 1 Arbaoua 6.7 846.3 9 3 1 4 4 Tiznite 5.6 154 7 1 1 2 6 Berrechid 4.1 368 14 4 1 5 13 Taroudant 5.1 212 4 1 1 2 1 Ouezzane 5.2 948.1 1 4 1 5 9 La variable à expliquer y (hétérocarpie) dépend d une combinaison linéaire de plusieurs variables quantitatives x1, x2, x3, y = a1x1 + a2x2 + a3x3 + a4x4. + b
Régressions multiples (SYSTAT 12.) Variable : nombre d espèces hétérocarpes et thérophytes Coefficient p-value Constant -.24187.33657 THERO.23196. m C.8666.2683 PREC mm.96.3671 Nb espèces hétérocarpes =.23196 THERO +.866 m C +.96 PREC -.24187 Variable : nombre d espèces hétérocarpes et non-thérophytes Coefficient p-value Constant -.53456.4823 NON-THERO.8387.22 m C.9376.182 PREC mm.138.123 Nb espèces hétérocarpes =.8387 NON-THERO +.9376 m C +.138 PREC -.53456