Statistiques appliquées à la biologie et l environnement. Daniel Petit UMR INRA 1061 Université de Limoges



Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Aide-mémoire de statistique appliquée à la biologie

Extraction d informations stratégiques par Analyse en Composantes Principales

La classification automatique de données quantitatives

L'analyse des données à l usage des non mathématiciens

Logiciel XLSTAT version rue Damrémont PARIS

données en connaissance et en actions?

Version Mars 2013

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

La place de SAS dans l'informatique décisionnelle

Séries Statistiques Simples

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Cycle de formation certifiante Sphinx

Relation entre deux variables : estimation de la corrélation linéaire

1 Complément sur la projection du nuage des individus

Leçon N 4 : Statistiques à deux variables

Analyse en Composantes Principales

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

TRANSPORT ET LOGISTIQUE :

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

Initiation à l analyse en composantes principales

Croissance et vieillissement cellulaires Docteur COSSON Pierre Nb réponses = 81 sur 87. Résultats des questions prédéfinies

Atelier : L énergie nucléaire en Astrophysique

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Traitement des données avec Microsoft EXCEL 2010

Programmation linéaire

Le suivi de la qualité. Méthode MSP : généralités

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

SERIE 1 Statistique descriptive - Graphiques

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

TSTI 2D CH X : Exemples de lois à densité 1

Individus et informations supplémentaires

Chapitre 4 - Spectroscopie rotationnelle

ACP Voitures 1- Méthode

Calcul des pertes de pression et dimensionnement des conduits de ventilation

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Les moyens d observations en astronomie & astrophysique

Lire ; Compter ; Tester... avec R

FIMA, 7 juillet 2005

Mémo d utilisation de ADE-4

Probabilités (méthodes et objectifs)

Statistique Descriptive Élémentaire

CALCUL DES PROBABILITES

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Initiation à LabView : Les exemples d applications :

4. Exercices et corrigés

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Table des matières. I Mise à niveau 11. Préface

Principes de mathématiques 12 SÉRIE DE PROBLÈMES. Septembre Student Assessment and Program Evaluation Branch

MAITRISE DE LA CHAINE LOGISTIQUE GLOBALE (SUPPLY CHAIN MANAGEMENT) Dimensionnement et pilotage des flux de produits

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Ecoles Supérieures de Technologie (EST) Les EST. Les EST sont des établissements supérieurs public. Diplôme préparé : D.U.T

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Biostatistiques : Petits effectifs

Localisation des fonctions

Data mining 1. Exploration Statistique

Plus courts chemins, programmation dynamique

Démonstration d utilisation De NesmaCom

Statistiques Descriptives à une dimension

INTRODUCTION AU DATA MINING

Travailler avec les télécommunications

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Soumise à l effet du vent, à la différence

Molécules et Liaison chimique

Chapitre 3. Les distributions à deux variables

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

PHYSIQUE-CHIMIE. Partie I - Spectrophotomètre à réseau


Opérations de base sur ImageJ

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Annexe commune aux séries ES, L et S : boîtes et quantiles

Régionalisation des régimes de perturbations et implications pour l aménagement dans un contexte de changement climatique

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

La question est : dans 450 combien de fois 23. L opération est donc la division. Le diviseur. Le quotient

TUTORIAL Microsoft Project 2010 Fonctionalités de base

Transmetteur de pression de haute qualité pour applications industrielles Type S-10

Utilisation du Logiciel de statistique SPSS 8.0

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

SECTION : BTS MANAGEMENT DE L UNITE COMMERCIALE ( première et deuxième année) MATIERE : MANAGEMENT DE L UNITE COMMERCIALE ENVIRON 200 HEURES

Agrégation des portefeuilles de contrats d assurance vie

REQUEA. v PD 20 mars Mouvements d arrivée / départ de personnels Description produit

AFFAIBLISSEMENT DÛ AUX NUAGES ET AU BROUILLARD

Analyse des correspondances avec colonne de référence

SAS de base : gestion des données et procédures élémentaires

Gestion obligataire passive

Cours de méthodes de scoring

1 Définition. 2 Systèmes matériels et solides. 3 Les actions mécaniques. Le système matériel : Il peut être un ensemble.un sous-ensemble..

2 Serveurs OLAP et introduction au Data Mining

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Notion de fonction. Série 1 : Tableaux de données. Série 2 : Graphiques. Série 3 : Formules. Série 4 : Synthèse

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

De la mesure à l analyse des risques

Le risque Idiosyncrasique

Lecteur de badges. Cylindre électronique pkt NG. Propriétés

Transcription:

Statistiques appliquées à la biologie et l environnement Daniel Petit UMR INRA 161 Université de Limoges Université de Biskra, janvier 212

Plan Techniques de base Régressions multiples Analyses des peuplements Climagrammes Logiciel puissant et cher Logiciel convivial, évolutif et gratuit

Techniques de base Catégories de variables Variable qualitative : couleur, catégorie, condition de culture ou d élevage, espèce Variable quantitative : mesure de poids, longueur, concentration, fréquence Variable semi-quantitative : abondance, classe d abondance Nombre de variables à traiter 2-3 variables : statistiques univariées Plus de 5 variables : statistiques multivariées

Statistiques univariées 1 variable quantitative + 1 variable qualitative Analyse de variance Régression logistique 2 variables quantitatives Analyse de corrélation Régression n variables quantitatives Régression multiple Statistiques multivariées n variables quantitatives Analyse en Composantes Principales ACP n variables qualitatives Analyse Factorielle des Correspondances AFC Detrended Correspondance DC Multidimensional Scaling MDS

Stratégie d analyse 1. Analyses multivariées 2. Analyses univariées Dégrossissage Visualisation des tendances Affinage Statistiques descriptives Statistiques inférencielles

AFC : avec données d abondance Pelouse écorchée Pelouse à Fétuque Pelouse à Brachypode Clairière sèche espèces code PE1 PE2 PE3 PE4 PE5 PE6 PE7 PE8 PE9 PE1 PF1 PF2 PF3 PF4 PF5 PF6 PF7 PF8 PF9 PF1 PB1 PB2 PB3 PB4 PB5 PB6 PB7 PB8 PB9 PB1 PS1 PS2 PS3 PS4 PS5 PS6 PS7 PS8 PS9 PS1 Omocestus petraeus Opetr 1 3 1 2 1 1 2 2 Calliptamus barbarus Cbarb 3 1 1 2 2 4 2 1 3 1 3 2 Euchorthipus pulvinatus Epulv 2 1 3 2 5 2 1 5 3 3 5 6 3 3 8 8 6 1 1 3 6 1 2 1 1 Oedipoda caerulea Ocaer 1 1 2 2 Pezotettix giornai Pgior 1 5 2 5 4 6 1 1 1 1 Euchorthipus declivus Edecl 1 3 2 1 2 2 1 1 1 1 Chorthippus biguttulus Cbigu 1 1 Stenobothrus lineatus Sline 1 1 1 Gomphocerripus rufus Gomp 2 Tylopsis liliifolia Tlili 2 2 2 1 1 2 3 2 2 2 1 Platycleis grisea Pgris 1 2 1 2 1 2 1 1 1 1 1 1 1 Platycleis tessellata Ptess 1 Ruspolia nitidula Rnitid 2 1 1 2 2 1 2 Phaneroptera nana Pnana 1 1 1 1 3 Mantis religiosa Mreli 1 1 1 1 1 1 1 1 1 1 1 1 2 2 Gryllus campestris Gcamp 1

1. Transposer la matrice = intervertir les lignes et les colonnes 2. Marquer les intitulés de lignes par des couleurs = définition des groupes

Axis 2 : 15, 8 % AFC simple 4 Gcamp 3.2 Pnana 2.4 1.6.8 Gomp Edecl Clairières sèches Mreli Cbarb Pelouse écorchée Ocaer Opetr -.8 Tlili Rnitid Pelouse à Brachypode Sline Pgris Enveloppes automatiques -1.6-2.4 Pgior Cbigu Ptess Epulv Pelouse à Fétuque -4-3 -2-1 1 2 3 4 Axis 1 : 18,5 %

Axis 2 Axis 2 AFC ou DCA (Detrended Correspondence Analysis) 7 6 5 4 3 2 1-1 -2 S2F2 S2Ja1 S2Ja2 S1D2 S2F1 S1D1 S1Av1 S2D2 S1M1 S1M2 S1F2 S1F1 S2D1 S1N1 S1Av2 S1Mai1 S1N2 S1Ju1 SIMai2 S1Ju2 SIJut1 S1Jut2 S1Ao1 S1Ao2 S1S1 S2S1 S2Av1 S2M1 S1S2 S2O1 S2S2 S2M2 S2Jut1 S2Ju2 S2Mai2 S2Ju1 S2Jut2 S2Mai1 S2Ao2 S2Ao1 S2Av2 S1O1 S1O2 S2O2 -.6.6 1.2 1.8 2.4 3 3.6 4.2 Axis 1 S1Ja2 S1Ja1 S2N1 S2N2 AFC simple : superposition à cause de points éloignés 2.4 2 1.6 1.2.8.4 -.4 -.8 S1Ao1 SIJut1 S1Jut2 S1Ao2 S1S1 S1S2 S1O1 S1Ju2 S2Ao2 S2Ao1 S2S1 S1O2 S2O1 S2S2 S1N1 S1Ju1 S2Jut1 S2Jut2 S2O2 S2Ju2 S2Av2 S1N2 S2Mai2 S2Mai1 S2Ju1 S2Av1 S1D1 S1D2 SIMai2 S2M1 S2M2 S1Mai1 S1Av2 S1M1 S1M2 S1Av1 S1F2 S2N2 S2N1 S2F2 S2Ja1 S2Ja2 S2F1 S2D1 S2D2 S1F1 S1Ja2 S1Ja1-1 -.5.5 1 1.5 2 2.5 3 3.5 Axis 1 L option «detrending» permet de mieux disperser le nuage de points Relevés de l entomofaune associée au Peuplier noir (Z. Djazouli et al., en révision)

Classification hiérarchique 1. obtenir les coordonnées des facteurs lignes et colonnes sur les premiers axes Combien d axes fautil considérer?

Classification hiérarchique 2. Coordonnées sur 3 axes factoriels Choix de l indice de similarité = distance euclidienne Y A y B y x A A : x A, y A x B B : x B, y B D AB = (x B - x A )² + (y B -y A )² Méthode d agglomération Paired group =UPGMA Ward s method x -4 6 12 18 24 3 36 42 48 54-3.6 Paired group =UPGMA Similarity -1.2-1.6-2 -2.4-2.8-3.2 -.8 -.4 Gomp PB8 PS4 PB9 PS2 Tlili PS1 Edecl PS3 PE7 PE3 PE6 PE4 PE1 Cbarb Opetr PE2 PE1 Ocaer PE5 PE9 PB1 PB5 Sline PB3 PB7 PF1 PF6 PF3 PF2 PF5 Ptess Pgior Cbigu PE8 PF8 PF9 Epulv PF4 PF1 PB4 PF7 PB2 PB6 Pgris PS5 PS9 PB1 PS8 PS1 Mreli PS7 Rnitid Pnana PS6 Gcamp

Ward s method : minimisation de la variance intra-groupe -9.6-11.2-12.8-14.4 6 12 18 24 3 36 42 48 54 Similarity -8-4.8-6.4-3.2-1.6 Gcamp PS3 PE4 PF7 PE7 PE1 PE3 PE6 Cbarb PS6 PE5 PE9 Ocaer Opetr PE1 PE2 PS1 Edecl Gomp PB6 Pgris PS5 PS9 PB8 PS4 PB9 PS2 Tlili PB4 PF4 PF1 PE8 PF8 PF9 Epulv Pgior Cbigu PF2 PF3 PF1 PF6 PF5 Ptess PS1 PS7 Pnana Mreli PB1 PS8 PB2 Sline PB1 PB5 PB3 PB7 Rnitid

Coordinate 2 Coordinate 2 Coordinate 2 Coordinate 2 Non-metric Multidimensional scaling Les calculs ne se font pas sur les valeurs absolues mais sur les rangs.15.1.5 Rho de Spearman.16.12.8.4 Bray-Curtis Augmente le % de représentation sur les 2 premiers axes -.5 -.1 -.15 -.2 -.25 -.4 -.8 -.12 -.16 -.2 -.4 -.32 -.24 -.16 -.8.8.16.24 Coordinate 1 -.3 -.24 -.18 -.12 -.6.6.12.18.24 Coordinate 1 Ne permet pas de représenter à la fois les facteurs lignes et colonnes.16.12.8 Morisita.16 Chord.4.12 Meilleure mesure de similarité ou distance? Regarder le diagramme de Shepard sur les rangs observés et préservés dans la projection: y = x -.4 -.8 -.12 -.16 -.2 -.4 -.32 -.24 -.16 -.8.8.16.24 Coordinate 1.8.4 -.4 -.8 -.12 -.16 -.2 -.3 -.24 -.18 -.12 -.6.6.12.18.24 Coordinate 1

Coordinate 2 Obtained rank Coordinate 2 Obtained rank Coordinate 2 Obtained rank Coordinate 2 Obtained rank Diagrammes de Shepard.15.1.5 -.5 -.1 Rho de Spearman -.15 -.2 -.25 -.3 -.24 -.18 -.12 -.6.6.12.18.24 Coordinate 1.16.12 72 64 56 48 4 32 24 16 8 8 16 24 32 4 48 56 64 72 Target rank 72 64 Stress =.34.8.4 56 48 4 Stress =.281 -.4 32 -.8 24 Bray-Curtis -.12 -.16 -.2 -.4 -.32 -.24 -.16 -.8.8.16.24 Coordinate 1 16 8 6 12 18 24 3 36 42 48 54 Target rank.16 72.12 64.8.4 56 48 4 Stress =.2528 -.4 32 -.8 24 Morisita -.12 -.16 -.2 -.4 -.32 -.24 -.16 -.8.8.16.24 Coordinate 1 16 8 6 12 18 24 3 36 42 48 54 Target rank.16.12.8 72 64 Chord.4 -.4 -.8 -.12 -.16 56 48 4 32 24 16 8 Stress =.2357 -.2 -.3 -.24 -.18 -.12 -.6.6.12.18.24 Coordinate 1 6 12 18 24 3 36 42 48 54 Target rank

ACP : avec variables quantitatives site$ Age haut Rec Gram nbesp_v div_vgt div_ins Dens_ins nbesp_ins Ma61.5 4.5 11.25 15 3.67 2.56 53. 9 Ma62.5 4.9 21.72 11 2.9 1.16 28. 3 Te62 1. 5.8 6.35 12 2.28 2.22 61.6 8 Ma71 1.5 3.5 16. 1 2.81 1.14 26. 3 Ma73 1.5 3.5 16. 1 2.81 2.55 36. 7 Ma74 1.5 55.5 13. 9 2.25 1.49 11. 3 Pa51 1.5 23.6 17.14 8 2.95 2.12 53.3 5 Pa52 1.5 2.8 34.72 11 3.17 1.87 25. 4 Pa53 1.5 15.8 3.67 12 3.32 1.84 2. 4 Pb61 1.5 25.7 3. 7 2.35 1.9 12. 6 Pb63 1.5 4.9 78.26 7 1.49 2. 56. 5 Te71 2. 25 1. 37. 13 3.41 1.37 39. 3 Te72 2. 6 1. 47. 17 3.39 1.74 25. 4 Pa61 2.5 5.6 15. 14 3.27 2.16 91.7 7 Pa64 2.5 2.8 36.4 1 3.9 2.99 53. 1 Pa65 2.5 2 1. 78.82 6 2.18 3.9 56. 9 Pb72 2.5 5.5 21. 7 1.94 2.31 96. 7 Pa71 3.5 15.6 29. 9 2.6 1.83 75. 4 Pa72 3.5 2.75 36. 7 2.48 2.18 58. 6 Pa74 3.5 15 1. 84. 9 2.43 2.84 33. 8 Pa75 3.5 15 1. 62. 9 2.43 2.59 44. 7 Pa81 4.5 1 1. 76.3 7 1.7 2.6 161. 11 Pm61 4.5 4.98 4.2 14 2.14 1.91 47. 5 Pm64 4.5 5 1. 61.97 18 2.47 2.14 22.2 5 Pm65 5.5 15.9 52. 12 2.52 2.97 97. 1 Pm71 5.5 3.98 71. 14 2.64 2.33 76. 7 Mg51 7. 15 1. 54.74 7 2.75 2.22 52. 5 Mg53 7. 45 1. 8.2 14 3.31 2.36 52.8 6 Mg54 7. 5 1. 73.78 8 2.44 2.3 72.2 6 Mg61 8. 15 1. 63.64 5 1.51 2.7 42. 5 Mg62 8. 3 1. 89.61 7 1.2 1.4 67. 3 Mg63 8. 45 1. 94.44 6 1.38.76 25. 2 Mg71 9. 2.9 4. 16 3. 1.19 44. 3 Mg72 9. 15.95 6. 16 2.44 1.46 78. 3

ACP

Analyse de corrélation P-values, probabilité associée, risque d erreur r de Pearson, coefficient de corrélation linéaire Conforte les observations de l ACP avec indication du risque d erreur

Frequency Frequency Frequency Distribution d une variable quantitative Appréciation visuelle de la distribution par histogramme 18 16 14 12 1 8 6 4 2.4.8 1.2 1.6 2 2.4 2.8 3.2 3.6 4 Variable diversité (H ) des insectes : distribution symétrique 18 16 14 12 1 8 6 4 2 18 16 14 12 1 8 6 4 2 Variable densité des insectes : distribution dissymétrique 2 4 6 8 1 12 14 16 18 Transformation logarithmique y = ln x -.4 -.2.2.4.6.8 1 1.2 Pas d amélioration de la symétrie inutile

Dens_ins_ Graphe de corrélation 18 16 14 12 1 8 6 4 2 Équation de la droite de régression : densité = -1.24 haut + 82.98 8 16 24 32 4 48 56 64 Haut (cm) r = -,49 P =,31

Régression multiple Hétérocarpie des Astéraceae du Maroc 45 localités Type biologique Type de dissémination : hétérocarpie ou homocarpie Leontodon taraxacoides subsp. longirostris Hyoseris radiata

Bilan des prospections Cardueae Lactuceae nombre de taxa 78 82 nombre d'espèces hétérocarpes 3 21 nombre hétéroc thérophytes 3 14 nombre hétéroc hémicryptophytes 7 Problème : forte liaison entre hétérocarpie et type biologique thérophyte Nécessité d enlever l effet thérophyte pour tester l influence climatique

Comment extraire l information? m C Préc Théro Hétéro Théro Hétéro NonThéro Hétéroc Total Card-lact Essaouira 9.6 234.5 8 3 1 4 5 Kenitra 6.9 64.7 12 5 2 7 14 Sk-el-arba 6.3 641.2 8 3 1 4 6 Casablanca 8.6 481.2 15 4 1 5 12 Tanger 9.9 892.4 19 6 3 9 1 Arbaoua 6.7 846.3 9 3 1 4 4 Tiznite 5.6 154 7 1 1 2 6 Berrechid 4.1 368 14 4 1 5 13 Taroudant 5.1 212 4 1 1 2 1 Ouezzane 5.2 948.1 1 4 1 5 9 La variable à expliquer y (hétérocarpie) dépend d une combinaison linéaire de plusieurs variables quantitatives x1, x2, x3, y = a1x1 + a2x2 + a3x3 + a4x4. + b

Régressions multiples (SYSTAT 12.) Variable : nombre d espèces hétérocarpes et thérophytes Coefficient p-value Constant -.24187.33657 THERO.23196. m C.8666.2683 PREC mm.96.3671 Nb espèces hétérocarpes =.23196 THERO +.866 m C +.96 PREC -.24187 Variable : nombre d espèces hétérocarpes et non-thérophytes Coefficient p-value Constant -.53456.4823 NON-THERO.8387.22 m C.9376.182 PREC mm.138.123 Nb espèces hétérocarpes =.8387 NON-THERO +.9376 m C +.138 PREC -.53456