méthodes d ordination pour l analyse des données écologiques



Documents pareils
La classification automatique de données quantitatives

Analyse en Composantes Principales

ACP Voitures 1- Méthode

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Individus et informations supplémentaires

NON-LINEARITE ET RESEAUX NEURONAUX

Gestion obligataire passive

TABLE DES MATIERES. C Exercices complémentaires 42

Extraction d informations stratégiques par Analyse en Composantes Principales

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Logiciel XLSTAT version rue Damrémont PARIS

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Enjeux mathématiques et Statistiques du Big Data

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Analyse des correspondances avec colonne de référence

Exercice : la frontière des portefeuilles optimaux sans actif certain

1 Complément sur la projection du nuage des individus

Évaluation de la régression bornée

Analyse de la variance Comparaison de plusieurs moyennes

Initiation à l analyse en composantes principales

CHAPITRE 5. Stratégies Mixtes

Chapitre 3. Les distributions à deux variables

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Introduction à l approche bootstrap

Apprentissage Automatique

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Cours de méthodes de scoring

Exercices Corrigés Premières notions sur les espaces vectoriels

Table des matières. I Mise à niveau 11. Préface

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

FORMULAIRE DE STATISTIQUES

IBM SPSS Regression 21

ESIEA PARIS

Optimisation, traitement d image et éclipse de Soleil

Théorie de l estimation et de la décision statistique

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Big Data et Graphes : Quelques pistes de recherche

Mémo d utilisation de ADE-4

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Avant-après, amont-aval : les couples de tableaux totalement appariés

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

données en connaissance et en actions?

PROBABILITES ET STATISTIQUE I&II

Principe de symétrisation pour la construction d un test adaptatif

Modèles pour données répétées

De la mesure à l analyse des risques

choisir H 1 quand H 0 est vraie - fausse alarme

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

La corrélation entre deux matrices de distances euclidiennes

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Coup de Projecteur sur les Réseaux de Neurones

Programmation Linéaire - Cours 1

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Utilisation du Logiciel de statistique SPSS 8.0

Statistique Descriptive Multidimensionnelle. (pour les nuls)

L'analyse des données à l usage des non mathématiciens

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Introduction au Data-Mining

Master de Recherche première année. Programme de cours

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Cours d Analyse. Fonctions de plusieurs variables

Programmation linéaire

Arbres binaires de décision

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Données longitudinales et modèles de survie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

STATISTIQUES. UE Modélisation pour la biologie

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

I. Polynômes de Tchebychev

Résolution de systèmes linéaires par des méthodes directes

Introduction au Data-Mining

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Exemple PLS avec SAS

Annexe 6. Notions d ordonnancement.

Lire ; Compter ; Tester... avec R

Quantification Scalaire et Prédictive

Exemples d application

INF6304 Interfaces Intelligentes

Classification non supervisée

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Modèle GARCH Application à la prévision de la volatilité

«Cours Statistique et logiciel R»

LES MODELES DE SCORE

Modélisation géostatistique des débits le long des cours d eau.

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

De la mesure à l analyse des risques

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Fonctions de plusieurs variables

Séance 0 : Linux + Octave : le compromis idéal

Transcription:

généralités gradient indirect gradient direct conclusion pour l analyse des données écologiques UMR Ecologie des forêts de Guyane bruno.herault@ecofog.gf & vivien.rossi@cirad.fr Ecole thématique - Méthodes et modèles pour l étude de la biodiversité amazonienne

plan généralités gradient indirect gradient direct conclusion 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

généralités gradient indirect gradient direct conclusion 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

généralités gradient indirect gradient direct conclusion introduction utilisateurs écologistes des communautés objectif analyser simultanément les effets de multiples facteurs environnementaux sur de multiples espèces approche méthodes statistiques d analyses multivariées classification: regroupe les espèces ordination: arrangement des espèces sur des gradients analyse indirecte de gradient analyse directe de gradient type de données matrice de données de communauté (abondance d espèces par échantillon) matrice associée de données covariées (seulement nécessaire pour l analyse directe de gradient)

généralités gradient indirect gradient direct conclusion

généralités gradient indirect gradient direct conclusion matrice de données de communauté espèces Q 1 Q 2 Q 3 Q 4... Q 12 Eschweilera sagotiana 1 0 1 0... 2 Couepia bracteosa 3 1 0 3... 2 Ecclinusa guianensis 0 0 1 0... 1 Lecythis persistens 1 1 0 5... 0 Ecclinusa guianensis 4 0 1 1... 0 Licania membranacea 1 0 4 0... 3 Iryanthera sagotiana 1 2 0 1... 1 Dicorynia guianensis 2 0 0 0... 5 Lecythis persistens 4 1 1 0... 0 Jacaranda copaia 2 4 0 1... 0. Cupania scrobiculata 1 0 0 0... 2 Nombre d arbres par quadrat

généralités gradient indirect gradient direct conclusion matrice associée de données covariées Q 1 Q 2 Q 3 Q 4... Q 12 ph 7 6.5 6.8 7.3... 8 pr cipitation 3000 2500 2400 3200... 1900 altitude 50 300 20 100... 150 T 0 C 25 23 26 24.5... 25.5 sol type ferralsol acrisol stagnosol acrisol... ferralsol. chasse 1 0 1 0... 1 Caractéristiques environnementales

généralités gradient indirect gradient direct conclusion Objectif: représenter les relations entre les échantillons et les espèces dans un espace de faible dimension caractéristiques des données de communauté éparses: beaucoup de zéros, la plupart des espèces présentes dans peu d endroits faible dimensionnalité : beaucoup de facteurs peuvent influencer la composition spécifique mais peu sont importants bruit: forte variance entre les répliquas d une même communauté redondance: de nombreuses espèces ont des distributions similaires

généralités gradient indirect gradient direct conclusion bénéfices représenter les gradients environnementaux les plus importants et interprétables réduire le bruit en mettant l accent sur un espace de faible dimension efficacité statistique : une analyse globale vs de multiples analyses univariées limitations analyse exploratoire, pas de test statistique facile à utiliser chaque méthode a ses propres limitations bonne compréhension de la logique mathématique sous-jacente à chaque méthode pour choisir la méthode appropriée pour faire des interprétations pertinentes

généralités gradient indirect gradient direct conclusion Méthodes basées sur gradient type de données PO dist - - PCoA dist linéaire - NMDS dist - - PCA valeurs propres linéaire quantitative CA valeurs propres unimodal tableau de contingence ou au moins positives DCA valeurs propres unimodal tableau de contingence ou au moins positives

généralités gradient indirect gradient direct conclusion modèles de réponse unimodale modèles linéaires appropriés en écologie des communautés quand espèces abondantes (peu de zéros) faible gradient de variations environnementales le modèle unimodal peut être obtenu par: ajout d un terme quadratique x 2 au modèle linéaire mais cela peut engendrer des valeurs fortement négatives modéliser le logarithme des abondances spécifiques par une forme quadratique des variables environnementales courbe de réponse gaussienne: log y = a (x u)2 2 t 2 u: optimum ou mode, t: tolérance et c = exp(a): maximum

1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

méthodes basées sur les distances ces méthodes font référence à une matrice de distance carrée, symétrique, aussi appelée matrice de similarité. à l inverse des méthodes basées sur les valeurs propres, ces méthodes ne donnent pas les scores des espèces et des sites simultanément. certaines méthodes valeurs propres sont des cas spéciaux de méthodes distance, où la distance est basée sur une distribution du χ 2. mais: la philosophie des méthodes valeurs propres est différente: elles ont pour objectif de positionner fidèlement les espèces sur un gradient (soit inféré soit mesuré), et pas de positionner les sites en fonction de leur similarité.

méthodes distance données: D = d 11 d 12... d 1j... d 1n d 21 d 22... d 2j... d 2n.... d i1 d i2... d ij... d in.... d n1 d n2... d nj... d nn avec d ij = distance(site i, site j ), la distance entre les sites i et j Les résultats peuvent changer en fonction de la fonction de distance utilisée

Exemple: données de végétation dunaire de 30 espèces sur 20 sites sites Belper Empnig Junbuf Junart Airpra Elepal Rumace... 2 3 0 0 0 0 0 0... 13 0 0 3 0 0 0 0... 4 2 0 0 0 0 0 0... 16 0 0 0 3 0 8 0... 6 0 0 0 0 0 0 6... 1 0 0 0 0 0 0 0... 8 0 0 0 4 0 4 0... 5 2 0 0 0 0 0 5... 17 0 0 0 0 2 0 0... 15 0 0 0 3 0 5 0...........

Exemple: données de végétation dunaire Distance euclidienne entre les sites: sites 2 13 4 16 6 1 8 5... 13 12.37 4 11.70 11.14 16 17.92 13.34 14.42 6 13.86 16.58 16.16 18.36 1 10.58 13.96 11.53 15.78 13.71 8 11.92 9.64 10.34 9.64 14.49 11.31 5 10.54 13.56 13.71 17.03 9.00 11.87 13.82 17 13.82 13.64 14.90 14.42 14.04 10.54 12.77 10.95 15 15.59 13.42 13.78 7.48 15.46 12.85 9.43 14.35... 10 8.19 14.70 13.56 17.83 10.44 11.18 12.77 9.90... 11 12.17 15.52 13.15 16.58 10.95 9.59 11.31 12.77...

Exemple: données de végétation dunaire Distance de Manhattan entre les sites: sites 2 13 4 16 6 1 8 5... 13 45 4 31 40 16 67 40 52 6 46 61 59 69 1 28 43 33 47 42 8 44 27 35 31 52 38 5 35 52 44 68 27 39 53 17 47 42 54 48 43 29 49 36 15 59 38 50 20 57 41 27 56... 10 25 56 42 68 29 35 45 30... 11 40 49 45 57 36 28 38 47...

Exemple: données de végétation dunaire Distance de Bray-Curtis entre les sites: sites 2 13 4 16 6 1 8 5... 13 0.60 4 0.36 0.51 16 0.89 0.61 0.67 6 0.51 0.75 0.63 0.85 1 0.47 0.84 0.52 0.92 0.64 8 0.54 0.37 0.41 0.42 0.59 0.66 5 0.41 0.68 0.50 0.89 0.30 0.64 0.64 17 0.82 0.88 0.90 1.00 0.68 0.88 0.89 0.62 15 0.91 0.68 0.74 0.36 0.80 1.00 0.43 0.85... 10 0.29 0.74 0.48 0.89 0.32 0.57 0.54 0.35... 11 0.54 0.75 0.58 0.88 0.45 0.56 0.53 0.63...

ordination polaire (PO) - Bray-Curtis 1957 probablement la technique la plus facile à visualiser l utilisateur doit pré-spécifier les sites extrêmes (il existe aussi des méthodes automatiques) ces sites extrêmes ont une position privilégiée, tous les autres sites vont être positionnés relativement à eux PO est la seule technique qui permet de contrôler la direction d un gradient (i.e. droite vs. gauche) de nouveaux sites peuvent être ajoutés sans affecter le résultat de l ordination 2 me et axes supplémentaires dépendent des choix de l utilisateur

ordination polaire: illustration Distances entre 10 sites : sites 1 2 3 4 5 6 7 8 9 2 195 3 127 308 4 245 126 356 5 342 331 435 287 6 352 337 445 291 30 7 269 198 372 116 179 179 8 25 170 142 222 319 329 246 9 347 434 414 460 449 461 438 330 0 144 313 37 361 440 448 377 151 401 calcul du 1 er axe points extrêmes: 6 et 9 distance D = 461 Calcul des scores des sites: score i = D2 D 2 1i D2 2i 2 D avec D 1i /D 2i distances entre les sites i et le 1er/2ème point extrême. ex: score 1 = 4612 352 2 347 2 2 461

ordination polaire: illustration Scores des sites: 1 2 3 4 5 6 7 8 9 0 234.29 149.39 2 259.38 92.84 12.82 0 57.18 229.79 461 273.78 65 7 4 2 81 3 0 9 0 100 200 300 400 Ordination polaire suivant les scores

ordination polaire: illustration Scores des sites: 1 2 3 4 5 6 7 8 9 0 234.29 149.39 2 259.38 92.84 12.82 0 57.18 229.79 461 273.78 65 7 4 2 81 3 0 9 0 100 200 300 400 Ordination polaire suivant les scores 2 4 7 56 9 03 1 8 5 10 15 20 25 valeurs du gradient

Analyses en Coordonnées Principales - Metric multidimensional scaling (PCoA) - Gower 1966 objectif Décrire les données en réduisant les dimensions de la matrice de distance entre les objets graph caractéristiques maximiser les corrélations linéaires et les mesures de distance dans l ordination le modèle sous-jacent assume un nombre fixe de gradient. Au contraire, PCA, RA et DCA assument potentiellement de nombreux gradients mais d importance décroissante. généralisation de la PCA quand la distance est non-euclidienne (distance euclidienne PCoA = PCA) généralisation de la CA: distance du χ 2

Analyse en coordonnées principales (PCoA) principe (multidimensional scaling - MDS) soit D = [D ij ] une matrice de distance l utilisateur choisit la dimension n pour la représentation positionne aléatoirement les points dans l espace à n dimensions répéter les étapes suivantes pour minimiser le Stress: 1 calculer matrice [d ij ], distances euclidienne dans l espace à n dim 2 régresser d ij sur D ij avec le modèle linéaire ˆd ij = α β D ij 3 calculer la fonction de Stress: Stress = i,j (d ij ˆd ij ) 2 / i,j d 2 ij 4 bouger les coordonnées des points pour diminuer le Stress solution optimal vecteurs propres de D limitations Résultats dépendent de la mesure de distance choisie on ne peut pas modéliser de combinaisons de variables car seule la matrice de distance est utilisée on ne peut pas rajouter facilement de nouveaux points

Nonmetric Multidimensional Scaling (NMDS) - Kruskal 1964 objectifs décrire les données en réduisant le nombre de dimensions graph découvrir des relations non-linéaires caractéristiques NMDS est très computer-intensive, récemment appliquée aux gros jeux de données NMDS maximise l adéquation entre la mesure de distance et la distance dans l espace d ordination. pour augmenter la vraisemblance de trouver une solution correcte, une DCA est souvent faite a priori.

Nonmetric Multidimensional Scaling (NMDS) principe partir de D = [D ij ] matrice de "distance" (pas forcément symétrique) l utilisateur choisit une dimension n pour la représentation dans l espace assigne aléatoirement les coordonnées de chaque point dans l espace à n dimensions répéter les étapes suivantes pour minimiser le Stress: 1 calculer d = [d ij ] matrice de distance entre les points de l espace à n dimensions (avec une métrique euclidienne par exemple) 2 régresser d ij sur D ij : par exemple avec un modèle linéaire ˆd ij = α β D ij 3 calculer la fonction de Stress: par exemple Stress = i,j (d ij ˆd ij ) 2 / i,j d 2 ij 4 changer les coordonnées des points pour diminuer le Stress

Nonmetric Multidimensional Scaling (NMDS) limitations la procédure utilise seulement l information de rangs le résultat va changer en fonction du nombre d axes choisis a priori assume que la dissimilarité est reliée à la distance écologique de manière monotonique Pas de garantie que la solution la meilleure soit trouvée (le plus petit stress recommendations essayer un grand nombre de points de départ pour trouver le bon minimum essayer un grand nombre de dimensions, l optimum est sélectionné en fonction de l heuristique du coude

1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

approches basées sur les valeurs propres analyse des valeurs propres est possible sur une matrice carrée, symétrique donne une série de valeurs et de vecteurs propres. la plus grande valeur propre est souvent appelée la valeur dominante la valeur propre est une mesure de la force d un axe: la quantité de variance expliquée par un axe et, idéalement, l importance d un gradient écologique. si calculée sur une matrice de corrélation, la somme des valeurs propres sera égales au nombre de variables/espèces. si calculée sur une matrice de covariance, la somme des valeurs propres sera égales à la somme de la variance de toutes les espèces.

Principal Components Analysis (PCA) - Pearson 1901 objectives décrire une matrice de données en réduisant ses dimensions trouver des combinaisons linéaires non corrélées des variables de départ qui maximise la variance description/caractéristiques rotation de la matrice de données: ne change pas la position relative des points, change le système de coordonnées. axes créés tel que la distance orthogonale de chaque objet aux axes soient minimisée bonne méthode pour des données qui ne sont pas dans la même unité (faire une standardisation a priori), Ok avec les valeurs négatives

PCA - Illustration Exemple de données

PCA - Illustration Détermination du 1er axe

PCA - Illustration Détermination du 2nd axe

PCA - Illustration Détermination du 2nd axe

PCA - limitations utilisée surtout pour des données continues; peu efficiente quand les données ne sont pas bien résumées par leur variance/covariance considère seulement des combinaisons linéaires de variables, inefficiente pour trouver des combinaisons non linéaires gros problème pour les données écologiques: l effet horseshoe causée par la réponse unimodale des espèces sur un gradient.

Correspondence Analysis (CA) or Reciprocal Averaging - Hirschfeld 1935 objective décrire un tableau de contingence en réduisant le nombre de ses dimensions ordonne simultanément les espèces et les sites en maximisant la corrélation entre les scores d espèces et les scores de sites principle: Reciprocal Averaging algorithm 1 pour chaque site i, calculer la moyenne pondérée de tous les j w ij score sp j scores d espèce: score sample i = j w ij le "poids" w ij est l abondance de l espèce j dans le site i. 2 pour chaque espèce j calculer le score sp j = 3 standardiser les scores d espèces et de sites 4 répéter les étapes 1 à 3 jusqu à convergence i w ij score sample i i w ij

Correspondence Analysis (CA) description/characteristics le résultat final est que les scores d espèces et de sites seront corrélés au maximum entre eux la valeur propre est une mesure de ce degré de corrélation ( Correspondence Analysis) par exemple, une valeur propre de 1.0 implique qu un site (ou groupe de site) ne partage aucune espèce avec les autres le 1er axe est souvent interprété comme étant relié à un gradient environnemental important. on peut rajouter facilement des points sans affecter le reste de l ordination.

Correspondence Analysis (CA) limitations la procédure n est efficace que pour des données type tableaux de contingence car sinon la distance du χ 2 n est pas adaptée. la procédure n est pas adaptée à des données non linéaires; des relations non linéaires l effet ARC l arc n est pas un problème aussi sérieux que l effet horseshoe en PCA (extrémités des axes non convoluées). extrémités du gradient compressées

Detrended Correspondence Analysis (DCA) - Hill & Gauch 1979 DCA est probablement la technique d ordination la plus employée aujourd hui c est une extension de la CA, des coordonnées d espèces et de sites sont produites le 1er axe a la même valeur propre qu en CA l arc est supprimé en divisant le 1er axe en segments et en les recentrant limitations données supplémentaires difficilement ajoutables pas de fondements mathématiques très sensible au nombre de paramètres qui déterminent le nombre de segments détruire un vrai arc (s il existe)

CA: compression des extrémités

CA: correlations des axes

DCA: detrending

DCA plot

1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

PCA - horseshoe effect species abundances 0 10 20 30 40 species 3 0 10 20 30 40 0 5 10 15 20 25 species 2 0 5 10 15 20 25 5 10 15 20 25 30 environmental gradient species 1

PCA - Horseshoe effect d = 1 Projection des données dans le1 er plan factoriel

PCA - Horseshoe effect 0 20 40 60 80 100 0 20 40 60 80 100 gradient PCA axe 1 Vrai gradient vs gradient prédit par la 1re composante de la PCA

NMDS - Horseshoe effect 0 20 40 60 80 100 0 20 40 60 80 100 gradient NMDS distance Euclidienne Vrai gradient vs gradient prédit par une MDS en métrique euclidienne

NMDS - Horseshoe effect 0 20 40 60 80 100 0 20 40 60 80 100 gradient NMDS distance Mahalanobis Vrai gradient vs gradient prédit par une NMDS en métrique de Mahalanobis

NMDS - Horseshoe effect 0 20 40 60 80 100 0 20 40 60 80 100 gradient NMDS distance Bray Curtis vrai gradient vs gradient prédit par une NMDS en métrique de Bray-Curtis

CA - Arch effect 0 1 2 3 1.5 1.0 0.5 0.0 0.5 1.0 1.5 2.0 CA1 CA2 Projection de données dans le 1 er plan factoriel

CA - Arch effect 0 20 40 60 80 100 0 20 40 60 80 100 gradient CA axe 1 vrai gradient vs gradient prédit par la 1re composante de la CA

DCA généralités gradient indirect gradient direct conclusion distance valeurs propres horseshoe R DCA2 4 2 0 2 4 4 2 0 2 4 DCA1 Projection des données dans le 1 er plan factoriel

DCA 0 20 40 60 80 100 0 20 40 60 80 100 gradient DCA axe 1 vrai gradient vs gradient prédit par la 1re composante de la PCA

1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

application avec R: package vegan données de végétation dunaire data(dune) description: les colonnes représentent les valeurs d abondance de 30 espèces, les lignes représentent les 20 sites échantillonnés sites Belper Empnig Junbuf Junart Airpra Elepal Rumace... 2 3 0 0 0 0 0 0... 13 0 0 3 0 0 0 0... 4 2 0 0 0 0 0 0... 16 0 0 0 3 0 8 0... 6 0 0 0 0 0 0 6... 1 0 0 0 0 0 0 0... 8 0 0 0 4 0 4 0... 5 2 0 0 0 0 0 5... 17 0 0 0 0 2 0 0... 15 0 0 0 3 0 5 0...........

PCoA avec ecodist PCoA avec la distance de Bray-Curtis Dist.dune=distance(dune,"bray") PCoA.dune=pco(Dist.dune) PCoA.dune$values/sum(PCoA.dune$values): 0.37 0.22 0.10 0.08... plot(pcoa.dune$vectors[,1],pcoa.dune$vectors[,2]): PCO AXE 2 0.2 0.0 0.2 0.4 0.2 0.1 0.0 0.1 0.2 0.3 PCO AXE 1

PCA avec R PCA.dune=princomp(t(dune)) summary(pca.dune) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5... Std deviation 4.77 3.81 2.80 2.17 2.05... Prop. of Variance 0.33 0.21 0.11 0.07 0.06... Cum. Proportion 0.33 0.54 0.66 0.73 0.79... plot(pca.dune) PCA.dune Variances 0 5 10 15 20 Comp.1 Comp.3 Comp.5 Comp.7 Comp.9

PCA avec R: sortie graphique biplot(pca.dune) 10 5 0 5 Comp.2 0.6 0.4 0.2 0.0 0.2 6 Plalan 10 7 Lolper 5 Antodo 11 Achmil Rumace Tripra Brohor 17 2 Poapra 1 18 Leoaut 19 Hyprad Trirep BelperViclat Empnig Airpra Cirarv Chealb Elyrep Salrep Potpal Brarut Junbuf Sagpro Calcus Poatri Ranfla 3 9 14 Junart 4 15 138 12 20Elepal Alogen 16 Agrsto 0.6 0.4 0.2 0.0 0.2 Comp.1 10 5 0 5

CA avec vegan CA.dune=cca(dune) summary(ca.dune) Partitioning of mean squared contingency coefficient: Inertia Proportion Total 2.115 1 Unconstrained 2.115 1 Eigenvalues, and their contribution to the mean squared contingency coefficient Importance of components: CA1 CA2 CA3 CA4 CA5... Eigenvalue 0.536 0.400 0.260 0.1760 0.1448... Proportion Explained 0.253 0.189 0.123 0.0832 0.0684... Cumulative Proportion 0.253 0.443 0.565 0.6486 0.7170......

CA avec vegan: sortie graphique plot(ca.dune) CA2 1 0 1 2 3 17 Empnig 19 Airpra Hyprad Salrep Antodo 20 18 Potpal Calcus 15 14 11 Viclat Leoaut Elepal Plalan Brarut Ranfla Achmil Junart 16 Trirep Sagpro Tripra 10 6 5 7Rumace Agrsto Belper Lolper Poapra 8 Brohor Poatri Alogen 2 Elyrep Junbuf 12 Cirarv 4 9 Chealb 13 3 1 2 1 0 1 2 CA1

DCA avec Vegan DCA.dune=decorana(dune) summary(dca.dune) Detrended correspondence analysis with 26 segments. Rescaling of axes with 4 iterations. DCA1 DCA2 DCA3 DCA4 Eigenvalues 0.5117 0.3036 0.12125 0.14266 Decorana values 0.5360 0.2869 0.08136 0.04814 Axis lengths 3.7004 3.1166 1.30057 1.47883 Species scores: DCA1 DCA2 DCA3 DCA4 Totals Belper -0.91934-0.84069 1.60942-1.08015 13 Empnig -1.46371 3.73148 0.86736-2.06932 2 Junbuf 0.52752 0.36327-1.16057-0.21616 13 Junart 2.04359 0.65297-1.04495 1.56781 18......

DCA avec Vegan: sortie graphique plot(dca.dune) Empnig DCA2 2 1 0 1 2 3 AirpraHyprad Salrep 19 Antodo Sagpro Leoaut Brarut 17 Viclat 20 Cirarv Junart Ranfla 18 15 Calcus Junbuf 11 12 Agrsto Trirep 1416 138 Elepal Alogen Chealb Plalan 6 4 9 Rumace Potpal 510 7 3 Tripra Belper Poapra 2 Poatri Lolper 1 Brohor Elyrep Achmil 3 2 1 0 1 2 3 DCA1

généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R analyse directe de gradient les espèces sont directement reliées à des facteurs environnementaux mesurés résultat: les axes sont des fonctions des facteurs environnementaux mesurés ordination contrainte les scores des sites sont contraints à être des combinaisons linéaires des variables environnementales significativité des variables peut être testée par une procédure de permutation les deux techniques les plus employées: Redundancy Analysis (RDA) PCA contrainte (modèle linéaire) Canonical Correspondence Analysis (CCA) CA contrainte (modèle unimodal)

généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R Redundancy Analysis (RDA) - Rao 1964 espèces et variables environnementales sont représentées simultanément CCA est adaptée pour des analyses de composition spécifique basée sur l abondance relative. Si vous avez un gradient sur lequel toutes vos espèces sont favorisées, la RDA va le détecter alors que la CCA non possible d utiliser des vecteurs espèces mesurées en différentes unités (mais centrage et standardisation préalable) très utile quand les gradient sont petits méthode de prédilection pour les travaux short-term partitions de variance et interprétation des résultats plus intuitive qu en CCA. La RDA n est pas plus ou moins valable que la CCA (!!). elle est simplement utile pour différents objectifs.

généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R RDA principe ordination d une matrice Y sous contrainte de la matrice X Y X caler Y par régression multiple Ŷ = X(X X) 1 X Y faire une PCA sur Ŷ U matrice de vecteurs propres ordination dans l espace X: Ŷ U ordination dans l espace Y : Y U

généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R Canonical Correspondence Analysis (CCA) - ter Braak 1986 Canonical Correspondence Analysis est le mariage entre une CA et une régression multiple. mathématiquement c est la même chose que la RDA sauf que Ŷ est obtenu avec une régression multiple pondérée CCA maximise les corrélations entre les scores d espèces et les scores de sites les scores de sites sont contraints d être des combinaisons linéaires des variables explicatives. à cause des contraintes, les valeurs propres en CCA seront plus petites qu en CA. quelques variantes: Detrended CCA, partial CCA...

généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R application avec R: package vegan données de végétation dunaire data(dune) description: les colonnes représentent les valeurs d abondance de 30 espèces, les lignes représentent les 20 sites échantillonnés sites Belper Empnig Junbuf Junart Airpra Elepal Rumace... 2 3 0 0 0 0 0 0... 13 0 0 3 0 0 0 0... 4 2 0 0 0 0 0 0... 16 0 0 0 3 0 8 0... 6 0 0 0 0 0 0 6... 1 0 0 0 0 0 0 0... 8 0 0 0 4 0 4 0... 5 2 0 0 0 0 0 5... 17 0 0 0 0 2 0 0... 15 0 0 0 3 0 5 0...........

généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R application avec R: package vegan données environnementales correspondantes data(dune.env) description: caractéristiques de sols des mêmes sites sites A1 Moisture Management UseManure 2 3.5 1 BFHaypastu 2 13 6.0 5 SFHaypastu 3 4 4.2 2 SFHaypastu 4 16 5.7 5 SFPasture 3 6 4.3 1 HFHaypastu 2 1 2.8 1 SFHaypastu 4 8 4.2 5 HFPasture 3 5 6.3 1 HFHayfield 2 17 4.0 2 NMHayfield 0 15 11.5 5 NMHaypastu 0.....

généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R CCA with vegan CCA.dune=cca(dune as.numeric(moisture)a1as.numeric(manure),data=d Call: cca(formula = dune data = dune.env) Inertia Rank Total 2.1153 Constrained 0.7681 3 Unconstrained 1.3472 16 Inertia is mean squared contingency coefficient Eigenvalues for constrained axes: CCA1 CCA2 CCA3 0.4265 0.2337 0.1078 Eigenvalues for unconstrained axes: as.numeric(moisture) A1 as.numeric(manure), CA1 CA2 CA3 CA4 CA5 CA6 CA7 0.31 0.21 0.17 0.14 0.10 0.09 0.07 (Showed only 7of all 17 unconstrained eigenvalues)

généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R CCA with vegan: graphical output plot(vare.cca) CCA2 3 2 1 0 1 Cirarv 13 as.numeric(manure) 34 1 12 Chealb 9 Alogen 8 16 2 ElyrepPoatri Agrsto Lolper Tripra Poapra Sagpro Brohor Belper Junbuf Rumace A1 Elepal 57 as.numeric(moisture) Junart Ranfla Trirep 6Achmil Brarut 15 Plalan Leoaut Calcus 10 Potpal 14 Antodo 11 Viclat 20 Hyprad 18 Salrep Airpra Empnig 17 1 0 1 19 4 2 0 2 4 CCA1

généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R RDA with vegan RDA.dune=rda(dune as.numeric(moisture)a1as.numeric(manure),data=d Call: rda(formula = dune data = dune.env) Inertia Rank Total 84.12 Constrained 33.66 3 Unconstrained 50.46 16 Inertia is variance Eigenvalues for constrained axes: RDA1 RDA2 RDA3 19.326 12.209 2.128 Eigenvalues for unconstrained axes: as.numeric(moisture) A1 as.numeric(manure), PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC9 10.7 7.8 6.6 5.6 4.9 3.2 3.1 2.2 1.8

généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R RDA with vegan: graphical output plot(rda.dune) RDA2 3 2 1 0 1 2 3 11 18 17 6 10 Leoaut Antodo Trirep Brarut Hyprad Salrep 5 Plalan Achmil Viclat Empnig Airpra Potpal Calcus Ranfla Junart 7 Rumace Belper Tripra Elepal Brohor Cirarv Chealb Junbuf Sagpro Poapra Elyrep Lolper 1 Agrsto Alogen 2 Poatri 12 8 9 4 as.numeric(manure) 3 19 13 20 14 15 A1 as.numeric(moisture) 16 1 0 1 3 2 1 0 1 2 3 4 RDA1

généralités gradient indirect gradient direct conclusion 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

généralités gradient indirect gradient direct conclusion analyse directe de gradient: sélection des méthodes direct gradient analysis few species many species linear responses linear regression unimodal responses glm linear responses RDA arch effect unimodal responses no arch effect DCCA CCA

généralités gradient indirect gradient direct conclusion analyse indirecte de gradient: sélection des méthodes indirect gradient analysis distance data raw data linear responses PCoA unimodal responses NMDS linear responses PCA unimodal responses NMDS arch effect DCA no arch effect CA

généralités gradient indirect gradient direct conclusion quelques références Legendre, P. and Legendre, L. (1998) Numerical Ecology. 2nd English ed. Elsevier. Jongman, R. H., ter Braak, C. J. F.. Van Tongeren O. F. R (1995) Data analysis in community and landscape ecology. Cambridge Univ. Press McCune, B. (1997) Influence of noisy environmental data on canonical correspondence analysis. Ecology 78, 2617-2623. Palmer, M. W. (1993) Putting things in even better order: The advantages of canonical correspondence analysis. Ecology 74,2215-2230. Palmer website: Ordination Methods for Ecologists http://ordination.okstate.edu/ Minchin, P.R. 1987. An evaluation of the relative robustness of techniques for ecological ordination. Vegetatio 96:89-108. Ter Braak, C. J. F. (1986) Canonical Correspondence Analysis: a new eigenvector technique for multivariate direct gradient analysis. Ecology 67, 1167-1179. Kruskal, J.B. 1964. Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis. Psychometrika 29:1-27.