Quelques analyses simples avec R en écologie des communautés



Documents pareils
Mémo d utilisation de ADE-4

Logiciel XLSTAT version rue Damrémont PARIS

Jérôme Mathieu janvier Débuter avec R. Ce document est disponible sur le site web :

Initiation à l analyse en composantes principales

Aide-mémoire de statistique appliquée à la biologie

ACP Voitures 1- Méthode

Evaluation de la variabilité d'un système de mesure

Annexe commune aux séries ES, L et S : boîtes et quantiles

La classification automatique de données quantitatives

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Introduction aux Statistiques et à l utilisation du logiciel R

Séance 0 : Linux + Octave : le compromis idéal

Séries Statistiques Simples

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Travaux pratiques avec RapidMiner

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Exercice sur la planification de l élaboration d un programme TPMDidacticiel de MS Project pour la planification de projets

Optimiser ses graphiques avec R

Statistiques Descriptives à une dimension

Chapitre 3. Les distributions à deux variables


Excel 2010 Intermediaire

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TSTI 2D CH X : Exemples de lois à densité 1

3.2. Matlab/Simulink Généralités

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

LABO 5 ET 6 TRAITEMENT DE SIGNAL SOUS SIMULINK

La place de SAS dans l'informatique décisionnelle

Initiation à la programmation OEF pour Wims (exercices).

VOS PREMIERS PAS AVEC TRACENPOCHE

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX

4. Résultats et discussion

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

SUGARCRM MODULE RAPPORTS

Documentation pour l envoi de SMS

Gnuplot. Chapitre Lancer Gnuplot. 3.2 Options des graphes

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Guide de l'utilisateur : Surveillance MédiaSource Analytique

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Activité 11 : Nuage de points ou diagramme de dispersion

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Statistiques à une variable

Créer et modifier un fichier d'importation SAU avec Excel

Microsoft Excel : tables de données

REMARQUES SUR LE PETIT FRAGMENT DE TABLETTE CHYPRO MINOENNE TROUVÉ A ENKOMI EN par EMILIA MAS SON

Calculs de probabilités avec la loi normale

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Manuel d utilisation du site web de l ONRN

Fête de la science Initiation au traitement des images

Cours 7 : Utilisation de modules sous python

Dans la série. présentés par le site FRAMASOFT

AGASC / BUREAU INFORMATION JEUNESSE Saint Laurent du Var Tel : bij@agasc.fr Word: Les tableaux.

MANIPULATION ET VISUALISATION DE GROSSES BASES DE DONNÉES AVEC R

Évaluation des compétences. Identification du contenu des évaluations. Septembre 2014

Designer d escalier GUIDE DE L UTILISATEUR. Stair Designer-1

Tapez le titre de la page «BASTIA ville méditerranéenne», puis allez deux fois à la ligne à l aide de la touche Entrée.

Découverte du tableur CellSheet

SOLUTION D ENVOI DE SMS POUR PROFESSIONNELS

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Tutoriel d utilisation du Back-Office du site de la ligue

Réalisation de cartes vectorielles avec Word

Adobe Illustrator Logiciel de dessin vectoriel et de Cartographie Assistée par Ordinateur

Classe de première L

Tutoriaux : Faites vos premiers pas avec Microsoft Visio 2010

Introduction : L accès à Estra et à votre propre espace Connexion Votre espace personnel... 5

SOMMAIRE. Présentation assistée sur ordinateur. Collège F.Rabelais 1/10

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Introduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

Définir la gestion de projets 11. Exploiter les techniques de gestion de projets 11. Planifier un projet 12. Lister les tâches et les jalons 13

Statistiques avec la graph 35+

données en connaissance et en actions?

F7n COUP DE BOURSE, NOMBRE DÉRIVÉ

Evolutions dans FFBClubNet v :

SEMIN- Gestion des couleurs sous R. Michel BAYLAC. MNHN Département Systématique et Evolution OSEB

Planifier et contrôler un projet avec Microsoft Project

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

PROGRAMME (Susceptible de modifications)

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Service des ressources informatiques - Conseil Scolaire de District Catholique Centre-Sud Page 1

Partie 1. Fonctions plus complexes dans Excel. Fonctions Si(), Et(), Ou() et fonctions imbriquées. Opérateurs logiques. I.1.

Traitement des données avec Microsoft EXCEL 2010

GUIDE D UTILISATION DE L ISU SEPTEMBRE 2013 GUIDE D UTILISATION DU NAVIGATEUR UIS.STAT (VERSION BÊTA)

NOTICE D UTILISATION

Aide - mémoire gnuplot 4.0

Guide de l utilisateur du Système central IBM SPSS Statistics 20

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Manuel d Utilisateur - Logiciel ModAFi. Jonathan ANJOU - Maud EYZAT - Kévin NAVARRO

Microsoft Excel. Tableur

Transcription:

Jérôme Mathieu janvier 2007 Quelques analyses simples avec R en écologie des communautés 1 Visualisation des données... 2 Aperçu rapide d'un tableau de données... 3 Visualiser les corrélations entre des variables d'un tableau... 4 Grapher des données... 5 Options de base des graphs... 6 2 Quelques analyses courantes... 9 Courbes d accumulation... 10 Obtenir des matrices de distance... 12 Tests de corrélation entre matrices de distance : test de Mantel et RV... 13 Classification hiérarchique ascendante (CAH)... 14 Analyse en composantes Principales (ACP)... 15 Trouver des espèces indicatrices avec la méthode de indval... 18

1 Visualisation des données

Aperçu rapide d'un tableau de données Une des premières choses à faire, lorsque l'on commence à étudier des données écologiques type relevés d'espèces, est d'avoir une vue globale du tableau de données. Cela permet d'avoir rapidement une vue des grandes tendances, et aussi, accessoirement, de détecter des problèmes de saisie de données. Pour cela il faut utiliser le package ade4 (cf.p.erreur! Signet non défini.) Elles permettent de visualiser la valeur de chaque "cellule" d'un tableau de données, c.a.d. pour chaque relevé et chaque variable. Dans l'exemple suivant on voit tout de suite que vt11 et pt dominent et aussi

Visualiser les corrélations entre des variables d'un tableau Une façon de regarder la colinéarité entre les variables, c'est-à-dire en quelque sorte, les co variations, est de grapher 2 à 2 toutes les variables. Ceci est fait par Si on veut la matrice de covariance, on fait : et on a pl1 pl2 pl3 pl4 pl1 92.30667-11.363333-5.265000 26.07000 pl2-11.36333 30.643333-6.928333-11.84833 pl3-5.26500-6.928333 14.473333-2.69500 pl4 26.07000-11.848333-2.695000 29.66000

Grapher des données R est extrêmement puissant pour grapher des données (on dit souvent "plotter" les donnes, de l'anglais to plot). La fonction de base est la même quelque soit la nature des données: continues ou catégoriques. R produira le type de graph adéquat. La fonction de base est "plot()". On peut lui passer les arguments de 2 manières différentes :! " si les 2 variables sont de natures continues, on obtient un scatterplot, c.a.d. un graph de point si la var. explicative est catégorique, l'autre continue (comme dans une anova), on obtient des boîtes à moustaches si la var. explicatice est continue, la variable de réponse est catégorique, on obtient un graphe de barres découpés par modalités de la variable catégorique. Il y a autant de barre qu'il y a de niveaux dans la variable continue (celle-ci est considérée catégorique en fait).

Options de base des graphs Pour afficher des labels à la place des points On rajoute l'argument lab=x à la fonction plot, x étant la variable contenant les labels, sous forme de caractères. En posant y = variable de réponse, x = variable explicative, on tape : #$ #$ $ indique à R de considérer les données de la variable label comme des lettres si la variable label "lu" est catégorique $#$ si la variable label est continue $#$

Changer la couleur des points ou d'une boîte à moustache Bordure des points On rajoute l'argument col="couleur" à la fonction plot, couleur étant le nom de la couleur désiré: black, white, grey, red, green,blue, dark red etc %& '( #)) #)*) Fond des points On rajoute 2 arguments à la fonction plot : pch et bg pch donne la forme des points : 21 donne des ronds pleins, mais on peut avoir des carrés, losanges, croix, etc.. (cf An introduction to R) bg indique la couleur, et fonctionne comme col (cf. plus haut) %& '( $#% &#) ) $# &#)) Fond des points + bordure des points On rajoute tous les arguments vus plus haut %& '( #)) $#% &#) ) #)*) $# &#))

Couleur des points en fonction d'une variable on réutilise les arguments optionnels pch et bg, mais au lieu de spécifier une seule couleur, on dit à R d'aller chercher la couleur des points dans une variable. Si c'est une variable continue çamarche directement. Si c'est une variable catégorique, il faut lui dire de la considérer comme une variable continue %& %! '( $#% &# %! & '( $#% &# #)*) $# &# #)*) $# &# Changer la taille des points L'argument à rajouter est cex="taille des points" : taille identique entre tous les points Dans ce cas, on spécifie la taille des points par un chiffre : # Taille des points en fonction d'une variable Comme pour la couleur des points, on indique à R la variable codant pour la taille des points : cex= variable codant la taille des points. # " remarque : On a souvent besoin d'ajouter un ou 2 termes de correction pour avoir la taille souhaitée Exemples % # #+,-./

2 Quelques analyses courantes

Courbes d accumulation Le package vegan fait des courbes d accumulation d un ensemble de relevés Il faut installer (menu Packages/load package) et le charger : library (vegan) (cf.p.erreur! Signet non défini.) Fonction pour calculer la courbe ( $# # % Arguments (: données : 1 ligne pour les labels des espèces (optionel), et les abondances des espèces pour chaque relevé (pas de label par relevé) Arguments optionnels principaux $ exact : ajoute les échantillons dans leur ordre d apparition dans X random : ajoute les échantillons de manière aléatoire, sans retirage rarefaction : fait la courbe d accumulation sur le nombre d individus = nombre de permutations à effectuer Principe La fonction estime le nombre d espèces suivant un effort d échantillonnage croissance, depuis n échantillons ou n individus =1 jusqu au maximum possible Fonction pour visualiser la courbe #)) #)) 0#)) #)) #)) ci.type : type d intervalle de confiance autour de la courbe (= poly pour surface) co couleur de la courbe d accumulation lwd épaisseur de la courbe ci.lty dessiner les limites de l intervalle de confiance ci.col couleur de l intervalle de confiance

Obtenir des matrices de distance Les matrices de distances servent de base pour de nombreuses analyses, comme pour les classifications ou les tests de mantel. Afin de faire ces tests il faut avoir fait auparavant les matrices de distances. Selon la nature des données et le type de distance que l on veut calculer, différentes fonctions sont possibles, dans différents packages: Type de distances fonction package quantitative dist() inclus dans R quantitative dist.quant() ade4 présence absence dist.binary() ade4 génétiques dist.genet() ade4 Syntaxe générale % $ Arguments data données : matrice, dataframe method type de distance, (cf. l'aide de la fonction pour les différents choix possibles) Exemple dans ade4 '12

Tests de corrélation entre matrices de distance : test de Mantel et RV Fait la correlation entre 2 matrices de distances et fait un test de Monte Carlo pour voir la fréquence de la corrélation obtenue par rapport à des corrélations obtenue sur les mêmes données randomisées (donnés aléatoires). Nécessite ade Fonction 3 # Arguments mdist1 mdist2 nrepet 1 ère matice de distances 2 ème matice de distances nombre de permutations sortie pvalues freq de la corellation observée parmis les simulation exemple $&*4 % $ %%",+ 12,+ '12,+ % 12 12 ' 12 #555 $! 6 &$ #77 222222 % 8 Frequency 0 100 200 300 400 test de mantel 0.0 0.2 0.4 0.6 0.8 1.0 sim

Classification hiérarchique ascendante (CAH) Les fonctions de classification utilisent des matrices de distance comme données. Il faut donc obtenir la matrice de distance des données (p.12) avant d utiliser la fonction de classification. Fontion 9 $ Arguments Mdist Method matrice de distance type d agrégation (type de lien) Exemple % % $ )0)2: % &; % $ % $&#2 $ $ )0) #7 07 $&#2 #< = < = lien de ward 33 34 35 36 37 38 39 40 41 42 43 44 49 50 45 46 47 48 123 8 9 11 10 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 4 567 Height 0 100 200 300 400 mdx hclust (*, "ward")

217 Rtot_Cl Rtot_diplo Rtot_Bl Rtot_Ar 158 Rtot_thy Rtot_Pscor 187 264 201 175 118 Rtot_Ga Rtot_chilo 238 235 157 Rtot_F 230 Rtot_VT Rtot_L Rtot_H Rtot_T 169 139 143 148 204 205 182 170 131 129 163 147 178 37 240 80203 123244 5 68 81 193 133172 256 124 219 132 214153 176 120 137 208 209 232 233 8898 93 105 197 171 162 223 17 159 186 245 260 40 122 180 185 188192 99 166 2 199 226 116 267 97 102 110 69 100 173 7239 220 255 215248 43108 142 34 247 228 60 30 4665 58115 130 145 168 177 183 242 218 234 243 206 47 96 103 181 227 109 77 26587 79 476 49 136 253 160 119 138 19 91 11 2210 61 94 127 259 70 114 85 89 101 121 128 174 213 117 257 179 135 156 231 200 3655 27 13 52 59106 62 64 86 21241 140 16 39 14 71 75 90 21 50 9 56 1866 74 107 9592 141 150 224 155 229 167 262 2429 113194 211 51 73 5467 191 252 254 246 42 78 112 15 111 184 32 12 144 207 225 269 8 104 8445 134 4189 164 53 195 23 26 33 31 57 38154 258 249 202 35 25 268 146 1 28 151 4863 72 20 237 644 3 161 266 196 198 261 216 236 190 263 152 Rtot_GT Rtot_C_Sta 149 165 210 Analyse en composantes Principales (ACP) Il faut installer et charger le package ADE4 Fontion Rem : dudi signifie a priori duality diagramm Arguments data données (dataframe) Arguments optionnels principaux Center Scale = T pour centrer chaque colonne (chaque variable), =T par défaut = F pour ne pas centrer = T pour réduire par la variance (?) =T par défaut = F pour ne pas réduire Exemple 12 Afficher le cercle des correlations 6 #+, clab = taille des points Projeter les observations dans le plan factoriel 6 82 83 250 251 221 125 222 126

Projeter les variables dans le plan factoriel Rtot_Ga d = 0.5 06 Rtot_Cl Rtot_diplo Rtot_F Rtot_chilo Rtot_thy Rtot_Bl Rtot_Ar Rtot_Pscor Rtot_VT Rtot_L Rtot_T Rtot_C_Sta Rtot_GT Rtot_H Projeter observations et variables en même temps dans le plan factoriel %% $ 6 06 #>?@A #+, Projeter des observations regroupés par classe d une variable catégorique 6 B& paturage jachere riziere foret Projeter des observations dans le plan factoriel, avec la taille des points qui dépend de la valeur d une variable continue 6 B 5 15 25 35

2.5 7.5 12.5 17.5 50 150 250 350 450 1 3 5 7 0.25 0.75 1.25 1.75 1 3 5 7 0.5 1.5 2.5 0.5 1.5 2.5 3.5 0.5 1.5 2.5 1 3 5 0.5 1.5 2.5 3.5 0.25 0.75 1.25 1.75 0.1 0.3 0.5 0.7 0.9 5 15 25 35 1 3 5 7 0.25 0.75 1.25 1.75 1 3 5 7 9 Projeter des observations dans le plan factoriel en fonction de plusieurs variables successivement %0#4 4 % C6 < = - la première ligne prépare une fenêtre de graphique avec 4 lignes et 4 colonnes - la deuxième ligne affiche les observations avec la taille des points qui dépend des variables 1 à 16 de la matrice data (qui contient obligatoirement le même nombre de lignes que data ) Projeter des observations dans le plan factoriel, en le regroupant suivant les classes obtenues par classification hiérarchique ascendante (CAH) Il faut charger le package stats '6 %$ )0). 1 2 3 fait la CAH sur les donnes brutes data, utilise lien de Ward (cf. chapitre à ce sujet), projette les observations en les regroupant suivant les 3 plus grandes classes

Trouver des espèces indicatrices avec la méthode de indval Il faut utiliser le package labdsv, qui nécessite lui-même que d'autres packages soient déjà chargés: library(mgcv) library(mass) library(akima) library(labdsv) le package labdsv n'est pas proposé par R dans le menu install package. Il faut aller le chercher directement sur le site (cf p.erreur! Signet non défini.) la fonction faisant l'analyse Indval est duleg Fonction &( ' Arguments X : dataframe contenant uniquement les relevés des espèces Y : dataframe contenant la hiérarchie des sites à tester n : nombre de permutations dans les tests. duleg(rlv_sp,classification1,1000)->indv1 Sortie Il donne un dataframe où chaque ligne correspond à 1espèce. Explication des éléments du dataframe renvoyé pval indique les espèces significatives d'après le test de permutation Maxcls indique la classe qu'indique chaque espèce (où le score indval est le plus fort) Indval donne la valeur du score indval de chaque espèce pour chaque classe de site Relfreq Relabu donne la fréquence de chaque espèce au sein de chaque classe de site donne la densité moyenne de chaque espèce au sein de chaque classe de site Pour faire la hiérarchie des sites, conférer le site de P.legendre ou l'aide pdf du package labdsv