Base de données et logiciels par G. BOUXIN Sommaire Logiciels personnels en ACCESS Basic... 2 La base de données ACCESS «Data analysis2016»... 2 Logiciel «Presence table»... 3 Logiciel Complete disjunctive table»... 3 Logiciel Simple disjunctive table»... 4 Logiciel Simple disjunctive tablebis»... 5 Logiciel «PCA-CA-NSCA-MFA and matrix analysis»... 5 Logiciel «Character species»... 6 La base de données «Pattern analysis»... 7 La base de données «Cluster»... 12 Le logiciel GINKGO de VegAna... 13 Les programmes en langage «R»... 17 Package Rcmdr... 17 Package ADE4... 21 Package vegan... 22 Le package JUICE... 23 Ecologie numérique avec R... 24 Références... 24 rue des Sorbiers, 33 à B.5101 Erpent adresse électronique : guy.bouxin@skynet.be 1
Tout d abord, nos programmes personnels utilisés dans les divers paragraphes sont décrits. Ensuite, deux outils également utiles parmi d autres présentés : l ensemble de logiciels VegAna de l Université de Barcelone et les programmes en langage «R». Logiciels personnels en ACCESS Basic Trois bases de données ont été construites avec le logiciel Microsoft Access et sont fournies sur simple demande, envoyées en attaché à un courriel (compression en format «zip»). Elles sont tout spécialement adaptées aux données de végétation. Les bases Access comprennent plusieurs rubriques et les deux suivantes sont particulièrement utilisées : la rubrique «Tables», qui contient les tableaux de données utilisés et les principaux résultats d analyse statistique ; la rubrique «Forms» donne accès aux logiciels. Chaque logiciel fonctionne à partir d une «forme» ; il suffit d entrer les paramètres demandés. Ces bases s appellent : Data analysis2016, Pattern analysis et Cluster. La base de données ACCESS «Data analysis2016» Cette forme ne traite que les tableaux habituels ne comprenant qu une seule ligne par espèce ou variable environnementale. Les données en grille sont traitées dans la forme «Pattern analysis». Pour utiliser les logiciels d analyse multivariée, les tables doivent être construites de la manière suivante : Une colonne «Index» de type Numérique Entier, en format indexé de préférence, Une colonne «Variable» de type Text (80 caractères maximum) pour les noms d espèce ou de variable mésologique, Un nombre de colonnes égal au nombre de relevés, de type Text ou de type Entier, Entier long, Réel simple ou double. Chaque tableau a autant de lignes qu il y a de variables. Exemple : le fichier «Royer» Il faut préciser que le logiciel ACCESS ne tolère que 256 colonnes dans ses tableaux, ce qui peut être un hadicap. Toutefois, dans une analyse des correspondances simple, avec un très grand nombre de relevés et moins de 256 variables, il suffit de transposer le tableau. Avec de très grands tableaux, il est de toute manière utile de scinder en tableaux plus petits, sur base géographique ou environnementale, par exemple. 2
Les tableaux de données peuvent aussi être entrés avec des fichiers Excel (en mode texte) et ensuite transposés dans la base ACCESS. Les logiciels sont les suivants : - Presence table (tableau de présence), - Complete disjunctive table (tableau disjonctif complet), - Simple disjunctive table (tableau disjonctif simple), - Simple disjunctive tablebis (tableau disjonctifsimplebis), - PCA-CA-NSCA-MFA and matrix analysis (PCA-CA-NSCA-MFA et analyse de matrice), - Burt table (tableau de Burt), - Block making (Formation de blocs). Logiciel «Presence table» Ce logiciel transforme un tableau phytosociologique brut avec des données de type 0,., i, r, s, p, +, 1, 2, 3, 4 ou 5 en un tableau de présence-absence (Figure1). Il suffit d entrer le nom du fichier originel, de donner un nom au fichier transformé et de cliquer sur le bouton d exécution. Figure 1. Forme pour créer un tableau de présence-absence à partir d un fichier originel. Logiciel Complete disjunctive table» Ce logiciel transforme un tableau phytosociologique brut avec des données de type 0,., i, r, s, p, +, 1, 2, 3, 4 ou 5 en un tableau disjonctif complet (une ligne pour chaque catégorie d abondance). Il suffit 3
d entrer le nom du fichier originel, de donner un nom au fichier transformé et de cliquer sur le bouton d exécution (Figure 2). Figure 2. Forme pour créer un tableau disjonctif complet à partir d un fichier originel. Logiciel Simple disjunctive table» Ce logiciel transforme un tableau phytosociologique brut avec des données de type 0,., i, r, s, p, +, 1, 2, 3, 4 ou 5 en un tableau disjonctif simple (une ligne pour chaque catégorie d abondance, à l exception des 0 ou.). Il suffit d entrer le nom du fichier originel, de donner un nom au fichier transformé et de cliquer sur le bouton d exécution (figure 3). On pourrait facilement ajouter d autres types d abondance, voire des coefficients de sociabilité si nécessaire. Figure 3. Forme pour créer un tableau disjonctif simple à partir d un fichier originel. 4
Logiciel Simple disjunctive tablebis» Ce logiciel transforme un tableau phytosociologique brut avec des données de type 0,., i, r, s, p, +, 1, 2, 3, 4 ou 5 en un tableau disjonctif simple particulier : une ligne pour les présences, quel que soit le coefficient d abondance, une pour les coefficients 2, 3, 4 ou 5 soit «>1» et une pour les coefficients 4 ou 5, soit «>3». Il suffit d entrer le nom du fichier originel, de donner un nom au fichier transformé et de cliquer sur le bouton d exécution (Figure 4). Ce mode de transformation est tout à fait empirique mais des analyses avec ce type de données ont donné des résultats intéressants. Figure 4. Forme pour créer un tableau disjonctif simple, seconde version, à partir d un fichier originel. Logiciel «PCA-CA-NSCA-MFA and matrix analysis» La forme «PCA-CA-NSCA-MFA and matrix analysis» (Figure 6) calcule l analyse en composantes principales, l analyse des correspondances, l analyse non symétrique des correspondances, et des analyses factorielles multiples basées soit sur l analyse en composantes principales (MFA-PCA), soit sur l analyse des correspondances (MFA-CA), soit sur l analyse non symétrique des correspondances (MFA-NSCA). Dans les analyses factorielles multiples, il n y a pas de test par permutations ; ces calculs pouvant être faits séparément avec PCA, CA ou NSCA. Pour les trois premières analyses PCA, CA et NSCA), les aides à l interprétation sont présentées dans la table des résultats. Le nombre de permutations du test est fonction de la taille du tableau. Quand c est possible, il est conseillé de ne pas descendre en dessous de 1000 simulations. L idéal serait d en faire au moins 100.000. 5
Pour les analyses simples, il faut entrer le nom du tableau à analyser, le nombre d axes que l on veut sortir, le nombre de simulations (1 par défaut), le nom de fichier des résultats et de cliquer sur le bouton d exécution de l analyse choisie. Pour l analyse de la matrice, il suffit d entrer le nom de la matrice à analyser et le nom de l output. Pour les analyses factorielles multiples, il faut entrer en plus le nombre de lignes des sous-tableaux, dans la sous-forme bloc. Figure 6. Forme des diverses analyses multivariées. Logiciel «Character species» Cette forme calcule, dans un tableau comprenant des relevés classés en plusieurs groupes (par exemple des associations végétales) la fréquence relative de chaque variable dans chaque groupe et la compare avec la 6
fréquence relative de la même variable dans l ensemble des relevés. Les fréquences relatives sont testées grâce à un test par permutation, avec un risque = 0,05. Le nombre de 100.000 permutations est recommandé. Cela permet de tester si une variable est caractéristique ou différentielle dans un groupement ou association donnée. Pour ce faire, les relevés d un tableau doivent être rangés dans les diverses associations placées côte à côte, avec le logiciel «Requête (ou Querry)» d ACCESS par exemple. Il faut donc entrer le nom de tableau entré, le nom du tableau de sortie et les nombres respectifs des groupements ou associations, en précisant le nombre de permutations. Figure 7. Forme pour tester les espèces caractéristiques ou différentielles. L output donne reproduit d abord le fichier de données avec les fréquences absolues et relatives puis donne les groupements ou associations, avec leurs données, ainsi qu une colonne pour les fréquences absolues, une pour les fréquences relatives et une pour les probabilités associées aux fréquences relatives ; seules les espèces avec une probabilité 0,05 sont alors présentées. La base de données «Pattern analysis» Pour les tableaux comprenant une seule ligne par espèce, il faut entrer: Une colonne «Index» de type Number, en format indexé de préférence, Une colonne «Variable» de type Text pour les noms d espèce ou de variable mésologique, Une colonne «Dt» pour le type de données (1 pour les données de présence-absence, 2 pour les données d abondance discrètes, 3 pour les fréquences et 4 pour les variables continues) ; cette colonne est 7
indispensable dans le choix des indices de dispersion, différents pour chaque type de donnée. Pour les analyses multivariées, il suffit d entrer 1 partout, Un nombre de colonnes égal au nombre de relevés, de type Number, Une colonne «sum», avec les totaux des lignes Chaque tableau doit autant de lignes qu il y a de variables, plus une. Une ligne «Somme» est en effet ajoutée, pour les totaux des colonnes. Pour les tableaux comprenant plusieurs lignes par espèce (grilles, transects en plusieurs colonnes), il faut entrer : Une colonne «Index» de type Numérique Entier, indexée de préférence, Une colonne «nosp» de type numérique Entier indiquant le n de l espèce de type Numérique Entier, Une colonne «Variable» de type Text (longueur à définir) pour les noms d espèce ou de variable mésologique, Une colonne «Dt» pour le type de données de type numérique Entier (1 pour les données de présenceabsence, 2 pour les données d abondance discrètes, 3 pour les fréquences et 4 pour les variables continues) ; cette colonne est indispensable dans le choix des index de dispersion, différents pour chaque type de donnée, pour les analyses multivariées, il suffit d entrer 1 partout, Une colonne n l indiquant le numéro de la ligne de la grille de type Numérique Entier (par ordre drécroissant), Un nombre de colonnes égal au nombre de colonnes de la grille, de type Numérique Entier, - Une colonne «sum», type Numérique Entier ou Réel avec les totaux des lignes Chaque tableau doit autant de lignes qu il y a de variables x le nombre de lignes de la grille, plus le nombre de lignes de la grille. Un nombre de ligne égal à celui de la grille «Somme» est en effet ajouté, pour les totaux des colonnes. Exemple, le fichier «Breumont78» Des tables construites avec d autres logiciels (Excel ou Lotus, par exemple), peuvent être importées dans la base de données et adaptées très facilement. Pour utiliser le programme «leastsquaresmapping» (Figure 8), les tables doivent être construites de la manière suivante : une colonne «N» de type Number, indexé de préférence, une colonne «point» de type Number, avec le numéro de l individu (ou du point de référence) à partir duquel les mesures sont prises, une colonne «point1» de type Number, 8
une colonne «distance1» de type Number, une colonne «point2» de type Number, une colonne «distance2» de type Number, une colonne «point3» de type Number, et une colonne «distance3» de type Number, avec chaque fois les numéros de l individu (ou du point de référence) et les distances de mesure par rapport au numéro de la colonne «point». Exemple : le fichier «Bary». Dans la forme «leastsquaresmapping», il suffit d entrer le nom du fichier de distances, la tolérance, le nombre d itérations et le nom du fichier des coordonnées que le programme produit, puis de cliquer sur «Execute». Figure 8. Forme pour transformer des mesures de distances entre points en coordonnées cartésiennes. Le logiciel produit une nouvelle table qui est lue directement par le logiciel «Distances». Dans la forme «distances» (Figure 9), il faut entrer le nom du fichier des coordonnées produit par exemple par le logiciel «leastsquaresmapping» ou de toute autre manière, le nom du fichier produit par le logiciel et les paramètres demandés, puis de cliquer sur «Execute». 9
Figure 9. Forme pour l analyse de la dispersion horizontale de points à partir de coordonnées cartésiennes. Dans la forme «Pattern analysis» (Figure 10), il faut entrer le nom de la table (lignes ou grilles), le nombre de lignes de la grille (défaut = 1), le nombre de simulations pour la réalisation du test statistique lié aux indices, les tailles de bloc (mises en mémoire dans une table), les numéros des espèces retenues dans le calcul des indices (le programme ne calcule pas nécessairement les indices pour toutes les espèces), puis cliquer sur «Execute». 10
Figure 10. Forme pour l analyse de la dispersion horizontale de pantes dans des grilles de placettes. Pour le calcul des indices autres que celui de GALIANO, la ligne ou la grille de données peut être lue à partir de plusieurs points de départ (number of starting points) et chaque fois les indices sont calculés. Le logiciel calcule les indices non paramétriques ou l indice de GALIANO qui n est pas influencé de la même manière par le point de départ. Dans les tests par permutation, le nombre de 100 000 permutations est conseillé. Pour la construction des graphiques, les tables des résultats sont exportées vers le logiciel Excel (ou autre) et les tables construites ainsi avec la souplesse voulue. 11
La base de données «Cluster» Nous proposons également, dans la forme «cluster analysis» (Figure 11) un programme de classification peu utilisé, à savoir le programme CENVI (centres virtuels) et le programme de classement dit «des centres mobiles». Les autres programmes de classification se trouvent dans des logiciels connus comme VegAna. Nos programmes sont prévus pour calculer à partir des variables transformées par les analyses PCA, CA, NSCA, MFA, c est-à-dire les coordonnées des relevés ou des espèces sur les axes, dont le nombre retenu peut être fixé par la technique des permutations. Il faut donc construire un tableau, dont la première colonne contient les noms des relevés ou des espèces et les autres les coordonnées issues des analyses multivariées. Pour le programme des Centres Mobiles, un exemple avec une préclassification se trouve dans le fichier «Crupetpréclass». Des exemples de calculs se trouvent dans les tables se terminant par le suffixe «CENVI» ou «MobileCenters». Figure 11. Forme pour la classification ou le classement de relevés de végétations à partir de coordonnées d analyses multivariées. 12
Le logiciel GINKGO de VegAna Le logiciel Ginkgo, produit par l Université de Barcelone, permet d exécuter facilement plusieurs analyses multivariées, qui ont été développées dans un contexte d écologie numérique. Il est facile à utiliser pour des personnes non spécialisées en statistique. Ce logiciel fait partie du «package» VegAna, un environnement de travail qui fournit plusieurs outils pour éditer et analyser la flore et la végétation. Le programme est écrit en langage Java. Ginkgo est accessible à partir du lien : biodiver.bio.ub.es/ginkgo/ginkgo.htm La fenêtre suivante (Figure 12) montre les possibilités du programme. Figure 12. Fenêtre d entrée du logiciel Ginkgo. Après avoir défini un nouveau projet ou ouvert un projet existant, il suffit de charger un fichier.txt, ici le fichier Tailfer5 (Figure 13). Soit, on part de cette matrice rectangulaire pour calculer une PCA ou CA, soit on transforme cette matrice en matrice symétrique (similitude ou distance) et on calcule PCoA, NMDS. Avec un fichier floristique et un fichier environnemental, on accède alors à CCA et RDA. Avec une matrice symétrique, on a aussi accès aux classifications. Ce programme offre diverses autres possibilités, comme de transposer une matrice rectangulaire notamment. 13
Figure 13. Fichier Tailfer chargé dans la fenêtre conduisant aux diverses analyses. Un exemple de mise en oeuvre d une analyse des correspondances est illustré, toujours avec le fichier Tailfer5 (figure 14), avec divers résultats (voir aussi la figure 15). Figure 14. Fenêtre avec les paramètres à entrer pour une analyse des correspondances. 14
Résultats. Data input: Tailfer5.txt OPTIONS:. Number of objects: 26. Number of variables: 29. Eigen Values: All COMPUTATION: 0) Checking Null Rows or Columns 1) Computing Q matrix of Chi-square contributions. 2) Singular Value Decomposition of Q. 3) Computing Final Coordinates in Scaling 1 and Scaling 2. RESULTS: Total Inertia in Q: 3,2012 EigenValues: SV EV %Total Var. %Cum.Tot.Var. EV-1 0,8531 0,7277 22,7324 22,7324 EV-2 0,6697 0,4485 14,0089 36,7413 EV-3 0,6077 0,3692 11,5346 48,2759 EV-4 0,5704 0,3254 10,1646 58,4405 EV-5 0,5261 0,2768 8,6471 67,0877 EV-6 0,4971 0,2471 7,7186 74,8063 EV-7 0,4353 0,1895 5,9205 80,7268 EV-8 0,4037 0,1630 5,0920 85,8188 EV-9 0,3577 0,1279 3,9967 89,8156 EV-10 0,3293 0,1084 3,3877 93,2032 EV-11 0,3071 0,0943 2,9452 96,1484 EV-12 0,2655 0,0705 2,2015 98,3499 EV-13 0,1770 0,0313 0,9787 99,3285 EV-14 0,1466 0,0215 0,6715 100,0000 Output Matrices Description: Row Scores Scaling 1(F): Row Scores under Scaling 1. Column Scores Scaling 1(V): Column Scores under Scaling 1. Scaling Meanings: Scaling 1 - Chi-square Distances between rows are aproximated. Rows are at centroids of columns. 15
Scaling 2 - Chi-square Distances between columns are aproximated. Columns are at centroids of rows. Fenêtre 15. Coordonnées produites par l analyse des correspondances, pour les espèces. Plusieurs analyses (PCoA, NMDS, classifications) demandent d abord le calcul d une matrice de distance ou de similitude. Un exemple est donné dans la figure 16. Figure 16. Matrice de distances euclidiennes calculée sur les relevés. Diverses représentations grahiques, comme les dendrogrammes de classification, sont proposés. Les résultats peuvent bien entendu être sauvés et éventuellement réutilisés dans d autres programmes. 16
En conclusion, ce logiciel Ginkgo est facile à utiliser, en complément d autres logiciels mais les analyses restent relativement élémentaires. Il n y a pas d analyse factorielle multiple, ni de test sur les valeurs propres ou contributions relatives. Les programmes en langage «R» Le logiciel R (R Core Team, 2013) est gratuit et est téléchargeable à partir de l adresse suivante : http://cran.r-projec.org/ Figure 17. Fenêtre du logiciel R. Package Rcmdr Pour continuer, il suffit d entrer la ligne «library(rcmdr). Les méthodes les plus classiques d analyse des données sont présentées dans le package FactoMineR. Pour chager l interface FactoMineR, il faut installer définitivement le menu déroulant de FactoMineR dans Rcmdr en écrivant la ligne de code suivante dans une fenêtre R : source(«http://factominer.free.fr/install-facto.r») Pour les utilisations ultérieures du menu déroulant de FactoMineR, il suffit de lancer Rcmdr par la commance library(rcmdr) et le menu déroulant est alors présent par défaut. 17
Figure 18. Menu du package Rcmdr. Il faut d abord définir l emplacement des données et des résultats en allant dans File (change working directory). Il faut alors entrer dans FactoMineR (Figure 19) et définir les paramètres du fichier (ici un fichier.txt. 18
Figure 19. Fenêtre pour charger un fichier avec ses paramètres. Le fichier est visible comme suit (Figure 20). Dans cette analyse, les intitulés des lignes et colonnes ne sont pas indiqués. On peut les mettre dans des fichiers séparés. Figure 20. Fichier.txt chargé. 19
On choisit alors l analyse toujours dans FactoMineR et on définit les paramètres des graphiques et des output (Figure 21). Les analyses proposées sont les suivantes : Principal component analysis, Correspondence analysis, Multiple correspondence analysis, Multiple factor analysis, Hierarchical multiple factor analysis, Dual multiple factor analysis, Factor analysis of mixed data, General Procrustes analysis, Scatter plot with additional variables, Description of categories, Hierarchical clustering on principal components. 20
Figure 21. Fenêtre de l analyse des correspondances. Les résultats sont sauvés dans un fichier.csv et lisibles avec le logiciel WordPat. Ils sont transférables dans d autres logiciels (Excel par exemple). Les graphiques peuvent aussi être sauvés ou copiés directement en cliquant sur le bouton droit de la souris, puis sur copy a bitmap, par ex. et introduits dans un fichier Word. Cet ensemble est donc très complet et peut-être utilisé pour de très grands tableaux. Package ADE4 21
Ce package développé par l Université de Lyon1 est également très utile et riche en analyses possibles. On y accède par l adresse URL suivante : http://pbil.univ-lyon1.fr/ade4tkgui/ La page d accueil (Figure 22) donne une idée du contenu Figure 22. Page d accueil du package ADE-4. Ce package est très complet et est aussi recommandable pour les grands tableaux. Package vegan Toutes les informations utiles se trouvent à l adresse suivante : http://cran.r-project.org/web/packages/vegan/vegan.pdf 22
Figure 23. Page d accueil de package vegan Ce package est souvent cité dans la littérature et est utilisé par ceux qui privilégient l ordination plutôt que l analyse des données «à la française». Il a été présenté par DIXON(2003). Le package JUICE Le package JUICE, sous sa forme WINDOWS se trouve à l adresse suivante : http://www.sci.muni.cz/botany/juice/ Figure 24. Figure 23. Page d accueil de package JUICE 23
Il suffit alors d installer le programme. Ecologie numérique avec R Signalons également l ouvrage de BOCCARD, GILLET & LEGENDRE (2011) Références BORCARD, D., GILLET, F. & LEGENDRE P. (2011).Numerical Ecology with R. Springer. 306 pp. BOUXIN, G. (2005). Ginkgo, a multivariate analysis package. Journal of vegetation Science 16 : 355-359. DIXON, P. (2003). VEGAN, a package of R functions for community ecology. Journal of vegetation Science 14 : 927-930. HUSSON, R., LÊ, S. & PAGÈS, J. (2009). Analyse des données avec R. Presses Universitaires de France. 224 pp. R Core Team (2013). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. URL http://www.r-project.org/. 24