Traits biologiques : variables ou K-tableaux?

Transcription

1 Consultations statistiques avec le logiciel Traits biologiques : variables ou K-tableaux? Résumé La fiche donne des indications sur la nature des tableaux de traits biologiques. A partir de plusieurs exemples, on montre qu il est possible de choisir entre deux types de stratégies, la première visant à transformer un ensemble de traits en paquets de variables quantitatives, la seconde gardant au tableau de traits le statut de K-tableaux et cherchant à le décomposer en éléments plus simples. La présence sous-jacente de la taxonomie pose des questions ouvertes.. Plan 1. Introduction Représenter un tableau de traits L'ACP floue L'analyse des correspondances floues Traits biologiques et méthodes K-tableaux Conclusion Références Traits biologiques et codage flou - page 1 -

2 1. Introduction La question est posée dans la fiche Traits biologiques des insectes : qui permet d'utiliser les données publiées par Statzner et al. (1997). Sont réunies ici quelques éléments de réflexion sur ce type très particulier d'information numérique qu'on appelle codage flou (Chevenet et al. 1994). Il s'agit de codage de l'information biologique conçue et réalisée par des biologistes (Bournaud et al. 1992) et non de codage numérique, procédure de transformation de variables quantitatives en variables qualitatives pour leur usage en analyse des correspondances (van Rijckevorsel 1987; van Rijckevorsel 1988; Cazes 1990). Un trait biologique a m modalités. Pour chaque taxon constituant une ligne du tableau sont enregistrées a 1, a 2,..., a m des notes d association entre le taxon et chacune des modalités du trait. La donnée est en fait une distribution de fréquence ou une pondération des modalités associées au taxon. On calcule a. = a 1, j et pj = aj a.. j= m Lorsqu il y a plusieurs taxons et plusieurs traits, on notera : T, le nombre total de taxa ; t, le numéro d ordre d un taxon 1 t T ; V, le nombre total de traits biologiques ; v, le numéro d ordre d un trait biologique 1 v V ; M v, le nombre total de modalités du trait v ; m v, le numéro d ordre d une modalité du trait 1 mv Mv ; atm la note d association du taxon t à la modalité m v v t v a la somme des note d association du taxon t aux modalités du trait v ; ftm le poids (fréquence) de la modalité m v v pour le taxon t ; f tmv = a tmv a t v On a évidemment : m v =M v f tmv m v =1 = 1 M le nombre total des modalités de tous les traits ( M = M1+ M2 + + Mv ) ; m le numéro d ordre d une modalité dans la série de toutes les modalités de tous les traits 1 m M ; Les tableaux taxa-traits ont donc T lignes (taxa) et M colonnes (modalités) et se décomposent en V sous-tableaux (traits) contenant respectivement m 1, m 2,, mv colonnes (modalités des traits). On est directement, avec la notion de traits biologiques dans la partie multi-tableaux de la statistique multivariée. C est pourquoi il a été fait peu d usage de ce type d informations et que de nombreuses décisions sont à prendre en ce qui concerne leur manipulation. Qu est-ce que la variabilité d un trait, la corrélation entre deux traits, la redondance d une famille de traits sont des questions à résoudre. Traits biologiques et codage flou - page 2 -

3 2. Représenter un tableau de traits Une contrainte est omniprésente : elle concerne mes données manquantes. data(coleo) coleo.fuzzy <- prep.fuzzy.var(coleo$tab, coleo$col.blocks) 2 missing data found in block 1 1 missing data found in block 3 2 missing data found in block 4 Ces données (Bournaud et al. 1992) regroupent 110 taxa et 32 modalités de 10 traits coleo$col.blocks Vegetation Sediment Velocity Pollution Saprobity Diet Feeding Temperature Temp_Amplitude coleo$tab[,1:4] 1a 1b 1c 1d Les données manquantes sont notées par une suite de zéros. coleo.fuzzy[,1:4] 1a 1b 1c 1d Dans le tableau recodé, les données sont en fréquence et le profil moyen de tous les points renseignés est affecté au bloc manquant. apply(coleo.fuzzy[,1:4],2,mean) 1a 1b 1c 1d De cette manière un recentrage remettra la point à l'origine. On suppose que chaque taxon a luimême un poids qu on notera π t (1 t T ). Ce poids sera 1 T si on décide d une pondération uniforme des taxa (ils ont tous la même importance a priori) ou ces poids peuvent provenir d un tableau faunistique (ils auront un poids proportionnel à leur abondance). Traits biologiques et codage flou - page 3 -

4 Pour le trait t, la moyenne du trait est défini par la pondération moyenne : T f *mv = π t f tmv t=1 Il est aisé de visualiser entièrement les tableaux de traits. coleo$col.blocks Vegetation Sediment Velocity Pollution Saprobity Diet Feeding Temperature Temp_Amplitude w = coleo$col.blocks ww1=1:sum(w) ww1 [1] [26] ww0=seq(from=0,by=4,len=length(w)) ww0=rep(ww0,w) ww0 [1] [26] table.value(coleo.fuzzy,x=ww1,csi=0.25,clabel.row=0) Représentation d un tableau de traits biologiques. Chaque ligne est une espèce et chaque groupe de colonnes est une variable. Traits biologiques et codage flou - page 4 -

5 data(bsetal97) w = bsetal97$biol.blo ww1=1:sum(w) ww0=seq(from=0,by=4,len=length(w)) ww0=rep(ww0,w)+ww1 biol.fuzzy = prep.fuzzy.var(bsetal97$biol,bsetal97$biol.blo) table.value(biol.fuzzy,x=ww0,csi=0.25,clabel.row=0) w = bsetal97$ecol.blo ww1=1:sum(w) ww0=seq(from=0,by=4,len=length(w)) ww0=rep(ww0,w)+ww1 ecol.fuzzy = prep.fuzzy.var(bsetal97$ecol,bsetal97$ecol.blo) table.value(ecol.fuzzy,x=ww0,csi=0.25,clabel.row=0) Traits biologiques et codage flou - page 5 -

6 Les variables définissent des tableaux qui sont plus ou moins compliqués. w = bsetal97$biol.blo[1:3] w1 = biol.fuzzy[,1:19] ww1 = 1:sum(w) ww0 = seq(from=0,by=4,len=length(w)) ww0 = rep(ww0,w)+ww1 Préparer la taxonomie comme une phylogénie : phy=taxo2phylog(as.taxo(bsetal97$taxo)) row.names(w1) = names(phy$leaves) table.phylog(w1,phy,x=ww0,clabel.r=0,clabel.col=0.75,csi=0.5,clabel.n=0.75) Traits biologiques et codage flou - page 6 -

7 Tableau de trois traits biologiques en face de la taxonomie. On repère immédiatement le niveau ordre comme indicateur pour les odonates, les diptères, les coléoptères, Ces représentations ont au moins la fonction de bien souligner la question qui se pose. Formellement, un trait est un tableau à plusieurs colonnes. Expérimentalement, c'est une variable qui donne une indication sur la stratégie d'une espèce. Statistiquement, un tableau de traits a de nombreuses colonnes réparties en blocs. Peut-on en faire une collection d'indicatrices, en vrac : il faudra nécessairement réduire leur nombre. La réduction doit-elle se faire par tableau, globalement? Tout dépendra du type de redondance rencontrée dans ces enregistrements. Il faut savoir mesurer la corrélation entre deux traits et caractériser la part commune et la part spécifique dans la variabilité des traits. Traits biologiques et codage flou - page 7 -

8 3. L'ACP floue Dans cette stratégie, on considère que chaque trait définit une ACP centrée par modalité. Cette analyse utilise le triplet basé sur une pondération arbitraire des taxa : et le tableau centré : ( ) D = Diag π1, π 2,, πt X = [ f tmv f *mv ] 1 t T,1 v V,1 mv M v On peut hésiter sur la pondération des modalités. Pour des raisons mathématiques, on prendra la pondération uniforme. L option nouvelle dudi.fpca permet cette opération : biol.fpca=dudi.fpca(biol.fuzzy) Select the number of axes: 5 ecol.fpca=dudi.fpca(ecol.fuzzy) Select the number of axes: 4 La première analyse ne mérite qu'un axe. On en prend ici 5 pour une illustration pédagogique. La seconde ne semble guère passionnante, on verra pourquoi. Ces ACP, comme toutes les ACP centrées, donnent des combinaisons de variables de variance maximale. Les valeurs propres sont des inerties projetées mais la présence de blocs de variables modifient l'interprétation. On utilise le triplet très simple : dim(biol.fpca$tab) [1] X = [ f tmv f *mv ], Diag ,,,,,,, 1 m 1 m 1 m V m V T I T biol.fpca$cw Fem.Size1 Fem.Size2 Fem.Size3 Fem.Size4 Fem.Size Fem.Size6 Fem.Size m 1 m V Traits biologiques et codage flou - page 8 -

9 Clutch.struc1 Clutch.struc2 Clutch.struc3 Clutch.number1 Clutch.number Clutch.number unique(biol.fpca$lw) # 1/131 [1] biol.fpca Duality diagramm class: pca dudi $call: dudi.pca(df = df, row.w = row.w, col.w = col.w, center = TRUE, scale = FALSE, scannf = scannf, nf = nf) $nf: 5 axis-components saved $rank: 31 eigen values: vector length mode content 1 $cw 41 numeric column weights 2 $lw 131 numeric row weights 3 $eig 31 numeric eigen values data.frame nrow ncol content 1 $tab modified array 2 $li row coordinates 3 $l row normed scores 4 $co 41 5 column coordinates 5 $c column normed scores other elements: cent norm blo indica FST inertia L'objet contient, outre le standard d'une ACP, des informations spécifiques. La première de ces informations concerne la répartition de l inertie totale (la variabilité biologique totale du groupe de taxa étudiés) entre les différentes descripteurs. La variance des colonnes est sommée par blocs (traits) et rapportée au total (édition en 1 pour 1000) dans total : biol.fpca$inertia Ax1 Ax2 Ax3 Ax4 Ax5 total Fem.Size Egg.length Egg.number Generations Oviposition Incubation Egg.shape Egg.attach Clutch.struc Clutch.number En terme de répartition de l'inertie entre les blocs de colonnes, la variation est de 1 à 3. les 4 variables (au sens biologique) les plus variables (au sens statistique) représente 60 % de la variabilité de la variabilité totale. En plaçant des poids de colonnes qui font une somme de 1 par blocs, on atténue le rôle du nombre de modalités. round(1000*tapply(biol.fpca$co[,1]^2,biol.fpca$indica,mean)/biol.fpca$eig[1],0) On a la même chose en terme de variance projetée sur chaque axe. La carte des colonnes regroupe toutes les modalités de toutes les variables : s.arrow(biol.fpca$co) Traits biologiques et codage flou - page 9 -

10 Ceci n'a pas grand intérêt. Notons que, en calculant la covariance entre modalités, on fait simultanément le calcul des covariances entre modalités d une même variable et entre modalités de variables différentes. La matrice de covariances C s écrit ainsi : C 11 C 12 C 1V C 21 C 22 C 2V C = C V1 C V2 C VV C vv est la matrice mv mv des covariances entre modalités de la même variable, alors que C vw est la matrice mv mw des covariances entre les m v modalités de la variable v et les m w modalités de la variable w. Il est clair que les covariances entre modalités d une même variable sont essentiellement artefactuelles : elles expriment simplement soit que deux modalités mériteraient de n en faire qu une (covariance positive entre modalités utilisées ensemble) soit que deux modalités ne sont pas utilisées simultanément (covariance négative inhérente à ce type de variables). Par contre les covariances entre deux modalités de deux variables contiennent de l information biologique. C est l association entre diverses modalités de différentes variables qui définit la stratégie globale d une ou plusieurs espèces. Ce mélange intime de deux types de covariation, l une artéfactuelle et l autre signifiante laisse augurer de facteurs d ACP consacrés soit à l une, soit à l autre, soit encore au mélange des deux. Il n est donc pas possible de voir dans un tableau de variables floues un simple tableau de modalités juxtaposées. Sur la carte des colonnes, la structure de ces données impose que les modalités ont des coordonnées centrées par bloc. par(mfrow=c(4,3)) invisible(lapply(split(biol.fpca$co,biol.fpca$indica), s.arrow,xlim=c(-0.8,0.8))) ou encore (ci-dessus, à droite) : s.class(biol.fpca$co,biol.fpca$indica,cell=0) ou encore : par(mfrow=c(3,2)) Traits biologiques et codage flou - page

11 for (k in 5:10) s.arrow(biol.fpca$co[ff==k,],xlim=c(-0.5,0.5),clab=2) 38% de la variance projetée sur l'axe 1 appartient à la dernière variable et l'ambiguïté est grande. De plus les coordonnées sur deux axes des modalités d'une même variable peuvent être covariantes, comme on le voit bien sur cette figure. Considérer les modalité comme variables n'est donc pas sans effet. Pour mesurer la redondance réelle ou l'indépendance réelle des traits biologiques, il est indispensable de considérer ces données dans le point de vue K-tableaux. Un tableau de variables floues doit être considéré comme un K-tableaux qu on notera : X = [ X 1,X 2,,X V ] Mais on utilisera d'abord dudi.fpca qui prépare ce passage et donne en plus : biol.fpca$fst inertia max FST Fem.Size Egg.length Egg.number Generations Oviposition Incubation Egg.shape Egg.attach Clutch.struc Clutch.number On utilise ici le langage des tableaux de fréquences alléliques qui ont le même structure. L'inertie d'un trait est la somme des variances des modalités. Le maximum est l'inertie de la configuration dans laquelle chaque espèce a un profil disjonctif complet (il n'y a pas de variabilité intra spécifique). Le FST est le rapport des deux. La variabilité de 7 des 11 traits est alors très comparable. Les coordonnées des lignes ont de bonnes propriétés de résumés réduisant l'information bien que faiblement interprétable. On peut s'en servir de marqueur : par(mfrow=c(1,2)) dotchart.phylog(phy,biol.fpca$li[,1]) dotchart.phylog(phy,ecol.fpca$li[,1]) Traits biologiques et codage flou - page

12 Une bonne part de la variabilité organisée est d'origine taxonomique. 4. L'analyse des correspondances floues Elle a été proposée pour traiter les tableaux de traits (Chevenet et al. 1994). Elle s'exécute par dudi.fca. coleo.fpca=dudi.fpca(coleo.fuzzy) Select the number of axes: 2 coleo.fcoa=dudi.fca(coleo.fuzzy) Select the number of axes: 3 cor(coleo.fpca$li,coleo.fcoa$li) Axis1 Axis2 Axis3 Axis Axis Traits biologiques et codage flou - page

13 Les coordonnées des lignes entre les deux analyses sont souvent très proches. C'est moins vrai pour les modalités qui sont soumises à des contraintes de centrage avec des pondérations très différentes. par(mfrow = c(3,3)) indica <- factor(rep(names(coleo$col), coleo$col)) for (j in levels(indica)) s.distri (coleo.fcoa$l1, coleo$tab[,which(indica==j)], clab = 1.5, sub = as.character(j), cell = 0, csta = 0.5, csub = 3, label = coleo$moda.names[which(indica == j)]) La logique de cette analyse est plus parlante dans le sens espèces -> modalités. On place sur chaque axe les espèces avec des scores centrés et réduits pour la pondération uniforme : apply(coleo.fcoa$l1,2,mean) RS1 RS2 RS e e e-16 apply(coleo.fcoa$l1,2,function(x) mean(x*x)) RS1 RS2 RS On observe le profil d'utilisation de chaque modalité entre les espèces, ce qui permet de positionner les modalité à la moyenne pondérée des espèces qui les utilisent. La variance de ces positions Traits biologiques et codage flou - page

14 moyennes est un rapport de corrélation et c'est la moyenne de ces rapports qui est optimisé (valeur propre). Ceci est explicite dans le tableau des rapports de corrélation voisin de celui d'une ACM : coleo.fcoa$cr RS1 RS2 RS3 Vegetation Sediment Velocity Pollution Saprobity Diet Feeding Temperature Temp_Amplitude Le facteur 1 est consacré à la position dans le gradient amont-aval, le second à l'alimentation, les deux faits biologiques n'étant pas complètement indépendant. La forme très particulière du tableau fait que l'afc floue est une AFC (avec un complément pour l'interprétation) mais aussi une Aanalyse des correspondances internes (Cazes et al. 1988) : coa1=dudi.coa(coleo.fuzzy) Select the number of axes: 3 ww1=witwit.coa(coa1,110,coleo.fcoa$blo) Select the number of axes: 3 round(coleo.fcoa$eig,4) [1] [11] [21] round(coa1$eig,4) [1] [11] [21] round(ww1$eig,4) [1] [11] [21] Les trois analyses ont exactement les mêmes valeurs propres, les mêmes coordonnées des lignes et les mêmes coordonnées des colonnes. Ces trois analyses sont strictement identiques. Ceci vient simplement du fait que le tableau flou contient des distributions de fréquences par bloc et que le recentrage par bloc explicite dans l analyse des l analyse des correspondances internes est implicite dans l analyse des correspondances floues. Ce point est sans grande importance. Il permet simplement de refaire l opération de décomposition des valeurs propres par sous-tableaux. On peut donc interpréter l'analyse comme une AFC intra-bloc de colonnes : summary(ww1) Eigen value decomposition among column blocks Comp1 Comp2 Comp3 weights Vegetation Sediment Velocity Pollution Saprobity Diet Feeding Temperature e Temp_Amplitude mean Ce résultat est plus nuancé que celui de l'acp qui donne : Traits biologiques et codage flou - page

15 coleo.fpca$inertia Ax1 Ax2 total Vegetation Sediment Velocity Pollution Saprobity Diet Feeding Temperature Temp_Amplitude Il n'y a pas de contradiction mais des modes de fonctionnement très différents. Rappelons que les deux analyse font la même typologie des espèces. Pour s'en convaincre : wa=coleo.fcoa$l1[,1:2] wb=cbind.data.frame(coleo.fpca$l1[,1],-coleo.fpca$l1[,2]) names(wb)=names(wa) s.match(wa,wb) Carte d'acp et carte d'afc superposées! L'AFC utilise l'averaging espèces -> modalités alors que l'acp fait des combinaisons linéaires qui ne sont pas des moyennes et enregistre de ce fait les différences de variance qui perturbe l'expression numérique des résultats. Il faudra la couche multi-tableaux pour éliminer cette perturbation. Les principales propriétés de l'afc floue sont (i) la symétrie lignes-colonnes, (ii) la métrique du Khi2 et (iii) la faible réduction de dimension. (i) La symétrie lignes-colonnes est sensible sur la figure ci-dessus où l analyse apparaît comme une AFC simultanée de chacun des tableaux-variables utilisant les mêmes scores-lignes. Traits biologiques et codage flou - page

16 Une espèce est vue comme une distribution de fréquence dans son usage d une variable biologique et chaque modalité de chaque variable est vue comme une distribution de fréquence de son utilisation par les espèces. Le double averaging implicite conduit à la représentation simultanée des espèces et des modalités. Pour une description détaillée de la typologie des stratégies biologiques, cette analyse est indiscutablement utile. (ii) Elle utilise cependant implicitement la métrique du Khi2 qui est contestable. Les carrés des différences entre deux profils sont pondérés par l inverse de l utilisation moyenne d une modalité. La distance entre les taxons t 1 et t 2 s écrit : 2 d t1,t 2 M v V = v=1m v =1 ( ) 2 f t1 m v f t2 m v f *mv Une différence d usage sur une modalité rare est ainsi fortement amplifiée, ce qui vue le type de mesure est loin de s imposer. On préférerait simplement : 2 d t1,t 2 V M v ( ) 2 = f t1 m v f t2 m v v=1m v =1 Mais l analyse simple (ACP) associée à cette métrique est plutôt défavorable. (iii) Le nombre de valeurs propres à prendre en compte est enfin élevé. Il est difficile de dire si cela vient vraiment des données et que les combinaisons stratégiques sont effectivement variées et complexes ou si cela vient du fait que les AFC multiples sont de mauvaises analyses d inertie dans l espace des modalités. L AFC multiple est d abord une analyse canonique (on y reviendra en détail) mais cette propriété est perdue dans la variante sur variables floues. Ceci pose la question des méthodes K-tableaux dans l usage des variables floues. L analyse qui suit vise à savoir si cette introduction qui est relativement difficile au plan théorique en vaut la peine. 5. Traits biologiques et méthodes K-tableaux Pour utiliser ces méthodes, on a besoin d'objets de la classe ktab. Les manipulations préliminaires comme le centrage et la normalisation, le double centrage,... sont directement assurées par l'utilisateur et non incorporé aux fonctions de cette classe (il faudrait une quantité vertigineuse de cas particuliers). Ici nous dirons simplement : chaque trait est un tableau d'acp, il suffit de partir du tableau des fréquences centrées. On pourrait avoir les versions AFC, mais cela obscurcit le débat. Pour faire un K-tableaux : biol.ktab <- ktab.data.frame (biol.fpca$tab,biol.fpca$blo,w.col=biol.fpca$cw) ecol.ktab <- ktab.data.frame (ecol.fpca$tab,ecol.fpca$blo,w.col=ecol.fpca$cw) coleo.ktab <- ktab.data.frame (coleo.fpca$tab,coleo.fpca$blo,w.col=coleo.fpca$cw) biol.ktab class: ktab tab number: 10 Il y a 10 tableaux dans ce K tableaux. Leur nom et leurs dimensions sont : data.frame nrow ncol 1 Fem.Size Traits biologiques et codage flou - page

17 2 Egg.length Egg.number Generations Oviposition Incubation Egg.shape Egg.attach Clutch.struc Clutch.number Les tableaux sont appariés par les lignes et on a un seul vecteur de poids des lignes (lw) et un seul vecteur des poids de colonnes (cw) qui est, de fait, la collection des poids des colonnes de plusieurs analyses séparées. On n'a pas précisé de poids des tableaux qui pourrait jouer un rôle dans d'autres méthodes : vector length mode content 11 $lw 131 numeric row weigths 12 $cw 41 numeric column weights 13 $blo 10 numeric column numbers 14 $tabw 0 NULL array weights On a préparé des tableaux de facteurs pour ranger des coordonnées de lignes par tableaux (131*10 lignes prévues), des coordonnées des colonnes par tableaux (41 colonnes prévues) et des valeurs multiples par tableaux (typiquement les 4 premiers axes principaux, 10*4 lignes prévues) : data.frame nrow ncol content 15 $TL Factors Table number Line number 16 $TC 41 2 Factors Table number Col number 17 $T Factors Table number 1234 L'ordre d'appel de la création du K-tableaux est conservé : 18 $call: ktab.data.frame(df = biol.fpca$tab, blocks = biol.fpca$blo, w.col = biol.fpca$cw) Les noms des tableaux sont les tab.names du K-tableaux et les noms des variables des tableaux sont les col.names du K-tableaux : names : Fem.Size : size.1 size.2 size.3 size.4 size.5 size.6 size.7 Egg.length : egglen.1 egglen.2 egglen.3 egglen.4 egglen.5 egglen.6... Clutch.number : clunum.1 clunum.2 clunum.3 Les poids des colonnes par tableau ont été importés de l'analyse simple (cw) : Col weigths : Fem.Size : Egg.length : Clutch.number : Les poids des lignes communs aux différents tableaux ont été importés de l'analyse simple (lw) : Row weigths : On a donc tous les éléments pour faire 10 analyses séparées : plot(sepan(biol.ktab)) plot(sepan(ecol.ktab)) plot(sepan(coleo.ktab)) Traits biologiques et codage flou - page

18 A B C Graphes des valeurs propres des analyses séparées de 3 K-tableaux. On voit immédiatement que les traits biologiques ont des identités très variables. Certains sont des mélanges sans structures de 5 modalités, d'autres des variables binaires, d'autres définissent des typologies franches à 2 ou 3 dimensions. L'analyse simple du troisième fonctionne bien parce que, grossièrement, chaque tableau apporte une seule dimension. Par contre, dans les deux premiers le mélange de types très différents est patent. Cette opération est essentielle. Elle correspond à la description univariée qui doit précéder toute analyse multivariée, les variables sont devenues des tableaux et le multivarié est devenu du multi-tableaux. Comme il se doit, les articles publiés sur le sujet ont fait l'impasse sur ces éléments de base, tout investissement méthodologique étant généralement considéré comme du temps perdu. On notera que biol.fuzzy est un data.frame : names(biol.fuzzy) [1] "size.1" "size.2" "size.3" "size.4" "size.5" [6] "size.6" "size.7" "egglen.1" "egglen.2" "egglen.3" [11] "egglen.4" "egglen.5" "egglen.6" "eggnum.1" "eggnum.2" [16] "eggnum.3" "eggnum.4" "eggnum.5" "eggnum.6" "genery.1" [21] "genery.2" "genery.3" "oviper.1" "oviper.2" "oviper.3" [26] "incub.1" "incub.2" "incub.3" "esha.spher" "esha.oval" Traits biologiques et codage flou - page

19 [31] "esha.cyli" "eggatta.1" "eggatta.2" "eggatta.3" "eggatta.4" [36] "egg.sing" "egg.group" "egg.mass" "clunum.1" "clunum.2" [41] "clunum.3" qui a des attributs supplémentaires : attributes(biol.fuzzy) $names [1] "size.1" "size.2" "size.3" "size.4" "size.5"... $row.names [1] "E1" "E2" "E3" "E4" "E5" "E6" "E7" "E8" "E9" "E10"... $class [1] "data.frame" $col.blocks Fem.Size Egg.length Egg.number Generations Oviposition $row.w [1] $col.freq [1] $col.num [1] [26] Levels: biol.fcpa est un dudi qui a des composantes supplémentaires : names(biol.fpca) [1] "tab" "cw" "lw" "eig" "rank" "nf" "c1" [8] "l1" "co" "li" "call" "cent" "norm" "blo" [15] "indica" "FST" "inertia" Enfin biol.ktab est un ktab, donc une liste de data.frame avec des composantes supplémentaires : names(biol.ktab) [1] "Fem.Size" "Egg.length" "Egg.number" "Generations" [5] "Oviposition" "Incubation" "Egg.shape" "Egg.attach" [9] "Clutch.struc" "Clutch.number" "lw" "cw" [13] "blo" "TL" "TC" "T4" [17] "call" On peut ainsi retrouver toute l'information utile. Faisons, par exemple, à titre pédagogique l'analyse de co-inertie des deux premiers tableaux de biol.ktab : dd1 <- as.dudi(df = biol.ktab[[1]], col.w = biol.ktab$cw[1:7], row.w = biol.ktab$lw, scannf=false, nf=2, call = match.call(), type = "") dd2 <- as.dudi(df = biol.ktab[[2]], col.w = biol.ktab$cw[8:13], row.w = biol.ktab$lw, scannf=false, nf=2, call = match.call(), type = "") coi1 <- coinertia(dd1,dd2,scannf=false) plot(randtest(coi1)) Traits biologiques et codage flou - page

20 On voit alors clairement que chacun des traits n'autorisent pas de réduction de dimension : par(mfrow=c(1,2)) barplot(dd1$eig) barplot(dd2$eig) mais ont une co-inertie très significative statistiquement et sa signification biologique est très simple : s.arrow(coi1$l1,xlim=c(-2,3)) s.arrow(coi1$c1,xlim=c(-2,3)) coi1$rv [1] L'association entre les deux variables est mesurée par le coefficient RV (Escoufier 1973, 1977, 1980, 1985, 1987), rapport de la co-structure (mesurée par la covariance vectorielle ou co-inertie totale) à la structure (mesurée par le produit des variances vectorielles expression de la structure totale) : RV ( XY, ) CVV ( XY, ) = VV ( X) VV ( Y) sum(coi1$eig)/sqrt(sum(dd1$eig^2))/sqrt(sum(dd2$eig^2)) [1] La méthode STATIS calcule les RV de chacun des couples de tableaux, donne une représentation euclidienne des tableaux équivalente d'un cercle des corrélations d'acp normée, en un mot fait de l'acp de tableaux, ce qui est exactement le problème. biol.statis <- statis(biol.ktab, scannf=f) ecol.statis <- statis(ecol.ktab, scannf=f) coleo.statis <- statis(coleo.ktab, scannf=f) Pour récupérer la matrice des RV : Traits biologiques et codage flou - page

Montrer encore