Traits biologiques : variables ou K-tableaux?

Dimension: px
Commencer à balayer dès la page:

Download "Traits biologiques : variables ou K-tableaux?"

Transcription

1 Consultations statistiques avec le logiciel Traits biologiques : variables ou K-tableaux? Résumé La fiche donne des indications sur la nature des tableaux de traits biologiques. A partir de plusieurs exemples, on montre qu il est possible de choisir entre deux types de stratégies, la première visant à transformer un ensemble de traits en paquets de variables quantitatives, la seconde gardant au tableau de traits le statut de K-tableaux et cherchant à le décomposer en éléments plus simples. La présence sous-jacente de la taxonomie pose des questions ouvertes.. Plan 1. Introduction Représenter un tableau de traits L'ACP floue L'analyse des correspondances floues Traits biologiques et méthodes K-tableaux Conclusion Références Traits biologiques et codage flou - page 1 -

2 1. Introduction La question est posée dans la fiche Traits biologiques des insectes : qui permet d'utiliser les données publiées par Statzner et al. (1997). Sont réunies ici quelques éléments de réflexion sur ce type très particulier d'information numérique qu'on appelle codage flou (Chevenet et al. 1994). Il s'agit de codage de l'information biologique conçue et réalisée par des biologistes (Bournaud et al. 1992) et non de codage numérique, procédure de transformation de variables quantitatives en variables qualitatives pour leur usage en analyse des correspondances (van Rijckevorsel 1987; van Rijckevorsel 1988; Cazes 1990). Un trait biologique a m modalités. Pour chaque taxon constituant une ligne du tableau sont enregistrées a 1, a 2,..., a m des notes d association entre le taxon et chacune des modalités du trait. La donnée est en fait une distribution de fréquence ou une pondération des modalités associées au taxon. On calcule a. = a 1, j et pj = aj a.. j= m Lorsqu il y a plusieurs taxons et plusieurs traits, on notera : T, le nombre total de taxa ; t, le numéro d ordre d un taxon 1 t T ; V, le nombre total de traits biologiques ; v, le numéro d ordre d un trait biologique 1 v V ; M v, le nombre total de modalités du trait v ; m v, le numéro d ordre d une modalité du trait 1 mv Mv ; atm la note d association du taxon t à la modalité m v v t v a la somme des note d association du taxon t aux modalités du trait v ; ftm le poids (fréquence) de la modalité m v v pour le taxon t ; f tmv = a tmv a t v On a évidemment : m v =M v f tmv m v =1 = 1 M le nombre total des modalités de tous les traits ( M = M1+ M2 + + Mv ) ; m le numéro d ordre d une modalité dans la série de toutes les modalités de tous les traits 1 m M ; Les tableaux taxa-traits ont donc T lignes (taxa) et M colonnes (modalités) et se décomposent en V sous-tableaux (traits) contenant respectivement m 1, m 2,, mv colonnes (modalités des traits). On est directement, avec la notion de traits biologiques dans la partie multi-tableaux de la statistique multivariée. C est pourquoi il a été fait peu d usage de ce type d informations et que de nombreuses décisions sont à prendre en ce qui concerne leur manipulation. Qu est-ce que la variabilité d un trait, la corrélation entre deux traits, la redondance d une famille de traits sont des questions à résoudre. Traits biologiques et codage flou - page 2 -

3 2. Représenter un tableau de traits Une contrainte est omniprésente : elle concerne mes données manquantes. data(coleo) coleo.fuzzy <- prep.fuzzy.var(coleo$tab, coleo$col.blocks) 2 missing data found in block 1 1 missing data found in block 3 2 missing data found in block 4 Ces données (Bournaud et al. 1992) regroupent 110 taxa et 32 modalités de 10 traits coleo$col.blocks Vegetation Sediment Velocity Pollution Saprobity Diet Feeding Temperature Temp_Amplitude coleo$tab[,1:4] 1a 1b 1c 1d Les données manquantes sont notées par une suite de zéros. coleo.fuzzy[,1:4] 1a 1b 1c 1d Dans le tableau recodé, les données sont en fréquence et le profil moyen de tous les points renseignés est affecté au bloc manquant. apply(coleo.fuzzy[,1:4],2,mean) 1a 1b 1c 1d De cette manière un recentrage remettra la point à l'origine. On suppose que chaque taxon a luimême un poids qu on notera π t (1 t T ). Ce poids sera 1 T si on décide d une pondération uniforme des taxa (ils ont tous la même importance a priori) ou ces poids peuvent provenir d un tableau faunistique (ils auront un poids proportionnel à leur abondance). Traits biologiques et codage flou - page 3 -

4 Pour le trait t, la moyenne du trait est défini par la pondération moyenne : T f *mv = π t f tmv t=1 Il est aisé de visualiser entièrement les tableaux de traits. coleo$col.blocks Vegetation Sediment Velocity Pollution Saprobity Diet Feeding Temperature Temp_Amplitude w = coleo$col.blocks ww1=1:sum(w) ww1 [1] [26] ww0=seq(from=0,by=4,len=length(w)) ww0=rep(ww0,w) ww0 [1] [26] table.value(coleo.fuzzy,x=ww1,csi=0.25,clabel.row=0) Représentation d un tableau de traits biologiques. Chaque ligne est une espèce et chaque groupe de colonnes est une variable. Traits biologiques et codage flou - page 4 -

5 data(bsetal97) w = bsetal97$biol.blo ww1=1:sum(w) ww0=seq(from=0,by=4,len=length(w)) ww0=rep(ww0,w)+ww1 biol.fuzzy = prep.fuzzy.var(bsetal97$biol,bsetal97$biol.blo) table.value(biol.fuzzy,x=ww0,csi=0.25,clabel.row=0) w = bsetal97$ecol.blo ww1=1:sum(w) ww0=seq(from=0,by=4,len=length(w)) ww0=rep(ww0,w)+ww1 ecol.fuzzy = prep.fuzzy.var(bsetal97$ecol,bsetal97$ecol.blo) table.value(ecol.fuzzy,x=ww0,csi=0.25,clabel.row=0) Traits biologiques et codage flou - page 5 -

6 Les variables définissent des tableaux qui sont plus ou moins compliqués. w = bsetal97$biol.blo[1:3] w1 = biol.fuzzy[,1:19] ww1 = 1:sum(w) ww0 = seq(from=0,by=4,len=length(w)) ww0 = rep(ww0,w)+ww1 Préparer la taxonomie comme une phylogénie : phy=taxo2phylog(as.taxo(bsetal97$taxo)) row.names(w1) = names(phy$leaves) table.phylog(w1,phy,x=ww0,clabel.r=0,clabel.col=0.75,csi=0.5,clabel.n=0.75) Traits biologiques et codage flou - page 6 -

7 Tableau de trois traits biologiques en face de la taxonomie. On repère immédiatement le niveau ordre comme indicateur pour les odonates, les diptères, les coléoptères, Ces représentations ont au moins la fonction de bien souligner la question qui se pose. Formellement, un trait est un tableau à plusieurs colonnes. Expérimentalement, c'est une variable qui donne une indication sur la stratégie d'une espèce. Statistiquement, un tableau de traits a de nombreuses colonnes réparties en blocs. Peut-on en faire une collection d'indicatrices, en vrac : il faudra nécessairement réduire leur nombre. La réduction doit-elle se faire par tableau, globalement? Tout dépendra du type de redondance rencontrée dans ces enregistrements. Il faut savoir mesurer la corrélation entre deux traits et caractériser la part commune et la part spécifique dans la variabilité des traits. Traits biologiques et codage flou - page 7 -

8 3. L'ACP floue Dans cette stratégie, on considère que chaque trait définit une ACP centrée par modalité. Cette analyse utilise le triplet basé sur une pondération arbitraire des taxa : et le tableau centré : ( ) D = Diag π1, π 2,, πt X = [ f tmv f *mv ] 1 t T,1 v V,1 mv M v On peut hésiter sur la pondération des modalités. Pour des raisons mathématiques, on prendra la pondération uniforme. L option nouvelle dudi.fpca permet cette opération : biol.fpca=dudi.fpca(biol.fuzzy) Select the number of axes: 5 ecol.fpca=dudi.fpca(ecol.fuzzy) Select the number of axes: 4 La première analyse ne mérite qu'un axe. On en prend ici 5 pour une illustration pédagogique. La seconde ne semble guère passionnante, on verra pourquoi. Ces ACP, comme toutes les ACP centrées, donnent des combinaisons de variables de variance maximale. Les valeurs propres sont des inerties projetées mais la présence de blocs de variables modifient l'interprétation. On utilise le triplet très simple : dim(biol.fpca$tab) [1] X = [ f tmv f *mv ], Diag ,,,,,,, 1 m 1 m 1 m V m V T I T biol.fpca$cw Fem.Size1 Fem.Size2 Fem.Size3 Fem.Size4 Fem.Size Fem.Size6 Fem.Size m 1 m V Traits biologiques et codage flou - page 8 -

9 Clutch.struc1 Clutch.struc2 Clutch.struc3 Clutch.number1 Clutch.number Clutch.number unique(biol.fpca$lw) # 1/131 [1] biol.fpca Duality diagramm class: pca dudi $call: dudi.pca(df = df, row.w = row.w, col.w = col.w, center = TRUE, scale = FALSE, scannf = scannf, nf = nf) $nf: 5 axis-components saved $rank: 31 eigen values: vector length mode content 1 $cw 41 numeric column weights 2 $lw 131 numeric row weights 3 $eig 31 numeric eigen values data.frame nrow ncol content 1 $tab modified array 2 $li row coordinates 3 $l row normed scores 4 $co 41 5 column coordinates 5 $c column normed scores other elements: cent norm blo indica FST inertia L'objet contient, outre le standard d'une ACP, des informations spécifiques. La première de ces informations concerne la répartition de l inertie totale (la variabilité biologique totale du groupe de taxa étudiés) entre les différentes descripteurs. La variance des colonnes est sommée par blocs (traits) et rapportée au total (édition en 1 pour 1000) dans total : biol.fpca$inertia Ax1 Ax2 Ax3 Ax4 Ax5 total Fem.Size Egg.length Egg.number Generations Oviposition Incubation Egg.shape Egg.attach Clutch.struc Clutch.number En terme de répartition de l'inertie entre les blocs de colonnes, la variation est de 1 à 3. les 4 variables (au sens biologique) les plus variables (au sens statistique) représente 60 % de la variabilité de la variabilité totale. En plaçant des poids de colonnes qui font une somme de 1 par blocs, on atténue le rôle du nombre de modalités. round(1000*tapply(biol.fpca$co[,1]^2,biol.fpca$indica,mean)/biol.fpca$eig[1],0) On a la même chose en terme de variance projetée sur chaque axe. La carte des colonnes regroupe toutes les modalités de toutes les variables : s.arrow(biol.fpca$co) Traits biologiques et codage flou - page 9 -

10 Ceci n'a pas grand intérêt. Notons que, en calculant la covariance entre modalités, on fait simultanément le calcul des covariances entre modalités d une même variable et entre modalités de variables différentes. La matrice de covariances C s écrit ainsi : C 11 C 12 C 1V C 21 C 22 C 2V C = C V1 C V2 C VV C vv est la matrice mv mv des covariances entre modalités de la même variable, alors que C vw est la matrice mv mw des covariances entre les m v modalités de la variable v et les m w modalités de la variable w. Il est clair que les covariances entre modalités d une même variable sont essentiellement artefactuelles : elles expriment simplement soit que deux modalités mériteraient de n en faire qu une (covariance positive entre modalités utilisées ensemble) soit que deux modalités ne sont pas utilisées simultanément (covariance négative inhérente à ce type de variables). Par contre les covariances entre deux modalités de deux variables contiennent de l information biologique. C est l association entre diverses modalités de différentes variables qui définit la stratégie globale d une ou plusieurs espèces. Ce mélange intime de deux types de covariation, l une artéfactuelle et l autre signifiante laisse augurer de facteurs d ACP consacrés soit à l une, soit à l autre, soit encore au mélange des deux. Il n est donc pas possible de voir dans un tableau de variables floues un simple tableau de modalités juxtaposées. Sur la carte des colonnes, la structure de ces données impose que les modalités ont des coordonnées centrées par bloc. par(mfrow=c(4,3)) invisible(lapply(split(biol.fpca$co,biol.fpca$indica), s.arrow,xlim=c(-0.8,0.8))) ou encore (ci-dessus, à droite) : s.class(biol.fpca$co,biol.fpca$indica,cell=0) ou encore : par(mfrow=c(3,2)) Traits biologiques et codage flou - page

11 for (k in 5:10) s.arrow(biol.fpca$co[ff==k,],xlim=c(-0.5,0.5),clab=2) 38% de la variance projetée sur l'axe 1 appartient à la dernière variable et l'ambiguïté est grande. De plus les coordonnées sur deux axes des modalités d'une même variable peuvent être covariantes, comme on le voit bien sur cette figure. Considérer les modalité comme variables n'est donc pas sans effet. Pour mesurer la redondance réelle ou l'indépendance réelle des traits biologiques, il est indispensable de considérer ces données dans le point de vue K-tableaux. Un tableau de variables floues doit être considéré comme un K-tableaux qu on notera : X = [ X 1,X 2,,X V ] Mais on utilisera d'abord dudi.fpca qui prépare ce passage et donne en plus : biol.fpca$fst inertia max FST Fem.Size Egg.length Egg.number Generations Oviposition Incubation Egg.shape Egg.attach Clutch.struc Clutch.number On utilise ici le langage des tableaux de fréquences alléliques qui ont le même structure. L'inertie d'un trait est la somme des variances des modalités. Le maximum est l'inertie de la configuration dans laquelle chaque espèce a un profil disjonctif complet (il n'y a pas de variabilité intra spécifique). Le FST est le rapport des deux. La variabilité de 7 des 11 traits est alors très comparable. Les coordonnées des lignes ont de bonnes propriétés de résumés réduisant l'information bien que faiblement interprétable. On peut s'en servir de marqueur : par(mfrow=c(1,2)) dotchart.phylog(phy,biol.fpca$li[,1]) dotchart.phylog(phy,ecol.fpca$li[,1]) Traits biologiques et codage flou - page

12 Une bonne part de la variabilité organisée est d'origine taxonomique. 4. L'analyse des correspondances floues Elle a été proposée pour traiter les tableaux de traits (Chevenet et al. 1994). Elle s'exécute par dudi.fca. coleo.fpca=dudi.fpca(coleo.fuzzy) Select the number of axes: 2 coleo.fcoa=dudi.fca(coleo.fuzzy) Select the number of axes: 3 cor(coleo.fpca$li,coleo.fcoa$li) Axis1 Axis2 Axis3 Axis Axis Traits biologiques et codage flou - page

13 Les coordonnées des lignes entre les deux analyses sont souvent très proches. C'est moins vrai pour les modalités qui sont soumises à des contraintes de centrage avec des pondérations très différentes. par(mfrow = c(3,3)) indica <- factor(rep(names(coleo$col), coleo$col)) for (j in levels(indica)) s.distri (coleo.fcoa$l1, coleo$tab[,which(indica==j)], clab = 1.5, sub = as.character(j), cell = 0, csta = 0.5, csub = 3, label = coleo$moda.names[which(indica == j)]) La logique de cette analyse est plus parlante dans le sens espèces -> modalités. On place sur chaque axe les espèces avec des scores centrés et réduits pour la pondération uniforme : apply(coleo.fcoa$l1,2,mean) RS1 RS2 RS e e e-16 apply(coleo.fcoa$l1,2,function(x) mean(x*x)) RS1 RS2 RS On observe le profil d'utilisation de chaque modalité entre les espèces, ce qui permet de positionner les modalité à la moyenne pondérée des espèces qui les utilisent. La variance de ces positions Traits biologiques et codage flou - page

14 moyennes est un rapport de corrélation et c'est la moyenne de ces rapports qui est optimisé (valeur propre). Ceci est explicite dans le tableau des rapports de corrélation voisin de celui d'une ACM : coleo.fcoa$cr RS1 RS2 RS3 Vegetation Sediment Velocity Pollution Saprobity Diet Feeding Temperature Temp_Amplitude Le facteur 1 est consacré à la position dans le gradient amont-aval, le second à l'alimentation, les deux faits biologiques n'étant pas complètement indépendant. La forme très particulière du tableau fait que l'afc floue est une AFC (avec un complément pour l'interprétation) mais aussi une Aanalyse des correspondances internes (Cazes et al. 1988) : coa1=dudi.coa(coleo.fuzzy) Select the number of axes: 3 ww1=witwit.coa(coa1,110,coleo.fcoa$blo) Select the number of axes: 3 round(coleo.fcoa$eig,4) [1] [11] [21] round(coa1$eig,4) [1] [11] [21] round(ww1$eig,4) [1] [11] [21] Les trois analyses ont exactement les mêmes valeurs propres, les mêmes coordonnées des lignes et les mêmes coordonnées des colonnes. Ces trois analyses sont strictement identiques. Ceci vient simplement du fait que le tableau flou contient des distributions de fréquences par bloc et que le recentrage par bloc explicite dans l analyse des l analyse des correspondances internes est implicite dans l analyse des correspondances floues. Ce point est sans grande importance. Il permet simplement de refaire l opération de décomposition des valeurs propres par sous-tableaux. On peut donc interpréter l'analyse comme une AFC intra-bloc de colonnes : summary(ww1) Eigen value decomposition among column blocks Comp1 Comp2 Comp3 weights Vegetation Sediment Velocity Pollution Saprobity Diet Feeding Temperature e Temp_Amplitude mean Ce résultat est plus nuancé que celui de l'acp qui donne : Traits biologiques et codage flou - page

15 coleo.fpca$inertia Ax1 Ax2 total Vegetation Sediment Velocity Pollution Saprobity Diet Feeding Temperature Temp_Amplitude Il n'y a pas de contradiction mais des modes de fonctionnement très différents. Rappelons que les deux analyse font la même typologie des espèces. Pour s'en convaincre : wa=coleo.fcoa$l1[,1:2] wb=cbind.data.frame(coleo.fpca$l1[,1],-coleo.fpca$l1[,2]) names(wb)=names(wa) s.match(wa,wb) Carte d'acp et carte d'afc superposées! L'AFC utilise l'averaging espèces -> modalités alors que l'acp fait des combinaisons linéaires qui ne sont pas des moyennes et enregistre de ce fait les différences de variance qui perturbe l'expression numérique des résultats. Il faudra la couche multi-tableaux pour éliminer cette perturbation. Les principales propriétés de l'afc floue sont (i) la symétrie lignes-colonnes, (ii) la métrique du Khi2 et (iii) la faible réduction de dimension. (i) La symétrie lignes-colonnes est sensible sur la figure ci-dessus où l analyse apparaît comme une AFC simultanée de chacun des tableaux-variables utilisant les mêmes scores-lignes. Traits biologiques et codage flou - page

16 Une espèce est vue comme une distribution de fréquence dans son usage d une variable biologique et chaque modalité de chaque variable est vue comme une distribution de fréquence de son utilisation par les espèces. Le double averaging implicite conduit à la représentation simultanée des espèces et des modalités. Pour une description détaillée de la typologie des stratégies biologiques, cette analyse est indiscutablement utile. (ii) Elle utilise cependant implicitement la métrique du Khi2 qui est contestable. Les carrés des différences entre deux profils sont pondérés par l inverse de l utilisation moyenne d une modalité. La distance entre les taxons t 1 et t 2 s écrit : 2 d t1,t 2 M v V = v=1m v =1 ( ) 2 f t1 m v f t2 m v f *mv Une différence d usage sur une modalité rare est ainsi fortement amplifiée, ce qui vue le type de mesure est loin de s imposer. On préférerait simplement : 2 d t1,t 2 V M v ( ) 2 = f t1 m v f t2 m v v=1m v =1 Mais l analyse simple (ACP) associée à cette métrique est plutôt défavorable. (iii) Le nombre de valeurs propres à prendre en compte est enfin élevé. Il est difficile de dire si cela vient vraiment des données et que les combinaisons stratégiques sont effectivement variées et complexes ou si cela vient du fait que les AFC multiples sont de mauvaises analyses d inertie dans l espace des modalités. L AFC multiple est d abord une analyse canonique (on y reviendra en détail) mais cette propriété est perdue dans la variante sur variables floues. Ceci pose la question des méthodes K-tableaux dans l usage des variables floues. L analyse qui suit vise à savoir si cette introduction qui est relativement difficile au plan théorique en vaut la peine. 5. Traits biologiques et méthodes K-tableaux Pour utiliser ces méthodes, on a besoin d'objets de la classe ktab. Les manipulations préliminaires comme le centrage et la normalisation, le double centrage,... sont directement assurées par l'utilisateur et non incorporé aux fonctions de cette classe (il faudrait une quantité vertigineuse de cas particuliers). Ici nous dirons simplement : chaque trait est un tableau d'acp, il suffit de partir du tableau des fréquences centrées. On pourrait avoir les versions AFC, mais cela obscurcit le débat. Pour faire un K-tableaux : biol.ktab <- ktab.data.frame (biol.fpca$tab,biol.fpca$blo,w.col=biol.fpca$cw) ecol.ktab <- ktab.data.frame (ecol.fpca$tab,ecol.fpca$blo,w.col=ecol.fpca$cw) coleo.ktab <- ktab.data.frame (coleo.fpca$tab,coleo.fpca$blo,w.col=coleo.fpca$cw) biol.ktab class: ktab tab number: 10 Il y a 10 tableaux dans ce K tableaux. Leur nom et leurs dimensions sont : data.frame nrow ncol 1 Fem.Size Traits biologiques et codage flou - page

17 2 Egg.length Egg.number Generations Oviposition Incubation Egg.shape Egg.attach Clutch.struc Clutch.number Les tableaux sont appariés par les lignes et on a un seul vecteur de poids des lignes (lw) et un seul vecteur des poids de colonnes (cw) qui est, de fait, la collection des poids des colonnes de plusieurs analyses séparées. On n'a pas précisé de poids des tableaux qui pourrait jouer un rôle dans d'autres méthodes : vector length mode content 11 $lw 131 numeric row weigths 12 $cw 41 numeric column weights 13 $blo 10 numeric column numbers 14 $tabw 0 NULL array weights On a préparé des tableaux de facteurs pour ranger des coordonnées de lignes par tableaux (131*10 lignes prévues), des coordonnées des colonnes par tableaux (41 colonnes prévues) et des valeurs multiples par tableaux (typiquement les 4 premiers axes principaux, 10*4 lignes prévues) : data.frame nrow ncol content 15 $TL Factors Table number Line number 16 $TC 41 2 Factors Table number Col number 17 $T Factors Table number 1234 L'ordre d'appel de la création du K-tableaux est conservé : 18 $call: ktab.data.frame(df = biol.fpca$tab, blocks = biol.fpca$blo, w.col = biol.fpca$cw) Les noms des tableaux sont les tab.names du K-tableaux et les noms des variables des tableaux sont les col.names du K-tableaux : names : Fem.Size : size.1 size.2 size.3 size.4 size.5 size.6 size.7 Egg.length : egglen.1 egglen.2 egglen.3 egglen.4 egglen.5 egglen.6... Clutch.number : clunum.1 clunum.2 clunum.3 Les poids des colonnes par tableau ont été importés de l'analyse simple (cw) : Col weigths : Fem.Size : Egg.length : Clutch.number : Les poids des lignes communs aux différents tableaux ont été importés de l'analyse simple (lw) : Row weigths : On a donc tous les éléments pour faire 10 analyses séparées : plot(sepan(biol.ktab)) plot(sepan(ecol.ktab)) plot(sepan(coleo.ktab)) Traits biologiques et codage flou - page

18 A B C Graphes des valeurs propres des analyses séparées de 3 K-tableaux. On voit immédiatement que les traits biologiques ont des identités très variables. Certains sont des mélanges sans structures de 5 modalités, d'autres des variables binaires, d'autres définissent des typologies franches à 2 ou 3 dimensions. L'analyse simple du troisième fonctionne bien parce que, grossièrement, chaque tableau apporte une seule dimension. Par contre, dans les deux premiers le mélange de types très différents est patent. Cette opération est essentielle. Elle correspond à la description univariée qui doit précéder toute analyse multivariée, les variables sont devenues des tableaux et le multivarié est devenu du multi-tableaux. Comme il se doit, les articles publiés sur le sujet ont fait l'impasse sur ces éléments de base, tout investissement méthodologique étant généralement considéré comme du temps perdu. On notera que biol.fuzzy est un data.frame : names(biol.fuzzy) [1] "size.1" "size.2" "size.3" "size.4" "size.5" [6] "size.6" "size.7" "egglen.1" "egglen.2" "egglen.3" [11] "egglen.4" "egglen.5" "egglen.6" "eggnum.1" "eggnum.2" [16] "eggnum.3" "eggnum.4" "eggnum.5" "eggnum.6" "genery.1" [21] "genery.2" "genery.3" "oviper.1" "oviper.2" "oviper.3" [26] "incub.1" "incub.2" "incub.3" "esha.spher" "esha.oval" Traits biologiques et codage flou - page

19 [31] "esha.cyli" "eggatta.1" "eggatta.2" "eggatta.3" "eggatta.4" [36] "egg.sing" "egg.group" "egg.mass" "clunum.1" "clunum.2" [41] "clunum.3" qui a des attributs supplémentaires : attributes(biol.fuzzy) $names [1] "size.1" "size.2" "size.3" "size.4" "size.5"... $row.names [1] "E1" "E2" "E3" "E4" "E5" "E6" "E7" "E8" "E9" "E10"... $class [1] "data.frame" $col.blocks Fem.Size Egg.length Egg.number Generations Oviposition $row.w [1] $col.freq [1] $col.num [1] [26] Levels: biol.fcpa est un dudi qui a des composantes supplémentaires : names(biol.fpca) [1] "tab" "cw" "lw" "eig" "rank" "nf" "c1" [8] "l1" "co" "li" "call" "cent" "norm" "blo" [15] "indica" "FST" "inertia" Enfin biol.ktab est un ktab, donc une liste de data.frame avec des composantes supplémentaires : names(biol.ktab) [1] "Fem.Size" "Egg.length" "Egg.number" "Generations" [5] "Oviposition" "Incubation" "Egg.shape" "Egg.attach" [9] "Clutch.struc" "Clutch.number" "lw" "cw" [13] "blo" "TL" "TC" "T4" [17] "call" On peut ainsi retrouver toute l'information utile. Faisons, par exemple, à titre pédagogique l'analyse de co-inertie des deux premiers tableaux de biol.ktab : dd1 <- as.dudi(df = biol.ktab[[1]], col.w = biol.ktab$cw[1:7], row.w = biol.ktab$lw, scannf=false, nf=2, call = match.call(), type = "") dd2 <- as.dudi(df = biol.ktab[[2]], col.w = biol.ktab$cw[8:13], row.w = biol.ktab$lw, scannf=false, nf=2, call = match.call(), type = "") coi1 <- coinertia(dd1,dd2,scannf=false) plot(randtest(coi1)) Traits biologiques et codage flou - page

20 On voit alors clairement que chacun des traits n'autorisent pas de réduction de dimension : par(mfrow=c(1,2)) barplot(dd1$eig) barplot(dd2$eig) mais ont une co-inertie très significative statistiquement et sa signification biologique est très simple : s.arrow(coi1$l1,xlim=c(-2,3)) s.arrow(coi1$c1,xlim=c(-2,3)) coi1$rv [1] L'association entre les deux variables est mesurée par le coefficient RV (Escoufier 1973, 1977, 1980, 1985, 1987), rapport de la co-structure (mesurée par la covariance vectorielle ou co-inertie totale) à la structure (mesurée par le produit des variances vectorielles expression de la structure totale) : RV ( XY, ) CVV ( XY, ) = VV ( X) VV ( Y) sum(coi1$eig)/sqrt(sum(dd1$eig^2))/sqrt(sum(dd2$eig^2)) [1] La méthode STATIS calcule les RV de chacun des couples de tableaux, donne une représentation euclidienne des tableaux équivalente d'un cercle des corrélations d'acp normée, en un mot fait de l'acp de tableaux, ce qui est exactement le problème. biol.statis <- statis(biol.ktab, scannf=f) ecol.statis <- statis(ecol.ktab, scannf=f) coleo.statis <- statis(coleo.ktab, scannf=f) Pour récupérer la matrice des RV : Traits biologiques et codage flou - page

Initiation à l analyse en composantes principales

Initiation à l analyse en composantes principales Fiche TD avec le logiciel : tdr601 Initiation à l analyse en composantes principales A.B. Dufour & J.R. Lobry Une première approche très intuitive et interactive de l ACP. Centrage et réduction des données.

Plus en détail

Individus et informations supplémentaires

Individus et informations supplémentaires ADE-4 Individus et informations supplémentaires Résumé La fiche décrit l usage des individus supplémentaires dans des circonstances variées. En particulier, cette pratique est étendue aux analyses inter

Plus en détail

Mémo d utilisation de ADE-4

Mémo d utilisation de ADE-4 Mémo d utilisation de ADE-4 Jérôme Mathieu http://www.jerome.mathieu.freesurf.fr 2003 ADE-4 est un logiciel d analyses des communautés écologiques créé par l équipe de biostatistiques de Lyon. Il propose

Plus en détail

Analyse des correspondances avec colonne de référence

Analyse des correspondances avec colonne de référence ADE-4 Analyse des correspondances avec colonne de référence Résumé Quand une table de contingence contient une colonne de poids très élevé, cette colonne peut servir de point de référence. La distribution

Plus en détail

ISFA 2 année 2002-2003. Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

ISFA 2 année 2002-2003. Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses. On considère la matrice de données : ISFA 2 année 22-23 Les questions sont en grande partie indépendantes Merci d utiliser l espace imparti pour vos réponses > ele JCVGE FM1 GM JCRB FM2 JMLP Paris 61 29

Plus en détail

Avant-après, amont-aval : les couples de tableaux totalement appariés

Avant-après, amont-aval : les couples de tableaux totalement appariés ADE-4 Avant-après, amont-aval : les couples de tableaux totalement appariés Résumé La fiche décrit les méthodes d analyse des couples de tableaux complètement appariés (mêmes individus, mêmes variables).

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Statistique Descriptive Multidimensionnelle. (pour les nuls) Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219

Plus en détail

«Poursuivre au-delà de BEEST : une approche fonctionnelle basée sur les traits de vie des espèces en relation avec l habitat».

«Poursuivre au-delà de BEEST : une approche fonctionnelle basée sur les traits de vie des espèces en relation avec l habitat». «Poursuivre au-delà de BEEST : une approche fonctionnelle basée sur les traits de vie des espèces en relation avec l habitat». Philippe USSEGLIO-POLATERA Université Paul Verlaine Metz UMR-CNRS 746 - LIEBE

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

Introduction à MATLAB R

Introduction à MATLAB R Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

La corrélation entre deux matrices de distances euclidiennes

La corrélation entre deux matrices de distances euclidiennes Fiche thématique 6.1 La corrélation entre deux matrices de distances euclidiennes Résumé La fiche décrit deux stratégies pour étudier la corrélation entre deux matrices de distances. La première est toujours

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

L'analyse des données à l usage des non mathématiciens

L'analyse des données à l usage des non mathématiciens Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux. UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases

Plus en détail

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Régis Boulet Charlie Demené Alexis Guyot Balthazar Neveu Guillaume Tartavel Sommaire Sommaire... 1 Structure

Plus en détail

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R? Analyses multivariées avec R Commander Analyses multivariées avec R Commander (via le package FactoMineR) Plate-forme de Support en Méthodologie et Calcul Statistique (SMCS) - UCL 1 Introduction à R 2

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples, Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très

Plus en détail

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION DES NOMBRES par Jean-Luc BREGEON professeur formateur à l IUFM d Auvergne LE PROBLÈME DE LA REPRÉSENTATION DES NOMBRES On ne conçoit pas un premier enseignement

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

LES TYPES DE DONNÉES DU LANGAGE PASCAL

LES TYPES DE DONNÉES DU LANGAGE PASCAL LES TYPES DE DONNÉES DU LANGAGE PASCAL 75 LES TYPES DE DONNÉES DU LANGAGE PASCAL CHAPITRE 4 OBJECTIFS PRÉSENTER LES NOTIONS D ÉTIQUETTE, DE CONS- TANTE ET DE IABLE DANS LE CONTEXTE DU LAN- GAGE PASCAL.

Plus en détail

Résolution de systèmes linéaires par des méthodes directes

Résolution de systèmes linéaires par des méthodes directes Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

TD : Codage des images

TD : Codage des images TD : Codage des images Les navigateurs Web (Netscape, IE, Mozilla ) prennent en charge les contenus textuels (au format HTML) ainsi que les images fixes (GIF, JPG, PNG) ou animée (GIF animée). Comment

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Cours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs

Cours 1. I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs Cours 1 I- Généralités sur R II- Les fonctions de R et autres objets III-Les vecteurs IV-Les facteurs I-1 Généralités sur R R (1995, AT&T Bell Laboratories) est un logiciel d analyse statistique et graphique,

Plus en détail

Vérification audiovisuelle de l identité

Vérification audiovisuelle de l identité Vérification audiovisuelle de l identité Rémi Landais, Hervé Bredin, Leila Zouari, et Gérard Chollet École Nationale Supérieure des Télécommunications, Département Traitement du Signal et des Images, Laboratoire

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Recherche dans un tableau

Recherche dans un tableau Chapitre 3 Recherche dans un tableau 3.1 Introduction 3.1.1 Tranche On appelle tranche de tableau, la donnée d'un tableau t et de deux indices a et b. On note cette tranche t.(a..b). Exemple 3.1 : 3 6

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction aux Statistiques et à l utilisation du logiciel R Introduction aux Statistiques et à l utilisation du logiciel R Christophe Lalanne Christophe Pallier 1 Introduction 2 Comparaisons de deux moyennes 2.1 Objet de l étude On a mesuré le temps de sommeil

Plus en détail

Introduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY

Introduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY Introduction à l'analyse multivariée (factorielle) sous R Stéphane CHAMPELY 7 septembre 2005 2 Table des matières 1 Introduction 5 1.1 Les données multivariées....................... 5 1.2 L'approche factorielle

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren) La structure de la base de données et l utilisation de PAST La structure de la base de données données originales SPÉCIMENS Code des spécimens: Identification des spécimens individuels. Dépend du but de

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

1. Vocabulaire : Introduction au tableau élémentaire

1. Vocabulaire : Introduction au tableau élémentaire L1-S1 Lire et caractériser l'information géographique - Le traitement statistique univarié Statistique : le terme statistique désigne à la fois : 1) l'ensemble des données numériques concernant une catégorie

Plus en détail

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

Couples de variables aléatoires discrètes

Couples de variables aléatoires discrètes Couples de variables aléatoires discrètes ECE Lycée Carnot mai Dans ce dernier chapitre de probabilités de l'année, nous allons introduire l'étude de couples de variables aléatoires, c'est-à-dire l'étude

Plus en détail

IMPORTATION, CRÉATION, MANIPULATION, EXPORTATION DE DONNÉES STATISTIQUES

IMPORTATION, CRÉATION, MANIPULATION, EXPORTATION DE DONNÉES STATISTIQUES IMPRTATIN, CRÉATIN, MANIPULATIN, EXPRTATIN DE DNNÉES STATISTIQUES Bernard Dupont Bernard.Dupont@univ-lille1.fr ahm.bahah@yahoo.fr Bien que l'analyse et le traitement des données ne soient pas sa vocation

Plus en détail

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Cours d introduction à l informatique Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Qu est-ce qu un Une recette de cuisine algorithme? Protocole expérimental

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Exercices - Polynômes : corrigé. Opérations sur les polynômes Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)

Plus en détail

Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr

Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr Dominique Muller Laboratoire Inter-universitaire de Psychologie Bureau : 238 Tel : 04 76 82 58 90 Email : dominique.muller@upmf-grenoble.fr Supports de cours : webcom.upmf-grenoble.fr/lip/perso/dmuller/m2r/acm/

Plus en détail

Introduction. Préambule. Le contexte

Introduction. Préambule. Le contexte Préambule... INTRODUCTION... BREF HISTORIQUE DE L ACP... 4 DOMAINE D'APPLICATION... 5 INTERPRETATIONS GEOMETRIQUES... 6 a - Pour les n individus... 6 b - Pour les p variables... 7 c - Notion d éléments

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

Optimisation, traitement d image et éclipse de Soleil

Optimisation, traitement d image et éclipse de Soleil Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement

Plus en détail

SIG ET ANALYSE EXPLORATOIRE

SIG ET ANALYSE EXPLORATOIRE SIG ET ANALYSE EXPLORATOIRE VERS DE NOUVELLES PRATIQUES EN GÉOGRAPHIE Jean-Marc ORHAN Equipe P.A.R.I.S., URA 1243 du CNRS Paris Résumé L'offre actuelle dans le domaine des logiciels de type Système d'information

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

Introduction à l étude des Corps Finis

Introduction à l étude des Corps Finis Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur

Plus en détail

CHAPITRE VIII : Les circuits avec résistances ohmiques

CHAPITRE VIII : Les circuits avec résistances ohmiques CHAPITRE VIII : Les circuits avec résistances ohmiques VIII. 1 Ce chapitre porte sur les courants et les différences de potentiel dans les circuits. VIII.1 : Les résistances en série et en parallèle On

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

Programmation linéaire

Programmation linéaire Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34 Capacité d un canal Second Théorème de Shannon Théorie de l information 1/34 Plan du cours 1. Canaux discrets sans mémoire, exemples ; 2. Capacité ; 3. Canaux symétriques ; 4. Codage de canal ; 5. Second

Plus en détail

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy

Plus en détail

DETERMINER LA LARGEUR DE PAGE D'UN SITE et LES RESOLUTIONS d'ecran

DETERMINER LA LARGEUR DE PAGE D'UN SITE et LES RESOLUTIONS d'ecran DETERMINER LA LARGEUR DE PAGE D'UN SITE et LES RESOLUTIONS d'ecran dossier par Clochar SOMMAIRE 1. LES RESOLUTIONS d'ecran... 1 2. RESOLUTION de l écran et choix de la TAILLE DE LA PAGE... 2 3. AGRANDISSEMENT

Plus en détail

Correction de l examen de la première session

Correction de l examen de la première session de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Université de Bangui. Modélisons en UML

Université de Bangui. Modélisons en UML Université de Bangui CRM Modélisons en UML Ce cours a été possible grâce à l initiative d Apollinaire MOLAYE qui m a contacté pour vous faire bénéficier de mes connaissances en nouvelles technologies et

Plus en détail

CHAPITRE IX : Les appareils de mesures électriques

CHAPITRE IX : Les appareils de mesures électriques CHAPITRE IX : Les appareils de mesures électriques IX. 1 L'appareil de mesure qui permet de mesurer la différence de potentiel entre deux points d'un circuit est un voltmètre, celui qui mesure le courant

Plus en détail

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4) FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4) Bernard Le Stum Université de Rennes 1 Version du 13 mars 2009 Table des matières 1 Fonctions partielles, courbes de niveau 1 2 Limites et continuité

Plus en détail

TUTORIAL 1 ETUDE D UN MODELE SIMPLIFIE DE PORTIQUE PLAN ARTICULE

TUTORIAL 1 ETUDE D UN MODELE SIMPLIFIE DE PORTIQUE PLAN ARTICULE TUTORIAL 1 ETUDE D UN MODELE SIMPLIFIE DE PORTIQUE PLAN ARTICULE L'objectif de ce tutorial est de décrire les différentes étapes dans CASTOR Concept / FEM permettant d'effectuer l'analyse statique d'une

Plus en détail

Logique binaire. Aujourd'hui, l'algèbre de Boole trouve de nombreuses applications en informatique et dans la conception des circuits électroniques.

Logique binaire. Aujourd'hui, l'algèbre de Boole trouve de nombreuses applications en informatique et dans la conception des circuits électroniques. Logique binaire I. L'algèbre de Boole L'algèbre de Boole est la partie des mathématiques, de la logique et de l'électronique qui s'intéresse aux opérations et aux fonctions sur les variables logiques.

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011 Dept. de mathématiques, Université de Fribourg (CH) SP 2011 Qu est ce que R? Un logiciel de statistiques libre et gratuit ; Un logiciel multi-plateforme (UNIX, Windows MacOS X) R permet de faire des calculs

Plus en détail

Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo

Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo Projet Matlab/Octave : segmentation d'un ballon de couleur dans une image couleur et insertion d'un logo Dans ce projet, nous allons réaliser le code qui permet d'insérer sur une image, un logo sur un

Plus en détail

Cours 9 : Plans à plusieurs facteurs

Cours 9 : Plans à plusieurs facteurs Cours 9 : Plans à plusieurs facteurs Table des matières Section 1. Diviser pour regner, rassembler pour saisir... 3 Section 2. Définitions et notations... 3 2.1. Définitions... 3 2.2. Notations... 4 Section

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

Exercices Corrigés Premières notions sur les espaces vectoriels

Exercices Corrigés Premières notions sur les espaces vectoriels Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3

Plus en détail

Gestion des données avec R

Gestion des données avec R Gestion des données avec R Christophe Lalanne & Bruno Falissard Table des matières 1 Introduction 1 2 Importation de fichiers CSV 1 2.1 Structure du fichier de données...................................

Plus en détail

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous : BASE BioArray Software Environment (BASE) est une base de données permettant de gérer l importante quantité de données générées par des analyses de bio-puces. BASE gère les informations biologiques, les

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail