méthodes d ordination pour l analyse des données écologiques

Dimension: px
Commencer à balayer dès la page:

Download "méthodes d ordination pour l analyse des données écologiques"

Transcription

1 généralités gradient indirect gradient direct conclusion pour l analyse des données écologiques UMR Ecologie des forêts de Guyane & Ecole thématique - Méthodes et modèles pour l étude de la biodiversité amazonienne

2 plan généralités gradient indirect gradient direct conclusion 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

3 généralités gradient indirect gradient direct conclusion 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

4 généralités gradient indirect gradient direct conclusion introduction utilisateurs écologistes des communautés objectif analyser simultanément les effets de multiples facteurs environnementaux sur de multiples espèces approche méthodes statistiques d analyses multivariées classification: regroupe les espèces ordination: arrangement des espèces sur des gradients analyse indirecte de gradient analyse directe de gradient type de données matrice de données de communauté (abondance d espèces par échantillon) matrice associée de données covariées (seulement nécessaire pour l analyse directe de gradient)

5 généralités gradient indirect gradient direct conclusion

6 généralités gradient indirect gradient direct conclusion matrice de données de communauté espèces Q 1 Q 2 Q 3 Q 4... Q 12 Eschweilera sagotiana Couepia bracteosa Ecclinusa guianensis Lecythis persistens Ecclinusa guianensis Licania membranacea Iryanthera sagotiana Dicorynia guianensis Lecythis persistens Jacaranda copaia Cupania scrobiculata Nombre d arbres par quadrat

7 généralités gradient indirect gradient direct conclusion matrice associée de données covariées Q 1 Q 2 Q 3 Q 4... Q 12 ph pr cipitation altitude T 0 C sol type ferralsol acrisol stagnosol acrisol... ferralsol. chasse Caractéristiques environnementales

8 généralités gradient indirect gradient direct conclusion Objectif: représenter les relations entre les échantillons et les espèces dans un espace de faible dimension caractéristiques des données de communauté éparses: beaucoup de zéros, la plupart des espèces présentes dans peu d endroits faible dimensionnalité : beaucoup de facteurs peuvent influencer la composition spécifique mais peu sont importants bruit: forte variance entre les répliquas d une même communauté redondance: de nombreuses espèces ont des distributions similaires

9 généralités gradient indirect gradient direct conclusion bénéfices représenter les gradients environnementaux les plus importants et interprétables réduire le bruit en mettant l accent sur un espace de faible dimension efficacité statistique : une analyse globale vs de multiples analyses univariées limitations analyse exploratoire, pas de test statistique facile à utiliser chaque méthode a ses propres limitations bonne compréhension de la logique mathématique sous-jacente à chaque méthode pour choisir la méthode appropriée pour faire des interprétations pertinentes

10 généralités gradient indirect gradient direct conclusion Méthodes basées sur gradient type de données PO dist - - PCoA dist linéaire - NMDS dist - - PCA valeurs propres linéaire quantitative CA valeurs propres unimodal tableau de contingence ou au moins positives DCA valeurs propres unimodal tableau de contingence ou au moins positives

11 généralités gradient indirect gradient direct conclusion modèles de réponse unimodale modèles linéaires appropriés en écologie des communautés quand espèces abondantes (peu de zéros) faible gradient de variations environnementales le modèle unimodal peut être obtenu par: ajout d un terme quadratique x 2 au modèle linéaire mais cela peut engendrer des valeurs fortement négatives modéliser le logarithme des abondances spécifiques par une forme quadratique des variables environnementales courbe de réponse gaussienne: log y = a (x u)2 2 t 2 u: optimum ou mode, t: tolérance et c = exp(a): maximum

12 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

13 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

14 méthodes basées sur les distances ces méthodes font référence à une matrice de distance carrée, symétrique, aussi appelée matrice de similarité. à l inverse des méthodes basées sur les valeurs propres, ces méthodes ne donnent pas les scores des espèces et des sites simultanément. certaines méthodes valeurs propres sont des cas spéciaux de méthodes distance, où la distance est basée sur une distribution du χ 2. mais: la philosophie des méthodes valeurs propres est différente: elles ont pour objectif de positionner fidèlement les espèces sur un gradient (soit inféré soit mesuré), et pas de positionner les sites en fonction de leur similarité.

15 méthodes distance données: D = d 11 d d 1j... d 1n d 21 d d 2j... d 2n.... d i1 d i2... d ij... d in.... d n1 d n2... d nj... d nn avec d ij = distance(site i, site j ), la distance entre les sites i et j Les résultats peuvent changer en fonction de la fonction de distance utilisée

16 Exemple: données de végétation dunaire de 30 espèces sur 20 sites sites Belper Empnig Junbuf Junart Airpra Elepal Rumace

17 Exemple: données de végétation dunaire Distance euclidienne entre les sites: sites

18 Exemple: données de végétation dunaire Distance de Manhattan entre les sites: sites

19 Exemple: données de végétation dunaire Distance de Bray-Curtis entre les sites: sites

20 ordination polaire (PO) - Bray-Curtis 1957 probablement la technique la plus facile à visualiser l utilisateur doit pré-spécifier les sites extrêmes (il existe aussi des méthodes automatiques) ces sites extrêmes ont une position privilégiée, tous les autres sites vont être positionnés relativement à eux PO est la seule technique qui permet de contrôler la direction d un gradient (i.e. droite vs. gauche) de nouveaux sites peuvent être ajoutés sans affecter le résultat de l ordination 2 me et axes supplémentaires dépendent des choix de l utilisateur

21 ordination polaire: illustration Distances entre 10 sites : sites calcul du 1 er axe points extrêmes: 6 et 9 distance D = 461 Calcul des scores des sites: score i = D2 D 2 1i D2 2i 2 D avec D 1i /D 2i distances entre les sites i et le 1er/2ème point extrême. ex: score 1 =

22 ordination polaire: illustration Scores des sites: Ordination polaire suivant les scores

23 ordination polaire: illustration Scores des sites: Ordination polaire suivant les scores valeurs du gradient

24 Analyses en Coordonnées Principales - Metric multidimensional scaling (PCoA) - Gower 1966 objectif Décrire les données en réduisant les dimensions de la matrice de distance entre les objets graph caractéristiques maximiser les corrélations linéaires et les mesures de distance dans l ordination le modèle sous-jacent assume un nombre fixe de gradient. Au contraire, PCA, RA et DCA assument potentiellement de nombreux gradients mais d importance décroissante. généralisation de la PCA quand la distance est non-euclidienne (distance euclidienne PCoA = PCA) généralisation de la CA: distance du χ 2

25 Analyse en coordonnées principales (PCoA) principe (multidimensional scaling - MDS) soit D = [D ij ] une matrice de distance l utilisateur choisit la dimension n pour la représentation positionne aléatoirement les points dans l espace à n dimensions répéter les étapes suivantes pour minimiser le Stress: 1 calculer matrice [d ij ], distances euclidienne dans l espace à n dim 2 régresser d ij sur D ij avec le modèle linéaire ˆd ij = α β D ij 3 calculer la fonction de Stress: Stress = i,j (d ij ˆd ij ) 2 / i,j d 2 ij 4 bouger les coordonnées des points pour diminuer le Stress solution optimal vecteurs propres de D limitations Résultats dépendent de la mesure de distance choisie on ne peut pas modéliser de combinaisons de variables car seule la matrice de distance est utilisée on ne peut pas rajouter facilement de nouveaux points

26 Nonmetric Multidimensional Scaling (NMDS) - Kruskal 1964 objectifs décrire les données en réduisant le nombre de dimensions graph découvrir des relations non-linéaires caractéristiques NMDS est très computer-intensive, récemment appliquée aux gros jeux de données NMDS maximise l adéquation entre la mesure de distance et la distance dans l espace d ordination. pour augmenter la vraisemblance de trouver une solution correcte, une DCA est souvent faite a priori.

27 Nonmetric Multidimensional Scaling (NMDS) principe partir de D = [D ij ] matrice de "distance" (pas forcément symétrique) l utilisateur choisit une dimension n pour la représentation dans l espace assigne aléatoirement les coordonnées de chaque point dans l espace à n dimensions répéter les étapes suivantes pour minimiser le Stress: 1 calculer d = [d ij ] matrice de distance entre les points de l espace à n dimensions (avec une métrique euclidienne par exemple) 2 régresser d ij sur D ij : par exemple avec un modèle linéaire ˆd ij = α β D ij 3 calculer la fonction de Stress: par exemple Stress = i,j (d ij ˆd ij ) 2 / i,j d 2 ij 4 changer les coordonnées des points pour diminuer le Stress

28 Nonmetric Multidimensional Scaling (NMDS) limitations la procédure utilise seulement l information de rangs le résultat va changer en fonction du nombre d axes choisis a priori assume que la dissimilarité est reliée à la distance écologique de manière monotonique Pas de garantie que la solution la meilleure soit trouvée (le plus petit stress recommendations essayer un grand nombre de points de départ pour trouver le bon minimum essayer un grand nombre de dimensions, l optimum est sélectionné en fonction de l heuristique du coude

29 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

30 approches basées sur les valeurs propres analyse des valeurs propres est possible sur une matrice carrée, symétrique donne une série de valeurs et de vecteurs propres. la plus grande valeur propre est souvent appelée la valeur dominante la valeur propre est une mesure de la force d un axe: la quantité de variance expliquée par un axe et, idéalement, l importance d un gradient écologique. si calculée sur une matrice de corrélation, la somme des valeurs propres sera égales au nombre de variables/espèces. si calculée sur une matrice de covariance, la somme des valeurs propres sera égales à la somme de la variance de toutes les espèces.

31 Principal Components Analysis (PCA) - Pearson 1901 objectives décrire une matrice de données en réduisant ses dimensions trouver des combinaisons linéaires non corrélées des variables de départ qui maximise la variance description/caractéristiques rotation de la matrice de données: ne change pas la position relative des points, change le système de coordonnées. axes créés tel que la distance orthogonale de chaque objet aux axes soient minimisée bonne méthode pour des données qui ne sont pas dans la même unité (faire une standardisation a priori), Ok avec les valeurs négatives

32 PCA - Illustration Exemple de données

33 PCA - Illustration Détermination du 1er axe

34 PCA - Illustration Détermination du 2nd axe

35 PCA - Illustration Détermination du 2nd axe

36 PCA - limitations utilisée surtout pour des données continues; peu efficiente quand les données ne sont pas bien résumées par leur variance/covariance considère seulement des combinaisons linéaires de variables, inefficiente pour trouver des combinaisons non linéaires gros problème pour les données écologiques: l effet horseshoe causée par la réponse unimodale des espèces sur un gradient.

37 Correspondence Analysis (CA) or Reciprocal Averaging - Hirschfeld 1935 objective décrire un tableau de contingence en réduisant le nombre de ses dimensions ordonne simultanément les espèces et les sites en maximisant la corrélation entre les scores d espèces et les scores de sites principle: Reciprocal Averaging algorithm 1 pour chaque site i, calculer la moyenne pondérée de tous les j w ij score sp j scores d espèce: score sample i = j w ij le "poids" w ij est l abondance de l espèce j dans le site i. 2 pour chaque espèce j calculer le score sp j = 3 standardiser les scores d espèces et de sites 4 répéter les étapes 1 à 3 jusqu à convergence i w ij score sample i i w ij

38 Correspondence Analysis (CA) description/characteristics le résultat final est que les scores d espèces et de sites seront corrélés au maximum entre eux la valeur propre est une mesure de ce degré de corrélation ( Correspondence Analysis) par exemple, une valeur propre de 1.0 implique qu un site (ou groupe de site) ne partage aucune espèce avec les autres le 1er axe est souvent interprété comme étant relié à un gradient environnemental important. on peut rajouter facilement des points sans affecter le reste de l ordination.

39 Correspondence Analysis (CA) limitations la procédure n est efficace que pour des données type tableaux de contingence car sinon la distance du χ 2 n est pas adaptée. la procédure n est pas adaptée à des données non linéaires; des relations non linéaires l effet ARC l arc n est pas un problème aussi sérieux que l effet horseshoe en PCA (extrémités des axes non convoluées). extrémités du gradient compressées

40

41 Detrended Correspondence Analysis (DCA) - Hill & Gauch 1979 DCA est probablement la technique d ordination la plus employée aujourd hui c est une extension de la CA, des coordonnées d espèces et de sites sont produites le 1er axe a la même valeur propre qu en CA l arc est supprimé en divisant le 1er axe en segments et en les recentrant limitations données supplémentaires difficilement ajoutables pas de fondements mathématiques très sensible au nombre de paramètres qui déterminent le nombre de segments détruire un vrai arc (s il existe)

42 CA: compression des extrémités

43 CA: correlations des axes

44 DCA: detrending

45 DCA plot

46 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

47 PCA - horseshoe effect species abundances species species environmental gradient species 1

48 PCA - Horseshoe effect d = 1 Projection des données dans le1 er plan factoriel

49 PCA - Horseshoe effect gradient PCA axe 1 Vrai gradient vs gradient prédit par la 1re composante de la PCA

50 NMDS - Horseshoe effect gradient NMDS distance Euclidienne Vrai gradient vs gradient prédit par une MDS en métrique euclidienne

51 NMDS - Horseshoe effect gradient NMDS distance Mahalanobis Vrai gradient vs gradient prédit par une NMDS en métrique de Mahalanobis

52 NMDS - Horseshoe effect gradient NMDS distance Bray Curtis vrai gradient vs gradient prédit par une NMDS en métrique de Bray-Curtis

53 CA - Arch effect CA1 CA2 Projection de données dans le 1 er plan factoriel

54 CA - Arch effect gradient CA axe 1 vrai gradient vs gradient prédit par la 1re composante de la CA

55 DCA généralités gradient indirect gradient direct conclusion distance valeurs propres horseshoe R DCA DCA1 Projection des données dans le 1 er plan factoriel

56 DCA gradient DCA axe 1 vrai gradient vs gradient prédit par la 1re composante de la PCA

57 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

58 application avec R: package vegan données de végétation dunaire data(dune) description: les colonnes représentent les valeurs d abondance de 30 espèces, les lignes représentent les 20 sites échantillonnés sites Belper Empnig Junbuf Junart Airpra Elepal Rumace

59 PCoA avec ecodist PCoA avec la distance de Bray-Curtis Dist.dune=distance(dune,"bray") PCoA.dune=pco(Dist.dune) PCoA.dune$values/sum(PCoA.dune$values): plot(pcoa.dune$vectors[,1],pcoa.dune$vectors[,2]): PCO AXE PCO AXE 1

60 PCA avec R PCA.dune=princomp(t(dune)) summary(pca.dune) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5... Std deviation Prop. of Variance Cum. Proportion plot(pca.dune) PCA.dune Variances Comp.1 Comp.3 Comp.5 Comp.7 Comp.9

61 PCA avec R: sortie graphique biplot(pca.dune) Comp Plalan 10 7 Lolper 5 Antodo 11 Achmil Rumace Tripra Brohor 17 2 Poapra 1 18 Leoaut 19 Hyprad Trirep BelperViclat Empnig Airpra Cirarv Chealb Elyrep Salrep Potpal Brarut Junbuf Sagpro Calcus Poatri Ranfla Junart Elepal Alogen 16 Agrsto Comp

62 CA avec vegan CA.dune=cca(dune) summary(ca.dune) Partitioning of mean squared contingency coefficient: Inertia Proportion Total Unconstrained Eigenvalues, and their contribution to the mean squared contingency coefficient Importance of components: CA1 CA2 CA3 CA4 CA5... Eigenvalue Proportion Explained Cumulative Proportion

63 CA avec vegan: sortie graphique plot(ca.dune) CA Empnig 19 Airpra Hyprad Salrep Antodo Potpal Calcus Viclat Leoaut Elepal Plalan Brarut Ranfla Achmil Junart 16 Trirep Sagpro Tripra Rumace Agrsto Belper Lolper Poapra 8 Brohor Poatri Alogen 2 Elyrep Junbuf 12 Cirarv 4 9 Chealb CA1

64 DCA avec Vegan DCA.dune=decorana(dune) summary(dca.dune) Detrended correspondence analysis with 26 segments. Rescaling of axes with 4 iterations. DCA1 DCA2 DCA3 DCA4 Eigenvalues Decorana values Axis lengths Species scores: DCA1 DCA2 DCA3 DCA4 Totals Belper Empnig Junbuf Junart

65 DCA avec Vegan: sortie graphique plot(dca.dune) Empnig DCA AirpraHyprad Salrep 19 Antodo Sagpro Leoaut Brarut 17 Viclat 20 Cirarv Junart Ranfla Calcus Junbuf Agrsto Trirep Elepal Alogen Chealb Plalan Rumace Potpal Tripra Belper Poapra 2 Poatri Lolper 1 Brohor Elyrep Achmil DCA1

66 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

67 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R analyse directe de gradient les espèces sont directement reliées à des facteurs environnementaux mesurés résultat: les axes sont des fonctions des facteurs environnementaux mesurés ordination contrainte les scores des sites sont contraints à être des combinaisons linéaires des variables environnementales significativité des variables peut être testée par une procédure de permutation les deux techniques les plus employées: Redundancy Analysis (RDA) PCA contrainte (modèle linéaire) Canonical Correspondence Analysis (CCA) CA contrainte (modèle unimodal)

68 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R Redundancy Analysis (RDA) - Rao 1964 espèces et variables environnementales sont représentées simultanément CCA est adaptée pour des analyses de composition spécifique basée sur l abondance relative. Si vous avez un gradient sur lequel toutes vos espèces sont favorisées, la RDA va le détecter alors que la CCA non possible d utiliser des vecteurs espèces mesurées en différentes unités (mais centrage et standardisation préalable) très utile quand les gradient sont petits méthode de prédilection pour les travaux short-term partitions de variance et interprétation des résultats plus intuitive qu en CCA. La RDA n est pas plus ou moins valable que la CCA (!!). elle est simplement utile pour différents objectifs.

69 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R RDA principe ordination d une matrice Y sous contrainte de la matrice X Y X caler Y par régression multiple Ŷ = X(X X) 1 X Y faire une PCA sur Ŷ U matrice de vecteurs propres ordination dans l espace X: Ŷ U ordination dans l espace Y : Y U

70 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R Canonical Correspondence Analysis (CCA) - ter Braak 1986 Canonical Correspondence Analysis est le mariage entre une CA et une régression multiple. mathématiquement c est la même chose que la RDA sauf que Ŷ est obtenu avec une régression multiple pondérée CCA maximise les corrélations entre les scores d espèces et les scores de sites les scores de sites sont contraints d être des combinaisons linéaires des variables explicatives. à cause des contraintes, les valeurs propres en CCA seront plus petites qu en CA. quelques variantes: Detrended CCA, partial CCA...

71 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

72 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R application avec R: package vegan données de végétation dunaire data(dune) description: les colonnes représentent les valeurs d abondance de 30 espèces, les lignes représentent les 20 sites échantillonnés sites Belper Empnig Junbuf Junart Airpra Elepal Rumace

73 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R application avec R: package vegan données environnementales correspondantes data(dune.env) description: caractéristiques de sols des mêmes sites sites A1 Moisture Management UseManure BFHaypastu SFHaypastu SFHaypastu SFPasture HFHaypastu SFHaypastu HFPasture HFHayfield NMHayfield NMHaypastu

74 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R CCA with vegan CCA.dune=cca(dune as.numeric(moisture)a1as.numeric(manure),data=d Call: cca(formula = dune data = dune.env) Inertia Rank Total Constrained Unconstrained Inertia is mean squared contingency coefficient Eigenvalues for constrained axes: CCA1 CCA2 CCA Eigenvalues for unconstrained axes: as.numeric(moisture) A1 as.numeric(manure), CA1 CA2 CA3 CA4 CA5 CA6 CA (Showed only 7of all 17 unconstrained eigenvalues)

75 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R CCA with vegan: graphical output plot(vare.cca) CCA Cirarv 13 as.numeric(manure) Chealb 9 Alogen ElyrepPoatri Agrsto Lolper Tripra Poapra Sagpro Brohor Belper Junbuf Rumace A1 Elepal 57 as.numeric(moisture) Junart Ranfla Trirep 6Achmil Brarut 15 Plalan Leoaut Calcus 10 Potpal 14 Antodo 11 Viclat 20 Hyprad 18 Salrep Airpra Empnig CCA1

76 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R RDA with vegan RDA.dune=rda(dune as.numeric(moisture)a1as.numeric(manure),data=d Call: rda(formula = dune data = dune.env) Inertia Rank Total Constrained Unconstrained Inertia is variance Eigenvalues for constrained axes: RDA1 RDA2 RDA Eigenvalues for unconstrained axes: as.numeric(moisture) A1 as.numeric(manure), PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC

77 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R RDA with vegan: graphical output plot(rda.dune) RDA Leoaut Antodo Trirep Brarut Hyprad Salrep 5 Plalan Achmil Viclat Empnig Airpra Potpal Calcus Ranfla Junart 7 Rumace Belper Tripra Elepal Brohor Cirarv Chealb Junbuf Sagpro Poapra Elyrep Lolper 1 Agrsto Alogen 2 Poatri as.numeric(manure) A1 as.numeric(moisture) RDA1

78 généralités gradient indirect gradient direct conclusion 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

79 généralités gradient indirect gradient direct conclusion analyse directe de gradient: sélection des méthodes direct gradient analysis few species many species linear responses linear regression unimodal responses glm linear responses RDA arch effect unimodal responses no arch effect DCCA CCA

80 généralités gradient indirect gradient direct conclusion analyse indirecte de gradient: sélection des méthodes indirect gradient analysis distance data raw data linear responses PCoA unimodal responses NMDS linear responses PCA unimodal responses NMDS arch effect DCA no arch effect CA

81 généralités gradient indirect gradient direct conclusion quelques références Legendre, P. and Legendre, L. (1998) Numerical Ecology. 2nd English ed. Elsevier. Jongman, R. H., ter Braak, C. J. F.. Van Tongeren O. F. R (1995) Data analysis in community and landscape ecology. Cambridge Univ. Press McCune, B. (1997) Influence of noisy environmental data on canonical correspondence analysis. Ecology 78, Palmer, M. W. (1993) Putting things in even better order: The advantages of canonical correspondence analysis. Ecology 74, Palmer website: Ordination Methods for Ecologists Minchin, P.R An evaluation of the relative robustness of techniques for ecological ordination. Vegetatio 96: Ter Braak, C. J. F. (1986) Canonical Correspondence Analysis: a new eigenvector technique for multivariate direct gradient analysis. Ecology 67, Kruskal, J.B Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis. Psychometrika 29:1-27.

Chapitre 5. Les techniques d analyse factorielle des données de végétation

Chapitre 5. Les techniques d analyse factorielle des données de végétation Chapitre 5. Les techniques d analyse factorielle des données de végétation par Guy BOUXIN 1. Introduction L analyse des données, sensu BOUROUCHE & SAPORTA, (1980) regroupe des méthodes très nombreuses

Plus en détail

Base de données et logiciels

Base de données et logiciels Base de données et logiciels par G. BOUXIN Tout d abord, nos programmes personnels utilisés dans les divers paragraphes sont décrits. Ensuite, deux outils également utiles parmi d autres présentés : l

Plus en détail

Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon

Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon Table des matières 1 Graph Kernels for Molecular Structure-Activity Relationship Analysis

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 29/01/2007 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE Plan du cours Qu est-ce que le data mining? À quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Analyse discriminante

Analyse discriminante Analyse discriminante Christine Decaestecker & Marco Saerens ULB & UCL LINF2275 1 Analyse Discriminante Particularités: 2 formes/utilisations complémentaires: méthode factorielle: description "géométrique"

Plus en détail

Analyse des données individuelles groupées

Analyse des données individuelles groupées Analyse des données individuelles groupées Analyse des Temps de Réponse Le modèle mixte linéaire (L2M) Y ij, j-ième observation continue de l individu i (i = 1,, N ; j =1,, n) et le vecteur des réponses

Plus en détail

L analyse discriminante

L analyse discriminante L analyse discriminante À Propos de ce document... Introduction... La démarche à suivre sous SPSS... 2. Statistics... 2 2. Classify... 2 Analyse des résultats... 3. Vérification de l existence de différences

Plus en détail

Chapitre 6. L analyse des données au lieu de l ordination, réflexion illustrée avec un tableau floristique

Chapitre 6. L analyse des données au lieu de l ordination, réflexion illustrée avec un tableau floristique Analyse des données contre ordination 2014 Chapitre 6. L analyse des données au lieu de l ordination, réflexion illustrée avec un tableau floristique par Guy BOUXIN Résumé L analyse des tableaux de relevés

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité

Introduction à l analyse des données. Analyse des Données (1) Exemple, ville et (in)sécurité. Exemple, ville et (in)sécurité Introduction à l analyse des données Analyse des Données () Le but de l analyse de données est de synthétiser, structurer l information contenue dans des données multidimensionnelles Deux groupes de méthodes

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

Analyse de données longitudinales continues avec applications

Analyse de données longitudinales continues avec applications Université de Liège Département de Mathématique 29 Octobre 2002 Analyse de données longitudinales continues avec applications David MAGIS 1 Programme 1. Introduction 2. Exemples 3. Méthodes simples 4.

Plus en détail

EXEMPLE : FAILLITE D ENTREPRISES

EXEMPLE : FAILLITE D ENTREPRISES EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : «Applied Multivariate Statistical

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

Analyse en Composantes. Principales

Analyse en Composantes. Principales AgroParisTech Analyse en Composantes Principales C Duby, S Robin Table des matières Introduction 3 2 Tableau de données 4 3 Choix d une distance 6 4 Choix de l origine 7 5 Moments d inertie 9 5 Inertie

Plus en détail

Cours 2-3 Analyse des données multivariées

Cours 2-3 Analyse des données multivariées Cours 2-3 des données s Ismaël Castillo École des Ponts, 13 Novembre 2012 Plan 1 2 3 4 1. On s intéresse à un jeu de données multi-dimensionel, avec n individus observés et p variables d intérêt ( variables

Plus en détail

Sélection de modèles avec l AIC et critères d information dérivés

Sélection de modèles avec l AIC et critères d information dérivés Sélection de modèles avec l AIC et critères d information dérivés Renaud LANCELOT et Matthieu LESNOFF Version 3, Novembre 2005 Ceci n est pas une revue exhaustive mais une courte introduction sur l'utilisation

Plus en détail

Approche bayésienne des modèles à équations structurelles

Approche bayésienne des modèles à équations structurelles Manuscrit auteur, publié dans "42èmes Journées de Statistique (2010)" Approche bayésienne des modèles à équations structurelles Séverine Demeyer 1,2 & Nicolas Fischer 1 & Gilbert Saporta 2 1 LNE, Laboratoire

Plus en détail

Université de Thessalie Département d Aménagement, D Urbanisme et Développement Régional

Université de Thessalie Département d Aménagement, D Urbanisme et Développement Régional Université de Thessalie Département d Aménagement, D Urbanisme et Développement Régional Enseignant : As. Pr. Marie-Noelle Duquenne I. Les Méthodes factorielles La question traitée dans ce document porte

Plus en détail

Examen d accès - 28 Septembre 2012

Examen d accès - 28 Septembre 2012 Examen d accès - 28 Septembre 2012 Aucun document autorisé - Calculatrice fournie par le centre d examen Cet examen est un questionnaire à choix multiples constitué de 50 questions. Plusieurs réponses

Plus en détail

Initiation à l analyse en composantes principales

Initiation à l analyse en composantes principales Fiche TD avec le logiciel : tdr1103 Initiation à l analyse en composantes principales A.B. Dufour & D. Clot Une première approche très intuitive et interactive de l ACP. Table des matières 1 Introduction

Plus en détail

WEKA, un logiciel libre d apprentissage et de data mining

WEKA, un logiciel libre d apprentissage et de data mining WEKA, un logiciel libre d apprentissage et de data mining Yves Lechevallier INRIA-Rocquencourt Présentation de WEKA 3.4 Format ARFF WEKA Explorer WEKA Experiment Environment WEKA KnowledgeFlow E_mail :

Plus en détail

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant

X1 = Cash flow/ Dette totale. X2 = Revenu net / Total des actifs au bilan. X3 = Actif réalisable et disponible / Passif courant EXEMPLE : FAILLITE D ENTREPRISES Cet exemple a pour objectif d étudier la faillite d entreprises. Les données proviennent de l ouvrage de R.A.Johnson et D.W Wichern : Applied Multivariate Statistical Analysis»,

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

Le modèle linéaire généralisé avec R : fonction glm()

Le modèle linéaire généralisé avec R : fonction glm() SEMIN- Le modèle linéaire généralisé avec R : fonction glm() Sébastien BALLESTEROS UMR 7625 Ecologie Evolution Ecole Normale Supérieure 46 rue d'ulm F-75230 Paris Cedex 05 sebastien.ballesteros@biologie.ens.fr

Plus en détail

Méthodes d apprentissage statistique («Machine Learning»)

Méthodes d apprentissage statistique («Machine Learning») Méthodes d apprentissage statistique («Machine Learning») Journées d Etudes IARD Niort, 21 Mars 2014 Fabrice TAILLIEU Sébastien DELUCINGE Rémi BELLINA 2014 Milliman. All rights reserved Sommaire Introduction

Plus en détail

Quelques analyses simples avec R en écologie des communautés

Quelques analyses simples avec R en écologie des communautés Jérôme Mathieu janvier 2007 Quelques analyses simples avec R en écologie des communautés 1 Visualisation des données... 2 Aperçu rapide d'un tableau de données... 3 Visualiser les corrélations entre des

Plus en détail

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Cours 7 : Exemples. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Cours 7 : Exemples I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de

Plus en détail

Économétrie 2 : données qualitatives, probit et logit

Économétrie 2 : données qualitatives, probit et logit URCA Hugo Harari-Kermadec 2008-2009 harari@ecogest.ens-cachan.fr Économétrie 2 : données qualitatives, probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC)

L3 Géographie UE Méthodologie. Statistiques COURS 1. Salle 125. Intervenants : Nadège. UMR Centre de Recherches de Climatologie (CRC) L3 Géographie UE Méthodologie Statistiques COURS 1 Salle 125 Intervenants : Nadège Martiny & Julien Crétat UFR Sciences Humaines (Département de Géographie) UMR Centre de Recherches de Climatologie (CRC)

Plus en détail

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions :

Probabilités. I- Expérience aléatoire, espace probabilisé : ShotGun. 1- Définitions : Probabilités I- Expérience aléatoire, espace probabilisé : 1- Définitions : Ω : Ensemble dont les points w sont les résultats possibles de l expérience Des évènements A parties de Ω appartiennent à A une

Plus en détail

Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus²

Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus² Le Sphinx Millenium Modes opératoires d'analyse de données Traitements et analyses avec Le Sphinx Plus² Le Sphinx Développement Parc Altaïs 74650 CHAVANOD Tél : 33 / 4.50.69.82.98. Fax : 33 / 4.50.69.82.78.

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM Emmanuel Rachelson and Matthieu Vignes 9 octobre 2013, SupAero - ISAE 1 Présidentielles 2008 - AFC Récupérer les données,

Plus en détail

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1 33 Math. Inf. Sci. hum., (33 e année, n 130, 1995, pp.33-42) UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES Éric TÉROUANNE 1 RÉSUMÉ Le stéréogramme de liaison est

Plus en détail

Séance 8 : Régression Logistique

Séance 8 : Régression Logistique Séance 8 : Régression Logistique Sommaire Proc LOGISTIC : Régression logistique... 2 Exemple commenté : Achat en (t+1) à partir du sexe et du chiffre d affaires de la période précédente. 4 La régression

Plus en détail

La régression logistique PLS

La régression logistique PLS La régression logistique PLS Michel Tenenhaus Groupe HEC, 78351 Jouy-en-Josas 1 Introduction La régression PLS permet de relier une ou plusieurs variables de réponse y àun ensemble de variables prédictives

Plus en détail

Traitement informatique d un tableau de données statistiques. Classes de logiciels de statistique.

Traitement informatique d un tableau de données statistiques. Classes de logiciels de statistique. Traitement informatique d un tableau de données statistiques. Classes de logiciels de statistique. B. Govaerts - Institut de Statistique - UCL STAT2430 Traitements de données et classes de logiciels Page

Plus en détail

Individus et informations supplémentaires

Individus et informations supplémentaires ADE-4 Individus et informations supplémentaires Résumé La fiche décrit l usage des individus supplémentaires dans des circonstances variées. En particulier, cette pratique est étendue aux analyses inter

Plus en détail

Gestion obligataire passive

Gestion obligataire passive Finance 1 Université d Evry Séance 7 Gestion obligataire passive Philippe Priaulet L efficience des marchés Stratégies passives Qu est-ce qu un bon benchmark? Réplication simple Réplication par échantillonnage

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

Données qualitatives, modèles probit et logit

Données qualitatives, modèles probit et logit Données qualitatives, modèles probit et logit I Un modèle pour données qualitatives Cette section est fortement inspirée du cours de Christophe Hurlin. On est confronté à des données qualitatives en micro-économie

Plus en détail

REGRESSION MULTIPLE: CONSOMMATION D ELECTRICITE

REGRESSION MULTIPLE: CONSOMMATION D ELECTRICITE REGRESSION MULTIPLE: CONSOMMATION D ELECTRICITE LES DONNEES OBS KW SURFACE PERS PAVILLON AGE VOL SBAINS 1 4805 130 4 1 65 410 1 2 3783 123 4 1 5 307 2 3 2689 98 3 0 18 254 1 4 5683 178 6 1 77 570 3 5 3750

Plus en détail

Analyses statistiques multivariées. Béatrice de Tilière

Analyses statistiques multivariées. Béatrice de Tilière Analyses statistiques multivariées Béatrice de Tilière 23 novembre 2009 ii Table des matières 1 La Statistique 1 1.1 Généralités.................................. 1 1.2 Un peu de vocabulaire............................

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Plan du cours Analyse en Composantes Principales Introduction Les données Leurs représentations La méthode Modèle Interprétation statistique Espace principal Composantes Principales Représentations Graphiques

Plus en détail

Exercice : la frontière des portefeuilles optimaux sans actif certain

Exercice : la frontière des portefeuilles optimaux sans actif certain Exercice : la frontière des portefeuilles optimaux sans actif certain Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Février 0 On considère un univers de titres constitué

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

La notion de dualité

La notion de dualité La notion de dualité Dual d un PL sous forme standard Un programme linéaire est caractérisé par le tableau simplexe [ ] A b. c Par définition, le problème dual est obtenu en transposant ce tableau. [ A

Plus en détail

Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015

Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015 Travaux dirigés - Régression linéaire simple: corrigé partiel Julien Chiquet et Guillem Rigaill 1er octobre 2015 Quelques révisions de R 1. Manipulation de vecteur. On rappelle que e x = k 0 Créer dans

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE

Chapitre 9 ANALYSE MULTIDIMENSIONNELLE Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 9 ANALYSE MULTIDIMENSIONNELLE L analyse des données multidimensionnelles regroupe un ensemble de méthodes

Plus en détail

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry Outils mathématiques pour le datamining http://wwwelsewarefr/univevry Géométrie Distance Distance entre parties Matrice de variance/covariance Inertie Minimisation Probabilités Définition Théorème de Bayes

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Normalité des rendements?

Normalité des rendements? Normalité des rendements? Daniel Herlemont 31 mars 2011 Table des matières 1 Introduction 1 2 Test de Normalité des rendements 2 3 Graphiques quantile-quantile 2 4 Estimation par maximum de vraisemblance

Plus en détail

Travaux pratiques de Génie Informatique TP 2 & 3. séances, mais vous pouvez en faire plus. Essayer d aller le plus loin possible.

Travaux pratiques de Génie Informatique TP 2 & 3. séances, mais vous pouvez en faire plus. Essayer d aller le plus loin possible. 1 BUT DE LA SÉANCE. TRAVAUX PRATIQUES DE GÉNIE INFORMATIQUE Ces deuxième et troisième séances ont pour but de vous faire avancer dans la programmation sous Matlab. Vous y découvrez les fonctions, les sous-programmes

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET

ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET EXEMPLE D APPLICATION Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus, 35042 Rennes cedex email : pages@agrorennes.educagri.fr Résumé

Plus en détail

ANOVA : analyse de variance univariée

ANOVA : analyse de variance univariée Résumé Le chapitre 3 est consacré aux plans factoriels. Il s agit de l appellation appropriée, bien qu assez peu employée, de l analyse de variance, appelée par les anglo-saxons ANalysis Of VAriance et,

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure

Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure Analyse de données transcriptomiques : de leur visualisation à l intégration d information extérieure Marie Verbanck Laboratoire de Mathématiques Appliquées, Agrocampus OUEST Soutenance de thèse - 4 septembre

Plus en détail

Cours de Statistiques

Cours de Statistiques Cours de Statistiques Romain Raveaux 1 1 Laboratoire L3I Université de La Rochelle romain.raveaux01 at univ-lr.fr Octobre 24-11, 2008 1 / 35 Sommaire 1 Quelques Rappels 2 numériques Relations entre deux

Plus en détail

Université d Orléans - Maitrise Econométrie Econométrie des Variables Qualitatives

Université d Orléans - Maitrise Econométrie Econométrie des Variables Qualitatives Université d Orléans - Maitrise Econométrie Econométrie des Variables Qualitatives Examen Décembre 00. C. Hurlin Exercice 1 (15 points) : Politique de Dividendes On considère un problème de politique de

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Résolution d un problème d assimilation variationnelle 4D-VAR par des modèles réduits POD adaptatifs

Résolution d un problème d assimilation variationnelle 4D-VAR par des modèles réduits POD adaptatifs Résolution d un problème d assimilation variationnelle 4D-VAR par des modèles réduits POD adaptatifs G. TISSOT, L. CORDIER, B. R. NOACK Institut Pprime, Dpt. Fluides, Thermique et Combustion, 8636 Poitiers

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

Eléments de statistique Introduction - Analyse de données exploratoire

Eléments de statistique Introduction - Analyse de données exploratoire Eléments de statistique Introduction - Louis Wehenkel Département d Electricité, Electronique et Informatique - Université de Liège B24/II.93 - L.Wehenkel@ulg.ac.be MATH0487-2 : 3BacIng, 3BacInf - 16/9/2014

Plus en détail

ANALYSE BIVARIÉE DE VARIABLES QUALITATIVES LE TEST DU Chi2

ANALYSE BIVARIÉE DE VARIABLES QUALITATIVES LE TEST DU Chi2 ANALYSE BIVARIÉE DE VARIABLES QUALITATIVES LE TEST DU Chi2 Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Analyse des correspondances avec colonne de référence

Analyse des correspondances avec colonne de référence ADE-4 Analyse des correspondances avec colonne de référence Résumé Quand une table de contingence contient une colonne de poids très élevé, cette colonne peut servir de point de référence. La distribution

Plus en détail

S-Plus. Prise en main rapide

S-Plus. Prise en main rapide 1 S-Plus Prise en main rapide Rachid BOUMAZA INH Département ETIC rachid.boumaza@inh.fr AVANT-PROPOS Ce document n'est pas un manuel d'utilisation du logiciel S-Plus mais une invitation à aller découvrir

Plus en détail

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE

TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE TESTS STATISTIQUES: COMPARAISON, INDÉPENDANCE ET RÉGRESSION LINÉAIRE Les résultats donnés par R et SAS donnent les valeurs des tests, la valeur-p ainsi que les intervalles de confiance. TEST DE COMPARAISON

Plus en détail

TP1 Master Finance logiciels Introduction à R

TP1 Master Finance logiciels Introduction à R TP1 Master Finance logiciels Introduction à R Emeline Schmisser, emeline.schmisser@math.univ-lille1.fr, bureau 314 (bâtiment M3). 1 Séquences, Vecteurs, Matrice Tableaux (arrays) Pour obtenir l aide de

Plus en détail

Analyse de données fonctionnelles avec le paquet fda

Analyse de données fonctionnelles avec le paquet fda Analyse de données fonctionnelles avec le paquet fda Christophe Pouzat Jeudi 29 mars 2012 Outline Introduction Des données brutes aux fonctions Analyse de l échantillon de fonctions Sommaire Introduction

Plus en détail

Simulations de Monte Carlo en finance : Pricer d option

Simulations de Monte Carlo en finance : Pricer d option Emma Alfonsi, Xavier Milhaud - M2R SAF Simulations de Monte Carlo en finance : Pricer d option Sous la direction de M. Pierre Alain Patard ISFA - Mars 2008 . 1 Table des matières 1 Introduction 4 2 Un

Plus en détail

Master Modélisation Statistique M2 Finance - chapitre 1. Gestion optimale de portefeuille, l approche de Markowitz

Master Modélisation Statistique M2 Finance - chapitre 1. Gestion optimale de portefeuille, l approche de Markowitz Master Modélisation Statistique M2 Finance - chapitre 1 Gestion optimale de portefeuille, l approche de Markowitz Clément Dombry, Laboratoire de Mathématiques de Besançon, Université de Franche-Comté.

Plus en détail

Programmation Linéaire - Cours 1

Programmation Linéaire - Cours 1 Programmation Linéaire - Cours 1 P. Pesneau pierre.pesneau@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 265 Ouvrages de référence V. Chvátal - Linear Programming, W.H.Freeman, New York, 1983.

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Initiation à l analyse en composantes principales

Initiation à l analyse en composantes principales Fiche TD avec le logiciel : tdr601 Initiation à l analyse en composantes principales A.B. Dufour & J.R. Lobry Une première approche très intuitive et interactive de l ACP. Centrage et réduction des données.

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

UNE INTRODUCTION A L'ANALYSE FACTORIELLE DES CORRESPONDANCES AVEC. SPSS pour Windows. Dominique Desbois

UNE INTRODUCTION A L'ANALYSE FACTORIELLE DES CORRESPONDANCES AVEC. SPSS pour Windows. Dominique Desbois 61 UNE INTRODUCTION A L'ANALYSE FACTORIELLE DES CORRESPONDANCES AVEC SPSS pour Windows Dominique Desbois INRA-ESR Nancy et SCEES 4 avenue de Saint-Mandé, 75570 Paris Cedex 1 Fax : +33 1 49 55 85 00 E-mail

Plus en détail

Analyse de données et méthodes numériques

Analyse de données et méthodes numériques Analyse de données et méthodes numériques Analyse de données: Que faire avec un résultat? Comment le décrire? Comment l analyser? Quels sont les «modèles» mathématiques associés? Analyse de données et

Plus en détail

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) 1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires

Plus en détail

CHAPITRE 5. Stratégies Mixtes

CHAPITRE 5. Stratégies Mixtes CHAPITRE 5 Stratégies Mixtes Un des problèmes inhérents au concept d équilibre de Nash en stratégies pures est que pour certains jeux, de tels équilibres n existent pas. P.ex.le jeu de Pierre, Papier,

Plus en détail

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université

Plus en détail

Prise en compte des données manquantes en ACP - imputation simple et multiple

Prise en compte des données manquantes en ACP - imputation simple et multiple Prise en compte des données manquantes en ACP - imputation simple et multiple Julie Josse Laboratoire de mathématiques appliquées, Agrocampus Ouest Jouy-en-Josas, 7 mars 2011 1 / 38 Laboratoire de mathématiques

Plus en détail

Analyses statistiques avec

Analyses statistiques avec Analyses statistiques avec Introduction et éléments de base M. Bailly-Bechet, adapté de J. R. Lobry, adapté de Deepayan Sarkar Biostatistiques & Bioinformatique (L2) Table des matières Premiers pas en

Plus en détail

Métabolomique TP2 Traitement et Analyse de données métabolomiques

Métabolomique TP2 Traitement et Analyse de données métabolomiques Métabolomique TP2 Traitement et Analyse de données métabolomiques Professeurs: Christian Baron & Christine des Rosiers 1 BCM2003-H15 Métabolomique Démonstratrice: Sarah Cherkaoui Questions: Par courriel:

Plus en détail

Formulaire de maths Algèbre linéaire et multilinéaire

Formulaire de maths Algèbre linéaire et multilinéaire Formulaire de maths Algèbre linéaire et multilinéaire Nom Formule Espaces vectoriels Famille libre On dit que la famille est libre si Famille liée On dit que la famille est liée si Théorème de la base

Plus en détail

Modèles GARCH et à volatilité stochastique Université de Montréal 14 mars 2007

Modèles GARCH et à volatilité stochastique Université de Montréal 14 mars 2007 Université de Montréal 14 mars 2007 Christian FRANCQ GREMARS-EQUIPPE, Université Lille 3 Propriétés statistiques des modèles GARCH Outline 1 Identification 2 Test de bruit blanc faible Test d homoscédaticité

Plus en détail

Territoires, Environnement, Télédétection et Information Spatiale. Unité mixte de recherche Cemagref - CIRAD - ENGREF

Territoires, Environnement, Télédétection et Information Spatiale. Unité mixte de recherche Cemagref - CIRAD - ENGREF Territoires, Environnement, Télédétection et Information Spatiale Unité mixte de recherche Cemagref - CIRAD - ENGREF Master ère année Analyse spatiale, analyse géographique, spatialité des sociétés Master

Plus en détail