méthodes d ordination pour l analyse des données écologiques

Dimension: px
Commencer à balayer dès la page:

Download "méthodes d ordination pour l analyse des données écologiques"

Transcription

1 généralités gradient indirect gradient direct conclusion pour l analyse des données écologiques UMR Ecologie des forêts de Guyane bruno.herault@ecofog.gf & vivien.rossi@cirad.fr Ecole thématique - Méthodes et modèles pour l étude de la biodiversité amazonienne

2 plan généralités gradient indirect gradient direct conclusion 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

3 généralités gradient indirect gradient direct conclusion 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

4 généralités gradient indirect gradient direct conclusion introduction utilisateurs écologistes des communautés objectif analyser simultanément les effets de multiples facteurs environnementaux sur de multiples espèces approche méthodes statistiques d analyses multivariées classification: regroupe les espèces ordination: arrangement des espèces sur des gradients analyse indirecte de gradient analyse directe de gradient type de données matrice de données de communauté (abondance d espèces par échantillon) matrice associée de données covariées (seulement nécessaire pour l analyse directe de gradient)

5 généralités gradient indirect gradient direct conclusion

6 généralités gradient indirect gradient direct conclusion matrice de données de communauté espèces Q 1 Q 2 Q 3 Q 4... Q 12 Eschweilera sagotiana Couepia bracteosa Ecclinusa guianensis Lecythis persistens Ecclinusa guianensis Licania membranacea Iryanthera sagotiana Dicorynia guianensis Lecythis persistens Jacaranda copaia Cupania scrobiculata Nombre d arbres par quadrat

7 généralités gradient indirect gradient direct conclusion matrice associée de données covariées Q 1 Q 2 Q 3 Q 4... Q 12 ph pr cipitation altitude T 0 C sol type ferralsol acrisol stagnosol acrisol... ferralsol. chasse Caractéristiques environnementales

8 généralités gradient indirect gradient direct conclusion Objectif: représenter les relations entre les échantillons et les espèces dans un espace de faible dimension caractéristiques des données de communauté éparses: beaucoup de zéros, la plupart des espèces présentes dans peu d endroits faible dimensionnalité : beaucoup de facteurs peuvent influencer la composition spécifique mais peu sont importants bruit: forte variance entre les répliquas d une même communauté redondance: de nombreuses espèces ont des distributions similaires

9 généralités gradient indirect gradient direct conclusion bénéfices représenter les gradients environnementaux les plus importants et interprétables réduire le bruit en mettant l accent sur un espace de faible dimension efficacité statistique : une analyse globale vs de multiples analyses univariées limitations analyse exploratoire, pas de test statistique facile à utiliser chaque méthode a ses propres limitations bonne compréhension de la logique mathématique sous-jacente à chaque méthode pour choisir la méthode appropriée pour faire des interprétations pertinentes

10 généralités gradient indirect gradient direct conclusion Méthodes basées sur gradient type de données PO dist - - PCoA dist linéaire - NMDS dist - - PCA valeurs propres linéaire quantitative CA valeurs propres unimodal tableau de contingence ou au moins positives DCA valeurs propres unimodal tableau de contingence ou au moins positives

11 généralités gradient indirect gradient direct conclusion modèles de réponse unimodale modèles linéaires appropriés en écologie des communautés quand espèces abondantes (peu de zéros) faible gradient de variations environnementales le modèle unimodal peut être obtenu par: ajout d un terme quadratique x 2 au modèle linéaire mais cela peut engendrer des valeurs fortement négatives modéliser le logarithme des abondances spécifiques par une forme quadratique des variables environnementales courbe de réponse gaussienne: log y = a (x u)2 2 t 2 u: optimum ou mode, t: tolérance et c = exp(a): maximum

12 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

13 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

14 méthodes basées sur les distances ces méthodes font référence à une matrice de distance carrée, symétrique, aussi appelée matrice de similarité. à l inverse des méthodes basées sur les valeurs propres, ces méthodes ne donnent pas les scores des espèces et des sites simultanément. certaines méthodes valeurs propres sont des cas spéciaux de méthodes distance, où la distance est basée sur une distribution du χ 2. mais: la philosophie des méthodes valeurs propres est différente: elles ont pour objectif de positionner fidèlement les espèces sur un gradient (soit inféré soit mesuré), et pas de positionner les sites en fonction de leur similarité.

15 méthodes distance données: D = d 11 d d 1j... d 1n d 21 d d 2j... d 2n.... d i1 d i2... d ij... d in.... d n1 d n2... d nj... d nn avec d ij = distance(site i, site j ), la distance entre les sites i et j Les résultats peuvent changer en fonction de la fonction de distance utilisée

16 Exemple: données de végétation dunaire de 30 espèces sur 20 sites sites Belper Empnig Junbuf Junart Airpra Elepal Rumace

17 Exemple: données de végétation dunaire Distance euclidienne entre les sites: sites

18 Exemple: données de végétation dunaire Distance de Manhattan entre les sites: sites

19 Exemple: données de végétation dunaire Distance de Bray-Curtis entre les sites: sites

20 ordination polaire (PO) - Bray-Curtis 1957 probablement la technique la plus facile à visualiser l utilisateur doit pré-spécifier les sites extrêmes (il existe aussi des méthodes automatiques) ces sites extrêmes ont une position privilégiée, tous les autres sites vont être positionnés relativement à eux PO est la seule technique qui permet de contrôler la direction d un gradient (i.e. droite vs. gauche) de nouveaux sites peuvent être ajoutés sans affecter le résultat de l ordination 2 me et axes supplémentaires dépendent des choix de l utilisateur

21 ordination polaire: illustration Distances entre 10 sites : sites calcul du 1 er axe points extrêmes: 6 et 9 distance D = 461 Calcul des scores des sites: score i = D2 D 2 1i D2 2i 2 D avec D 1i /D 2i distances entre les sites i et le 1er/2ème point extrême. ex: score 1 =

22 ordination polaire: illustration Scores des sites: Ordination polaire suivant les scores

23 ordination polaire: illustration Scores des sites: Ordination polaire suivant les scores valeurs du gradient

24 Analyses en Coordonnées Principales - Metric multidimensional scaling (PCoA) - Gower 1966 objectif Décrire les données en réduisant les dimensions de la matrice de distance entre les objets graph caractéristiques maximiser les corrélations linéaires et les mesures de distance dans l ordination le modèle sous-jacent assume un nombre fixe de gradient. Au contraire, PCA, RA et DCA assument potentiellement de nombreux gradients mais d importance décroissante. généralisation de la PCA quand la distance est non-euclidienne (distance euclidienne PCoA = PCA) généralisation de la CA: distance du χ 2

25 Analyse en coordonnées principales (PCoA) principe (multidimensional scaling - MDS) soit D = [D ij ] une matrice de distance l utilisateur choisit la dimension n pour la représentation positionne aléatoirement les points dans l espace à n dimensions répéter les étapes suivantes pour minimiser le Stress: 1 calculer matrice [d ij ], distances euclidienne dans l espace à n dim 2 régresser d ij sur D ij avec le modèle linéaire ˆd ij = α β D ij 3 calculer la fonction de Stress: Stress = i,j (d ij ˆd ij ) 2 / i,j d 2 ij 4 bouger les coordonnées des points pour diminuer le Stress solution optimal vecteurs propres de D limitations Résultats dépendent de la mesure de distance choisie on ne peut pas modéliser de combinaisons de variables car seule la matrice de distance est utilisée on ne peut pas rajouter facilement de nouveaux points

26 Nonmetric Multidimensional Scaling (NMDS) - Kruskal 1964 objectifs décrire les données en réduisant le nombre de dimensions graph découvrir des relations non-linéaires caractéristiques NMDS est très computer-intensive, récemment appliquée aux gros jeux de données NMDS maximise l adéquation entre la mesure de distance et la distance dans l espace d ordination. pour augmenter la vraisemblance de trouver une solution correcte, une DCA est souvent faite a priori.

27 Nonmetric Multidimensional Scaling (NMDS) principe partir de D = [D ij ] matrice de "distance" (pas forcément symétrique) l utilisateur choisit une dimension n pour la représentation dans l espace assigne aléatoirement les coordonnées de chaque point dans l espace à n dimensions répéter les étapes suivantes pour minimiser le Stress: 1 calculer d = [d ij ] matrice de distance entre les points de l espace à n dimensions (avec une métrique euclidienne par exemple) 2 régresser d ij sur D ij : par exemple avec un modèle linéaire ˆd ij = α β D ij 3 calculer la fonction de Stress: par exemple Stress = i,j (d ij ˆd ij ) 2 / i,j d 2 ij 4 changer les coordonnées des points pour diminuer le Stress

28 Nonmetric Multidimensional Scaling (NMDS) limitations la procédure utilise seulement l information de rangs le résultat va changer en fonction du nombre d axes choisis a priori assume que la dissimilarité est reliée à la distance écologique de manière monotonique Pas de garantie que la solution la meilleure soit trouvée (le plus petit stress recommendations essayer un grand nombre de points de départ pour trouver le bon minimum essayer un grand nombre de dimensions, l optimum est sélectionné en fonction de l heuristique du coude

29 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

30 approches basées sur les valeurs propres analyse des valeurs propres est possible sur une matrice carrée, symétrique donne une série de valeurs et de vecteurs propres. la plus grande valeur propre est souvent appelée la valeur dominante la valeur propre est une mesure de la force d un axe: la quantité de variance expliquée par un axe et, idéalement, l importance d un gradient écologique. si calculée sur une matrice de corrélation, la somme des valeurs propres sera égales au nombre de variables/espèces. si calculée sur une matrice de covariance, la somme des valeurs propres sera égales à la somme de la variance de toutes les espèces.

31 Principal Components Analysis (PCA) - Pearson 1901 objectives décrire une matrice de données en réduisant ses dimensions trouver des combinaisons linéaires non corrélées des variables de départ qui maximise la variance description/caractéristiques rotation de la matrice de données: ne change pas la position relative des points, change le système de coordonnées. axes créés tel que la distance orthogonale de chaque objet aux axes soient minimisée bonne méthode pour des données qui ne sont pas dans la même unité (faire une standardisation a priori), Ok avec les valeurs négatives

32 PCA - Illustration Exemple de données

33 PCA - Illustration Détermination du 1er axe

34 PCA - Illustration Détermination du 2nd axe

35 PCA - Illustration Détermination du 2nd axe

36 PCA - limitations utilisée surtout pour des données continues; peu efficiente quand les données ne sont pas bien résumées par leur variance/covariance considère seulement des combinaisons linéaires de variables, inefficiente pour trouver des combinaisons non linéaires gros problème pour les données écologiques: l effet horseshoe causée par la réponse unimodale des espèces sur un gradient.

37 Correspondence Analysis (CA) or Reciprocal Averaging - Hirschfeld 1935 objective décrire un tableau de contingence en réduisant le nombre de ses dimensions ordonne simultanément les espèces et les sites en maximisant la corrélation entre les scores d espèces et les scores de sites principle: Reciprocal Averaging algorithm 1 pour chaque site i, calculer la moyenne pondérée de tous les j w ij score sp j scores d espèce: score sample i = j w ij le "poids" w ij est l abondance de l espèce j dans le site i. 2 pour chaque espèce j calculer le score sp j = 3 standardiser les scores d espèces et de sites 4 répéter les étapes 1 à 3 jusqu à convergence i w ij score sample i i w ij

38 Correspondence Analysis (CA) description/characteristics le résultat final est que les scores d espèces et de sites seront corrélés au maximum entre eux la valeur propre est une mesure de ce degré de corrélation ( Correspondence Analysis) par exemple, une valeur propre de 1.0 implique qu un site (ou groupe de site) ne partage aucune espèce avec les autres le 1er axe est souvent interprété comme étant relié à un gradient environnemental important. on peut rajouter facilement des points sans affecter le reste de l ordination.

39 Correspondence Analysis (CA) limitations la procédure n est efficace que pour des données type tableaux de contingence car sinon la distance du χ 2 n est pas adaptée. la procédure n est pas adaptée à des données non linéaires; des relations non linéaires l effet ARC l arc n est pas un problème aussi sérieux que l effet horseshoe en PCA (extrémités des axes non convoluées). extrémités du gradient compressées

40

41 Detrended Correspondence Analysis (DCA) - Hill & Gauch 1979 DCA est probablement la technique d ordination la plus employée aujourd hui c est une extension de la CA, des coordonnées d espèces et de sites sont produites le 1er axe a la même valeur propre qu en CA l arc est supprimé en divisant le 1er axe en segments et en les recentrant limitations données supplémentaires difficilement ajoutables pas de fondements mathématiques très sensible au nombre de paramètres qui déterminent le nombre de segments détruire un vrai arc (s il existe)

42 CA: compression des extrémités

43 CA: correlations des axes

44 DCA: detrending

45 DCA plot

46 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

47 PCA - horseshoe effect species abundances species species environmental gradient species 1

48 PCA - Horseshoe effect d = 1 Projection des données dans le1 er plan factoriel

49 PCA - Horseshoe effect gradient PCA axe 1 Vrai gradient vs gradient prédit par la 1re composante de la PCA

50 NMDS - Horseshoe effect gradient NMDS distance Euclidienne Vrai gradient vs gradient prédit par une MDS en métrique euclidienne

51 NMDS - Horseshoe effect gradient NMDS distance Mahalanobis Vrai gradient vs gradient prédit par une NMDS en métrique de Mahalanobis

52 NMDS - Horseshoe effect gradient NMDS distance Bray Curtis vrai gradient vs gradient prédit par une NMDS en métrique de Bray-Curtis

53 CA - Arch effect CA1 CA2 Projection de données dans le 1 er plan factoriel

54 CA - Arch effect gradient CA axe 1 vrai gradient vs gradient prédit par la 1re composante de la CA

55 DCA généralités gradient indirect gradient direct conclusion distance valeurs propres horseshoe R DCA DCA1 Projection des données dans le 1 er plan factoriel

56 DCA gradient DCA axe 1 vrai gradient vs gradient prédit par la 1re composante de la PCA

57 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

58 application avec R: package vegan données de végétation dunaire data(dune) description: les colonnes représentent les valeurs d abondance de 30 espèces, les lignes représentent les 20 sites échantillonnés sites Belper Empnig Junbuf Junart Airpra Elepal Rumace

59 PCoA avec ecodist PCoA avec la distance de Bray-Curtis Dist.dune=distance(dune,"bray") PCoA.dune=pco(Dist.dune) PCoA.dune$values/sum(PCoA.dune$values): plot(pcoa.dune$vectors[,1],pcoa.dune$vectors[,2]): PCO AXE PCO AXE 1

60 PCA avec R PCA.dune=princomp(t(dune)) summary(pca.dune) Importance of components: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5... Std deviation Prop. of Variance Cum. Proportion plot(pca.dune) PCA.dune Variances Comp.1 Comp.3 Comp.5 Comp.7 Comp.9

61 PCA avec R: sortie graphique biplot(pca.dune) Comp Plalan 10 7 Lolper 5 Antodo 11 Achmil Rumace Tripra Brohor 17 2 Poapra 1 18 Leoaut 19 Hyprad Trirep BelperViclat Empnig Airpra Cirarv Chealb Elyrep Salrep Potpal Brarut Junbuf Sagpro Calcus Poatri Ranfla Junart Elepal Alogen 16 Agrsto Comp

62 CA avec vegan CA.dune=cca(dune) summary(ca.dune) Partitioning of mean squared contingency coefficient: Inertia Proportion Total Unconstrained Eigenvalues, and their contribution to the mean squared contingency coefficient Importance of components: CA1 CA2 CA3 CA4 CA5... Eigenvalue Proportion Explained Cumulative Proportion

63 CA avec vegan: sortie graphique plot(ca.dune) CA Empnig 19 Airpra Hyprad Salrep Antodo Potpal Calcus Viclat Leoaut Elepal Plalan Brarut Ranfla Achmil Junart 16 Trirep Sagpro Tripra Rumace Agrsto Belper Lolper Poapra 8 Brohor Poatri Alogen 2 Elyrep Junbuf 12 Cirarv 4 9 Chealb CA1

64 DCA avec Vegan DCA.dune=decorana(dune) summary(dca.dune) Detrended correspondence analysis with 26 segments. Rescaling of axes with 4 iterations. DCA1 DCA2 DCA3 DCA4 Eigenvalues Decorana values Axis lengths Species scores: DCA1 DCA2 DCA3 DCA4 Totals Belper Empnig Junbuf Junart

65 DCA avec Vegan: sortie graphique plot(dca.dune) Empnig DCA AirpraHyprad Salrep 19 Antodo Sagpro Leoaut Brarut 17 Viclat 20 Cirarv Junart Ranfla Calcus Junbuf Agrsto Trirep Elepal Alogen Chealb Plalan Rumace Potpal Tripra Belper Poapra 2 Poatri Lolper 1 Brohor Elyrep Achmil DCA1

66 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

67 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R analyse directe de gradient les espèces sont directement reliées à des facteurs environnementaux mesurés résultat: les axes sont des fonctions des facteurs environnementaux mesurés ordination contrainte les scores des sites sont contraints à être des combinaisons linéaires des variables environnementales significativité des variables peut être testée par une procédure de permutation les deux techniques les plus employées: Redundancy Analysis (RDA) PCA contrainte (modèle linéaire) Canonical Correspondence Analysis (CCA) CA contrainte (modèle unimodal)

68 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R Redundancy Analysis (RDA) - Rao 1964 espèces et variables environnementales sont représentées simultanément CCA est adaptée pour des analyses de composition spécifique basée sur l abondance relative. Si vous avez un gradient sur lequel toutes vos espèces sont favorisées, la RDA va le détecter alors que la CCA non possible d utiliser des vecteurs espèces mesurées en différentes unités (mais centrage et standardisation préalable) très utile quand les gradient sont petits méthode de prédilection pour les travaux short-term partitions de variance et interprétation des résultats plus intuitive qu en CCA. La RDA n est pas plus ou moins valable que la CCA (!!). elle est simplement utile pour différents objectifs.

69 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R RDA principe ordination d une matrice Y sous contrainte de la matrice X Y X caler Y par régression multiple Ŷ = X(X X) 1 X Y faire une PCA sur Ŷ U matrice de vecteurs propres ordination dans l espace X: Ŷ U ordination dans l espace Y : Y U

70 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R Canonical Correspondence Analysis (CCA) - ter Braak 1986 Canonical Correspondence Analysis est le mariage entre une CA et une régression multiple. mathématiquement c est la même chose que la RDA sauf que Ŷ est obtenu avec une régression multiple pondérée CCA maximise les corrélations entre les scores d espèces et les scores de sites les scores de sites sont contraints d être des combinaisons linéaires des variables explicatives. à cause des contraintes, les valeurs propres en CCA seront plus petites qu en CA. quelques variantes: Detrended CCA, partial CCA...

71 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

72 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R application avec R: package vegan données de végétation dunaire data(dune) description: les colonnes représentent les valeurs d abondance de 30 espèces, les lignes représentent les 20 sites échantillonnés sites Belper Empnig Junbuf Junart Airpra Elepal Rumace

73 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R application avec R: package vegan données environnementales correspondantes data(dune.env) description: caractéristiques de sols des mêmes sites sites A1 Moisture Management UseManure BFHaypastu SFHaypastu SFHaypastu SFPasture HFHaypastu SFHaypastu HFPasture HFHayfield NMHayfield NMHaypastu

74 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R CCA with vegan CCA.dune=cca(dune as.numeric(moisture)a1as.numeric(manure),data=d Call: cca(formula = dune data = dune.env) Inertia Rank Total Constrained Unconstrained Inertia is mean squared contingency coefficient Eigenvalues for constrained axes: CCA1 CCA2 CCA Eigenvalues for unconstrained axes: as.numeric(moisture) A1 as.numeric(manure), CA1 CA2 CA3 CA4 CA5 CA6 CA (Showed only 7of all 17 unconstrained eigenvalues)

75 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R CCA with vegan: graphical output plot(vare.cca) CCA Cirarv 13 as.numeric(manure) Chealb 9 Alogen ElyrepPoatri Agrsto Lolper Tripra Poapra Sagpro Brohor Belper Junbuf Rumace A1 Elepal 57 as.numeric(moisture) Junart Ranfla Trirep 6Achmil Brarut 15 Plalan Leoaut Calcus 10 Potpal 14 Antodo 11 Viclat 20 Hyprad 18 Salrep Airpra Empnig CCA1

76 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R RDA with vegan RDA.dune=rda(dune as.numeric(moisture)a1as.numeric(manure),data=d Call: rda(formula = dune data = dune.env) Inertia Rank Total Constrained Unconstrained Inertia is variance Eigenvalues for constrained axes: RDA1 RDA2 RDA Eigenvalues for unconstrained axes: as.numeric(moisture) A1 as.numeric(manure), PC1 PC2 PC3 PC4 PC5 PC6 PC7 PC8 PC

77 généralités gradient indirect gradient direct conclusion modèle linéaire modèle unimodal Application with R RDA with vegan: graphical output plot(rda.dune) RDA Leoaut Antodo Trirep Brarut Hyprad Salrep 5 Plalan Achmil Viclat Empnig Airpra Potpal Calcus Ranfla Junart 7 Rumace Belper Tripra Elepal Brohor Cirarv Chealb Junbuf Sagpro Poapra Elyrep Lolper 1 Agrsto Alogen 2 Poatri as.numeric(manure) A1 as.numeric(moisture) RDA1

78 généralités gradient indirect gradient direct conclusion 1 Vue générale sur les 2 analyse indirecte de gradient méthodes basées sur les distances approches basées sur les valeurs propres Horseshoe and Arch effect Application with R 3 analyse directe de gradient modèle linéaire modèle unimodal Application with R 4 conclusion

79 généralités gradient indirect gradient direct conclusion analyse directe de gradient: sélection des méthodes direct gradient analysis few species many species linear responses linear regression unimodal responses glm linear responses RDA arch effect unimodal responses no arch effect DCCA CCA

80 généralités gradient indirect gradient direct conclusion analyse indirecte de gradient: sélection des méthodes indirect gradient analysis distance data raw data linear responses PCoA unimodal responses NMDS linear responses PCA unimodal responses NMDS arch effect DCA no arch effect CA

81 généralités gradient indirect gradient direct conclusion quelques références Legendre, P. and Legendre, L. (1998) Numerical Ecology. 2nd English ed. Elsevier. Jongman, R. H., ter Braak, C. J. F.. Van Tongeren O. F. R (1995) Data analysis in community and landscape ecology. Cambridge Univ. Press McCune, B. (1997) Influence of noisy environmental data on canonical correspondence analysis. Ecology 78, Palmer, M. W. (1993) Putting things in even better order: The advantages of canonical correspondence analysis. Ecology 74, Palmer website: Ordination Methods for Ecologists Minchin, P.R An evaluation of the relative robustness of techniques for ecological ordination. Vegetatio 96: Ter Braak, C. J. F. (1986) Canonical Correspondence Analysis: a new eigenvector technique for multivariate direct gradient analysis. Ecology 67, Kruskal, J.B Multidimensional scaling by optimizing goodness of fit to a nonmetric hypothesis. Psychometrika 29:1-27.

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Anne B Dufour Octobre 2013 Anne B Dufour () Analyse en Composantes Principales Octobre 2013 1 / 36 Introduction Introduction Soit X un tableau contenant p variables mesurées

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Individus et informations supplémentaires

Individus et informations supplémentaires ADE-4 Individus et informations supplémentaires Résumé La fiche décrit l usage des individus supplémentaires dans des circonstances variées. En particulier, cette pratique est étendue aux analyses inter

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

Gestion obligataire passive

Gestion obligataire passive Finance 1 Université d Evry Séance 7 Gestion obligataire passive Philippe Priaulet L efficience des marchés Stratégies passives Qu est-ce qu un bon benchmark? Réplication simple Réplication par échantillonnage

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1 33 Math. Inf. Sci. hum., (33 e année, n 130, 1995, pp.33-42) UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES Éric TÉROUANNE 1 RÉSUMÉ Le stéréogramme de liaison est

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université

Plus en détail

Analyse des correspondances avec colonne de référence

Analyse des correspondances avec colonne de référence ADE-4 Analyse des correspondances avec colonne de référence Résumé Quand une table de contingence contient une colonne de poids très élevé, cette colonne peut servir de point de référence. La distribution

Plus en détail

Exercice : la frontière des portefeuilles optimaux sans actif certain

Exercice : la frontière des portefeuilles optimaux sans actif certain Exercice : la frontière des portefeuilles optimaux sans actif certain Philippe Bernard Ingénierie Economique & Financière Université Paris-Dauphine Février 0 On considère un univers de titres constitué

Plus en détail

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

Analyse de la variance Comparaison de plusieurs moyennes

Analyse de la variance Comparaison de plusieurs moyennes Analyse de la variance Comparaison de plusieurs moyennes Biostatistique Pr. Nicolas MEYER Laboratoire de Biostatistique et Informatique Médicale Fac. de Médecine de Strasbourg Mars 2011 Plan 1 Introduction

Plus en détail

Initiation à l analyse en composantes principales

Initiation à l analyse en composantes principales Fiche TD avec le logiciel : tdr601 Initiation à l analyse en composantes principales A.B. Dufour & J.R. Lobry Une première approche très intuitive et interactive de l ACP. Centrage et réduction des données.

Plus en détail

CHAPITRE 5. Stratégies Mixtes

CHAPITRE 5. Stratégies Mixtes CHAPITRE 5 Stratégies Mixtes Un des problèmes inhérents au concept d équilibre de Nash en stratégies pures est que pour certains jeux, de tels équilibres n existent pas. P.ex.le jeu de Pierre, Papier,

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren) La structure de la base de données et l utilisation de PAST La structure de la base de données données originales SPÉCIMENS Code des spécimens: Identification des spécimens individuels. Dépend du but de

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

Exercices Corrigés Premières notions sur les espaces vectoriels

Exercices Corrigés Premières notions sur les espaces vectoriels Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

FORMULAIRE DE STATISTIQUES

FORMULAIRE DE STATISTIQUES FORMULAIRE DE STATISTIQUES I. STATISTIQUES DESCRIPTIVES Moyenne arithmétique Remarque: population: m xμ; échantillon: Mx 1 Somme des carrés des écarts "# FR MOYENNE(série) MOYENNE(série) NL GEMIDDELDE(série)

Plus en détail

IBM SPSS Regression 21

IBM SPSS Regression 21 IBM SPSS Regression 21 Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Remarques sur p. 46. Cette version s applique à IBM SPSS Statistics

Plus en détail

ESIEA PARIS 2011-2012

ESIEA PARIS 2011-2012 ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire

Plus en détail

Optimisation, traitement d image et éclipse de Soleil

Optimisation, traitement d image et éclipse de Soleil Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement

Plus en détail

Théorie de l estimation et de la décision statistique

Théorie de l estimation et de la décision statistique Théorie de l estimation et de la décision statistique Paul Honeine en collaboration avec Régis Lengellé Université de technologie de Troyes 2013-2014 Quelques références Decision and estimation theory

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Mémo d utilisation de ADE-4

Mémo d utilisation de ADE-4 Mémo d utilisation de ADE-4 Jérôme Mathieu http://www.jerome.mathieu.freesurf.fr 2003 ADE-4 est un logiciel d analyses des communautés écologiques créé par l équipe de biostatistiques de Lyon. Il propose

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Avant-après, amont-aval : les couples de tableaux totalement appariés

Avant-après, amont-aval : les couples de tableaux totalement appariés ADE-4 Avant-après, amont-aval : les couples de tableaux totalement appariés Résumé La fiche décrit les méthodes d analyse des couples de tableaux complètement appariés (mêmes individus, mêmes variables).

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Modèles pour données répétées

Modèles pour données répétées Résumé Les données répétées, ou données longitudinales, constituent un domaine à la fois important et assez particulier de la statistique. On entend par données répétées des données telles que, pour chaque

Plus en détail

De la mesure à l analyse des risques

De la mesure à l analyse des risques De la mesure à l analyse des risques Séminaire FFA Jean-Paul LAURENT Professeur à l'isfa jean-paul.laurent@univ-lyon1.fr http://laurent.jeanpaul.free.fr/ 0 De la la mesure à l analyse des risques! Intégrer

Plus en détail

choisir H 1 quand H 0 est vraie - fausse alarme

choisir H 1 quand H 0 est vraie - fausse alarme étection et Estimation GEL-64943 Hiver 5 Tests Neyman-Pearson Règles de Bayes: coûts connus min π R ( ) + ( π ) R ( ) { } Règles Minimax: coûts connus min max R ( ), R ( ) Règles Neyman Pearson: coûts

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

ISFA 2 année 2002-2003. Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

ISFA 2 année 2002-2003. Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses. On considère la matrice de données : ISFA 2 année 22-23 Les questions sont en grande partie indépendantes Merci d utiliser l espace imparti pour vos réponses > ele JCVGE FM1 GM JCRB FM2 JMLP Paris 61 29

Plus en détail

La corrélation entre deux matrices de distances euclidiennes

La corrélation entre deux matrices de distances euclidiennes Fiche thématique 6.1 La corrélation entre deux matrices de distances euclidiennes Résumé La fiche décrit deux stratégies pour étudier la corrélation entre deux matrices de distances. La première est toujours

Plus en détail

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Programmation Linéaire - Cours 1

Programmation Linéaire - Cours 1 Programmation Linéaire - Cours 1 P. Pesneau pierre.pesneau@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 265 Ouvrages de référence V. Chvátal - Linear Programming, W.H.Freeman, New York, 1983.

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

MODELE A CORRECTION D ERREUR ET APPLICATIONS

MODELE A CORRECTION D ERREUR ET APPLICATIONS MODELE A CORRECTION D ERREUR ET APPLICATIONS Hélène HAMISULTANE Bibliographie : Bourbonnais R. (2000), Econométrie, DUNOD. Lardic S. et Mignon V. (2002), Econométrie des Séries Temporelles Macroéconomiques

Plus en détail

Utilisation du Logiciel de statistique SPSS 8.0

Utilisation du Logiciel de statistique SPSS 8.0 Utilisation du Logiciel de statistique SPSS 8.0 1 Introduction Etude épidémiologique transversale en population générale dans 4 pays d Afrique pour comprendre les différences de prévalence du VIH. 2000

Plus en détail

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Statistique Descriptive Multidimensionnelle. (pour les nuls) Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219

Plus en détail

L'analyse des données à l usage des non mathématiciens

L'analyse des données à l usage des non mathématiciens Montpellier L'analyse des données à l usage des non mathématiciens 2 ème Partie: L'analyse en composantes principales AGRO.M - INRA - Formation Permanente Janvier 2006 André Bouchier Analyses multivariés.

Plus en détail

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Master de Recherche première année. Programme de cours 2008-2011

Master de Recherche première année. Programme de cours 2008-2011 Master de Recherche première année Mention : Mathématiques et Applications Spécialité : Mathématiques fondamentales et appliquées Responsable : Xue Ping WANG Programme de cours 2008-2011 Module M1 : Analyse

Plus en détail

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1) Modèles de régression logistique à réaliser Une explicative catégorielle

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position Arbre de NESI distribution quelconque Signe 1 échantillon distribution symétrique non gaussienne Wilcoxon gaussienne Student position appariés 1 échantillon sur la différence avec référence=0 2 échantillons

Plus en détail

Données longitudinales et modèles de survie

Données longitudinales et modèles de survie ANALYSE DU Données longitudinales et modèles de survie 5. Modèles de régression en temps discret André Berchtold Département des sciences économiques, Université de Genève Cours de Master ANALYSE DU Plan

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

STATISTIQUES. UE Modélisation pour la biologie

STATISTIQUES. UE Modélisation pour la biologie STATISTIQUES UE Modélisation pour la biologie 2011 Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres

Plus en détail

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h Télécom Physique Strasbourg Master IRIV Optimisation et programmation mathématique Professeur Michel de Mathelin Cours intégré : 20 h Programme du cours d optimisation Introduction Chapitre I: Rappels

Plus en détail

I. Polynômes de Tchebychev

I. Polynômes de Tchebychev Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire

Plus en détail

Résolution de systèmes linéaires par des méthodes directes

Résolution de systèmes linéaires par des méthodes directes Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.

Plus en détail

Exemple PLS avec SAS

Exemple PLS avec SAS Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that

Plus en détail

Annexe 6. Notions d ordonnancement.

Annexe 6. Notions d ordonnancement. Annexe 6. Notions d ordonnancement. APP3 Optimisation Combinatoire: problèmes sur-contraints et ordonnancement. Mines-Nantes, option GIPAD, 2011-2012. Sophie.Demassey@mines-nantes.fr Résumé Ce document

Plus en détail

Lire ; Compter ; Tester... avec R

Lire ; Compter ; Tester... avec R Lire ; Compter ; Tester... avec R Préparation des données / Analyse univariée / Analyse bivariée Christophe Genolini 2 Table des matières 1 Rappels théoriques 5 1.1 Vocabulaire....................................

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

Exemples d application

Exemples d application AgroParisTech Exemples d application du modèle linéaire E Lebarbier, S Robin Table des matières 1 Introduction 4 11 Avertissement 4 12 Notations 4 2 Régression linéaire simple 7 21 Présentation 7 211 Objectif

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Classification non supervisée

Classification non supervisée AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................

Plus en détail

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples, Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très

Plus en détail

Modèle GARCH Application à la prévision de la volatilité

Modèle GARCH Application à la prévision de la volatilité Modèle GARCH Application à la prévision de la volatilité Olivier Roustant Ecole des Mines de St-Etienne 3A - Finance Quantitative Décembre 2007 1 Objectifs Améliorer la modélisation de Black et Scholes

Plus en détail

«Cours Statistique et logiciel R»

«Cours Statistique et logiciel R» «Cours Statistique et logiciel R» Rémy Drouilhet (1), Adeline Leclercq-Samson (1), Frédérique Letué (1), Laurence Viry (2) (1) Laboratoire Jean Kuntzmann, Dép. Probabilites et Statistique, (2) Laboratoire

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

Modélisation géostatistique des débits le long des cours d eau.

Modélisation géostatistique des débits le long des cours d eau. Modélisation géostatistique des débits le long des cours d eau. C. Bernard-Michel (actuellement à ) & C. de Fouquet MISTIS, INRIA Rhône-Alpes. 655 avenue de l Europe, 38334 SAINT ISMIER Cedex. Ecole des

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

De la mesure à l analyse des risques

De la mesure à l analyse des risques De la mesure à l analyse des risques Séminaire ISFA - B&W Deloitte Jean-Paul LAURENT Professeur à l'isfa, Université Claude Bernard Lyon 1 laurent.jeanpaul@free.fr http://laurent.jeanpaul.free.fr/ 0 De

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Maths MP Exercices Fonctions de plusieurs variables Les indications ne sont ici que pour être consultées après le T (pour les exercices non traités). Avant et pendant le T, tenez bon et n allez pas les

Plus en détail

Séance 0 : Linux + Octave : le compromis idéal

Séance 0 : Linux + Octave : le compromis idéal Séance 0 : Linux + Octave : le compromis idéal Introduction Linux est un système d'exploitation multi-tâches et multi-utilisateurs, basé sur la gratuité et développé par une communauté de passionnés. C'est

Plus en détail