Classification non supervisée

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "Classification non supervisée"

Transcription

1 Classification non supervisée 13 décembre 2012 Table des matières 1 Présentation du problème 1 2 Visualisation des données 2 3 Algorithme des k-means 3 4 Classification Ascendante Hiérarchique - CAH 4 1 Présentation du problème On souhaite créer une typologie des eaux pour regrouper des eaux ayant des caractéristiques communes. On a pour cela noté la teneur en HCO3, SO4, Cl, Ca, Mg, Na de 20 bouteilles d eau minérale. La table de données se trouve dans le fichier eaux.csv. On utilisera le package FactoMineR. > library(factominer) > setwd("/media/omip/math_enseignement/2a-sd3/exemplecours") > Table <- read.table("eaux.csv",header=true, sep=";",row.names=7) > head(table) HCO3 SO4 CL CA MG NA Beckerish Cayranne Cristal Cristaline On commence par regarder des statistiques simples sur les différentes variables : > #statistiques simples > m.table=colmeans(table) > sd.table=apply(table, 2, sd) > print(m.table) HCO3 SO4 CL CA MG NA > print(sd.table) HCO3 SO4 CL CA MG NA > #Matrice des correlations > Mat.cor=cor(Table) 1

2 2 Visualisation des données On a vu, en cours, que l ACP est une méthode pour visualiser en deux dimensions, avec un minimum de déformation, un nuage d individus vivant dans une dimension supérieure, ici 6. > acp.res=pca(table, scale.unit = TRUE, graph=f, ncp = 6) > names(acp.res) [1] "eig" "var" "ind" "svd" "call" On obtient la liste des valeurs propres en affichant la partie de l objet acp.res correspondante : > acp.res$eig eigenvalue percentage of variance cumulative percentage of variance comp comp comp comp comp comp Les deux premiers axes expliquent donc environ 80% de l inertie. La projection des individus dans le premier plan factoriel est obtenue grâce à la commande suivante : > plot(acp.res, choix="ind") Individuals factor map (PCA) Dim 2 (28.08%) Cayranne Ferita Laurier Cristaline Ribes Thonon Viladreau Volvic Cristal Beckerish Dim 1 (51.58%) Le cercle des corrélations permet d analyser les relations entre les composantes principales et les anciennes variables. > plot(acp.res, choix="var") 2

3 Variables factor map (PCA) Dim 2 (28.08%) NA. CL HCO3 CA SO4 MG Dim 1 (51.58%) 3 Algorithme des k-means On veut créer une typologie des eaux en 5 grands groupes. Pour mettre en œuvre l algorithme des k-means, on utilise la fonction kmeans. > eaux.kmeans1=kmeans(table,centers=5,iter.max=100,nstart = 1) > names(eaux.kmeans1) [1] "cluster" "centers" "totss" "withinss" "tot.withinss" [6] "betweenss" "size" On obtient l inertie totale par eaux.kmeans1$totss, l inertie intra-classe par eaux.kmeans1$tot.withinss et l inertie au sein de chacune des classes par eaux.kmeans1$withinss. La partie cluster de l objet eaux.kmeans1 donne pour chaque individu le cluster auquel il appartient. > eaux.kmeans1$totss [1] > eaux.kmeans1$tot.withinss [1] > eaux.kmeans1$withinss [1] > eaux.kmeans1$between [1] > eaux.kmeans1$cluster 3

4 Beckerish Cayranne Cristal Cristaline Ferita Laurier Ribes Thonon Viladreau Volvic Si on recommence l algorithme, on peut potentiellement obtenir une autre classification. > eaux.kmeans2=kmeans(table,centers=5,iter.max=100,nstart = 1) > eaux.kmeans2$totss [1] > eaux.kmeans2$tot.withinss [1] > eaux.kmeans2$between [1] > eaux.kmeans2$cluster Beckerish Cayranne Cristal Cristaline Ferita Laurier Ribes Thonon Viladreau Volvic Classification Ascendante Hiérarchique - CAH Pour mettre en œuvre une classification en 5 groupes avec la méthode de la CAH, il faut avant tout construire la matrice de distance entre les individus. > eaux.dist <- dist(table, method = "euclidean") > eaux.dist1=eaux.dist^2 On obtient ensuite la CAH avec la fonction hclust. 1. Pour le lien simple > eaux.cah.single<-hclust(eaux.dist1, method = "single") 2. Pour le lien complet > eaux.cah.complete<-hclust(eaux.dist1, method = "complete") > eaux.cah.complete$labels [1] "" "Beckerish" "Cayranne" "" "Cristal" [6] "Cristaline" "" "Ferita" "Laurier" "" [11] "" "" "Ribes" "" "" [16] "" "Thonon" "" "Viladreau" "" [21] "Volvic" 4

5 Ces deux classifications donnent les dendrogrammes suivants > par(mfcol=c(1,2)) > plot(eaux.cah.single) > plot(eaux.cah.complete) Cluster Dendrogram Cluster Dendrogram Height Cayranne Thonon Ferita Ribes Laurier Cristal Beckerish Cristaline Viladreau Volvic Height Viladreau Volvic Cristaline Beckerish Ribes Laurier Cristal Thonon Cayranne Ferita eaux.dist1 hclust (*, "single") eaux.dist1 hclust (*, "complete") 3. Pour le lien de Ward > eaux.cah.ward<-hclust(eaux.dist1, method = "ward") On obtient le dendrogramme en dessinant l objet obtenu avec hclust. > #Dendrogramme > plot(eaux.cah.ward) > #Representation de k groupes sur le dendrogramme > res5=rect.hclust(eaux.cah.ward,k=5) > print(res5) [[1]] [[2]] Thonon [[3]] Beckerish Cayranne Cristaline Ferita [[4]] Cristal Laurier Ribes

6 [[5]] Viladreau Volvic Cluster Dendrogram Thonon Cristaline Beckerish Cayranne Ferita Ribes Laurier Cristal Viladreau Volvic Height 0e+00 1e+05 2e+05 3e+05 eaux.dist1 hclust (*, "ward") L historique des regroupements est donné par : > eaux.cah.ward$merge [,1] [,2] [1,] [2,] [3,] [4,] -9 2 [5,] -1-7 [6,] -4-8 [7,] -2 3 [8,] [9,] [10,] -6 7 [11,] [12,] -3 6 [13,] [14,] [15,] [16,] [17,] [18,] [19,] [20,]

Classification non supervisée hiérarchique

Classification non supervisée hiérarchique 1/14 Classification non supervisée hiérarchique 5MS04 - Analyse des donnees Master 2 spécialité Statistiques Université Pierre et Marie Curie B. Michel 7 6 5 4 3 2 1 d e a b c 2/14 Introduction Données

Plus en détail

Classification avec FactoMineR sur les données du cours François Husson

Classification avec FactoMineR sur les données du cours François Husson Classification avec FactoMineR sur les données du cours François Husson Script et sorties R permettant de retrouver les graphes et sorties du cours. Le jeu de données doit être téléchargé et sauvegardé

Plus en détail

Sommaire. ISBN Presses universitaires de Rennes, 2013,

Sommaire. ISBN Presses universitaires de Rennes, 2013, Sommaire 1 Analyse en Composantes Principales (ACP) 1 1.1 Données - notations - exemples.................... 1 1.2 Objectifs................................. 2 1.2.1 Étude des individus......................

Plus en détail

TD ANALYSE DES DONNEES

TD ANALYSE DES DONNEES Master 2 TVPS Angers Analyse des données : ACP AFC CAH 1 TD ANALYSE DES DONNEES Exemple d'acp : Etude olfacto-gustative de cidres Plusieurs caractéristiques du cidre ont été mesurées sur 10 cidres différents.

Plus en détail

IUP SID Année TP : Classification non supervisée

IUP SID Année TP : Classification non supervisée IUP SID Année 2011-2012 TP : Classification non supervisée Hélène Milhem 2 Apprentissage Statistique Année 2011-2012 Chapitre 1 Classification d un tableau de distances 1.1 Données routières Les données

Plus en détail

Statistiques multivariées : analyse en composantes principales analyse factorielle des correspondances

Statistiques multivariées : analyse en composantes principales analyse factorielle des correspondances Statistiques multivariées : analyse en composantes principales analyse factorielle des correspondances C. Bardel Septembre 2016 1 / 70 Plan du cours 1 Introduction 2 Analyse descriptive de n variables

Plus en détail

Ricco.Rakotomalala

Ricco.Rakotomalala Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours 1 Importation des données, description DONNÉES 2 Objectif de l étude Classification automatique de fromages Objectifs de l étude Ce document retranscrit

Plus en détail

Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification

Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification François Husson & Julie Josse Laboratoire de mathématiques appliquées Agrocampus Rennes husson@agrocampus-ouest.fr

Plus en détail

Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix

Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix Amaury Labenne 1,2, Marie Chavent 2,3, Vanessa Kuentz-Simonet 1, Tina Rambonilaza 1 & Jérôme Saracco 2,3 1

Plus en détail

Classification non supervise e

Classification non supervise e Classification non supervise e Je ro me Sueur UMR 7205 ISYEB Master 2 Paris 1 Introduction à la classification 2 La classification ascendante hiérarchique Principe Distances inter-individus Distances inter-groupes

Plus en détail

Feuille de Travaux Dirigés n o 10 Analyse en composantes principales

Feuille de Travaux Dirigés n o 10 Analyse en composantes principales Feuille de Travaux Dirigés n o 10 Analyse en composantes principales Exercice X.1. Étude des caractéristiques d un ensemble d hôtels Partie I 1. Récupérer les données dans R en exécutant les instructions

Plus en détail

Analyses factorielles multivariées et classification Application sous XlStat - 4 jours (*)

Analyses factorielles multivariées et classification Application sous XlStat - 4 jours (*) Analyses factorielles multivariées et classification - 4 jours (*) Référence : STA-N2-StatAFM Durée : 4 jours soit 28 heures (*) : La durée proposée est une durée standard. Elle peut être adaptée selon

Plus en détail

Analyse de grands jeux de données : classification et analyses multivariées

Analyse de grands jeux de données : classification et analyses multivariées Analyse de grands jeux de données : classification et analyses multivariées M. Bailly-Bechet Université Nice Sophia Antipolis France 1 Introduction On a parfois affaire à de grands jeux de données. Ce

Plus en détail

Classification ascendante hiérarchique (CAH)

Classification ascendante hiérarchique (CAH) Classification ascendante hiérarchique (CAH) François Husson Laboratoire de mathématiques appliquées - Agrocampus Rennes husson@agrocampus-ouest.fr 1 / 40 Classification ascendante hiérarchique (CAH) 1

Plus en détail

08/10/2014. Sources. Plan de cours

08/10/2014. Sources. Plan de cours Ces supports de cours ont été construits dans le cadre d'un enseignement d'analyse de données et représentation cartographique à l'université Paris 1 Panthéon-Sorbonne. Sources Sources ayant servi à la

Plus en détail

Analyse des données - Logiciel R

Analyse des données - Logiciel R Université de Strasbourg Analyse des données Master de Sciences, Spécialité Statistique 2012/13 Master Actuariat Emmanuel Périnel Analyse des données - Logiciel R TP n 2. L Analyse en Composantes Principales

Plus en détail

T. D. n o 13 Analyse en composantes principales

T. D. n o 13 Analyse en composantes principales T. D. n o 13 Analyse en composantes principales Exercice 1. Étude des caractéristiques d un ensemble d hôtels Partie I 1. Récupérer les données dans R en exécutant les instructions suivantes. Penser à

Plus en détail

Analyse en Composantes Principales

Analyse en Composantes Principales Analyse en Composantes Principales Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim.univ-amu.fr/ Introduction (1) Étudier

Plus en détail

Analyse exploratoire des données

Analyse exploratoire des données Analyse exploratoire des données Christophe Lalanne lalanne@ciep.fr Centre international d études pédagogiques juillet 2007 C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 1 / 25 Organisation

Plus en détail

ANALYSE DES DONNEES METHODES DESCRIPTIVES. Pierre-Louis GONZALEZ

ANALYSE DES DONNEES METHODES DESCRIPTIVES. Pierre-Louis GONZALEZ ANALYSE DES DONNEES METHODES DESCRIPTIVES Pierre-Louis GONZALEZ ANALYSE DES DONNEES METHODES DESCRIPTIVES Analyse en Composantes Principales (A.C.P.) Analyse factorielle des correspondances simples (A.F.C.)

Plus en détail

Analyse en composantes principales (ACP)

Analyse en composantes principales (ACP) Analyse en composantes principales (ACP) François Husson Laboratoire de mathématiques appliquées - Agrocampus Rennes husson@agrocampus-ouest.fr 1 / 35 Analyse en Composantes Principales (ACP) 1 Données

Plus en détail

Analyse de données sur le parcours des élèves en Bretagne à partir de données du rectorat

Analyse de données sur le parcours des élèves en Bretagne à partir de données du rectorat Analyse de données sur le parcours des élèves en Bretagne à partir de données du rectorat Stage fait à l ENSAI Du 14 mai au 6 juillet 2007 Les 12 Bassins d Animation de la Politique Educative Auray-Ploërmel-Vannes

Plus en détail

Analyse des Correspondances Multiples (ACM)

Analyse des Correspondances Multiples (ACM) Analyse des Correspondances Multiples (ACM) Compléments Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus, Rennes. 1 Analyse des Correspondances Multiples (ACM) 1. Données, notations 1:16

Plus en détail

Ricco.Rakotomalala

Ricco.Rakotomalala Ricco.Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours 1 Importation des données, description DONNÉES 2 Objectif de l étude Classification automatique de fromages Objectifs de l étude Ce document retranscrit

Plus en détail

ClustGeo : Classification Ascendante Hiérarchique (CAH) avec contraintes de proximité géographique

ClustGeo : Classification Ascendante Hiérarchique (CAH) avec contraintes de proximité géographique ClustGeo : Classification Ascendante Hiérarchique (CAH) avec contraintes de proximité géographique 4èmes Rencontres R, Grenoble Marie Chavent 2, Vanessa Kuentz-Simonet 1, Amaury Labenne 1,2 & Jérôme Saracco

Plus en détail

ANALYSE DES DONNEES PANORAMA DES METHODES. Pierre-Louis GONZALEZ

ANALYSE DES DONNEES PANORAMA DES METHODES. Pierre-Louis GONZALEZ ANALYSE DES DONNEES PANORAMA DES METHODES Pierre-Louis GONZALEZ ANALYSE DES DONNEES LES METHODES USUELLES Analyse en Composantes Principales (A.C.P.) Analyse factorielle des correspondances simples (A.F.C.)

Plus en détail

TD é valué : Analyse en Composante Principale (ACP)

TD é valué : Analyse en Composante Principale (ACP) TD é valué : Analyse en Composante Principale (ACP) Constance Mahlberg & Antoine Mazuyer (23/11/2012) Construction de la matrice des donné es On rentre manuellemment les données. Voici les résultats de

Plus en détail

Rapport de TP MA412. TP2 : Classification. Michel Kot Mathieu Marleix

Rapport de TP MA412. TP2 : Classification. Michel Kot Mathieu Marleix Rapport de TP MA412 TP2 : Classification Michel Kot Mathieu Marleix Sommaire Partie 1 : Algorithme des k-means... 3 Etude de l'algorithme... 3 Calcul du critère de la somme des inerties... 5 Partie 2 :

Plus en détail

Aide sur le logiciel R

Aide sur le logiciel R Aide sur le logiciel R Pour un bon apprentissage de R, nous pensons qu il faut des bases solides et vous pouvez voir le livre Statistique avec R 1 pour bien comprendre le fonctionnement de R. Cependant,

Plus en détail

ACP et classification de données spatiales

ACP et classification de données spatiales UE STA112 ACP et classification de données spatiales Mars 2012 Gilbert Saporta Conservatoire National des Arts et Métiers gilbert.saporta@cnam.fr http://cedric.cnam.fr/~saporta Compléments sur les indices

Plus en détail

Analyse des données - Logiciel R

Analyse des données - Logiciel R Université de Strasbourg Analyse des données Master de Sciences, Spécialité Statistique 2012/13 Master Actuariat Emmanuel Périnel Analyse des données - Logiciel R TP n 3. L Analyse en Composantes Principales

Plus en détail

Examen d analyse de données

Examen d analyse de données Examen d analyse de données Fabrice Rossi 5 février 2013 Il est vivement conseillé de traiter les questions de chaque exercice dans l ordre, afin de pouvoir éventuellement s appuyer sur les conclusions

Plus en détail

6 Classifications et partitions

6 Classifications et partitions Michel Baylac, UMR 7205, UMS 2700 plate forme Morphométrie baylac@mnhn.fr 7 6 Classifications et partitions 6 5 4 3 Partitions 2 1 1 2 3 7 6 45 Données (N=7, p=2) Distances Classificationsrarchique Diagrammes

Plus en détail

CLASSIFICATION. ESIEA 5 ème année

CLASSIFICATION. ESIEA 5 ème année CLASSIFICATION ESIEA 5 ème année 2009/200 Les données Modèle Cylindrée Puissance Vitesse Poids Longueur Largeur Honda Civic 396 90 74 850 369 66 Renault 9 72 92 80 965 45 69 Fiat Tipo 580 83 70 970 395

Plus en détail

SEMIN. Analyses factorielles avec R. Elisabeth MORAND INED

SEMIN. Analyses factorielles avec R. Elisabeth MORAND INED SEMIN Analyses factorielles avec R Elisabeth MORAND INED SEMIN R du MNHN 10 Décembre 2009 E. Morand 10 Décembre 2009 INED 1 / 42 Part I Analyse en Composantes Principales : ACP 2 / 42 Sommaire 1 Introduction

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Analyse en composantes principales Gilles Gasso, Stéphane Canu INSA Rouen - Département ASI Laboratoire LITIS 1 17 septembre 01 1. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles

Plus en détail

Analyse des Correspondances Multiples (ACM) avec FactoMineR François Husson

Analyse des Correspondances Multiples (ACM) avec FactoMineR François Husson Analyse des Correspondances Multiples (ACM) avec FactoMineR François Husson Script et sorties R de la vidéo du didacticiel sur les données de consommation du thé. Le jeu de données the.csv est disponible

Plus en détail

Approche multidimensionnelle : approche par profils sensoriels. Construction des ellipses de confiance. Nuage des individus.

Approche multidimensionnelle : approche par profils sensoriels. Construction des ellipses de confiance. Nuage des individus. Caractérisation de Mise en relation de données sensorielles et de données instrumentales Cartographie des préférences Évaluation de la performance d un panel Comparaison de la performance de plusieurs

Plus en détail

L analyse multi variée

L analyse multi variée L analyse multi variée Ensemble de méthodes destinées à synthétiser l information - Méthodes descriptives Elles visent à structurer et à simplifier les données issues de plusieurs variables (ACP, AFC)

Plus en détail

SEMIN. Introduction à la classification hiérarchique. Loïc PONGER MNHN, Régulation et Dynamique des Génomes

SEMIN. Introduction à la classification hiérarchique. Loïc PONGER MNHN, Régulation et Dynamique des Génomes SEMIN Introduction à la classification hiérarchique Loïc PONGER MNHN, Régulation et Dynamique des Génomes SEMIN R du MNHN 23 Juin 2009 Une introduction à la classification hiérarchique Loïc PONGER ponger@mnhn.fr

Plus en détail

Cours de J. Rynkiewicz Université Paris 1. Interrogation 2. Durée : 3 heures

Cours de J. Rynkiewicz Université Paris 1. Interrogation 2. Durée : 3 heures MOSEF Analyse de données Cours de J. Rynkiewicz Université Paris 1 1 Voitures Interrogation 2 Durée : 3 heures On dispose des mesures suivantes sur plusieurs types de voitures vendues en 2015 : CYL PUIS

Plus en détail

L analyse de classification - hiérarchique et de nuées dynamiques

L analyse de classification - hiérarchique et de nuées dynamiques L analyse de classification - hiérarchique et de nuées dynamiques Cours Sol6210 Analyse quantitative avancée Claire Durand, 2016 Professeur titulaire, Département de sociologie, Université de Montréal

Plus en détail

U.E. ADP4. Analyse en Composantes Principales : Dossier Autoeval. 1) Déterminer combien d axes retenir? Répondre en précisant le critère utilisé.

U.E. ADP4. Analyse en Composantes Principales : Dossier Autoeval. 1) Déterminer combien d axes retenir? Répondre en précisant le critère utilisé. Université René Descartes, Paris 5 Institut de Psychologie Licence, semestre 6 Page 1 U.E. ADP4 Durée de l épreuve : 1h30 Aucun document n est autorisé. La calculatrice est autorisée sans sa documentation.

Plus en détail

TD 2 : Statistique descriptive

TD 2 : Statistique descriptive Université Montpellier Année - M ICAP TD : Statistique descriptive Exercice. Analyse en composantes principales On dispose des notes sensorielles (rond à astringent) et hédoniques (chaleur et profondeur)

Plus en détail

MÉTHODES DE CLASSIFICATIONS. UAG IESG STS LS6 BBB Biomathématiques Bruno Hérault 2012 Semestre 2

MÉTHODES DE CLASSIFICATIONS. UAG IESG STS LS6 BBB Biomathématiques Bruno Hérault 2012 Semestre 2 MÉTHODES DE CLASSIFICATIONS UAG IESG STS LS6 BBB Biomathématiques Bruno Hérault 2012 Semestre 2 Objectifs Partitionnement (Soit un ensemble X quelconque. Un ensemble P de sous-ensembles de X est une partition

Plus en détail

scilab à l École nationale des ponts et chaussées http://cermics.enpc.fr/scilab Analyse en composantes principales et apprentissage 6 juin 2007 (dernière date de mise à jour) Table des matières 1 Rappels

Plus en détail

Analyse Factorielle Multiple (AFM) avec FactoMineR sur la description sensorielle de 10 vins par 3 jurys François Husson

Analyse Factorielle Multiple (AFM) avec FactoMineR sur la description sensorielle de 10 vins par 3 jurys François Husson Analyse Factorielle Multiple (AFM) avec FactoMineR sur la description sensorielle de 10 vins par 3 jurys François Husson Importation du jeu de données vins

Plus en détail

L analyse en composantes principales

L analyse en composantes principales L analyse en composantes principales 1 La méthode 1 Les données, les objectifs de la méthode L Analyse en Composantes Principales (ACP) est la méthode adaptée à l exploration synthétique de l information

Plus en détail

Analyse des Correspondances Multiples (ACM) avec FactoMineR sur les données du cours (Loisirs) François Husson

Analyse des Correspondances Multiples (ACM) avec FactoMineR sur les données du cours (Loisirs) François Husson Analyse des Correspondances Multiples (ACM) avec FactoMineR sur les données du cours (Loisirs) François Husson Script et sorties R de la vidéo du cours sur les données des loisirs des Français. Chargement

Plus en détail

Data mining Analyse discriminante linéaire (prédictive)

Data mining Analyse discriminante linéaire (prédictive) 1. Supports et tutoriels [REF 1] Rakotomalala R., «Classification ascendante hiérarchique - Diapos» ; http://tutoriels-data-mining.blogspot.fr/2016/07/classification-ascendante-hierarchique.html [TUTO

Plus en détail

Classification de ligands

Classification de ligands Deuxième session M2 Biologie informatique Année 2010/2011 Classification de ligands Table des matières Classification de ligands...1 Introduction...2 Méthode...3 Classification hiérarchique...3 Plan de

Plus en détail

ANALYSE MULTIDIMENSIONNELLE DES DONNEES Sujet donné en et indications de correction

ANALYSE MULTIDIMENSIONNELLE DES DONNEES Sujet donné en et indications de correction UNIVERSITE DE BRETAGNE OCCIDENTALE Année universitaire 2009-2010 FACULTE DES LETTRES ET SCIENCES HUMAINES CS 93837-29238 BREST CEDEX 3 SECTION: Psychologie - Master 2ème année N.B. Calculatrice et documents

Plus en détail

STA101- ED 5 ANALYSE EN COMPOSANTES PRINCIPALES : EAUX

STA101- ED 5 ANALYSE EN COMPOSANTES PRINCIPALES : EAUX STA101- ED 5 ANALYSE EN COMPOSANTES PRINCIPALES : EAUX Le fichier eaux-sta101 présente 57 marques d eaux en bouteille décrites par les variables ci-dessous. NOM : le nom complet de l eau inscrit sur l

Plus en détail

Cours 3 : Classification

Cours 3 : Classification Cours 3 : Classification I- Généralités II- Mesure d éloignement III- Critère d homogénéité IV- Choix d une méthode V- Interprétation VI- ACP/Classification VII- Exemple I- Généralités Données= tableau

Plus en détail

MÉTHODES DE CLASSIFICATION. Pierre-Louis GONZALEZ

MÉTHODES DE CLASSIFICATION. Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ 1 MÉTHODES DE CLASSIFICATION Objet: Opérer des regroupements en classes homogènes d un ensemble d individus. Données: Les données se présentent en général

Plus en détail

Éléments de classification

Éléments de classification Université de Caen Éléments de classification Christophe Chesneau http://www.math.unicaen.fr/~chesneau/ Caen, le 10 Novembre 2016 Table des matières Table des matières 1 Introduction 5 1.1 Classification

Plus en détail

Chapitre 9 ANALYSE EN COMPOSANTES PRINCIPALES

Chapitre 9 ANALYSE EN COMPOSANTES PRINCIPALES Chapitre 9 ANALYSE EN COMPOSANTES PRINCIPALES On consultera aussi le document «Introduction numérique à l analyse en composantes principales». 1 NATURE DES DONNÉES ET OBJECTIFS. 1.1 Nature des données.

Plus en détail

Sujet 2. Comment optimiser les tournées commerciales et découvrir des gisements de croissance?

Sujet 2. Comment optimiser les tournées commerciales et découvrir des gisements de croissance? Sujet 2 Comment optimiser les tournées commerciales et découvrir des gisements de croissance? IAE GUSTAVE EIFFEL / UPEC CHALOTS KEVIN ALACHEDE ARNAUD Le sommaire 3 Contexte / Méthodologie 15 Analyse du

Plus en détail

L Analyse en Composantes Principales

L Analyse en Composantes Principales L Analyse en Composantes Principales Table des matières 1 Introduction 1 2 Notations 2 3 Définitions 2 4 Projections sur un sous-espace 3 5 Axes principaux 4 6 Facteurs principaux 4 7 Composantes principales

Plus en détail

TD 1: Analyse en Composantes Principales

TD 1: Analyse en Composantes Principales TD 1: Analyse en Composantes Principales 1 Questions de cours Soit un tableau de données, X n p contenant les observations de n individus statistiques sur p variables quantitatives continues. L'espace

Plus en détail

Analyse en composantes principales (ACP)

Analyse en composantes principales (ACP) Analyse en composantes principales (ACP) François Husson Laboratoire de mathématiques appliquées - Agrocampus Rennes husson@agrocampus-ouest.fr 1 / 31 Quel type de données? L ACP s intéresse à des tableaux

Plus en détail

Introduction aux méthodes statistiques

Introduction aux méthodes statistiques 26 Février 2008 Christian CAPARIN christian.caparin@wanadoo.fr >>Introduction BUT DE LA PREENTATION Faire une présentation non théorique des méthodes statistiques utilisées en pratique Partir des problèmes

Plus en détail

Imagerie couleur Partie 2 : Réduction de l ensemble d attributs pour la classification d images

Imagerie couleur Partie 2 : Réduction de l ensemble d attributs pour la classification d images Imagerie couleur Partie 2 : Réduction de l ensemble d attributs pour la classification d images Alice POREBSKI Introduction 4,5h de cours Intérêt de réduire le nombre d attributs Les méthodes d extraction

Plus en détail

Analyse de Données ID Classification Hiérarchique Ascendante

Analyse de Données ID Classification Hiérarchique Ascendante Analyse de Données ID Classification Hiérarchique Ascendante Philippe LERAY philippe.leray@univ-nantes.fr Equipe COnnaissances et Décision Laboratoire d Informatique de Nantes Atlantique FRE 2729 Site

Plus en détail

Apprentissage non-supervisé. Réduction de dimensionalité. Modèles à variables latentes continues.

Apprentissage non-supervisé. Réduction de dimensionalité. Modèles à variables latentes continues. Département d'informatique et de recherche opérationnelle IFT3395/6390 Fondements de l apprentissage machine Apprentissage non-supervisé Réduction de dimensionalité. Modèles à variables latentes continues.

Plus en détail

Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix

Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix Amaury Labenne 1,2, Marie Chavent 2,3, Vanessa Kuentz-Simonet 1, Tina Rambonilaza 1 & Jérôme Saracco 2,3 1

Plus en détail

Une introduction à l Analyse Factorielle Multiple (AFM)

Une introduction à l Analyse Factorielle Multiple (AFM) Factorielle Multiple Introduction Semine-R 21 Février 2011 1 / 39 Introduction Introduction 2 / 39 De deux nuages de points à plusieurs nuages deux nuages de points Exemple Analyse Procustéenne Coefficients

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM Emmanuel Rachelson and Matthieu Vignes 9 octobre 2013, SupAero - ISAE 1 Présidentielles 2008 - AFC Récupérer les données,

Plus en détail

L'analyse de données avec FactoMineR : les nouveautés

L'analyse de données avec FactoMineR : les nouveautés L'analyse de données avec FactoMineR : les nouveautés Gestion des données manquantes - module graphique - aides François Husson & Julie Josse Laboratoire de mathématiques appliquées, Agrocampus Rennes

Plus en détail

Analyse de données M1 Statistique et économétrie V. Monbet Analyse en composantes principales

Analyse de données M1 Statistique et économétrie V. Monbet Analyse en composantes principales Analyse de données M1 Statistique et économétrie - 2013-2014 V. Monbet Analyse en composantes principales Les objectifs de ce TD sont 1. de revoir le cours sur l analyse en composantes principales, 2.

Plus en détail

Introduction. Analyse en composantes la matrice principalesdes. Premiers calculs. Exemple

Introduction. Analyse en composantes la matrice principalesdes. Premiers calculs. Exemple Introduction 19 janvier 2015 Dans la plupart des applications on observe un nombre p très grand de variables; L étude univariée et bivariée est une phase indispensable mais tout à fait insuffisante; Prendre

Plus en détail

Classification automatique : introduction

Classification automatique : introduction Chapitre 8 Classification automatique : introduction La classification (clustering) est une méthode mathématique d analyse de données : pour faciliter l étude d une population d effectif important (animaux,

Plus en détail

TD - Analyse de données 3A CI - 2AD ENSAE ParisTech Thomas Merly-Alpa - Antoine Rebecq

TD - Analyse de données 3A CI - 2AD ENSAE ParisTech Thomas Merly-Alpa - Antoine Rebecq TD - Analyse de données 3A CI - 2AD - 2015 ENSAE ParisTech Thomas Merly-Alpa (thomas.merly-alpa@insee.fr) - Antoine Rebecq (antoine.rebecq@insee.fr) 1 Analyse en Composantes Principales Optionnel : installation

Plus en détail

Master de Sciences, Spécialité Statistique 2014/15 Master Actuariat. Analyse des données CORRIGÉ. Examen

Master de Sciences, Spécialité Statistique 2014/15 Master Actuariat. Analyse des données CORRIGÉ. Examen Université de Strasbourg Analyse des données Master de Sciences, Spécialité Statistique 2014/15 Master Actuariat Analyse des données CORRIGÉ Examen Durée : 2h00 Calculatrice autorisée Sans document Questions

Plus en détail

Reconnaissance des formes : Classification d ensembles d objets

Reconnaissance des formes : Classification d ensembles d objets Reconnaissance des formes : Classification d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO,

Plus en détail

Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux LA CLASSIFICATION AUTOMATIQUE

Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux LA CLASSIFICATION AUTOMATIQUE Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux LA CLASSIFICATION AUTOMATIQUE Une problématique en Gestion - Marketing Découper le marché en sous-ensembles dont les éléments

Plus en détail

Outils d extraction d informations à partir de documents numérisés

Outils d extraction d informations à partir de documents numérisés UNIVERSITÉ DE LA RÉUNION - M2 INFORMATIQUE RAPPORT DE STAGE DE MASTER M2-INFORMATIQUE Outils d extraction d informations à partir de documents numérisés Auteur : MANGATA Nicky 31001630 Encadrants : Jean

Plus en détail

Année 2011-2012. Biostatistiques. Rappels de cours et travaux dirigés. Analyse des données M2. jean-marc.labatte@univ-angers.

Année 2011-2012. Biostatistiques. Rappels de cours et travaux dirigés. Analyse des données M2. jean-marc.labatte@univ-angers. Année 2011-2012 Biostatistiques Rappels de cours et travaux dirigés Analyse des données M2 auteur : Jean-Marc Labatte jean-marc.labatte@univ-angers.fr - 1 - Table des matières SOMMAIRE VIII ANALYSE EN

Plus en détail

Ch2 : Analyse en Composantes Principales (ACP)

Ch2 : Analyse en Composantes Principales (ACP) Ch2 : Analyse en Composantes Principales (ACP) A- Objectifs B- construction d un espace factoriel C- Les étapes d une ACP D- Interprétation E- Limites A- Objectifs On dispose d un tableau de données X.

Plus en détail

Analyse Factorielle des

Analyse Factorielle des Analyse Factorielle des Correspondances multiples et Classification Ascendante Hiérarchique Michel Tenenhaus 1 1. Les données Race Taille Poids Vitesse Intell. Affect. Agress. Fonction 1 Beauceron TA++

Plus en détail

ANALYSES MULTIDIMENSIONNELLES ET APPLICATIONS INFORMATIQUES - PREMIERE SESSION Enoncé et Indications de réponses

ANALYSES MULTIDIMENSIONNELLES ET APPLICATIONS INFORMATIQUES - PREMIERE SESSION Enoncé et Indications de réponses UNIVERSITE DE BRETAGNE OCCIDENTALE Année universitaire 2011-2012 FACULTE DES LETTRES ET SCIENCES HUMAINES CS 93837-29238 BREST CEDEX 3 SECTION: Psychologie - Master 1ère année ANALYSES MULTIDIMENSIONNELLES

Plus en détail

Analyse des Données. 1 Objectif du TP. 3 Méthode hiérarchique. Fiche de TP n o Procédure Cluster : méthode de Ward

Analyse des Données. 1 Objectif du TP. 3 Méthode hiérarchique. Fiche de TP n o Procédure Cluster : méthode de Ward IUT de Caen - Département STID Responsable : Alain LUCAS 1 Objectif du TP Analyse des Données Fiche de TP n o 3 STID 2ème année L objectif de ce TP va consister en la réalisation de trois classifications

Plus en détail

Analyse Factorielle multiple et intégration de données. Application à la variabilité de la qualité de viande de porc.

Analyse Factorielle multiple et intégration de données. Application à la variabilité de la qualité de viande de porc. [Statomique] 15 mai 2012 Analyse Factorielle multiple et intégration de données. Application à la variabilité de la qualité de viande de porc. D Laloë & B Salmi Analyses multivariées: - Analyse factorielle

Plus en détail

L Analyse en Composantes Principales. A. Morineau

L Analyse en Composantes Principales. A. Morineau L Analyse en Composantes Principales A. Morineau - 2005 1 L ACP, qu est ce? L ACP, qu est ce? Principe géométrique de l ACP X(n,p) tableau de données A. Morineau - 2005 4 Principe géométrique de l ACP

Plus en détail

Analyse de données. Version de Marc Dinh. Hervé Bertrand

Analyse de données. Version de Marc Dinh. Hervé Bertrand Analyse de données 2012 Version de Marc Dinh 11 février 2012 Hervé Bertrand 1 Sommaire 1 Objectif de l ADD 3 2 Type de données 4 3 Calcul matriciel et ADD 4 4 Approche géométrique : ellipsoïde d inertie

Plus en détail

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h I.U.T de Caen STID 2ème année Département STID Année Universitaire 2002-2003 Responsable de cours : Alain LUCAS Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera

Plus en détail

Cours 9! Introduction à la Reconnaissance des Formes (RdF)! Analyse de données, classification dʼimages!

Cours 9! Introduction à la Reconnaissance des Formes (RdF)! Analyse de données, classification dʼimages! Bases du traitement des images BIMA Cours 9! Introduction à la Reconnaissance des Formes (RdF)! Analyse de données, classification dʼimages! Prof. Matthieu Cord! 1 Plan 1. Introduction, problématiques

Plus en détail

Traitement de l image et du signal Partie TI

Traitement de l image et du signal Partie TI Traitement de l image et du signal Partie TI Emanuel Aldea http://hebergement.u-psud.fr/emi/453 Master Electronique, énergie électrique, automatique 1ère année Plan du cours Définition

Plus en détail

Statistiques multivariées : aspects descriptifs et inférentiels

Statistiques multivariées : aspects descriptifs et inférentiels Formation thématique ProVeg (3-6 juillet 2015) Statistiques multivariées : aspects descriptifs et inférentiels Biostatistiques Appliquées en Protection des Végétaux Prof Bi I. Arsène ZORO (Agronome généticien)

Plus en détail

Chapitre 2: Analyse en Composante Principale

Chapitre 2: Analyse en Composante Principale Chapitre 2: Analyse en Composante Principale Mohamed Essaied Hamrita ISMAI, Université Kairouan. Tunisie mhamrita@gmail.com http://hamrita.e-monsite.com/ Février 2014 Plan du chapitre Inroduction Motivation

Plus en détail

Ingénierie de la fouille et de la visualisation de données massives (RCP216)

Ingénierie de la fouille et de la visualisation de données massives (RCP216) Ingénierie de la fouille et de la visualisation de données massives (RCP216) Classification automatique Michel Crucianu, Raphaël Fournier-S niehotta, Pierre Cubaud (prenom.nom@cnam.fr, fournier@cnam.fr)

Plus en détail

TP 2 : Analyse en composantes principales

TP 2 : Analyse en composantes principales Université d'angers master MIM TD analyse de données p. I Etude d'un nuage de points TP : Analyse en composantes principales. Construire le nuage centré de 5 individus caractérisés par un couple de variables

Plus en détail

La cartographie des préférences. François Husson Laboratoire de mathématiques appliquées Agrocampus ouest

La cartographie des préférences. François Husson Laboratoire de mathématiques appliquées Agrocampus ouest La cartographie des préférences François Husson Laboratoire de mathématiques appliquées Agrocampus ouest husson@agrocampus-ouest.fr 1 Relation données sensorielles données instrumentales Pourquoi relier

Plus en détail

Méthodes de classifications

Méthodes de classifications Méthodes de classifications Dhafer Malouche ESSAI-U2S-ENIT http://essai.academia.edu/dhafermalouche dhafer.malouche@me.com Juin-2013 ANR Do Well Be, Saint Nectaire Plan Introduction Classification hiérarchique

Plus en détail

Analyse en composantes principales

Analyse en composantes principales 5MS04 - Analyse des données Master 2 spécialité Statistiques Université Pierre et Marie Curie Analyse en composantes principales et une courte introduction à l analyse des correspondances Bertrand MICHEL

Plus en détail

INTRODUCTION AUX TABLEAUX DE DONNÉES MULTIPLES, À L ANALYSE CANONIQUE, À L ANALYSE FACTORIELLE MULTIPLE. Application aux données transcriptomiques

INTRODUCTION AUX TABLEAUX DE DONNÉES MULTIPLES, À L ANALYSE CANONIQUE, À L ANALYSE FACTORIELLE MULTIPLE. Application aux données transcriptomiques INTRODUCTION AUX TABLEAUX DE DONNÉES MULTIPLES, À L ANALYSE CANONIQUE, À L ANALYSE FACTORIELLE MULTIPLE Application aux données transcriptomiques Objectifs Comprendre ce que l on peut attendre des tableaux

Plus en détail

Fiche TD avec le logiciel. Musique. D. Chessel & A.B. Dufour

Fiche TD avec le logiciel. Musique. D. Chessel & A.B. Dufour Fiche TD avec le logiciel Musique : tdr53 D. Chessel & A.B. Dufour Exercices simples pour repérer que dans une analyse en composantes principales, il est question en même temps de ressemblances (corrélation

Plus en détail