IUP SID Année TP : Classification non supervisée

Documents pareils
La classification automatique de données quantitatives

ACP Voitures 1- Méthode

L exclusion mutuelle distribuée

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Université du Québec à Chicoutimi. Département d informatique et de mathématique. Plan de cours. Titre : Élément de programmation.

Atelier Transversal AT11. Activité «Fourmis» Pierre Chauvet.

L AIDE AU DÉVELOPPEMENT FRANÇAISE

Belgrand: un Grand Equipement pour l utilisation des Bases de Données

Initiation à l analyse en composantes principales

Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

Cours d algorithmique pour la classe de 2nde

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

LES OMD EN CHIFFRES. Par Raulin Lincifort CADET INTRODUCTION

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Scénario: Données bancaires et segmentation de clientèle

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Logiciel XLSTAT version rue Damrémont PARIS

FORMULAIRE DE DÉCLARATION DE PATRIMOINE

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Simulation d impact de l augmentation des salaires du personnel de l administration publique et du SMIG et du SMAG dans le secteur privé

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Etape 1 : paramétrage et choix du modèle d organisation

COMPRENDRE LA BOURSE

Quel est le temps de travail des enseignants?

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

MABioVis. Bio-informatique et la

Analyse de la variance Comparaison de plusieurs moyennes

Mémo d utilisation de ADE-4

Initiation à LabView : Les exemples d applications :

PREMIERE DEMANDE D UNE CARTE NATIONALE D IDENTITE

Correction du baccalauréat STMG Polynésie 17 juin 2014

1 CRÉER UN TABLEAU. IADE Outils et Méthodes de gestion de l information

INSTITUT DE LA STATISTIQUE DU QUÉBEC ÉCONOMIE. Comptes économiques des revenus et dépenses du Québec

Extraction d informations stratégiques par Analyse en Composantes Principales

PLAN. Ricco Rakotomalala Tutoriels Tanagra - 2

Jean-Philippe Préaux

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Statistiques Descriptives à une dimension

Chaînes de Markov au lycée

(Third-Man Attack) PASCAL BONHEUR PASCAL 4/07/2001. Introduction. 1 Domain Name Server. 2 Commandes DNS. 3 Hacking des serveurs DNS

I. S. F. ET DELOCALISATIONS FISCALES UN IMPACT DIFFICILE A MESURER FAUTE D UN TABLEAU DE BORD SATISFAISANT

Observation et Conjoncture Économique. Économie Nationale approche par les revenus

INTRODUCTION A LA MACROECONOMIE Séance de travaux dirigés n 4 Construction des comptes de secteur

Mise en place Active Directory / DHCP / DNS

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Windows Server 2012 R2 Failover de serveurs DHCP

CHAPITRE 4 MARCHES et EPARGNE

INTRODUCTION AU DATA MINING

Séance 11 : Typologies

Réseaux IUP2 / 2005 DNS Système de Noms de Domaine

Tendances de l insolvabilité au Canada

Objectifs du TP : Initiation à Access

PREMIERE CONFERENCE DES HAUTS RESPONSABLES CHARGES DE L ETAT CIVIL DES ETATS MEMBRES DE L OCI

Quelle part de leur richesse nationale les pays consacrent-ils à l éducation?

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

Cet article s attache tout d abord

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Proposition d une architecture pour ebay, en mettant l accent sur les notions de scalabilité, de résilience, et de tolérance aux pannes.

Rectificatif 2 VOLUME I. Page 45 Tableau Pour la classe 7, remplacer "type B" par "de type B(U) ou de Type B(M)".

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

Recettes de fonctionnement et capacité d'épargne

Big Data et Prévisions. Philippe Picard, le 24 juin Page 1

Spécificités, Applications et Outils

Bases de données Cours 1 : Généralités sur les bases de données

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Agence web en Suisse romande CH-1260 Nyon

Accidents à un seul véhicule sans piéton

Dépenses nationales totales

Gestion du budget familial-1

ESIEA PARIS

La persistance des nombres

Faire un semi variograme et une carte krigée avec surfer

Évaluation et recommandations

LES SCPI CHEZ SPIRICA Description et méthodes de valorisation MARS 2013

Téléphonie Cisco. - CME Manager Express = Logiciel dans un routeur, version simplifiée du call manager.

Titre. Attestation relative au portage salarial. Objet CIRCULAIRE N DU 7 NOVEMBRE Direction des Affaires Juridiques INST0026-ACE/JBB

les derniers salaires qui comptent

Socles de compétences de. mathématiques. Enseignement secondaire 1 er degré

Cotisations et points de la retraite complémentaire. n o 3

Guide d implémentation. Réussir l intégration de Systempay

ASSISES REGIONALES 2014 A AUBAGNE

ANNEXE N 13 : Bilan et compte de résultat M4

L autonomie financière du Conseil général de l Hérault

6. Hachage. Accès aux données d'une table avec un temps constant Utilisation d'une fonction pour le calcul d'adresses

Burkina Faso Profil pays EPT 2014

Logistique, Transports

Le 14 mars Par Isabelle Brière, conseillère en relations du travail

La fumée de tabac secondaire (FTS) en Mauricie et au Centre-du- Québec, indicateurs du plan commun tirés de l ESCC de

acpro SEN TR firewall IPTABLES

C.R.T. Informatique 4,1 M (2014) 40% 20% 15% 15% 10% 25 ANS 17 EMPLOYES 2 AGENCES 5 DATACENTERS OPERATEUR RESEAU INFOGERANCE MAINTENANCE DEVELOPPEMENT

Système de Stockage Sécurisé et Distribué

CESI Bases de données

DÉCLARATION ANNUELLE DE REVENUS FAMILIAUX DES OCCUPANTS POUR L ANNÉE CIVILE 2014

Traitement numérique de l'image. Raphaël Isdant

Microsoft Excel : tables de données

Identification de nouveaux membres dans des familles d'interleukines

Transcription:

IUP SID Année 2011-2012 TP : Classification non supervisée Hélène Milhem

2 Apprentissage Statistique Année 2011-2012

Chapitre 1 Classification d un tableau de distances 1.1 Données routières Les données se présentent sous la forme d un triangle inférieur d une matrice symétrique, par construction, et contenant les distances kilomètriques de 47 villes françaises prises 2 à 2 (Source : carte IGN). Ces données sont disponibles dans le fichier mdsville.dat. 1.2 Lecture des données mdsville.dat La lecture d une matrice triangulaire inférieure en tant que matrice de distances pose quelqus difficultés à R dans la gestion du type des objets. mdsville=read.table("mdsville.dat",fill=true) #Extraction des noms des villes villes=as.character(mdsville[2:48,1]) #Extraction des valeurs des distances m=mdsville[2:48,2:48] #Transformation du data frame en une matrice #alpha-numérique due à la présence d espaces m=as.matrix(m) #Retour au numérique avec des données manquantes m=as.numeric(m) #Reformatage en une matrice m=matrix(m,47,47) #Ajonction des noms des villes en ligne et colonne dimnames(m)[[1]]=villes dimnames(m)[[2]]=villes #Transformation en un objet de type distance d=as.dist(m,diag=true) d 1.3 Classification hiérarchique ascendante ou CAH. Représentation par MDS On recherche le dendogramme, le nombre de classes et la coloration des villes en fonction de leur appartenance à une classe. chv=hclust(d,method="ward") plot(chv,main=null,sub="",xlab="") plot(chv$height[46:30],xlab="nb de classes",ylab="hauteur") color=cutree(chv,k=5) Les données proviennent d une matrice de distances. Ainis le MDS s impose pour une représentation factorielle des villes. mds=cmdscale(d,k=2) plot(mds,type="n",xlab="cp1",ylax="cp2") text(mds,villes,col=color) #Représentation avec des couleurs

4 Apprentissage Statistique Année 2011-2012 On peut tester l influence du choix de la distance entre les classes dans la CAH. chv=hclust(d,method="single") plot(chv,main=null,sub="",xlab="") plot(chv$height[46:30],xlab="nb de classes",ylab="hauteur") color=cutree(chv,k=5) plot(mds,type="n",xlab="cp1",ylax="cp2") text(mds,villes,col=color) #Représentation avec des couleurs 1.4 PAM et représentation par MDS L algorithme de réallocation k-means n est pas adapté à une matrice de distances ou de dissimilarités. En revanche, PAM est opérationnel si le nombre d observations n est pas trop important. Sinon il faut utiliser l adaptation clara. Ces fonctions sont disponibles dans la librairie cluster. library(cluster) pamv=pam(d,5) color=pamv$clustering plot(mds,type="n",xlab="cp1",ylab="cp2") #Représentation avec des couleurs text(mds,villes,col=color) #Le m^eme avec des ellipses clusplot(d,pamv$clustering,diss=true,labels=2, color=true,col.txt=pamv$clustering,main="")

Chapitre 2 Classification de données quantitatives 2.1 Données OCE Les données sont issues de l Observatoire de l OCDE. Pour chaque pays membre et pour chacune des années 75, 77, 79 et 81, on connaît les valeurs prises par les variables suivantes qui sont toutes des taux : taux brut de natalité, taux de chômage, pourcentage d actifs dans le secteur primaire, pourcentage d actifs dans le secteur secondaire, produit intérieur brut (par habitant), fomation brute de capital fixe (par habitant) hausse des prix, recettes courantes (par habitant), moratilité infantile, consommation de protéines animales (par habitant), consommation d énergie (par habitant). Ces données sont disponibles dans le fichier ocde.dat. 2.2 Classification hiérarchique ascendante ou CAH #lecture des données avec le nom des variables #en première ligne ocde=read.table("ocde_r.dat") #calcul de la distance avec la commande scale ds=dist(scale(ocde)) #classification hiérarchique hc.ds=hclust(ds,method="ward") plot(hc.ds) #dendogramme #choix du nombre de classes plot(hc.ds$height[67:58],type="b") color=cutree(hc.ds,k=4) #couleurs des classes #ACP pour représentations library(factominer) acp=pca(ocde,ncp=13,graph=f) #graphe de l acp plot(acp,choix="ind",habillage="ind", col.hab=rep(1:17,c(rep(4,17)))) #graphe de l acp avec les couleurs # des classes de la CAH plot(acp,choix="ind",habillage="ind",col.hab=color) On peut refaire tourner cet algorithme en retirant la réduction des variables (commande scale) ou en remplaçant method= ward par method= single.

6 Apprentissage Statistique Année 2011-2012 2.3 Algorithme de réallocation (k-means) et représentation par ACP #Version avec réduction #Choix de 4 classes suggérées par la CAH kocde=kmeans(scale(ocde),4) color=kocde$cluster plot(acp,choix="ind",habillage="ind",color.hab=color) #Version sans réduction kocde=kmeans(ocde,4) color=kocde$cluster plot(acp,choix="ind",habillage="ind",color.hab=color)