GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "GOUTTE. Analyse Statistique des Données Cours 6. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali"

Transcription

1 LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 6 Master 2 EID Master 2 EID 07/08 1

2 Contents 1 Introduction Classer et Classier Vocabulaire Classication Ascendante Hierarchique (CAH) Introduction Critère d'agrégation Principe-Algorithme Méthode de Ward Attention aux inversions Classication K-means 8 4 Les classications avec SAS Les procédures: cluster - varclus - fastclus - tree La procédure CLUSTER But Choix de la distance Master 2 EID 07/08 2

3 1 Introduction Pour rappel l'analyse de données, c'est: Méthodes factorielles: ACP AFC ACM Classication automatique: Classication hiérarchique (tree clustering): création d'arbres. Classication ascendante hiérarchique (CAH) Classication descendante hiérarchique Partitionnement (clustering): création de partitions, classes. 1.1 Classer et Classier Il est important de ne pa confondre Classer et Classier. Classier = construire des classes. On construit notre propre système de partionnement en fonction de l'information de notre base. Classer = classement dans des classes préétablies. On utilise un partionnement déjà existant. 1.2 Vocabulaire Voici deux notions importantes: Classe monothétique : classe dont tous les individus possèdent une caractéristique en commun. Classe polythétique : classe dont les individus possèdent plusieurs attributs en commun mais pas forcément tous (classe plus ou moins homogène) Master 2 EID 07/08 3

4 2 Classication Ascendante Hierarchique (CAH) 2.1 Introduction La Classication Ascendante Hierarchique (CAH) s'applique "normalement" sur des individus statistiques (personnes, entreprises, données nancières,...). On souhaite regrouper ces individus selon un critère de ressemblance. On cherche donc à isoler des informations de notre base qui "rapprochent" des individus entre eux et qui en éloignent d'autres. Les données que nous possédons sont donc les suivantes: un tableau individus x variables. un tableau de distances entre individus. Nous devonc pour cela dénit les paramètres suivants: Les données d'origine (brutes, normalisées,...) La distance entre individus (euclidienne, χ 2,...) Le critère d'agrégation entre deux classes (saut minimum, diamètre=saut maximum, ward, moyenne,...) Master 2 EID 07/08 4

5 2.2 Critère d'agrégation Master 2 EID 07/08 5

6 2.3 Principe-Algorithme Master 2 EID 07/08 6

7 Cependant lorsque l'on agrège 2 éléments, l'inertie intra-classe augmente et l'inertie interclasse diminue. Le critère de Ward tente de minimiser ces variations. Graphes: 2.5 Attention aux inversions Un critère d'agrégation doit être une fonction croissante. Certaines mauvaises "bonnes idées" de critère d'agrégation ne respecte pas cette condition et présente alors des inversion dans le dendrogramme (arbre). Voci un exemple d'inversion. Graphes: Master 2 EID 07/08 7

8 3 Classication K-means Principe et Graphes: Master 2 EID 07/08 8

9 4 Les classications avec SAS 4.1 Les procédures: cluster - varclus - fastclus - tree Deux procédures SAS permettent de réaliser des classications: La PROC CLUSTER. La PROC VARCLUS (Cette procédure eectue une classication de variables). Pour dessiner les arbres et les "couper": La PROC TREE. Pour eectuer des partitions : La PROC FASTCLUS. 4.2 La procédure CLUSTER But Le but de la méthode est de construire une partition de l'ensemble des individus de telle sorte que les individus d'une même classe soient "proches" et ceux issus de classes distinctes soient "éloignés" Choix de la distance Pour savoir si des individus sont proches ou éloignés, il faut mesurer la distance qui les sépare. Nous devons donc choisir une distance. Quantitative : Distance euclidienne. Qualitative: Distance χ 2. La syntaxe de la procédure T-Test est la suiante: PROC CLUSTER METHOD= <options>; BY variables; VAR variables; ID variable; FREQ variable; RUN; Les options: Algorithme 1: Syntaxe de la procédure CLUSTER Master 2 EID 07/08 9

10 DATA=Table-SAS. OUTTREE=Table-SAS : Table SAS qui contient les données concernant l'arbre. METHOD=indique le critère d'agrégation à utiliser. De façon plus concrête: * METHOD: SAS connaît 11 méthodes diérentes pour eectuer la classication. AVER- AGE, CENTROID, COMPLETE, DENSITY, EML, FLEXIBLE, MCQUITTY, MEDIAN, SINGLE, TWOSTAGE, WARD. Nous utiliserons souvent WARD, CENTROID ou AVER- AGE. * OUTTREE =Nom de chier de données SAS. Pour indiquer un chier de données où SAS mettra les résultats des calculs de la procédure CLUSTER. Ces résultats pourront être récupérés par la procédure PROC TREE qui permet d'eectuer un découpage en classes des données, de tracer un pseudo dendrogramme. * STANDARD :Pour demander à SAS de travailler sur des données centrées réduites. * NOTIE : Pour demander à SAS de ne pas vérier l'existence d'exaequos. * RSQUARE : Pour acher le R 2 qui est l'indice mesurant la qualité de la classication dont nous parlions plus haut (Inertie inter-classes/inertie-totale). Cette option est automatiquement activée pour METHOD=WARD. SAS ache également un R 2 partiel qui est en fait la perte de R 2 à chaque étape. * NOPRINT : Supprime l achage. PROC VARCLUS <options>; BY variables; VAR variables; WEIGHT variable; RUN; Algorithme 2: Syntaxe de la procédure VARCLUS Les options: DATA=Table-SAS OUTTREE=Table-SAS MAXCLUSTER= CENTROID Master 2 EID 07/08 10

11 PROC TREE <options>; BY variables; ID variable; RUN; Algorithme 3: Syntaxe de la procédure TREE Les options: DATA=Table-SAS OUT=Table-SAS NCL=nombre de classe HORIZONTAL PROC FASTCLUS MAXCLUSTERS= ; BY variables; VAR variables; ID variable; WEIGHT variable; RUN; Algorithme 4: Syntaxe de la procédure FASTCLUS Les options: DATA=Table-SAS OUT=Table-SAS Master 2 EID 07/08 11

12 Liste des Algorithmes 1 Syntaxe de la procédure CLUSTER Syntaxe de la procédure VARCLUS Syntaxe de la procédure TREE Syntaxe de la procédure FASTCLUS Master 2 EID 07/08 12

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 4. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 4 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage

Classification Exemple : Enquête d opinion sur les OGM. Pauline Le Badezet Alexandra Lepage Classification Exemple : Enquête d opinion sur les OGM Pauline Le Badezet Alexandra Lepage SOMMAIRE Introduction Méthodologie Méthode de partitionnement Classification Ascendante Hiérarchique Interprétation

Plus en détail

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac

La classification 2012-2013. Fabien Chevalier Jérôme Le Bellac La classification 2012-2013 Fabien Chevalier Jérôme Le Bellac Introduction : Classification : méthode d analyse de données Objectif : Obtenir une représentation schématique simple d'un tableau de données

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 8. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 8. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 8 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

de la classification Approche pragmatique t Editions TECHNIP 27 rue Cinoux, 75737 PARIS Cedex 15, FRANCE Arbres hiérarchiques Partitionnements

de la classification Approche pragmatique t Editions TECHNIP 27 rue Cinoux, 75737 PARIS Cedex 15, FRANCE Arbres hiérarchiques Partitionnements Jean-Pierre NAKACHE Ingénieur de recherche CNRS détaché à l'inserm Chargé de cours à l'isup Josiane CONFAIS Ingénieur d'études chargée des enseignements pratiques à l'isup Approche pragmatique de la classification

Plus en détail

Présentation du logiciel SAS

Présentation du logiciel SAS Université de Nantes U.F.R. des Sciences Master professionnel II : Ingénierie mathématique Présentation du logiciel SAS Frédéric Lavancier Le logiciel possède une aide très fournie. Par ailleurs une documentation

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Évaluation d une approche de classification conceptuelle

Évaluation d une approche de classification conceptuelle Évaluation d une approche de classification conceptuelle Marie Chavent Yves Lechevallier Mathématiques Appliquées de Bordeaux, UMR 5466 CNRS Université Bordeaux 1-351, Cours de la libération 33405 Talence

Plus en détail

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining

GUIDE DU DATA MINER. Classification - Typologies. Data Management, Data Mining, Text Mining GUIDE DU DATA MINER Classification - Typologies Data Management, Data Mining, Text Mining 1 Guide du Data Miner Classification - Typologies Le logiciel décrit dans le manuel est diffusé dans le cadre d

Plus en détail

Introduction à l analyse des données. Olivier Godechot

Introduction à l analyse des données. Olivier Godechot Introduction à l analyse des données Olivier Godechot Introduction. Les données statistiques : de très nombreuses variables. Aucune n est parfaite La perception d un phénomène appréhendée comme la combinaison

Plus en détail

Master 2 Informatique UAG. Classification de documents/textes

Master 2 Informatique UAG. Classification de documents/textes Data Mining Master 2 Informatique UAG Classification de documents/textes Utilisée en text mining, information retrieval : amélioration du recall et de la précision Moyen de trouver les voisins les plus

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Analyse de données avec R Complémentarité des méthodes d'analyse factorielle et de classification. 2 L'analyse de données avec R

Analyse de données avec R Complémentarité des méthodes d'analyse factorielle et de classification. 2 L'analyse de données avec R Analyse de données avec R Complémentarité des méthodes d'analyse factorielle et de classification François Husson, Julie Josse & Jérôme Pagès Laboratoire de mathématiques appliquées - 65 rue de St-Brieuc

Plus en détail

Analyse multivariée approfondie

Analyse multivariée approfondie Analyse multivariée approfondie Enseignants: NIANG N. et RUSSOLILLIO G. Maître de conférences Statistique Appliquée Laboratoire CEDRIC CNAM http://www.cnam.fr et d autres intervenants extérieurs au Cnam

Plus en détail

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h

Analyse des Données. Questions de cours. Exercice n o 1. Examen terminal - Durée 3h I.U.T de Caen STID 2ème année Département STID Année Universitaire 2002-2003 Responsable de cours : Alain LUCAS Seule la calculatrice type collège est autorisée. Seul le cours est autorisé. On rappelera

Plus en détail

L analyse des données statistiques

L analyse des données statistiques L analyse des données statistiques Public : Les cadres devant analyser des données quantitatives et qualitatives Objectif : Apprendre, en utilisant principalement Excel : - à traiter des données provenant

Plus en détail

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM

TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM TP R de Statistiques sur l analyse multivariée: AFC, ACP, CAH, k-means et AFCM Emmanuel Rachelson and Matthieu Vignes 9 octobre 2013, SupAero - ISAE 1 Présidentielles 2008 - AFC Récupérer les données,

Plus en détail

GOUTTE. Analyse Statistique des Données Cours 5. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali

GOUTTE. Analyse Statistique des Données Cours 5. Master 2 EID. LUISS, Libera Università Internazionale degli Studi Sociali LUISS, Libera Università Internazionale degli Studi Sociali Université Paris 13 Laboratoire Analyse, Géométrie et Applications UMR 7539 GOUTTE Analyse Statistique des Données Cours 5 Master 2 EID goutte@math.univ-paris13.fr

Plus en détail

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015

L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015 L analyse des correspondances et ses applications en recherche marketing MONSUG mai 2015 Contenu Mise en contexte et exemple d application L analyse des correspondances multiples (ACM) L ACM et la segmentation

Plus en détail

Partie 1 : Étude des caractéristiques d un ensemble d hôtels

Partie 1 : Étude des caractéristiques d un ensemble d hôtels Analyse de données M1 Statistique et économétrie - 2012 V. Monbet Classification Partie 1 : Étude des caractéristiques d un ensemble d hôtels Le fichier hotels.csv contient des caractéristiques liées au

Plus en détail

Scénario: Exploration, classification des encours boursiers parisiens

Scénario: Exploration, classification des encours boursiers parisiens Scénario: Exploration, classification des encours boursiers parisiens Résumé Scénario d analyse d un jeu de données : l ensemble des séries des encours boursier à Paris. Description, lissage et classification

Plus en détail

Compte-rendu de projet de Système de gestion de base de données

Compte-rendu de projet de Système de gestion de base de données Compte-rendu de projet de Système de gestion de base de données Création et utilisation d'un index de jointure LAMBERT VELLER Sylvain M1 STIC Université de Bourgogne 2010-2011 Reponsable : Mr Thierry Grison

Plus en détail

Analyse de données avec R - M1 - Livret pédagogique

Analyse de données avec R - M1 - Livret pédagogique Analyse de données avec R - M1 - Livret pédagogique Laurent Beauguitte, CNRS, UMR IDEES laurent.beauguitte@univ-rouen.fr 11 septembre 2015 Ceci est une version provisoire qui sera complétée au fur et à

Plus en détail

Data Mining: Activité hospitalière

Data Mining: Activité hospitalière Data Mining: Activité hospitalière DIAGNE Sénéba 1, Huai Yuan WAN 2 1. S2IFA 2. DRM Chapitre 1 Clustering : Activité hospitalière 1.1 Présentation des données Le périmètre des données représente ici un

Plus en détail

Classification. Pr Roch Giorgi. roch.giorgi@univ-amu.fr

Classification. Pr Roch Giorgi. roch.giorgi@univ-amu.fr Classification Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr Objectif Rechercher

Plus en détail

Séance 10 : Analyse factorielle des correspondances

Séance 10 : Analyse factorielle des correspondances Séance 10 : Analyse factorielle des correspondances Sommaire Proc CORRESP : Analyse de tableaux d effectifs... 2 Exemple 1 :... 6 L analyse en composantes principales traite des variables quantitatives.

Plus en détail

Clustering. Christine Decaestecker, ULB Marco Saerens, UCL. LINF2275 Clustering 1

Clustering. Christine Decaestecker, ULB Marco Saerens, UCL. LINF2275 Clustering 1 Clustering Christine Decaestecker, ULB Marco Saerens, UCL LINF75 Clustering 1 Classification non-supervisée (automatique) Méthodes de regroupement ("Clustering") Objectif : Sur base - soit d'un tableau

Plus en détail

Session 1 durée 3 heures

Session 1 durée 3 heures Université de Nantes Mai 27 Master MIM Examen d'analyse de données Session durée 3 heures Les documents sont interdits. Les calculatrices sont autorisées. Exercice : - Etude d un tableau à l aide d une

Plus en détail

STAGE. «Offre modulaire - Recueillir et analyser les besoins et attentes des usagers - Module 4 - L'analyse experte des données statistiques»

STAGE. «Offre modulaire - Recueillir et analyser les besoins et attentes des usagers - Module 4 - L'analyse experte des données statistiques» STAGE «Offre modulaire - Recueillir et analyser les besoins et attentes des usagers - Module 4 - L'analyse experte des données statistiques» PROGRAMME DETAILLE Intervenant : PARIS nicolas Cabinet : OPTIMA

Plus en détail

Classication d'images

Classication d'images Classication d'images Cas de la télédétection - Classication multirésolution Pierre Gançarski ICube CNRS - Université de Strasbourg 2013 Pierre Gançarski Analyse urbaine et télédétection 1/28 1 Contexte

Plus en détail

Prof.É.D.Taillard. Classification automatique @Prof. E. Taillard 1 EIVD, Informatique logiciel, 4 e semestre

Prof.É.D.Taillard. Classification automatique @Prof. E. Taillard 1 EIVD, Informatique logiciel, 4 e semestre INFORMATIQUE ORIENTATION LOGICIELS CLASSIFICATION AUTOMATIQUE Prof.É.D.Taillard Classification automatique @Prof. E. Taillard EIVD, Informatique logiciel, 4 e semestre CLASSIFICATION AUTOMATIQUE But :

Plus en détail

Séance 11 : Typologies

Séance 11 : Typologies Séance 11 : Typologies Sommaire Proc CLUSTER : Typologie hiérarchique... 3 Proc FASTCLUS : Typologie nodale... 8 Proc MODECLUS : Typologie non paramétrique... 11 - Les phénomènes observés (attitudes, comportements,

Plus en détail

Analyse de données multidimensionnelles

Analyse de données multidimensionnelles Analyse de données multidimensionnelles M1 Statistique et économétrie, 2014 Projet - V. Monbet Le projet est composé de deux parties indépendantes. Les données sont disponibles sur la page web du cours.

Plus en détail

Comment sont déterminées les clés d entrée d une gamme de produits?

Comment sont déterminées les clés d entrée d une gamme de produits? Comment sont déterminées les clés d entrée d une gamme de produits? Marie Pitré, ENSAI 28 Septembre 2011 1/23 Marie Pitré Formation IPR Stage d application en statistique de deuxième année Emnos Cabinet

Plus en détail

Didacticiel - Etudes de cas

Didacticiel - Etudes de cas Objectif Montrer la complémentarité des méthodes de fouille de données (clustering) et de visualisation (analyse en composantes principales). Fichier Nous traitons le fichier CARS.XLS. Il est composé de

Plus en détail

Agrégation des portefeuilles de contrats d assurance vie

Agrégation des portefeuilles de contrats d assurance vie Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l

Plus en détail

Analyse discriminante

Analyse discriminante Analyse discriminante Christine Decaestecker & Marco Saerens ULB & UCL LINF2275 1 Analyse Discriminante Particularités: 2 formes/utilisations complémentaires: méthode factorielle: description "géométrique"

Plus en détail

08/10/2014. Sources. Plan de cours

08/10/2014. Sources. Plan de cours Ces supports de cours ont été construits dans le cadre d'un enseignement d'analyse de données et représentation cartographique à l'université Paris 1 Panthéon-Sorbonne. Sources Sources ayant servi à la

Plus en détail

Projet Statistiques. - Rapport -

Projet Statistiques. - Rapport - Erich FERRAGUTI Teddy HENNART Projet Statistiques - Rapport - A l attention de Julien JACQUES Le vendredi 15 mai 2009 Sommaire 1. Introduction... 4 1.1. But... 4 1.2. Cadre... 4 1.3. Contenu... 4 2. Sujet...

Plus en détail

Objectif du groupe GT1.1 Fusion de Données

Objectif du groupe GT1.1 Fusion de Données Objectif du groupe GT1.1 Fusion de Données Le groupe travaille dans trois directions Le vocabulaire (piloté par ADVITAM et l aide de SITE) L état de l art (piloté par SYROKKO) Deux applications illustratives

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

...fin du cours précédent

...fin du cours précédent ...fin du cours précédent num voiture moto cheval camion bus âne mulet 1 1 1 0 1 0 0 0 2 1 1 0 1 0 0 0 3 1 1 0 1 0 0 0 4 0 1 1 1 0 1 1 5 1 0 0 1 1 0 0 6 1 0 0 1 1 0 0 7 1 0 0 1 1 0 0 8 1 0 0 1 1 0 0 9

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Compte-rendu de projet de Cryptographie

Compte-rendu de projet de Cryptographie Compte-rendu de projet de Cryptographie Chirement/Déchirement de texte, d'images de sons et de vidéos LAMBERT VELLER Sylvain M1 STIC Université de Bourgogne 2010-2011 Reponsable : Mr Pallo Table des matières

Plus en détail

Sommaire. ISBN Presses universitaires de Rennes, 2013,

Sommaire. ISBN Presses universitaires de Rennes, 2013, Sommaire 1 Analyse en Composantes Principales (ACP) 1 1.1 Données - notations - exemples.................... 1 1.2 Objectifs................................. 2 1.2.1 Étude des individus......................

Plus en détail

Manuel utilisateur. Développement d'un logiciel de recherche d'images. LAMBERT VELLER Sylvain MARTINS David

Manuel utilisateur. Développement d'un logiciel de recherche d'images. LAMBERT VELLER Sylvain MARTINS David Manuel utilisateur Développement d'un logiciel de recherche d'images LAMBERT VELLER Sylvain MARTINS David M1 STIC Université de Bourgogne 2010-2011 Table des matières 1 Introduction 1 I Administration

Plus en détail

UNIVERSITÉ LUMIÈRE LYON 2 UFR DE SCIENCES ÉCONOMIQUES ET DE GESTION. M1- Economie quantitative. Analyse des données

UNIVERSITÉ LUMIÈRE LYON 2 UFR DE SCIENCES ÉCONOMIQUES ET DE GESTION. M1- Economie quantitative. Analyse des données UNIVERSITÉ LUMIÈRE LYON 2 UFR DE SCIENCES ÉCONOMIQUES ET DE GESTION M1- Economie quantitative Analyse des données Polycopié 2 : Classification automatique Année Universitaire 2013-2014 Courriel ; rafik.abdesselam@univ-lyon2.fr

Plus en détail

Analyse des Données. 1 Objectif du TP. 3 Méthode hiérarchique. Fiche de TP n o Procédure Cluster : méthode de Ward

Analyse des Données. 1 Objectif du TP. 3 Méthode hiérarchique. Fiche de TP n o Procédure Cluster : méthode de Ward IUT de Caen - Département STID Responsable : Alain LUCAS 1 Objectif du TP Analyse des Données Fiche de TP n o 3 STID 2ème année L objectif de ce TP va consister en la réalisation de trois classifications

Plus en détail

LES TYPOLOGIES DE PARCOURS METHODES ET USAGES. Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr

LES TYPOLOGIES DE PARCOURS METHODES ET USAGES. Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr LES TYPOLOGIES DE PARCOURS METHODES ET USAGES Yvette Grelet, Patrick Rousset CEREQ grelet@mrsh.unicaen.fr rousset@cereq.fr 1 PLAN Première partie : un exemple traité «en vraie grandeur» : les 26500 jeunes

Plus en détail

1.1 Exemple introductif d un cube de données... 2

1.1 Exemple introductif d un cube de données... 2 1.1 Exemple introductif d un cube de données............... 2 2.1 Pré-traitement des données avec les outils OLAP [MHW00]...... 14 2.2 Architecture d un système intégrant SGBD, OLAP et MOLAP [Fu05] 16

Plus en détail

Classification non supervisée hiérarchique

Classification non supervisée hiérarchique 1/14 Classification non supervisée hiérarchique 5MS04 - Analyse des donnees Master 2 spécialité Statistiques Université Pierre et Marie Curie B. Michel 7 6 5 4 3 2 1 d e a b c 2/14 Introduction Données

Plus en détail

Classification de variables qualitatives pour la compréhension de la prise en compte de l'environnement par les agriculteurs

Classification de variables qualitatives pour la compréhension de la prise en compte de l'environnement par les agriculteurs Classification de variables qualitatives pour la compréhension de la prise en compte de l'environnement par les agriculteurs Vanessa KUENTZ-SIMONET, Sandrine LYSER, Jacqueline CANDAU, Philippe DEUFFIC,

Plus en détail

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 WEKA : c est quoi? Brigitte Bigi LPL - Équipe C3I 15 février 2011 Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 Introduction 1 Introduction 2 Classification supervisée 3 WEKA

Plus en détail

AT41 - «Métropoles et réseaux»

AT41 - «Métropoles et réseaux» AT41 - «Métropoles et réseaux» Une approche par la théorie des graphes Plan Problématiques Quelques définitions Théorie des graphes: 1. Partitionnement de graphe : ex. les communautés 2. Analyse des réseaux

Plus en détail

Chapitre 3 Dénombrement et représentation d un caractère continu. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel

Chapitre 3 Dénombrement et représentation d un caractère continu. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel Chapitre 3 Dénombrement et représentation d un caractère continu Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel Introduction Un caractère quantitatif est continu si ses modalités possibles

Plus en détail

Gestion d'un entrepôt

Gestion d'un entrepôt Gestion d'un entrepôt Épreuve pratique d'algorithmique et de programmation Concours commun des écoles normales supérieures Durée de l'épreuve: 3 heures 30 minutes Juin/Juillet 2010 ATTENTION! N oubliez

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

CH 3 : Classification

CH 3 : Classification CH 3 : Classification A- Généralités B- Mesure d éloignement C- Critère d homogénéité D- Choix d une méthode E- Mesures de la qualité F- Interprétation G- ACP/Classification H- Exemple A- Généralités

Plus en détail

Classification non supervisée

Classification non supervisée AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................

Plus en détail

Atelier d économétrie

Atelier d économétrie Atelier d économétrie Chapitre 4 : Le problème de la multicolinéarité : application sous SAS Vincent Bouvatier Université de Paris Ouest - Nanterre La Défense Bâtiment G, bureau 308A vbouvatier@u-paris10.fr

Plus en détail

Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification

Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification Analyse de données avec Complémentarité des méthodes d analyse factorielle et de classification François Husson & Julie Josse Laboratoire de mathématiques appliquées Agrocampus Rennes husson@agrocampus-ouest.fr

Plus en détail

L analyse en composantes principales en pratique

L analyse en composantes principales en pratique L analyse en composantes principales en pratique Après avoir vu sa formalisation mathématique dans le module précédent, on s intéresse ici à l utilisation pratique de l ACP. 1 Objectifs L objectif de l

Plus en détail

ACP et classification de données spatiales

ACP et classification de données spatiales UE STA112 ACP et classification de données spatiales Mars 2012 Gilbert Saporta Conservatoire National des Arts et Métiers gilbert.saporta@cnam.fr http://cedric.cnam.fr/~saporta Compléments sur les indices

Plus en détail

Analyse de données M1 Statistique et économétrie - 2011 C. Herzet, V. Monbet Analyse Factorielle des Correspondances Multiples

Analyse de données M1 Statistique et économétrie - 2011 C. Herzet, V. Monbet Analyse Factorielle des Correspondances Multiples Analyse de données M1 Statistique et économétrie - 2011 C. Herzet, V. Monbet Analyse Factorielle des Correspondances Multiples 1 ACM avec R Plusieurs packages fournissent des outils permettant de réaliser

Plus en détail

Anne-lise HUYET- Jean-Luc PARIS LIMOS équipe Recherche en Systèmes de Production IFMA Mail: huyet@ifma.fr, paris@ifma.fr

Anne-lise HUYET- Jean-Luc PARIS LIMOS équipe Recherche en Systèmes de Production IFMA Mail: huyet@ifma.fr, paris@ifma.fr Extraction de Connaissances pertinentes sur le comportement des systèmes de production: une approche conjointe par Optimisation Évolutionniste via Simulation et Apprentissage Anne-lise HUYET- Jean-Luc

Plus en détail

Les arbres de décision

Les arbres de décision Les arbres de décision 25 Septembre 2007 Datamining 1 2007-2008 Plan 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining 2 2007-2008 Les données du Titanic Le partitionnement

Plus en détail

6 Classifications et partitions

6 Classifications et partitions Michel Baylac, UMR 7205, UMS 2700 plate forme Morphométrie baylac@mnhn.fr 7 6 Classifications et partitions 6 5 4 3 Partitions 2 1 1 2 3 7 6 45 Données (N=7, p=2) Distances Classificationsrarchique Diagrammes

Plus en détail

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée

Plus en détail

Analyses de données avec FactoMineR Statistiques Multidimensionnelles Oct.-Nov. 2013

Analyses de données avec FactoMineR Statistiques Multidimensionnelles Oct.-Nov. 2013 Analyses de données avec FactoMineR Statistiques Multidimensionnelles Oct.-Nov. 2013 FactoMineR est un paquet R qui implémente les principales méthodes d analyse de données. Si le paquet n est pas déjà

Plus en détail

Les macros SAS. d'analyse des données

Les macros SAS. d'analyse des données INSTITUT NATIONAL DE LA STATISTIQUE ET DES ÉTUDES ÉCONOMIQUES DIRECTION GÉNÉRALE 18, boulevard Adolphe Pinard - 75675 PARIS CEDEX 14 Les macros SAS d'analyse des données Document n F 9405 15 mars 1994

Plus en détail

FICHE DE RÉVISION DU BAC

FICHE DE RÉVISION DU BAC Note liminaire Programme selon les sections : - fonctions de références, représentations graphiques, dérivées, tableau de variations : toutes sections - opérations sur les limites, asymptotes : STI2D,

Plus en détail

Introduction à l analyse des correspondances et à la classification

Introduction à l analyse des correspondances et à la classification Introduction à l analyse des correspondances et à la classification Bertrand Iooss Véronique Verrier EDF R&D Département Management des Risques Industriels Cours IUP SID Toulouse - M1-17/10/2011 14/10/2011

Plus en détail

MÉTHODES DE CLASSIFICATIONS. UAG IESG STS LS6 BBB Biomathématiques Bruno Hérault 2012 Semestre 2

MÉTHODES DE CLASSIFICATIONS. UAG IESG STS LS6 BBB Biomathématiques Bruno Hérault 2012 Semestre 2 MÉTHODES DE CLASSIFICATIONS UAG IESG STS LS6 BBB Biomathématiques Bruno Hérault 2012 Semestre 2 Objectifs Partitionnement (Soit un ensemble X quelconque. Un ensemble P de sous-ensembles de X est une partition

Plus en détail

Data Mining. Rapport de Projet

Data Mining. Rapport de Projet Université Bordeaux I 2011 Nicolas FONTAINE Florence MAURIER Jonathan MERCIER Data Mining Rapport de Projet M2 Bioinformatique Responsable : P. Desbarat Table des matières Introduction 1 1 Choix des données

Plus en détail

Clustering Méthodes et algorithmes avancés Mars - 2006

Clustering Méthodes et algorithmes avancés Mars - 2006 Clustering Méthodes et algorithmes avancés Mars - 2006 Clustering (catégorisation) Objectifs du clustering Mesures de distances habituelles, similarités entre objets Les différents algorithmes Clustering

Plus en détail

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55

Plus en détail

1 Librairies et tables SAS

1 Librairies et tables SAS 1 Université Pierre et Marie Curie, Paris 6 Master 2 de Statistique Année 2014-2015 T.P. 2 Gestion des tables SAS 1 Librairies et tables SAS SAS eectue des calculs uniquement sur des chiers de données

Plus en détail

Travaux Pratiques d'analyse des données Classification Hiérarchique (méthode d'agrégation de Ward) CES Janvier ème séance

Travaux Pratiques d'analyse des données Classification Hiérarchique (méthode d'agrégation de Ward) CES Janvier ème séance Travaux Pratiques d'analyse des données Classification Hiérarchique (méthode d'agrégation de Ward) CES Janvier 07 ème séance Exemple : Caractéristiques de Clients d'une Banque I Tableau Initial des données

Plus en détail

Introduction à l analyse statistique et bioinformatique des puces à ADN

Introduction à l analyse statistique et bioinformatique des puces à ADN Formation INSERM 10 février 2004 Introduction à l analyse statistique et bioinformatique des puces à ADN Gaëlle Lelandais lelandais@biologie.ens.fr 1 Première Partie Analyse d une puce à ADN : Le recherche

Plus en détail

Introduction. Qu est-ce qu un algorithme?

Introduction. Qu est-ce qu un algorithme? Introduction Ce livre a pour objectif de proposer une approche pédagogique de l algorithmique. Il est structuré en deux grandes parties, la conception d algorithmes et l étude d algorithmes existants.

Plus en détail

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre

IRaMuTeQ : implémentation de la méthode ALCESTE d'analyse de texte dans un logiciel libre Pierre Ratinaud ratinaud@univ-tlse2.fr laboratoire CREFI-T REPERE Université de Toulouse II Le Mirail Sébastien Déjean sebastien.dejean@math.univ-toulouse.fr Institut de mathématiques de Toulouse Université

Plus en détail

Le clustering dans les réseaux ad-hoc

Le clustering dans les réseaux ad-hoc Le clustering dans les réseaux ad-hoc Auteur : Florent NOLOT Florent NOLOT 1 Présentation Le modèle et les motivations Le clustering à 1 saut et à k sauts Quelques résultats de simulation L'adaptation

Plus en détail

UTILISATION CONJOINTE DES RÈGLES D ASSOCIATION

UTILISATION CONJOINTE DES RÈGLES D ASSOCIATION UTILISATION CONJOINTE DES RÈGLES D ASSOCIATION ET DE LA CLASSIFICATION DE VARIABLES Marie Plasse * **, Ndeye Niang-Keita ** & Gilbert Saporta ** * PSA Peugeot Citroën DINQ/DSIN/SIFA/APST 45 avenue Jean-Pierre

Plus en détail

Thomas André Manuel Brisville. Data Mining. Compte-rendu de l activité d évaluation 11/02/2015 UTFPR

Thomas André Manuel Brisville. Data Mining. Compte-rendu de l activité d évaluation 11/02/2015 UTFPR Thomas André Manuel Brisville Data Mining Compte-rendu de l activité d évaluation 11/02/2015 UTFPR 1 Table des matières 2 Introduction... 2 3 La base de données utilisée... 3 3.1 Origine de la base...

Plus en détail

Un algorithme de composition musicale

Un algorithme de composition musicale Un algorithme de composition musicale Table des matières Présentation Le compositeur. Le code PMX.................................................. Structures de données utilisées........................................

Plus en détail

Méthodes d Optimisation

Méthodes d Optimisation Méthodes d Optimisation Licence Professionnelle Logistique Université du Littoral - Côte d Opale, Pôle Lamartine Laurent SMOCH (smoch@lmpa.univ-littoral.fr) Septembre 2011 Laboratoire de Mathématiques

Plus en détail

Rapport du stage effectué au laboratoire HEUDIASYC UMR CNRS 6599. Moustapha DOUMIATI. pour obtenir le diplôme Master de recherche en informatique

Rapport du stage effectué au laboratoire HEUDIASYC UMR CNRS 6599. Moustapha DOUMIATI. pour obtenir le diplôme Master de recherche en informatique Rapport du stage effectué au laboratoire HEUDIASYC UMR CNRS 6599 présenté par Moustapha DOUMIATI pour obtenir le diplôme Master de recherche en informatique Fouille de données pour l analyse des performances

Plus en détail

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) 1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires

Plus en détail

CLASSIFICATION DE VARIABLES QUALITATIVES POUR LA COMPRÉHENSION DE LA PRISE EN COMPTE DE L ENVIRONNEMENT PAR LES AGRICULTEURS

CLASSIFICATION DE VARIABLES QUALITATIVES POUR LA COMPRÉHENSION DE LA PRISE EN COMPTE DE L ENVIRONNEMENT PAR LES AGRICULTEURS CLASSIFICATION DE VARIABLES QUALITATIVES POUR LA COMPRÉHENSION DE LA PRISE EN COMPTE DE L ENVIRONNEMENT PAR LES AGRICULTEURS Vanessa KUENTZ-SIMONET, Sandrine LYSER, Jacqueline CANDAU, Philippe DEUFFIC

Plus en détail

Analyse en Composantes Principales avec XLSTAT

Analyse en Composantes Principales avec XLSTAT Analyse en Composantes Principales avec XLSTAT Une feuille Excel contenant à la fois les données et les résultats peut-être téléchargée en cliquant ici. Les données proviennent du US Census Bureau (le

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

IVRG Image and Visual Representation Group

IVRG Image and Visual Representation Group IVRG Image and Visual Representation Group Projet en Digital Photography Responsable : Patrick Vandewalle Sylvain PASINI Bertrand GRANDGEORGE le 2 juin 2003 Table des matières Table des matières 2 1. Introduction

Plus en détail

Didacticiel - Études de cas

Didacticiel - Études de cas 1 Objectif Classification automatique sur données mixtes (mélange de variables qualitatives et quantitatives). Utilisation des facteurs de l analyse factorielle de données mixtes. La classification automatique

Plus en détail

Présentation générale du logiciel ALCESTE

Présentation générale du logiciel ALCESTE Présentation générale du logiciel ALCESTE Cours donné en Master 1 «Sciences de l éducation et de la formation» (dispositif du monitorat informatique) et en DHEPS-REPS (diplôme de Formation continue) Intervenante

Plus en détail

Formation sous SAS. Project - 27.09.2011

Formation sous SAS. Project - 27.09.2011 Formation sous SAS. Project - 27.09.2011 Ce document rassemble les informations fournies lors de la formation doctorale organisée par l'association PROJECT. Deux parties le composent: La partie procédures

Plus en détail

Automate Fini Non-déterministe

Automate Fini Non-déterministe Automate Fini Non-déterministe Théorème de Kleene Systèmes Formels Master 1 ISIDIS Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/~verel Université du Littoral Côte d Opale

Plus en détail

Protéger. Faire découvrir Gérer

Protéger. Faire découvrir Gérer Protéger Faire découvrir Gérer Tutoriel N 8 Création des bases de données réparties Étape N 1 Principes Le principe d un système base de données réparties (ou subordonnées)/ base de données maîtresse (ou

Plus en détail

Estimation de la variance à l aide des poids de bootstrap Guide de l usager du programme BOOTVARF_V30.SAS (VERSION 3.0)

Estimation de la variance à l aide des poids de bootstrap Guide de l usager du programme BOOTVARF_V30.SAS (VERSION 3.0) Estimation de la variance à l aide des poids de bootstrap Guide de l usager du programme BOOTVARF_V30.SAS (VERSION 3.0) 1. Introduction Ce guide s adresse aux utilisateurs du programme SAS BOOTVARF_V30.SAS

Plus en détail