08/10/2014. Sources. Plan de cours

Documents pareils
La classification automatique de données quantitatives

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

ACP Voitures 1- Méthode

1 - PRESENTATION GENERALE...

PLAN. Ricco Rakotomalala Tutoriels Tanagra - 2

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Agrégation des portefeuilles de contrats d assurance vie

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Analyse des correspondances avec colonne de référence

Classification non supervisée

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

Extraction d informations stratégiques par Analyse en Composantes Principales

Introduction. Préambule. Le contexte

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Introduction au datamining

Introduction au Data-Mining

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse en Composantes Principales

Scénario: Données bancaires et segmentation de clientèle

VI. Tests non paramétriques sur un échantillon

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Logiciel XLSTAT version rue Damrémont PARIS

Quelques éléments de statistique multidimensionnelle

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Resolution limit in community detection

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière

REVUE DE STATISTIQUE APPLIQUÉE

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

INTRODUCTION AU DATA MINING

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Arbres binaires de décision

Mémo d utilisation de ADE-4

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Big Data et Graphes : Quelques pistes de recherche

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Semestre 1. Objectifs Approfondissement de l environnement Java et de son interface de programmation d applications : réseaux, et processus.

L'analyse des données à l usage des non mathématiciens

Les parcs de logements et leur occupation. dans l Aire Urbaine de Lille et sa zone d influence. Situation 2005 et évolution

1. Introduction / Identification

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

données en connaissance et en actions?

Les algorithmes de fouille de données

Chapitre 3. Les distributions à deux variables

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

Utilisation des tableaux sémantiques dans les logiques de description

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

SPHINX Logiciel de dépouillement d enquêtes

SEO Campus 2009 : Pagerank et optimisation

Critères pour avoir la meilleure équipe!

TRAVAUX DE RECHERCHE DANS LE

CONSTRUIRE SES CARTES: LE DÉVELOPPEMENT D'OUTILS STATISTIQUES INTERACTIFS INTÉGRÉS À UN SYSTÈME D'INFORMATION GÉOGRAPHIQUE

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Statistiques descriptives sous Excel. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Programmation linéaire

Etudes marketing et connaissance client

IT CENTRE DE VALEUR la transformation s opère jour après jour. Philippe Kaliky. Directeur Centre de Services. Espace Grande Arche Paris La Défense

Sommaire. Introduction. I. Notions de routage a) Technologies actuelles b) Avantages et désavantages

Apprentissage Automatique

Enregistrement et transformation du son. S. Natkin Novembre 2001

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

S LICENCE INFORMATIQUE Non Alt S Alt S S1 S2 S3 S4 SS5 S6 Parcours : S IL (Ingénierie Logicielle) SRI (Systèmes et Réseaux Informatiques)

Big Data et Graphes : Quelques pistes de recherche

Portrait statistique de la population de représentant en épargne collective au Québec

Création intuitive des éléments d un paysage

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Traitement bas-niveau

Complet Intuitif Efficace. Références

Enjeux mathématiques et Statistiques du Big Data

Les bases de données relationnelles

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

ESIEA PARIS

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Ebauche Rapport finale

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Jean-Philippe Préaux

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Séance 11 : Typologies

Méthodes d évolution de modèle produit dans les systèmes du type PLM

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Optimisation, traitement d image et éclipse de Soleil

Introduction au Data-Mining

Localisation des fonctions

Niveau de scolarité et emploi : le Canada dans un contexte international

Objectifs : piloter l organisation à travers des indicateurs (regroupés dans un tableau de bord), et informer des résultats la hiérarchie.

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Corrigé des TD 1 à 5

Big Data On Line Analytics

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Contrôlez et Maîtrisez votre environnement de messagerie Lotus Notes Domino

Transcription:

Ces supports de cours ont été construits dans le cadre d'un enseignement d'analyse de données et représentation cartographique à l'université Paris 1 Panthéon-Sorbonne. Sources Sources ayant servi à la construction de ce support de cours : - Cours de Marie-Hélène Vandersmissen, Professeur Université Laval, QC ; - Notes de cours «Cartographie Assistée par Ordonateur», de Jean Raveneau, Université Laval, QC ; - Pumain D., Béguin M., 2003, «La représentation des données statistiques : Statistique et cartographie» ; - Lebart L., Morineau A., Piron M., 2000, «Statistique exploratoire multidimensionnelle», 3 ème édition. Plan de cours Introduction : Chapitre 1 : L analyse en composante principale (analyse multivariée sur tableau élémentaire) Chapitre 3 : La classification ascendante hiérarchique (CAH) Conclusion Chapitre 2 : L analyse factorielles des correspondances (analyse multivariée sur tableau de contingence) 1

A- Qu est ce que classer? Organiser l information; Mettre ensemble dans une même classe les objets qui se ressemblent; Obtenir des classes d éléments formant une partition de l ensemble étudié; Associer à chaque classe un type généralisant les éléments de la classe. B- Différences entre analyse factorielle et analyse de classification : L analyse factorielle cherche à réduire le nombre de variables (repose sur la similarité des variables). L analyse de classification cherche à regrouper les observations similaires (repose sur la similarité des observations). Technique de réduction de données : réduire les n observations originale en g groupes (1 g n); Le but est de minimiser la variation intra-classes et maximiser la variation inter-classes. C- Complémentarités entre analyse factorielle et analyse de classification : L analyse factorielle met en évidence des structures. Toutefois, les analyses factorielles conduisent : 1- Des résultats souvent difficiles à interpréter; 2- Une visualisation à deux ou très peu de dimensions, alors que les nombre de facteurs «significatifs» peut être supérieur; 3- Une visualisation pouvant manquer de robustesse (un individu au profil aberrant peut influencer notablement les facteurs; 4- Une visualisation en graphique chargé et peu lisible. 2

C- Complémentarités entre analyse factorielle et analyse de classification : L analyse de classification cherche à partitionner l ensemble des individus statistiques élémentaires à partir de l ensemble des individus ou des facteurs les plus significatifs d une analyse factorielle : 1 et 2- Les classes (ou clusters) prennent en compte la dimension réelle du nuage de points. Elles corrigent des déformations dues à l opération de projection. Elles aident à la compréhension des axes factoriels; 3- Algorithmes d agglomération plus robustes. Les classes sont indépendantes d éventuels points marginaux isolés (valeurs extrêmes); 4- Les classes sont plus simples à décrire que des espaces continus. La sortie graphique est allégée (une carte en classe). Introduction à l AFC C- Complémentarités entre analyse factorielle et analyse de classification : -Tableau de mesures -Tableau de % -Tableau de contingence - Variables qualitatives codées en «disjonctif complet» ACP - des individus et des variables - Distance euclidienne AFC -des lignes et des colonnes Idée de symétrie - distance du chi 2 Facteurs CAH -Distance euclidienne - distance du chi2 D- Applications de l analyse de classification : Géo-démographie : réduction d un grand nombre de sous-régions (secteurs de dénombrement) en les reclassant dans un plus petit nombre de régions; Méthode de régionalisation dont l objectif est de diviser une région en plus petit nombre de régions contiguës : Vise à définir des régions = ensemble de lieux voisins aux caractéristiques semblables. Constitution d une typologie : groupes différents composés chacun d objets semblables, indépendamment de la localisation géographique de ces objets; ex : typologie des villes d Île de France sur la base de la structure de la population active. 3

E- 2 grands types d analyse de classification : Méthodes hiérarchiques : Débute avec n groupes (cluster), soit, n = nombre d observations; Ensuite joint 2 groupes, ne reste que n-1 groupes; Processus se poursuit jusqu à ce qu il n y ait qu un seul groupe (qui contient l ensemble des observations); Processus hiérarchique car la fusion de deux observations à n importe quelle étape ne peut pas se défaire plus tard; E- 2 grands types d analyse de classification : Méthodes non-hiérarchiques : Décision a priori de former n groupes = désavantage; Choix de points de base et groupement des autres autour d eux : - Choisis aléatoirement, systématiquement, sur un maillage géographique ou à partir d exigences propres au problème. A- La CAH qu est ce que c est? La CAH organise les observations, définies par des caractères (variables), elles-mêmes divisées en modalités/valeurs, en les regroupant hiérarchiquement. Agrégation des plus semblables puis les observations ou groupes d observations un peu moins semblables ainsi de suite jusqu au regroupement trivial de l ensemble de l échantillon. C est parce que cette technique part du particulier pour remonter au général qu elle est dite «ascendante» ou agglomérative. Cette démarche est à l inverse de techniques beaucoup moins utilisées en analyse de données. 4

B- Les principe de la CAH? Débute avec n groupes (cluster), soit, n = nombre d observations; Ensuite joint 2 groupes, ne reste que n-1 groupes; Processus se poursuit jusqu à ce qu il n y ait qu un seul groupe (qui contient l ensemble des observations); Processus hiérarchique car la fusion de deux observations à n importe quelle étape ne peut pas se défaire plus tard; C- Comment obtenir de bonnes classes? En minimisant l inertie intra-classes et en maximisant l inertie inter-classes C- Comment obtenir de bonnes classes? En minimisant l inertie intra-classes et en maximisant l inertie inter-classes 5