Analyse multivariée approfondie

Documents pareils
La classification automatique de données quantitatives

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Publications, ressources, liens, logiciels,

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Optimisation des ressources des produits automobile première

Logiciel XLSTAT version rue Damrémont PARIS

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Introduction au Data-Mining

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

La place de SAS dans l'informatique décisionnelle

Spécificités, Applications et Outils

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Coheris est agréé organisme de formation, n d agrément

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining -

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Complet Intuitif Efficace. Références

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

ACP Voitures 1- Méthode

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Microsoft Excel : tables de données

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Pourquoi l apprentissage?

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Introduction au Data-Mining

Économie, statistique, finance et actuariat

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Scénario: Données bancaires et segmentation de clientèle

Agenda de la présentation

Arbres binaires de décision

Statistiques Descriptives à une dimension

Enjeux mathématiques et Statistiques du Big Data

Traitement des données avec Microsoft EXCEL 2010

TRANSPORT ET LOGISTIQUE :

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Introduction au datamining

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

données en connaissance et en actions?

Ensae-Ensai Formation Continue (Cepe)

PLAN. Ricco Rakotomalala Tutoriels Tanagra - 2

Analyse des correspondances avec colonne de référence

THOT - Extraction de données et de schémas d un SGBD

2 Serveurs OLAP et introduction au Data Mining

Introduction à la statistique descriptive

Chapitre 1. La démarche statistique appliquée au management. Minicas. Questions :

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

1 - PRESENTATION GENERALE...

Quelques éléments de statistique multidimensionnelle

Aide-mémoire de statistique appliquée à la biologie

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Statistique Descriptive Élémentaire

S LICENCE INFORMATIQUE Non Alt S Alt S S1 S2 S3 S4 SS5 S6 Parcours : S IL (Ingénierie Logicielle) SRI (Systèmes et Réseaux Informatiques)

REVUE DE STATISTIQUE APPLIQUÉE

Statistique Descriptive Multidimensionnelle. (pour les nuls)

La simulation probabiliste avec Excel

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

LES MODELES DE SCORE

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

Filière «Économie et Entreprise» 2015/2016

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Biostatistiques : Petits effectifs

Introduction. Préambule. Le contexte

Analyse de grandes bases de données en santé

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

CHAPITRE 2. Les variables

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Formations. Esprit de service, Exigence technologique. Business Intelligence Business Analytics Big Data et Data Science Etudes Cliniques

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

TRAVAUX DE RECHERCHE DANS LE

(Customer Relationship Management, «Gestion de la Relation Client»)

WEBSELL. Projet DATAMINING

DURÉE DE VIE ET DE. Michel JAMBU, Centre National d'etudes des Télécommunications France Direction scientifique

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Cybermarché et analyse comportementale

Université du Québec à Chicoutimi. Département d informatique et de mathématique. Plan de cours. Titre : Élément de programmation.

Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences.

Mémo d utilisation de ADE-4

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

SQL Server 2012 et SQL Server 2014

Junior ESSEC 1, avenue Bernard Hirsch Cergy / Tel : +33 (0) / Fax : +33 (0) / je@junioressec.

SPHINX Logiciel de dépouillement d enquêtes

ESIEA PARIS

Enregistrement et transformation du son. S. Natkin Novembre 2001

C est quoi un tableur?

Transcription:

Analyse multivariée approfondie Enseignants: NIANG N. et RUSSOLILLIO G. Maître de conférences Statistique Appliquée Laboratoire CEDRIC CNAM http://www.cnam.fr et d autres intervenants extérieurs au Cnam 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments (master actuariat, MR123 ancien MR085) prérequis STA101 STA102 Programme Modalités de contrôle SAS Informations: http://maths.cnam.fr/spip.php?article56 2 1

Bibliographie M.BARDOS : Analyse discriminante (Dunod, 2001) T.HASTIE, J.FRIEDMAN, R.TIBSHIRANI : The Elements of Statistical Learning, 2 ème édition (Springer, 2009) http://www.stanford.edu/~hastie/local.ftp/springer/eslii_print10.pdf L.LEBART, M.PIRON, A.MORINEAU : Statistique exploratoire multidimensionnelle, 4 ème édition (Dunod, 2006) J.P.NAKACHE, J.CONFAIS : Statistique explicative appliquée (Technip, 2003) G.SAPORTA : Probabilités, analyse des données, statistique, 3 ème édition (Technip, 2011) S.TUFFÉRY : Data mining et statistique décisionnelle, 3 ème édition (Technip, 2010) Le Livre de James, Witten, Hastie, & Tibshirani (2013). An Introduction to Statistical Learning with Applications in R. (Téléchargeable à partir de la page des auteurs). Quelques liens intéressants ici http://cedric.cnam.fr/~saporta 3 Ouvrages de références : Bouroche Saporta : L analyse des données. Collection Que sais-je PUF 1980 Saporta : Probabilités - Analyse des données et Statistique. Editions Technip 1990 2ème édition 2006 Tenenhaus : Méthodes statistiques en gestion. Dunod Entreprise 1994 Tenenhaus : Statistiques 2ème édition, Editions Technip 2006 Lebart Piron Morineau : Statistique exploratoire multidimensionnelle. Dunod 1995 St@tNet: le seul cours francophone de statistique en e-learning. http://www.agro-montpellier.fr/cnam-lr/statnet 4 2

STA 201 Analyse Multivariée Approfondie Objectifs pédagogiques Approfondir les méthodes statistiques à plusieurs variables, qu'elles soient descriptives ou décisionnelles Compétences visées Maitriser les principales méthodes récentes d'analyse multivariée 5 STA 201 Analyse Multivariée Approfondie PARTIE 1 Introduction - Rappels de base Rappels sur les méthodes d analyse multivariée Eléments de statistique multivariée (lois, tests ) Echantillonnage, simulation, bootstrap PARTIE 2 Approfondissement des méthodes exploratoires Analyse factorielle discriminante, données qualitatives, mixtes, multiblocs distances-mds modèles de mélanges en classification, classification de variables PARTIE 3 Approfondissement des méthodes explicatives Discrimination et segmentation Régression Ridge, PLS, logistique, robuste, non paramétrique Equations structurelles PARTIE 4 Méthodes récentes théorie de l apprentissage, méthodes sparse, méta modèles 6 3

PLAN DU COURS PARTIE 1 1 Introduction à l analyse de données multivariée 2 Analyse en Composantes Principales: ACP. 3 Classification automatique: K-means CAH 4 Analyse Factorielle des Correspondances : AFC 5 Analyse des Correspondances Multiples: ACM 7 PARTIE 1 Introduction Analyse des données multivariée L analyse multivariée désigne un ensemble de méthodes et de techniques pour l étude de tableaux de plusieurs variables décrivant plusieurs individus. Plusieurs de ces techniques sont récentes leur développement étant lié en partie à l augmentation de performances des ordinateurs. Le but de ce cours est de donner un panorama des méthodes pour aider au choix de méthodes adéquates en fonction du type de données ou de la problématique à étudier. 8 4

I. Généralités Statistique ensemble de données recueil, traitement, interprétation des données Aspect descriptif, exploratoire : tableaux, graphiques, résumés numériques Aspect explicatif, inférentiel, décisionnel : échantillon issu d une population, estimations, tests hypothèses probabilistes. Statistique classique étude d un nombre restreint de variables sur un petit ensemble d individus 9 Analyse des données * traitement de données en masse : grand nombre de variables et d individus * vision globale multidimensionnelle des individus et des variables * représentations géométriques, création de nouvelles variables *Outils informatiques indispensables mais pas que! 10 5

Data mining Big data * Explosion du volume des données : très grand nombre de variables et d individus, multiples sources, natures, vitesse (flux, temps réel ) Données opérationnelles, analyse secondaire Possibilités de valorisation (valeur), succès, effet de mode? * Besoins de méthodes et d outils informatiques spécifiques: renouveau de l analyse des données 11 Deux points de vue : Individus : - ressemblances ou différences - recherche de groupes homogènes Variables : - liaisons entre variables - recherche d une explication d une variable par les autres importance de la prise en compte des liaisons entre variables (ex bivarié (ellipse) vs simultané (rectangle) Plusieurs méthodes 12 6

Quelques définitions Population : ensemble d objets Individus, unités statistiques : objets de base Échantillon : partie observée Variables : grandeurs mesurées sur les individus numériques discrètes ou continues qualitatives nominales ou ordinales 13 Un exemple Individus = voitures, variables : grandeurs mesurées sur les individus numériques discrètes ou continues qualitatives nominales ou ordinales 14 7

II- Les différents types de tableaux de données Tableaux individus variables n lignes : les individus et p colonnes : les variables - numériques : matrice X nxp - qualitatives : modalités codées (arbitraires) ou tableau disjonctif (indicatrices) 15 Tableau de contingence croisement de 2 variables qualitatives Exemple: n= 4 individus, p=3 variables qualitatives à 3, 3 et 2 modalités Tableau brut de données codées arbitraires Transformation tableau disjonctif 1 0 0 0 0 1 0 1 3 p 0 1 0 1 0 0 1 0 3 p X =0 1 0 0 1 0 0 1 3 p 0 0 1 1 0 0 0 1 3 p 1 2 1 2 1 1 1 3 12 np X = (X 1 X 2 X p ) indicatrices des modalités X 1 X 2 X 3 1 3 2 2 1 1 2 2 2 3 1 2 Tableau de contingence X 1 *X 3 16 8

Les différents types de tableaux de données (suite) Tableaux de préférence (ou de rangs) entre objets : les variables sont les objets et chaque individu range ces objets par ordre de préférence décroissante. Tableaux de distances: tableaux des nxn distances entre individus Tableaux de présence absence Autres types de tableaux: tableaux de notes, de pourcentage 17 III- Les différentes méthodes Classement selon l objectif poursuivi: * description : but est de comprendre au mieux les données grâce à une description simplifiée aussi proche que possible de la réalité. (On étudie le tableau entier) * explication et prévision : but est d expliquer et de prévoir une ou plusieurs variables du tableau en fonction d autres variables. (tableau partitionné en 2) Remarque: Il existe aussi les cas de plusieurs tableaux à décrire ou à expliquer Deux familles de méthodes. 18 9

Les différentes méthodes exploratoires (1) Méthodes factorielles ( faire la différence entre réduction et sélection) réduction du nombre de variables en les résumant par un petit nombre de composantes synthétiques appelés facteurs : ACP pour les variables quantitatives (analyse en composantes principales) AFC pour 2 variables qualitatives (analyse factorielle des correspondances simples) ACM pour plusieurs variables qualitatives (analyse des correspondances multiples) Extension: non linéaire, MDS, données mixtes, évolutives, tableaux... 19 Les différentes méthodes exploratoires (2) Méthodes de classification réduction du nombre d individus par la formation de groupes homogènes : méthodes de partitionnement en un nombre fixé de classes a priori: méthode des centres mobiles, nuées dynamiques méthodes hiérarchiques: suite de partitions emboîtées: méthodes de classification ascendante hiérarchique (CAH) Extension: classification de variables (méthodes divisives), méthodes probabilistes modèles de mélanges (non géométriques) 20 10

Méthodes explicatives, décisionnelles ou inférentielles Modèle linéaire général : recherche d une relation entre une variable numérique et plusieurs autres : Numériques : régression Qualitatives : analyse de la variance Mixtes : analyse de la covariance Analyse discriminante: prédiction d une variable qualitative à l aide de plusieurs prédicteurs en général numériques Extension : Disqual, PLS, ridge, régression logistique, arbre de décision, non linéaire, réseaux de neurones 21 Le but de l analyse multidimensionnelle exploratoire est de décrire ce tableau de données. Pas d hypothèses probabilistes ou de modèle. La démarche classique en deux étapes: 1) analyses préalables unidimensionnelle et bidimensionnelle 2) Réaliser une étude multidimensionnelle 22 11

ANALYSE EN COMPOSANTES PRINCIPALES 23 EXEMPLE: LES DONNEES Feuille de calcul Microsoft Excel 24 12

EXEMPLE 25 EXEMPLE 26 13

EXEMPLE 27 EXEMPLE 28 14

EXEMPLE 29 EXEMPLE 30 15

EXEMPLE 31 EXEMPLE 32 16