Analyse multivariée approfondie Enseignants: NIANG N. et RUSSOLILLIO G. Maître de conférences Statistique Appliquée Laboratoire CEDRIC CNAM http://www.cnam.fr et d autres intervenants extérieurs au Cnam 1 STA 201 Statistique Multivariée Approfondie Inscriptions et agréments (master actuariat, MR123 ancien MR085) prérequis STA101 STA102 Programme Modalités de contrôle SAS Informations: http://maths.cnam.fr/spip.php?article56 2 1
Bibliographie M.BARDOS : Analyse discriminante (Dunod, 2001) T.HASTIE, J.FRIEDMAN, R.TIBSHIRANI : The Elements of Statistical Learning, 2 ème édition (Springer, 2009) http://www.stanford.edu/~hastie/local.ftp/springer/eslii_print10.pdf L.LEBART, M.PIRON, A.MORINEAU : Statistique exploratoire multidimensionnelle, 4 ème édition (Dunod, 2006) J.P.NAKACHE, J.CONFAIS : Statistique explicative appliquée (Technip, 2003) G.SAPORTA : Probabilités, analyse des données, statistique, 3 ème édition (Technip, 2011) S.TUFFÉRY : Data mining et statistique décisionnelle, 3 ème édition (Technip, 2010) Le Livre de James, Witten, Hastie, & Tibshirani (2013). An Introduction to Statistical Learning with Applications in R. (Téléchargeable à partir de la page des auteurs). Quelques liens intéressants ici http://cedric.cnam.fr/~saporta 3 Ouvrages de références : Bouroche Saporta : L analyse des données. Collection Que sais-je PUF 1980 Saporta : Probabilités - Analyse des données et Statistique. Editions Technip 1990 2ème édition 2006 Tenenhaus : Méthodes statistiques en gestion. Dunod Entreprise 1994 Tenenhaus : Statistiques 2ème édition, Editions Technip 2006 Lebart Piron Morineau : Statistique exploratoire multidimensionnelle. Dunod 1995 St@tNet: le seul cours francophone de statistique en e-learning. http://www.agro-montpellier.fr/cnam-lr/statnet 4 2
STA 201 Analyse Multivariée Approfondie Objectifs pédagogiques Approfondir les méthodes statistiques à plusieurs variables, qu'elles soient descriptives ou décisionnelles Compétences visées Maitriser les principales méthodes récentes d'analyse multivariée 5 STA 201 Analyse Multivariée Approfondie PARTIE 1 Introduction - Rappels de base Rappels sur les méthodes d analyse multivariée Eléments de statistique multivariée (lois, tests ) Echantillonnage, simulation, bootstrap PARTIE 2 Approfondissement des méthodes exploratoires Analyse factorielle discriminante, données qualitatives, mixtes, multiblocs distances-mds modèles de mélanges en classification, classification de variables PARTIE 3 Approfondissement des méthodes explicatives Discrimination et segmentation Régression Ridge, PLS, logistique, robuste, non paramétrique Equations structurelles PARTIE 4 Méthodes récentes théorie de l apprentissage, méthodes sparse, méta modèles 6 3
PLAN DU COURS PARTIE 1 1 Introduction à l analyse de données multivariée 2 Analyse en Composantes Principales: ACP. 3 Classification automatique: K-means CAH 4 Analyse Factorielle des Correspondances : AFC 5 Analyse des Correspondances Multiples: ACM 7 PARTIE 1 Introduction Analyse des données multivariée L analyse multivariée désigne un ensemble de méthodes et de techniques pour l étude de tableaux de plusieurs variables décrivant plusieurs individus. Plusieurs de ces techniques sont récentes leur développement étant lié en partie à l augmentation de performances des ordinateurs. Le but de ce cours est de donner un panorama des méthodes pour aider au choix de méthodes adéquates en fonction du type de données ou de la problématique à étudier. 8 4
I. Généralités Statistique ensemble de données recueil, traitement, interprétation des données Aspect descriptif, exploratoire : tableaux, graphiques, résumés numériques Aspect explicatif, inférentiel, décisionnel : échantillon issu d une population, estimations, tests hypothèses probabilistes. Statistique classique étude d un nombre restreint de variables sur un petit ensemble d individus 9 Analyse des données * traitement de données en masse : grand nombre de variables et d individus * vision globale multidimensionnelle des individus et des variables * représentations géométriques, création de nouvelles variables *Outils informatiques indispensables mais pas que! 10 5
Data mining Big data * Explosion du volume des données : très grand nombre de variables et d individus, multiples sources, natures, vitesse (flux, temps réel ) Données opérationnelles, analyse secondaire Possibilités de valorisation (valeur), succès, effet de mode? * Besoins de méthodes et d outils informatiques spécifiques: renouveau de l analyse des données 11 Deux points de vue : Individus : - ressemblances ou différences - recherche de groupes homogènes Variables : - liaisons entre variables - recherche d une explication d une variable par les autres importance de la prise en compte des liaisons entre variables (ex bivarié (ellipse) vs simultané (rectangle) Plusieurs méthodes 12 6
Quelques définitions Population : ensemble d objets Individus, unités statistiques : objets de base Échantillon : partie observée Variables : grandeurs mesurées sur les individus numériques discrètes ou continues qualitatives nominales ou ordinales 13 Un exemple Individus = voitures, variables : grandeurs mesurées sur les individus numériques discrètes ou continues qualitatives nominales ou ordinales 14 7
II- Les différents types de tableaux de données Tableaux individus variables n lignes : les individus et p colonnes : les variables - numériques : matrice X nxp - qualitatives : modalités codées (arbitraires) ou tableau disjonctif (indicatrices) 15 Tableau de contingence croisement de 2 variables qualitatives Exemple: n= 4 individus, p=3 variables qualitatives à 3, 3 et 2 modalités Tableau brut de données codées arbitraires Transformation tableau disjonctif 1 0 0 0 0 1 0 1 3 p 0 1 0 1 0 0 1 0 3 p X =0 1 0 0 1 0 0 1 3 p 0 0 1 1 0 0 0 1 3 p 1 2 1 2 1 1 1 3 12 np X = (X 1 X 2 X p ) indicatrices des modalités X 1 X 2 X 3 1 3 2 2 1 1 2 2 2 3 1 2 Tableau de contingence X 1 *X 3 16 8
Les différents types de tableaux de données (suite) Tableaux de préférence (ou de rangs) entre objets : les variables sont les objets et chaque individu range ces objets par ordre de préférence décroissante. Tableaux de distances: tableaux des nxn distances entre individus Tableaux de présence absence Autres types de tableaux: tableaux de notes, de pourcentage 17 III- Les différentes méthodes Classement selon l objectif poursuivi: * description : but est de comprendre au mieux les données grâce à une description simplifiée aussi proche que possible de la réalité. (On étudie le tableau entier) * explication et prévision : but est d expliquer et de prévoir une ou plusieurs variables du tableau en fonction d autres variables. (tableau partitionné en 2) Remarque: Il existe aussi les cas de plusieurs tableaux à décrire ou à expliquer Deux familles de méthodes. 18 9
Les différentes méthodes exploratoires (1) Méthodes factorielles ( faire la différence entre réduction et sélection) réduction du nombre de variables en les résumant par un petit nombre de composantes synthétiques appelés facteurs : ACP pour les variables quantitatives (analyse en composantes principales) AFC pour 2 variables qualitatives (analyse factorielle des correspondances simples) ACM pour plusieurs variables qualitatives (analyse des correspondances multiples) Extension: non linéaire, MDS, données mixtes, évolutives, tableaux... 19 Les différentes méthodes exploratoires (2) Méthodes de classification réduction du nombre d individus par la formation de groupes homogènes : méthodes de partitionnement en un nombre fixé de classes a priori: méthode des centres mobiles, nuées dynamiques méthodes hiérarchiques: suite de partitions emboîtées: méthodes de classification ascendante hiérarchique (CAH) Extension: classification de variables (méthodes divisives), méthodes probabilistes modèles de mélanges (non géométriques) 20 10
Méthodes explicatives, décisionnelles ou inférentielles Modèle linéaire général : recherche d une relation entre une variable numérique et plusieurs autres : Numériques : régression Qualitatives : analyse de la variance Mixtes : analyse de la covariance Analyse discriminante: prédiction d une variable qualitative à l aide de plusieurs prédicteurs en général numériques Extension : Disqual, PLS, ridge, régression logistique, arbre de décision, non linéaire, réseaux de neurones 21 Le but de l analyse multidimensionnelle exploratoire est de décrire ce tableau de données. Pas d hypothèses probabilistes ou de modèle. La démarche classique en deux étapes: 1) analyses préalables unidimensionnelle et bidimensionnelle 2) Réaliser une étude multidimensionnelle 22 11
ANALYSE EN COMPOSANTES PRINCIPALES 23 EXEMPLE: LES DONNEES Feuille de calcul Microsoft Excel 24 12
EXEMPLE 25 EXEMPLE 26 13
EXEMPLE 27 EXEMPLE 28 14
EXEMPLE 29 EXEMPLE 30 15
EXEMPLE 31 EXEMPLE 32 16