Analyse multivariée approfondie Enseignants: NIANG N. et RUSSOLILLIO G. Maître de conférences Statistique Appliquée Laboratoire CEDRIC CNAM http://www.cnam.fr et d autres intervenants extérieurs au Cnam 1 STA 201 Analyse Multivariée Approfondie Inscriptions et agréments (master actuariat, MR085) prérequis STA101 STA102 Programme Modalités de contrôle SAS Informations: http://maths.cnam.fr 2 1
Bibliographie M.BARDOS : Analyse discriminante (Dunod, 2001) T.HASTIE, J.FRIEDMAN, R.TIBSHIRANI : The Elements of Statistical Learning, 2 ème édition (Springer, 2009) http://www.stanford.edu/~hastie/local.ftp/springer/eslii_print10.pdf L.LEBART, M.PIRON, A.MORINEAU : Statistique exploratoire multidimensionnelle, 4 ème édition (Dunod, 2006) J.P.NAKACHE, J.CONFAIS : Statistique explicative appliquée (Technip, 2003) G.SAPORTA : Probabilités, analyse des données, statistique, 3 ème édition (Technip, 2011) S.TUFFÉRY : Data mining et statistique décisionnelle, 3 ème édition (Technip, 2010) Le Livre de James, Witten, Hastie, & Tibshirani (2013). An Introduction to Statistical Learning with Applications in R. (Téléchargeable à partir de la page des auteurs). http://cedric.cnam.fr/~saporta 3 STA 201 Analyse Multivariée Approfondie Objectifs pédagogiques Approfondir les méthodes statistiques à plusieurs variables, qu'elles soient descriptives ou décisionnelles Compétences visées Maitriser les principales méthodes récentes d'analyse multivariée 4 2
STA 201 Analyse Multivariée Approfondie PARTIE 1 Rappels de base Rappels sur les méthodes d analyse multivariée Eléments de statistique multivariée (lois, tests ) Echantillonnage, simulation, bootstrap PARTIE 2 Approfondissement des méthodes exploratoires ACP non linéaire, de données mixtes, multiblocs, distances-mds modèles de mélanges en classification, classification de variables PARTIE 3 Approfondissement des méthodes explicatives Régression Ridge, PLS, logistique, robuste, non paramétrique Equations structurelles PARTIE 4 Méthodes récentes 5 théorie de l apprentissage, SVM, méthodes sparse, méta modèles Introduction Rappels d analyse des données multivariée L analyse multivariée désigne un ensemble de méthodes et de techniques pour l étude de tableaux de plusieurs variables décrivant plusieurs individus. Plusieurs de ces techniques sont récentes leur développement étant lié en partie à l augmentation de performances des ordinateurs. Le but de ce cours est de donner un panorama des méthodes pour aider au choix de méthodes adéquates en fonction du type de données ou de la problématique à étudier. 6 3
I. Généralités Statistique ensemble de données recueil, traitement, interprétation des données Aspect descriptif, exploratoire : tableaux, graphiques, résumés numériques Aspect explicatif, inférentiel, décisionnel : échantillon issu d une population, estimations, tests hypothèses probabilistes. Statistique classique étude d un nombre restreint de variables sur un petit ensemble d individus 7 Analyse des données * traitement de données en masse : grand nombre de variables et d individus * vision globale multidimensionnelle des individus et des variables * représentations géométriques, création de nouvelles variables *Outils informatiques indispensables mais pas que! 8 4
Data mining Big data * Explosion du volume des données : très grand nombre de variables et d individus, multiples sources, natures, vitesse (flux, temps réel ) Données opérationnelles, analyse secondaire Possibilités de valorisation (valeur), succès, effet de mode? * Besoins de méthodes et d outils informatiques spécifiques: renouveau de l analyse des données 9 Deux points de vue : Individus : - ressemblances ou différences - recherche de groupes homogènes Variables : - liaisons entre variables - recherche d une explication d une variable par les autres importance de la prise en compte des liaisons entre variables Plusieurs méthodes 10 5
Quelques définitions Population : ensemble d objets Individus, unités statistiques : objets de base Échantillon : partie observée Variables : grandeurs mesurées sur les individus numériques discrètes ou continues qualitatives nominales ou ordinales 11 Un exemple Individus = voitures, variables : grandeurs mesurées sur les individus numériques discrètes ou continues qualitatives nominales ou ordinales 12 6
II- Les différents types de tableaux de données Tableaux individus variables n lignes : les individus et p colonnes : les variables - numériques : matrice X nxp - qualitatives : modalités codées (arbitraires) ou tableau disjonctif (indicatrices) Tableau de contingence croisement de 2 variables qualitatives 13 Exemple: n= 4 individus, p=3 variables qualitatives à 3, 3 et 2 modalités Tableau brut de données codées arbitraires Transformation tableau disjonctif 1 0 0 0 0 1 0 1 3 p 0 1 0 1 0 0 1 0 3 p X = 0 1 0 0 1 0 0 1 3 p 0 0 1 1 0 0 0 1 3 p 1 2 1 2 1 1 1 3 12 np X = (X 1 X 2 X p ) indicatrices des modalités X 1 X 2 X 3 1 3 2 2 1 1 2 2 2 3 1 2 Tableau de contingence X 1 *X 3 14 7
Les différents types de tableaux de données (suite) Tableaux de préférence (ou de rangs) entre objets : les variables sont les objets et chaque individu range ces objets par ordre de préférence décroissante. Tableaux de distances: tableaux des nxn distances entre individus Tableaux de présence absence Autres types de tableaux: tableaux de notes, de pourcentage 15 III- Les différentes méthodes Classement selon l objectif poursuivi: * description : but est de comprendre au mieux les données grâce à une description simplifiée aussi proche que possible de la réalité. (On étudie le tableau entier) * explication et prévision : but est d expliquer et de prévoir une ou plusieurs variables du tableau en fonction d autres variables. (tableau partitionné en 2) Remarque: Il existe aussi les cas de plusieurs tableaux a décrire ou à expliquer Deux familles de méthodes. 16 8
Les différentes méthodes exploratoires (1) Méthodes factorielles ( faire la différence entre réduction et sélection) réduction du nombre de variables en les résumant par un petit nombre de composantes synthétiques appelés facteurs : ACP pour les variables quantitatives (analyse en composantes principales) AFC pour 2 variables qualitatives (analyse factorielle des correspondances simples) ACM pour plusieurs variables qualitatives (analyse des correspondances multiples) Extension: non linéaire, MDS, données mixtes, évolutives, tableaux... 17 Les différentes méthodes exploratoires (2) Méthodes de classification réduction du nombre d individus par la formation de groupes homogènes : méthodes de partitionnement en un nombre fixé de classes a priori: méthode des centres mobiles, nuées dynamiques méthodes hiérarchiques: suite de partitions emboîtées: méthodes de classification ascendante hiérarchique (CAH) Extension: classification de variables (méthodes divisives), méthodes probabilistes modèles de mélanges (non géométriques) 18 9
Méthodes explicatives, décisionnelles ou inférentielles Modèle linéaire général : recherche d une relation entre une variable numérique et plusieurs autres : Numériques : régression Qualitatives : analyse de la variance Mixtes : analyse de la covariance Analyse discriminante: prédiction d une variable qualitative à l aide de plusieurs prédicteurs en général numériques Extension : Disqual, PLS, ridge, régression logistique, arbre de décision, non linéaire, réseaux de neurones 19 Le but de l analyse multidimensionnelle exploratoire est de décrire ce tableau de données. Pas d hypothèses probabilistes ou de modèle. La démarche classique en deux étapes: 1) analyses préalables unidimensionnelle et bidimensionnelle 2) Réaliser une étude multidimensionnelle 20 10
ANALYSE EN COMPOSANTES PRINCIPALES 21 EXEMPLE: LES DONNEES Feuille de calcul Microsoft Excel 22 11
EXEMPLE 23 EXEMPLE 24 12
EXEMPLE 25 EXEMPLE 26 13
EXEMPLE 27 EXEMPLE 28 14
EXEMPLE 29 EXEMPLE 30 15