Analyse multivariée approfondie



Documents pareils
La classification automatique de données quantitatives

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Publications, ressources, liens, logiciels,

Agenda de la présentation

Complet Intuitif Efficace. Références

Spécificités, Applications et Outils

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Logiciel XLSTAT version rue Damrémont PARIS

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining -

LES MODELES DE SCORE

Scénario: Données bancaires et segmentation de clientèle

Extraction d informations stratégiques par Analyse en Composantes Principales

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Introduction au Data-Mining

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Coheris est agréé organisme de formation, n d agrément

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Arbres binaires de décision

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

ACP Voitures 1- Méthode

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Optimisation des ressources des produits automobile première

Économie, statistique, finance et actuariat

Quelques éléments de statistique multidimensionnelle

Cycle de formation certifiante Sphinx

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

2 Serveurs OLAP et introduction au Data Mining

REVUE DE STATISTIQUE APPLIQUÉE

WEBSELL. Projet DATAMINING

Classification supervisée et credit scoring

SPHINX Logiciel de dépouillement d enquêtes

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Aide-mémoire de statistique appliquée à la biologie

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Introduction au datamining

TABLE DES MATIERES. C Exercices complémentaires 42

Traitement des données avec Microsoft EXCEL 2010

TRAVAUX DE RECHERCHE DANS LE

Statistique Descriptive Élémentaire

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

TRANSPORT ET LOGISTIQUE :

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Introduction à l approche bootstrap

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Formations. Esprit de service, Exigence technologique. Business Intelligence Business Analytics Big Data et Data Science Etudes Cliniques

MRK A : Méthodes d Analyse de Données en Marketing Automne 2010

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

INTRODUCTION AU DATA MINING

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Introduction au Data Mining et à l apprentissage statistique

Chapitre 1. La démarche statistique appliquée au management. Minicas. Questions :

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Biostatistiques : Petits effectifs

Ensae-Ensai Formation Continue (Cepe)

Statistiques Descriptives à une dimension

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Que fait SAS Enterprise Miner?

Enjeux mathématiques et Statistiques du Big Data

La place de SAS dans l'informatique décisionnelle

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Stages de Formation en Statistique Appliquée et Logistique

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

1 - PRESENTATION GENERALE...

MASTER de sciences et technologies, Mention MATHÉMATIQUES ET APPLICATIONS Université Pierre et Marie Curie (Paris VI) Année

Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Apprentissage Statistique :

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Microsoft Excel : tables de données

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

CALENDRIER DES STAGES 2014/2015

Business Intelligence avec SQL Server 2014 Maîtrisez les concepts et réalisez un système décisionnel

données en connaissance et en actions?

Analyse de grandes bases de données en santé

Stages de Formation en Statistique Appliquée et Logistique

Laboratoire 4 Développement d un système intelligent

Cours de méthodes de scoring

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Tableaux de bord de gestion du risque Rapport d audit permanent

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

Chapitre 3. Les distributions à deux variables

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Data mining 1. Exploration Statistique

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Travaux pratiques avec RapidMiner

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Transcription:

Analyse multivariée approfondie Enseignants: NIANG N. et RUSSOLILLIO G. Maître de conférences Statistique Appliquée Laboratoire CEDRIC CNAM http://www.cnam.fr et d autres intervenants extérieurs au Cnam 1 STA 201 Analyse Multivariée Approfondie Inscriptions et agréments (master actuariat, MR085) prérequis STA101 STA102 Programme Modalités de contrôle SAS Informations: http://maths.cnam.fr 2 1

Bibliographie M.BARDOS : Analyse discriminante (Dunod, 2001) T.HASTIE, J.FRIEDMAN, R.TIBSHIRANI : The Elements of Statistical Learning, 2 ème édition (Springer, 2009) http://www.stanford.edu/~hastie/local.ftp/springer/eslii_print10.pdf L.LEBART, M.PIRON, A.MORINEAU : Statistique exploratoire multidimensionnelle, 4 ème édition (Dunod, 2006) J.P.NAKACHE, J.CONFAIS : Statistique explicative appliquée (Technip, 2003) G.SAPORTA : Probabilités, analyse des données, statistique, 3 ème édition (Technip, 2011) S.TUFFÉRY : Data mining et statistique décisionnelle, 3 ème édition (Technip, 2010) Le Livre de James, Witten, Hastie, & Tibshirani (2013). An Introduction to Statistical Learning with Applications in R. (Téléchargeable à partir de la page des auteurs). http://cedric.cnam.fr/~saporta 3 STA 201 Analyse Multivariée Approfondie Objectifs pédagogiques Approfondir les méthodes statistiques à plusieurs variables, qu'elles soient descriptives ou décisionnelles Compétences visées Maitriser les principales méthodes récentes d'analyse multivariée 4 2

STA 201 Analyse Multivariée Approfondie PARTIE 1 Rappels de base Rappels sur les méthodes d analyse multivariée Eléments de statistique multivariée (lois, tests ) Echantillonnage, simulation, bootstrap PARTIE 2 Approfondissement des méthodes exploratoires ACP non linéaire, de données mixtes, multiblocs, distances-mds modèles de mélanges en classification, classification de variables PARTIE 3 Approfondissement des méthodes explicatives Régression Ridge, PLS, logistique, robuste, non paramétrique Equations structurelles PARTIE 4 Méthodes récentes 5 théorie de l apprentissage, SVM, méthodes sparse, méta modèles Introduction Rappels d analyse des données multivariée L analyse multivariée désigne un ensemble de méthodes et de techniques pour l étude de tableaux de plusieurs variables décrivant plusieurs individus. Plusieurs de ces techniques sont récentes leur développement étant lié en partie à l augmentation de performances des ordinateurs. Le but de ce cours est de donner un panorama des méthodes pour aider au choix de méthodes adéquates en fonction du type de données ou de la problématique à étudier. 6 3

I. Généralités Statistique ensemble de données recueil, traitement, interprétation des données Aspect descriptif, exploratoire : tableaux, graphiques, résumés numériques Aspect explicatif, inférentiel, décisionnel : échantillon issu d une population, estimations, tests hypothèses probabilistes. Statistique classique étude d un nombre restreint de variables sur un petit ensemble d individus 7 Analyse des données * traitement de données en masse : grand nombre de variables et d individus * vision globale multidimensionnelle des individus et des variables * représentations géométriques, création de nouvelles variables *Outils informatiques indispensables mais pas que! 8 4

Data mining Big data * Explosion du volume des données : très grand nombre de variables et d individus, multiples sources, natures, vitesse (flux, temps réel ) Données opérationnelles, analyse secondaire Possibilités de valorisation (valeur), succès, effet de mode? * Besoins de méthodes et d outils informatiques spécifiques: renouveau de l analyse des données 9 Deux points de vue : Individus : - ressemblances ou différences - recherche de groupes homogènes Variables : - liaisons entre variables - recherche d une explication d une variable par les autres importance de la prise en compte des liaisons entre variables Plusieurs méthodes 10 5

Quelques définitions Population : ensemble d objets Individus, unités statistiques : objets de base Échantillon : partie observée Variables : grandeurs mesurées sur les individus numériques discrètes ou continues qualitatives nominales ou ordinales 11 Un exemple Individus = voitures, variables : grandeurs mesurées sur les individus numériques discrètes ou continues qualitatives nominales ou ordinales 12 6

II- Les différents types de tableaux de données Tableaux individus variables n lignes : les individus et p colonnes : les variables - numériques : matrice X nxp - qualitatives : modalités codées (arbitraires) ou tableau disjonctif (indicatrices) Tableau de contingence croisement de 2 variables qualitatives 13 Exemple: n= 4 individus, p=3 variables qualitatives à 3, 3 et 2 modalités Tableau brut de données codées arbitraires Transformation tableau disjonctif 1 0 0 0 0 1 0 1 3 p 0 1 0 1 0 0 1 0 3 p X = 0 1 0 0 1 0 0 1 3 p 0 0 1 1 0 0 0 1 3 p 1 2 1 2 1 1 1 3 12 np X = (X 1 X 2 X p ) indicatrices des modalités X 1 X 2 X 3 1 3 2 2 1 1 2 2 2 3 1 2 Tableau de contingence X 1 *X 3 14 7

Les différents types de tableaux de données (suite) Tableaux de préférence (ou de rangs) entre objets : les variables sont les objets et chaque individu range ces objets par ordre de préférence décroissante. Tableaux de distances: tableaux des nxn distances entre individus Tableaux de présence absence Autres types de tableaux: tableaux de notes, de pourcentage 15 III- Les différentes méthodes Classement selon l objectif poursuivi: * description : but est de comprendre au mieux les données grâce à une description simplifiée aussi proche que possible de la réalité. (On étudie le tableau entier) * explication et prévision : but est d expliquer et de prévoir une ou plusieurs variables du tableau en fonction d autres variables. (tableau partitionné en 2) Remarque: Il existe aussi les cas de plusieurs tableaux a décrire ou à expliquer Deux familles de méthodes. 16 8

Les différentes méthodes exploratoires (1) Méthodes factorielles ( faire la différence entre réduction et sélection) réduction du nombre de variables en les résumant par un petit nombre de composantes synthétiques appelés facteurs : ACP pour les variables quantitatives (analyse en composantes principales) AFC pour 2 variables qualitatives (analyse factorielle des correspondances simples) ACM pour plusieurs variables qualitatives (analyse des correspondances multiples) Extension: non linéaire, MDS, données mixtes, évolutives, tableaux... 17 Les différentes méthodes exploratoires (2) Méthodes de classification réduction du nombre d individus par la formation de groupes homogènes : méthodes de partitionnement en un nombre fixé de classes a priori: méthode des centres mobiles, nuées dynamiques méthodes hiérarchiques: suite de partitions emboîtées: méthodes de classification ascendante hiérarchique (CAH) Extension: classification de variables (méthodes divisives), méthodes probabilistes modèles de mélanges (non géométriques) 18 9

Méthodes explicatives, décisionnelles ou inférentielles Modèle linéaire général : recherche d une relation entre une variable numérique et plusieurs autres : Numériques : régression Qualitatives : analyse de la variance Mixtes : analyse de la covariance Analyse discriminante: prédiction d une variable qualitative à l aide de plusieurs prédicteurs en général numériques Extension : Disqual, PLS, ridge, régression logistique, arbre de décision, non linéaire, réseaux de neurones 19 Le but de l analyse multidimensionnelle exploratoire est de décrire ce tableau de données. Pas d hypothèses probabilistes ou de modèle. La démarche classique en deux étapes: 1) analyses préalables unidimensionnelle et bidimensionnelle 2) Réaliser une étude multidimensionnelle 20 10

ANALYSE EN COMPOSANTES PRINCIPALES 21 EXEMPLE: LES DONNEES Feuille de calcul Microsoft Excel 22 11

EXEMPLE 23 EXEMPLE 24 12

EXEMPLE 25 EXEMPLE 26 13

EXEMPLE 27 EXEMPLE 28 14

EXEMPLE 29 EXEMPLE 30 15