Analyse multivariée approfondie

Dimension: px
Commencer à balayer dès la page:

Download "Analyse multivariée approfondie"

Transcription

1 Analyse multivariée approfondie Enseignants: NIANG N. et RUSSOLILLIO G. Maître de conférences Statistique Appliquée Laboratoire CEDRIC CNAM et d autres intervenants extérieurs au Cnam 1 STA 201 Analyse Multivariée Approfondie Inscriptions et agréments (master actuariat, MR085) prérequis STA101 STA102 Programme Modalités de contrôle SAS Informations: 2 1

2 Bibliographie M.BARDOS : Analyse discriminante (Dunod, 2001) T.HASTIE, J.FRIEDMAN, R.TIBSHIRANI : The Elements of Statistical Learning, 2 ème édition (Springer, 2009) L.LEBART, M.PIRON, A.MORINEAU : Statistique exploratoire multidimensionnelle, 4 ème édition (Dunod, 2006) J.P.NAKACHE, J.CONFAIS : Statistique explicative appliquée (Technip, 2003) G.SAPORTA : Probabilités, analyse des données, statistique, 3 ème édition (Technip, 2011) S.TUFFÉRY : Data mining et statistique décisionnelle, 3 ème édition (Technip, 2010) Le Livre de James, Witten, Hastie, & Tibshirani (2013). An Introduction to Statistical Learning with Applications in R. (Téléchargeable à partir de la page des auteurs). 3 STA 201 Analyse Multivariée Approfondie Objectifs pédagogiques Approfondir les méthodes statistiques à plusieurs variables, qu'elles soient descriptives ou décisionnelles Compétences visées Maitriser les principales méthodes récentes d'analyse multivariée 4 2

3 STA 201 Analyse Multivariée Approfondie PARTIE 1 Rappels de base Rappels sur les méthodes d analyse multivariée Eléments de statistique multivariée (lois, tests ) Echantillonnage, simulation, bootstrap PARTIE 2 Approfondissement des méthodes exploratoires ACP non linéaire, de données mixtes, multiblocs, distances-mds modèles de mélanges en classification, classification de variables PARTIE 3 Approfondissement des méthodes explicatives Régression Ridge, PLS, logistique, robuste, non paramétrique Equations structurelles PARTIE 4 Méthodes récentes 5 théorie de l apprentissage, SVM, méthodes sparse, méta modèles Introduction Rappels d analyse des données multivariée L analyse multivariée désigne un ensemble de méthodes et de techniques pour l étude de tableaux de plusieurs variables décrivant plusieurs individus. Plusieurs de ces techniques sont récentes leur développement étant lié en partie à l augmentation de performances des ordinateurs. Le but de ce cours est de donner un panorama des méthodes pour aider au choix de méthodes adéquates en fonction du type de données ou de la problématique à étudier. 6 3

4 I. Généralités Statistique ensemble de données recueil, traitement, interprétation des données Aspect descriptif, exploratoire : tableaux, graphiques, résumés numériques Aspect explicatif, inférentiel, décisionnel : échantillon issu d une population, estimations, tests hypothèses probabilistes. Statistique classique étude d un nombre restreint de variables sur un petit ensemble d individus 7 Analyse des données * traitement de données en masse : grand nombre de variables et d individus * vision globale multidimensionnelle des individus et des variables * représentations géométriques, création de nouvelles variables *Outils informatiques indispensables mais pas que! 8 4

5 Data mining Big data * Explosion du volume des données : très grand nombre de variables et d individus, multiples sources, natures, vitesse (flux, temps réel ) Données opérationnelles, analyse secondaire Possibilités de valorisation (valeur), succès, effet de mode? * Besoins de méthodes et d outils informatiques spécifiques: renouveau de l analyse des données 9 Deux points de vue : Individus : - ressemblances ou différences - recherche de groupes homogènes Variables : - liaisons entre variables - recherche d une explication d une variable par les autres importance de la prise en compte des liaisons entre variables Plusieurs méthodes 10 5

6 Quelques définitions Population : ensemble d objets Individus, unités statistiques : objets de base Échantillon : partie observée Variables : grandeurs mesurées sur les individus numériques discrètes ou continues qualitatives nominales ou ordinales 11 Un exemple Individus = voitures, variables : grandeurs mesurées sur les individus numériques discrètes ou continues qualitatives nominales ou ordinales 12 6

7 II- Les différents types de tableaux de données Tableaux individus variables n lignes : les individus et p colonnes : les variables - numériques : matrice X nxp - qualitatives : modalités codées (arbitraires) ou tableau disjonctif (indicatrices) Tableau de contingence croisement de 2 variables qualitatives 13 Exemple: n= 4 individus, p=3 variables qualitatives à 3, 3 et 2 modalités Tableau brut de données codées arbitraires Transformation tableau disjonctif p p X = p p np X = (X 1 X 2 X p ) indicatrices des modalités X 1 X 2 X Tableau de contingence X 1 *X

8 Les différents types de tableaux de données (suite) Tableaux de préférence (ou de rangs) entre objets : les variables sont les objets et chaque individu range ces objets par ordre de préférence décroissante. Tableaux de distances: tableaux des nxn distances entre individus Tableaux de présence absence Autres types de tableaux: tableaux de notes, de pourcentage 15 III- Les différentes méthodes Classement selon l objectif poursuivi: * description : but est de comprendre au mieux les données grâce à une description simplifiée aussi proche que possible de la réalité. (On étudie le tableau entier) * explication et prévision : but est d expliquer et de prévoir une ou plusieurs variables du tableau en fonction d autres variables. (tableau partitionné en 2) Remarque: Il existe aussi les cas de plusieurs tableaux a décrire ou à expliquer Deux familles de méthodes. 16 8

9 Les différentes méthodes exploratoires (1) Méthodes factorielles ( faire la différence entre réduction et sélection) réduction du nombre de variables en les résumant par un petit nombre de composantes synthétiques appelés facteurs : ACP pour les variables quantitatives (analyse en composantes principales) AFC pour 2 variables qualitatives (analyse factorielle des correspondances simples) ACM pour plusieurs variables qualitatives (analyse des correspondances multiples) Extension: non linéaire, MDS, données mixtes, évolutives, tableaux Les différentes méthodes exploratoires (2) Méthodes de classification réduction du nombre d individus par la formation de groupes homogènes : méthodes de partitionnement en un nombre fixé de classes a priori: méthode des centres mobiles, nuées dynamiques méthodes hiérarchiques: suite de partitions emboîtées: méthodes de classification ascendante hiérarchique (CAH) Extension: classification de variables (méthodes divisives), méthodes probabilistes modèles de mélanges (non géométriques) 18 9

10 Méthodes explicatives, décisionnelles ou inférentielles Modèle linéaire général : recherche d une relation entre une variable numérique et plusieurs autres : Numériques : régression Qualitatives : analyse de la variance Mixtes : analyse de la covariance Analyse discriminante: prédiction d une variable qualitative à l aide de plusieurs prédicteurs en général numériques Extension : Disqual, PLS, ridge, régression logistique, arbre de décision, non linéaire, réseaux de neurones 19 Le but de l analyse multidimensionnelle exploratoire est de décrire ce tableau de données. Pas d hypothèses probabilistes ou de modèle. La démarche classique en deux étapes: 1) analyses préalables unidimensionnelle et bidimensionnelle 2) Réaliser une étude multidimensionnelle 20 10

11 ANALYSE EN COMPOSANTES PRINCIPALES 21 EXEMPLE: LES DONNEES Feuille de calcul Microsoft Excel 22 11

12 EXEMPLE 23 EXEMPLE 24 12

13 EXEMPLE 25 EXEMPLE 26 13

14 EXEMPLE 27 EXEMPLE 28 14

15 EXEMPLE 29 EXEMPLE 30 15

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens, logiciels,

ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens, logiciels, Université Lumière Lyon 2 Tutoriels Tanagra - http://tutoriels-data-mining.blogspot.fr/ 1 ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/cours/ Publications, ressources, liens,

Plus en détail

Agenda de la présentation

Agenda de la présentation Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining

Plus en détail

Complet Intuitif Efficace. Références

Complet Intuitif Efficace. Références Logiciel de référence en Analyse de Données, Data Mining et Text Mining pour transformer vos données en connaissance Complet Intuitif Efficace Dans un environnement convivial et intuitif, disposez de toute

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS

Logiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Présentation de l auteur En charge de la statistique et du data mining dans un grand groupe bancaire Enseigne le data mining en Master 2 à l Université

Plus en détail

LES MODELES DE SCORE

LES MODELES DE SCORE LES MODELES DE SCORE Stéphane TUFFERY CONFERENCE GENDER DIRECTIVE 31 mai 2012 31/05/2012 ActuariaCnam Conférence Gender Directive Stéphane Tufféry 1 Plan Le scoring et ses applications L élaboration d

Plus en détail

Scénario: Données bancaires et segmentation de clientèle

Scénario: Données bancaires et segmentation de clientèle Résumé Scénario: Données bancaires et segmentation de clientèle Exploration de données bancaires par des méthodes uni, bi et multidimensionnelles : ACP, AFCM k-means, CAH. 1 Présentation Le travail proposé

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives ************* ************* Cours de niveau gradué en méthodes quantitatives ************* SOL 6210 - Analyse quantitative avancée Le séminaire d analyse quantitative avancée se donne en classe une fois par année. Chaque

Plus en détail

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1 33 Math. Inf. Sci. hum., (33 e année, n 130, 1995, pp.33-42) UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES Éric TÉROUANNE 1 RÉSUMÉ Le stéréogramme de liaison est

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT Remarque : Tous les cours sont en français, sauf contre-indication. Pour des traductions anglaises des titres, des descriptifs, et plus de renseignements, consultez l intégralité du Programme des enseignements

Plus en détail

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Statistique Descriptive Multidimensionnelle. (pour les nuls) Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Multidimensionnelle (pour les nuls) (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et

Plus en détail

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin Sandro Petrillo Université de Neuchâtel - Diplôme Postgrade en Statistique Projet

Plus en détail

Coheris est agréé organisme de formation, n d agrément 11 92 19507 92.

Coheris est agréé organisme de formation, n d agrément 11 92 19507 92. Formations 2015 Coheris est agréé organisme de formation, n d agrément 11 92 19507 92. Introduction La formation est une préoccupation constante de Coheris vis-à-vis de ses clients et de ses partenaires,

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION

Plus en détail

ACP Voitures 1- Méthode

ACP Voitures 1- Méthode acp=princomp(voit,cor=t) ACP Voitures 1- Méthode Call: princomp(x = voit, cor = T) Standard deviations: Comp.1 Comp.2 Comp.3 Comp.4 Comp.5 Comp.6 2.1577815 0.9566721 0.4903373 0.3204833 0.2542759 0.1447788

Plus en détail

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,

Plus en détail

Optimisation des ressources des produits automobile première

Optimisation des ressources des produits automobile première EURIA EURo Optimisation produits automobile première Pauline PERROT promotion 2011 EURIA EURo 1 ère partie : contexte MMA (FFSA) MAAF (GEMA) SGAM : COVEA (AFA) GMF (GEMA) MMA : Plus 3 millions clients

Plus en détail

Économie, statistique, finance et actuariat

Économie, statistique, finance et actuariat Centre de formation Continue Économie, statistique, finance et actuariat 2014 Groupe des ÉColes nationales d'économie et statistique panoramas de la statistique descriptive à la statistique inférentielle

Plus en détail

Quelques éléments de statistique multidimensionnelle

Quelques éléments de statistique multidimensionnelle ANNEXE 1 Quelques éléments de statistique multidimensionnelle Les méthodes d analyse statistique exploratoire utilisées au cours des chapitres précédents visent à mettre en forme de vastes ensembles de

Plus en détail

Cycle de formation certifiante Sphinx

Cycle de formation certifiante Sphinx Cycle de formation certifiante Sphinx 28, 29, 30 Mai 2015 Initiation, Approfondissement et Maîtrise Etudes qualitatives / quantitatives Initiation, approfondissement et maîtrise des études qualitatives

Plus en détail

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP

Plus en détail

2 Serveurs OLAP et introduction au Data Mining

2 Serveurs OLAP et introduction au Data Mining 2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité

Plus en détail

REVUE DE STATISTIQUE APPLIQUÉE

REVUE DE STATISTIQUE APPLIQUÉE REVUE DE STATISTIQUE APPLIQUÉE H. ABDALLAH G. SAPORTA Mesures de distance entre modalités de variables qualitatives; application à la classification Revue de statistique appliquée, tome 51, n o 2 (2003),

Plus en détail

WEBSELL. Projet DATAMINING

WEBSELL. Projet DATAMINING WEBSELL Projet DATAMINING Analyse des données dans le cadre d une étude de banchmarking DESS ID Session 2005/2006 Mariam GASPARIAN [ Page 1 ] SOMMAIRE 1. INTRODUCTION... 3 2. METHODES ET OUTILS... 4 2.1.

Plus en détail

Classification supervisée et credit scoring

Classification supervisée et credit scoring Classification supervisée et credit scoring Gilbert Saporta Conservatoire National des Arts et Métiers, Paris saporta@cnam.fr http://cedric.cnam.fr/~saporta Plan 1. Introduction 2. Techniques linéaires

Plus en détail

SPHINX Logiciel de dépouillement d enquêtes

SPHINX Logiciel de dépouillement d enquêtes SPHINX Logiciel de dépouillement d enquêtes sphinx50frversion4.doc 1 Les trois stades du SPHINX sont ceux que comporte habituellement toute enquête d opinion: Elaboration du questionnaire (fiche outil

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1 UN GROUPE D INDIVIDUS Un groupe d individus décrit par une variable qualitative binaire DÉCRIT PAR UNE VARIABLE QUALITATIVE BINAIRE ANALYSER UN SOUS-GROUPE COMPARER UN SOUS-GROUPE À UNE RÉFÉRENCE Mots-clés

Plus en détail

Aide-mémoire de statistique appliquée à la biologie

Aide-mémoire de statistique appliquée à la biologie Maxime HERVÉ Aide-mémoire de statistique appliquée à la biologie Construire son étude et analyser les résultats à l aide du logiciel R Version 5(2) (2014) AVANT-PROPOS Les phénomènes biologiques ont cela

Plus en détail

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle Panorama des problématiques de traitement de l information Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle Conduite d une étude statistique Larbi Aït Hennani, maître de conférences en mathématiques

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Traitement des données avec Microsoft EXCEL 2010

Traitement des données avec Microsoft EXCEL 2010 Traitement des données avec Microsoft EXCEL 2010 Vincent Jalby Septembre 2012 1 Saisie des données Les données collectées sont saisies dans une feuille Excel. Chaque ligne correspond à une observation

Plus en détail

TRAVAUX DE RECHERCHE DANS LE

TRAVAUX DE RECHERCHE DANS LE TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT

Plus en détail

Statistique Descriptive Élémentaire

Statistique Descriptive Élémentaire Publications de l Institut de Mathématiques de Toulouse Statistique Descriptive Élémentaire (version de mai 2010) Alain Baccini Institut de Mathématiques de Toulouse UMR CNRS 5219 Université Paul Sabatier

Plus en détail

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Formation Actuaire Data Scientist. Programme au 24 octobre 2014 Formation Actuaire Data Scientist Programme au 24 octobre 2014 A. Eléments logiciels et programmation Python 24h Objectif : Introduction au langage Python et sensibilisation aux grandeurs informatiques

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Introduction à l approche bootstrap

Introduction à l approche bootstrap Introduction à l approche bootstrap Irène Buvat U494 INSERM buvat@imedjussieufr 25 septembre 2000 Introduction à l approche bootstrap - Irène Buvat - 21/9/00-1 Plan du cours Qu est-ce que le bootstrap?

Plus en détail

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Formation continue. Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat

Plus en détail

Formations. Esprit de service, Exigence technologique. Business Intelligence Business Analytics Big Data et Data Science Etudes Cliniques

Formations. Esprit de service, Exigence technologique. Business Intelligence Business Analytics Big Data et Data Science Etudes Cliniques Esprit de service, Exigence technologique Formations Business Intelligence Business Analytics Big Data et Data Science Etudes Cliniques www.lincoln.fr Editorial Lincoln a le plaisir de vous présenter son

Plus en détail

MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010

MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010 E MRK -6081 A : Méthodes d Analyse de Données en Marketing Automne 2010 Professeure :Elissar Toufaily Plage horaire du cours : Cours en salle Jeudi 15h 30-18h30 Local 4221 PAP Du 2 septembre. 2010 au 9

Plus en détail

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie S3 Spécialité : Recherches en psychologie UE OBLIGATOIRES UE 1 : Epistémologie et méthodes de recherche en psychologie Ce séminaire aborde plusieurs aspects de la recherche en psychologie. Il présente

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine

Plus en détail

Introduction au Data Mining et à l apprentissage statistique

Introduction au Data Mining et à l apprentissage statistique Introduction au Data Mining et à l apprentissage statistique Gilbert Saporta Chaire de Statistique Appliquée & CEDRIC, CNAM, 292 rue Saint Martin, F-75003 Paris gilbert.saporta@cnam.fr http://cedric.cnam.fr/~saporta

Plus en détail

Chapitre 1. La démarche statistique appliquée au management. Minicas. Questions :

Chapitre 1. La démarche statistique appliquée au management. Minicas. Questions : Chapitre 1 La démarche statistique appliquée au management Minicas Comment estimer les dégâts d une catastrophe naturelle (tempêtes, ouragans, etc.)? Aux États-Unis, la FEMA (Federal Emergency Management

Plus en détail

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats Pierre Dagnelie TABLE DES MATIÈRES 2012 Presses agronomiques de Gembloux pressesagro.gembloux@ulg.ac.be www.pressesagro.be

Plus en détail

Biostatistiques : Petits effectifs

Biostatistiques : Petits effectifs Biostatistiques : Petits effectifs Master Recherche Biologie et Santé P. Devos DRCI CHRU de Lille EA2694 patrick.devos@univ-lille2.fr Plan Données Générales : Définition des statistiques Principe de l

Plus en détail

Ensae-Ensai Formation Continue (Cepe)

Ensae-Ensai Formation Continue (Cepe) 15 Ensae-Ensai Formation Continue (Cepe) Statistique Data Science Économie Finance Marketing Actuariat GROUPE DES ÉCOLES NATIONALES D'ÉCONOMIE ET STATISTIQUE Sommaire Catalogue 2015 Éditorial P. 2 Présentation

Plus en détail

Statistiques Descriptives à une dimension

Statistiques Descriptives à une dimension I. Introduction et Définitions 1. Introduction La statistique est une science qui a pour objectif de recueillir et de traiter les informations, souvent en très grand nombre. Elle regroupe l ensemble des

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Que fait SAS Enterprise Miner?

Que fait SAS Enterprise Miner? Développez une connaissance plus précise avec un processus data mining plus productif La transformation de données brutes en informations utiles reste une problématique pour les entreprises. Pour apporter

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

La place de SAS dans l'informatique décisionnelle

La place de SAS dans l'informatique décisionnelle La place de SAS dans l'informatique décisionnelle Olivier Decourt ABS Technologies - Educasoft Formations La place de SAS dans l'informatique décisionnelle! L'historique de SAS! La mécanique! La carrosserie

Plus en détail

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :

Plus en détail

Stages de Formation en Statistique Appliquée et Logistique

Stages de Formation en Statistique Appliquée et Logistique Stages de Formation en Statistique Appliquée et Logistique Un aperçu de nos stages Titre Avec PC Durée Info Visualisation de données de laboratoire avec Excel oui 2 jours p. 3 Analyse de données de laboratoire

Plus en détail

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes STA108 Enquêtes et sondages Sondages àplusieurs degrés et par grappes Philippe Périé, novembre 2011 Sondages àplusieurs degrés et par grappes Introduction Sondages à plusieurs degrés Tirage des unités

Plus en détail

1 - PRESENTATION GENERALE...

1 - PRESENTATION GENERALE... Contenu PREAMBULE... 2 INTRODUCTION... 2 1 - PRESENTATION GENERALE... 4 Qualité et optimalité... 8 2 - AGREGATION AUTOUR DE CENTRES MOBILES... 9 2.1 LES BASES DE L'ALGORITHME... 10 2.2 TECHNIQUES CONNEXES...

Plus en détail

MASTER de sciences et technologies, Mention MATHÉMATIQUES ET APPLICATIONS Université Pierre et Marie Curie (Paris VI) Année 2012-2013

MASTER de sciences et technologies, Mention MATHÉMATIQUES ET APPLICATIONS Université Pierre et Marie Curie (Paris VI) Année 2012-2013 MASTER de sciences et technologies, Mention MATHÉMATIQUES ET APPLICATIONS Université Pierre et Marie Curie (Paris VI) Année 2012-2013 [version du 29 juin 2012] 2 Table des matières 1 Master 2, Spécialité

Plus en détail

Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel

Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel Avant-propos 1. À qui s'adresse ce livre? 9 2. Les pré-requis 10 3. Les objectifs du livre 10 Introduction 1. Présentation du décisionnel 15 1.1 La notion de décideur 15 1.2 Les facteurs d'amélioration

Plus en détail

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R? Analyses multivariées avec R Commander Analyses multivariées avec R Commander (via le package FactoMineR) Plate-forme de Support en Méthodologie et Calcul Statistique (SMCS) - UCL 1 Introduction à R 2

Plus en détail

Apprentissage Statistique :

Apprentissage Statistique : Apprentissage Statistique Apprentissage Statistique : modélisation, prévision et data mining PHILIPPE BESSE & BÉATRICE LAURENT 5ème année GMM - MMS Équipe de Statistique et Probabilités Institut de Mathématiques

Plus en détail

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS Formations EViews FORMATIONS GENERALES INTRODUCTIVES DEB : DECOUVERTE DU LOGICIEL EVIEWS INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS FORMATIONS METHODES ECONOMETRIQUES VAR : MODELES

Plus en détail

Microsoft Excel : tables de données

Microsoft Excel : tables de données UNIVERSITE DE LA SORBONNE NOUVELLE - PARIS 3 Année universitaire 2000-2001 2ème SESSION SLMD2 Informatique Les explications sur la réalisation des exercices seront fournies sous forme de fichiers informatiques.

Plus en détail

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier Statistiques Appliquées à l Expérimentation en Sciences Humaines Christophe Lalanne, Sébastien Georges, Christophe Pallier Table des matières 1 Méthodologie expérimentale et recueil des données 6 1.1 Introduction.......................................

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

CALENDRIER DES STAGES 2014/2015

CALENDRIER DES STAGES 2014/2015 CALENDRIER DES STAGES NIVEAU MASTER 1 : BAC +4 Stage obligatoire et/ou recommandé par la formation Dauphine propose aussi 40 formations en apprentissage voir la liste sur https://dauphinentreprises.dauphine.fr

Plus en détail

Business Intelligence avec SQL Server 2014 Maîtrisez les concepts et réalisez un système décisionnel

Business Intelligence avec SQL Server 2014 Maîtrisez les concepts et réalisez un système décisionnel Avant-propos 1. À qui s'adresse ce livre? 9 2. Les pré-requis 10 3. Les objectifs du livre 11 Introduction 1. Présentation du décisionnel 13 1.1 La notion de décideur 14 1.2 Les facteurs d'amélioration

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Stages de Formation en Statistique Appliquée et Logistique

Stages de Formation en Statistique Appliquée et Logistique Stages de Formation en Statistique Appliquée et Logistique Un aperçu de nos stages Titre Avec PC Durée Info Visualisation de données de laboratoire avec Excel oui 2 jours p. 3 Analyse de données de laboratoire

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Cours de méthodes de scoring

Cours de méthodes de scoring UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

Tableaux de bord de gestion du risque Rapport d audit permanent

Tableaux de bord de gestion du risque Rapport d audit permanent www.coopami.org Tableaux de bord de gestion du risque Rapport d audit permanent TUNIS 17 décembre 2013 Michel Vigneul Conseiller Actuaire La bonne gestion financière d un système d assurance de soins de

Plus en détail

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi Julie Séguéla 1, 2, Gilbert Saporta 1, Stéphane Le Viet 2 1 Laboratoire Cédric CNAM 292 rue Saint Martin 75141 Paris

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Exercices M1 SES 2014-2015 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 2015 Exercices M1 SES 214-215 Ana Fermin (http:// fermin.perso.math.cnrs.fr/ ) 14 Avril 215 Les exemples numériques présentés dans ce document d exercices ont été traités sur le logiciel R, téléchargeable par

Plus en détail

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET 4 : Modélisation non-supervisée

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE «Journée Open Data» 5 Novembre 2013 Présenté par : Imen Megdiche Directeur de thèse : Pr. Olivier Teste (SIG-IRIT) Co-directeur de thèse : Mr. Alain

Plus en détail

Data mining 1. Exploration Statistique

Data mining 1. Exploration Statistique PUBLICATIONS DU LABORATOIRE DE STATISTIQUE ET PROBABILITÉS Data mining 1 Exploration Statistique ALAIN BACCINI & PHILIPPE BESSE Version septembre 2004 mises à jour : wwwlspups-tlsefr/besse Laboratoire

Plus en détail

L'analyse de données. Polycopié de cours ENSIETA - Réf. : 1463. Arnaud MARTIN

L'analyse de données. Polycopié de cours ENSIETA - Réf. : 1463. Arnaud MARTIN L'analyse de données Polycopié de cours ENSIETA - Réf : 1463 Arnaud MARTIN Septembre 2004 Table des matières 1 Introduction 1 11 Domaines d'application 2 12 Les données 2 13 Les objectifs 3 14 Les méthodes

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail