Méthode de base de l'analyse des données



Documents pareils
Introduction au datamining

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

BTS MANAGEMENT DES UNITES COMMERCIALES GUIDE DU TUTEUR

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

DécliCC. savoir. cahier des charges

Introduction au Data-Mining

Introduction au Data-Mining

LES RÉFÉRENTIELS RELATIFS AUX ÉDUCATEURS SPÉCIALISÉS

PROGRAMME DÉTAILLÉ DU BTS MUC

La classification automatique de données quantitatives

ÉdIteur officiel et fournisseur de ServIceS professionnels du LogIcIeL open Source ScILab

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Programme détaillé BTS MANAGEMENT DES UNITES COMMERCIALES. Objectifs de la formation. Les métiers. Durée des études DIPLÔME D ETAT

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Statistiques Descriptives à une dimension

4.2 Unités d enseignement du M1

Annexe commune aux séries ES, L et S : boîtes et quantiles

Mathcad Ces capacités font de Mathcad l outil de calcul technique le plus utilisé au monde.

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

données en connaissance et en actions?

Modélisation des données

Enjeux mathématiques et Statistiques du Big Data

Université du Québec à Chicoutimi. Département d informatique et de mathématique. Plan de cours. Titre : Élément de programmation.

Systèmes et réseaux d information et de communication

La pratique des décisions dans les affaires

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Guide du Tuteur Banque et Assurance

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

S3CP. Socle commun de connaissances et de compétences professionnelles

Section «Maturité fédérale» EXAMENS D'ADMISSION Session de février 2014 RÉCAPITULATIFS DES MATIÈRES EXAMINÉES. Formation visée

L A B U S I N E S S. d a t a g i n f o r m a t i o n g a c t i o n

Classe de première L

Algorithmes récursifs

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Programme détaillé BTS INFORMATIQUE DE GESTION DIPLÔME D ETAT. Objectifs de la formation. Les métiers. Durée de la formation

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB Olivier Augereau Formation UML

LES REPRESENTATIONS DES NOMBRES

Optimisation des ressources des produits automobile première

A quels élèves profite l approche par les compétences de base? Etude de cas à Djibouti

MATHÉMATIQUES ET SCIENCES HUMAINES

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Géométrie discrète Chapitre V

GUIDE DU TUTEUR ACCUEIL D UN ETUDIANT EN BTS MUC. Management des Unités Commerciales. Stage de 1ère année

Logiciel XLSTAT version rue Damrémont PARIS

Observatoire Economique et Statistique d Afrique Subsaharienne

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Relation entre deux variables : estimation de la corrélation linéaire

Le géomarketing - Page 1 sur 7

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Formation Excel, Niveau initiation, module 1 DUREE DE LA FORMATION OBJECTIFS DE LA FORMATION

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Filière «Économie et Entreprise» 2015/2016

Fonctions de plusieurs variables

IT SecuDay Geneva 2015 : Les apports du Big Data à la sécurité informatique

INFORMATIQUE : LOGICIELS TABLEUR ET GESTIONNAIRE DE BASES DE DONNEES

Gouvernance des mesures de sécurité avec DCM-Manager. Présentation du 22 mai 2014

UN EXEMPLE D EVALUATION DISCIPLINAIRE : EN ECONOMIE-GESTION (Droit)

Corrigé des TD 1 à 5

Indications pour une progression au CM1 et au CM2

Identification de nouveaux membres dans des familles d'interleukines

LIVRE BLANC. Smart data, scoring et CRM automatisé : Comment acquérir, qualifier et convertir ses prospects en clients

LES MODES D ADAPTATION ET DE COMPENSATION DU HANDICAP : Les personnes handicapées motrices à domicile (enquête HID 1999)

STRICTEMENT CONFIDENTIEL

Coheris est agréé organisme de formation, n d agrément

Systèmes de transmission

Accélérer l agilité de votre site de e-commerce. Cas client

La fonction d audit interne garantit la correcte application des procédures en vigueur et la fiabilité des informations remontées par les filiales.

LE PETIT RELATION CLIENT. Les pratiques clés en 15 fiches. Nathalie Houver

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Cours 1 : La compilation

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Document d aide au suivi scolaire

Mise en place d'une chaîne de production raster multi-échelles

MISE EN PLACE D UNE DEMARCHE CQP / CQPI AU SEIN D UNE BRANCHE

Bases de données. Chapitre 1. Introduction

DURÉE DE VIE ET DE. Michel JAMBU, Centre National d'etudes des Télécommunications France Direction scientifique

SOCLE COMMUN: LA CULTURE SCIENTIFIQUE ET TECHNOLOGIQUE. alain salvadori IA IPR Sciences de la vie et de la Terre ALAIN SALVADORI IA-IPR SVT

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

GUIDE DE CONSTITUTION DE DOSSIER EN VUE DE LA RECONNAISSANCE ET/OU DE L EQUIVALENCE DES DIPLOMES, TITRES ET GRADES DE L ENSEIGNEMENT SUPERIEUR

La gestion du fichier client. 04/12/2013 Le marketing en soutien aux forces de vente


Une comparaison de méthodes de discrimination des masses de véhicules automobiles

DESCRIPTIF DE MODULE S4 ADG : Mathématique pour la Gestion

Solution logicielle pour le pilotage et l ERM. Journées d études IARD 26 mars mars 2010

Comment mieux lutter contre la fraude à l assurance? Gestion de sinistres Odilon Audouin, le 4 avril 2013

Table des matières. I Mise à niveau 11. Préface

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

PRXSENTATION D UN GESTIONNAIRE DE DONNEES NUMERIQUES HIERARCHISEES DESTINE AU DE- -POUILLEMENT D ENQUETES

Big Data et Marketing : les competences attendues

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Transcription:

Méthode de base de l'analyse des données Auteur : Michel Jambu Expert en analyse des données et systèmes d information, professeur à l université de Paris Dauphine Volume : 418 pages + un CD-Rom d évaluation du logiciel d analyse des données StatLab. Date de parution : 1999 Editeur : Eyrolles, collection technique et scientifique des télécommunications INTERET(S) DE L OUVRAGE Selon Michel Jambu, l analyse des données est l ensemble des méthodes à partir desquelles on collecte, organise, résume, présente et étudie des données pour en tirer des conclusions et prendre des décisions. Ces méthodes ont beaucoup évolué depuis les années soixante passant du " calcul statistique " à des approches privilégiant la " visualisation interactive des données ". Au-delà des éléments présentés dans cet ouvrage, le schéma suivant s efforce de présenter, sous une forme simplifiée, les principaux domaines de l analyse des données : La lecture de cet ouvrage qui nécessite un niveau correct en mathématiques et statistiques comporte trois intérêts : les méthodes d analyse des données sont largement utilisées dans le domaine des études mercatiques en liaison avec l évolution des technologies de l informatique et des communications ; les méthodes, notamment les plus récentes, sont souvent présentées avec des termes abscons ou des anglicismes (" datamining ", réseaux neuronaux, " scoring ",

" profiling ", etc.) quelquefois pseudo-scientifiques : il est utile de revenir aux fondements mathématiques de ces méthodes afin de comprendre leurs mécanismes de base et leur intérêt en ce qui concerne les applications mercatiques ; les processus de calcul sont évidemment automatisés (fonctionnalités présentes dans les logiciels tels que Sphinx, Question, SPSS, etc.) et il n est donc pas obligatoire de s attacher au détail des démonstrations mathématiques (abondantes dans l ouvrage). Toutefois, la compréhension et l interprétation des résultats fournis par les logiciels (cartes perceptuelles, nombreuses dans l ouvrage) sont plus faciles pour les personnes qui se sont efforcées de maîtriser les fondements mathématiques de ces méthodes. CONCEPTS ET IDEES CLES Composition de l ouvrage : Corps principal : 10 chapitres. Chaque chapitre est suivi d exercices (sans corrigés). index (références bibliographiques) ; annexe : CD-Rom StatLab : ensemble de logiciels d évaluation permettant de pratiquer l analyse des données sans être statisticien ou informaticien. Le logiciel comporte 30 jeux de données dans des domaines variés (sociologie, économie, sémantique ) à partir desquels les fonctionnalités des logiciels sont mises en œuvre. Trois jeux de données concernent le domaine commercial : performance commerciale d un réseau de distribution, enquête de satisfaction France Télécom (2 jeux). Idées principales La première partie intitulée " analyse élémentaire des données " présente : - les notions de base de l analyse des données (chap. 1) : objectifs : notamment passage des " données " à " l information " puis de " l information " à la " prise de décision " ; méthodologie de l information (étude de l existant, définition des objectifs, conception des données (notions de variables, entités, périodes), définition des traitements, méthode de collecte, saisie, contrôle, etc. ; types de données : tableaux de données (à une ou plusieurs variables, tableaux recodés, tableaux de contingence), variables (chronologiques, logiques ou booléennes, qualitatives à réponses multiples, rang ou classement, préférences, classe) ; les domaines de l élaboration des données (chap. 2) : il s agit de permettre à l utilisateur d avoir des données de bonne qualité, prêtes à l emploi, définies en fonction des objectifs de l étude, offrant la possibilité d effectuer l analyse et la présentation des résultats en toute confiance. Deux domaines principaux sont abordés : la conception des données : recherche de toutes les variables et données informelles ayant, a priori, une relation avec le sujet étudié, définition des populations étudiées (univers et unité statistique de référence, technique d enquête, etc.), périodes de temps pendant lesquelles les variables doivent être recueillies. Le diagramme d Ishikawa (ou " causes-effet " ou " arêtes de poisson ") est présenté en détail comme un outil essentiel pour la conception des données ;

la gestion des données : ensemble des opérations nécessaires du point de vue des utilisateurs des données (accès aux informations, contrôle de la qualité des données, création d un dictionnaire des données, calculs et gestion des tableaux de données, approches multicritères, etc.). les méthodes élémentaires d analyse des données : analyse d une variable quantitative ou qualitative (chap. 3) : objectif (identifier les éléments essentiels de la répartition des individus associés à une variable), indicateurs numériques de tendance centrale (médiane, moyenne arithmétique, moyenne généralisée ) et de dispersion (amplitude, écart-type, coefficients d asymétrie ), représentations graphiques (boîtes de dispersion, histogramme, diagramme circulaire ) ; analyse de deux variables (chap. 4) : objectif (recherche des relations de " cause à effet " - variable expliquée / variable explicative ou de dépendance non nécessairement structurée), présentation sous forme graphique et de tableaux de contingence, coefficients de contingence (Pearson, Cramer ), méthode d étude de l indépendance (test de χ ²), régression linéaire, moindres carrés, coefficient de corrélation, etc. ; analyse conjointe de plusieurs variables (chap. 5) : objectif (étude des relations et des interactions entre plusieurs variables en même temps et non plus seulement deux à deux), approches graphiques (polaire, profil, projection cartographique), analyse d un tableau de contingence multiple. La deuxième partie intitulée " L analyse approfondie des données " présente : les fondements de l analyse factorielle (chap. 6) dont l objectif principal est d élaborer et de présenter dans un espace euclidien de faible dimension les informations les plus diverses consignées dans des tableaux numériques à double entrée complexes et importants : principe du passage d un ajustement linéaire à une analyse factorielle : résumer un ensemble d individus en fonction de facteurs communs sous une forme polynomiale, technique mathématique (transformation d un tableau important en une matrice de dimension beaucoup plus petite mais qui conserve la valeur de l information d origine : calcul vectoriel). l analyse en composantes principales (chap. 7) dont l objectif est de représenter graphiquement les relations entre des variables quantitatives afin de visualiser les individus en relation avec les variables. L analyse de l espace géométrique obtenu (carte de perception ou " mapping ") permet de donner un sens aux axes factoriels (en fonction de la proximité des variables par rapport aux axes), aux regroupements de données (regroupements d individus et de variable à divers endroits de la carte), singularités (éloignement de critères ou individus par rapport aux regroupements majoritaires), proximités (entre variables, entre groupes d individus, entre variables et individus). Les méthodes de calcul sont présentées en détail à partir d exemples concrets ;

l analyse des correspondances binaires (chap. 8) est appliquée à des tableaux de fréquences issues du croisement de deux variables qualitatives ou assimilables à des tableaux de correspondances binaires ; l analyse des correspondances multiples - qualifiée d outil privilégié de l analyse des données par Michel Jambu (chap. 9) est appliquée à des tableaux issus du croisement de plusieurs variables qualitatives ou quantitatives ; les méthodes de classification (chap. 10) peuvent être appliquées soit à des individus soit à des variables. La classification des individus a pour objectif de construire des classes (ou groupes ou encore segments) d individus en fonction d un ensemble de variables qualitatives ou quantitatives afin d obtenir une vision multidimensionnelle de ceux-ci (et non plus seulement en fonction d un seul critère à la fois). La classification des variables a pour objectif de réduire le nombre de variables d origine en éliminant les redondances et en ne retenant que les plus représentatives (ou discriminantes). Les principales familles de méthodes de classification sont : les méthodes de partition fondées sur divers algorithmes (ex. : agrégation autour des centres variables) : il s agit de chercher un critère de ressemblance entre individus et entre classes qui aboutit à la fois aux classes les plus homogènes possibles (compacité maximum de chaque classe ou groupe) et les plus distinctes les unes par rapport aux autres (séparation maximum entre les classes ou les groupes) ; les méthodes de classification hiérarchiques ascendantes : le principe de ces méthodes est, dans un premier temps, de créer de petites classes ou groupes ne comportant que des individus très semblables. Les étapes suivantes consistent à créer des classes ou des groupes de moins en moins homogènes par regroupements successifs ; les méthodes de segmentation ou méthodes de classification hiérarchiques descendantes : le principe général est toujours de déterminer les groupes les plus homogènes possibles. A la différence des autres méthodes de classification, la segmentation privilégie une variable à expliquer par rapport à des variables explicatives : Méthodes de segmentation Variable à expliquer Variables explicatives Exploration des liaisons et interactions par segmentation d un ensemble expérimental (ELISEE) : à chaque étape, division de chaque groupe par deux, utilisation du χ ² pour repérer les variables explicatives les plus discriminantes Détection automatique d interactions (AID : automatic interaction detection) : même principe qu ELISEE avec utilisation du η ² (corrélation) pour repérer les variables explicatives les plus discriminantes Qualitative Quantitative Quantitatives ou qualitatives les méthodes de discrimination ou analyse discriminante : une variable qualitative ayant permis d établir une classification déterminée, l objectif est d expliquer celle-ci par des variables quantitatives explicatives. Il s agit de chercher les combinaisons linéaires de variables explicatives qui permettent de séparer au mieux les groupes d individus (établis à partir de la variable qualitative) et de faire une représentation graphique mettant en valeur les séparations. L analyse discriminante présente l intérêt majeur de permettre des approches prédictives ou prévisionnelles particulièrement

utiles en mercatique : prévoir le groupe d appartenance (ou classe d affectation) d un nouvel individu en fonction des variables quantitatives qui le caractérisent. UTILITE OPERATIONNELLE Pour la pratique pédagogique Niveau Terminale ACC - BTS action commerciale - BTS force de vente - Commentaires Revoir les outils de base de l analyse des données (les plus élémentaires faisant partie des référentiels) ; Comprendre les approches plus complexes pour les collègues intéressés par l utilisation des outils mathématiques en mercatique. Pour la préparation à un concours Capet interne /externe + Révision sur les méthodes descriptives Agrégation interne / externe ++ Etude de la partie mathématique, statistique du programme. La maîtrise des fondements de l analyse des données est très utile pour l étude de cas du concours externe, pour résoudre certains cas donnés lors des oraux des concours interne et externe ainsi que pour répondre aux éventuelles questions des jurys. Pour la culture générale professionnelle ++ Mathématiques, statistiques et outils informatique / communication sont des éléments majeurs de la mercatique.