Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données



Documents pareils
INTRODUCTION AU DATA MINING

Entrepôt de données 1. Introduction

données en connaissance et en actions?

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Introduction au datamining

Introduction à la B.I. Avec SQL Server 2008

Cycle de formation certifiante Sphinx

Business & High Technology

Agenda de la présentation

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Complet Intuitif Efficace. Références

Spécificités, Applications et Outils

Traitement des données avec Microsoft EXCEL 2010

Analyse de grandes bases de données en santé

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Chapitre 9 : Informatique décisionnelle

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Logiciel XLSTAT version rue Damrémont PARIS

Intelligence Economique - Business Intelligence

Cybermarché et analyse comportementale

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Introduction au Data-Mining

Communiqué de Lancement

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Méthodologie de conceptualisation BI

BUSINESS INTELLIGENCE

MRK A : Méthodes d Analyse de Données en Marketing Automne 2010

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

La place de SAS dans l'informatique décisionnelle

Filière «Économie et Entreprise» 2015/2016

Coheris est agréé organisme de formation, n d agrément

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

SIG ET ANALYSE EXPLORATOIRE

SPHINX Logiciel de dépouillement d enquêtes

Les Entrepôts de Données. (Data Warehouses)

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Business Intelligence : Informatique Décisionnelle

Apprentissage Automatique

ETL Extract - Transform - Load

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

et les Systèmes Multidimensionnels

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Débouchés professionnels

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Extraction d informations stratégiques par Analyse en Composantes Principales

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

BI = Business Intelligence Master Data-Science

TRAVAUX DE RECHERCHE DANS LE

"La démarche marketing, le système d information marketing et l étude de marché"

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

BI = Business Intelligence Master Data-ScienceCours 3 - Data

Introduction au Data-Mining

White Paper ADVANTYS. Workflow et Gestion de la Performance

Gestion de la Relation Client (GRC)

Localisation des fonctions

En synthèse. HVR pour garantir les échanges sensibles de l'entreprise

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

QU EST-CE QUE LE DECISIONNEL?

Prise en main du BusinessObjects XI R2 Service Pack 2/ Productivity Pack

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Introduction au domaine du décisionnel et aux data warehouses

RÉSOLUTION DE SYSTÈMES À DEUX INCONNUES

La classification automatique de données quantitatives

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Didier MOUNIEN Samantha MOINEAUX

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Les Entrepôts de Données

GLOBAL SUPPLY CHAIN MANAGEMENT & STRATEGIE LOGISTIQUE

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

ANNEXES. Evaluation de la formation à Polytech Lille Département GIS. Enseignements les plus utiles. Enseignements à renforcer

ESC 1A Parcours Management

Introduction: 1. définition d un ETL 2. importance et diversité des données spatiales utilitédes ETL géographiques

Master Marketing et Pratiques Commerciales Apprentissage Master 2

THOT - Extraction de données et de schémas d un SGBD

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Gestion d événements et modulation dynamique de choix sous Sphinx par calcul de contraintes en temps réel.

Le scoring est-il la nouvelle révolution du microcrédit?

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

L olivier Assurances Licence 3 Econométrie Lyon II

SAP BusinessObjects Web Intelligence (WebI) BI 4

MANAGEMENT DES SERVICES INFORMATIQUES

ÉCONOMIE ET GESTION LYCÉES TECHNOLOGIQUE ET PROFESSIONNEL

La problématique. La philosophie ' ) * )

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Utiliser Access ou Excel pour gérer vos données

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Business Intelligence

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

GUIDE DE L UTILISATEUR. Interface Projets Diagrammes Imports / Exports Data Management Industrialisation

Objectif. Participant. Prérequis. Oracle BI Suite EE 10g R3 - Développer des référentiels. 5 Jours [35 Heures]

Transcription:

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques descriptives, analyses factorielles, arbre de décision, régression multiple, régression logistique, scoring ) Pour chaque méthode, nous avons une approche non formelle et très pratique (ce que fait la méthode, comment l employer ) Théorie puis application sous Spad Théorie Applications

création d une enquête (élaboration du questionnaire, saisie, codage logique ) gestion d une base de données (data management) traitement d une enquête analyse statistique des résultats d une enquête maîtrise du logiciel SPAD version 73

Guide du Data Miner de Spad 70 (kit-étudiant et Eprel) Guide de l utilisateur de Spad 70 (kit-étudiant et Eprel) Wikipédia : Exploration de données Analyse de données Arbre de décision Analyse discriminante linéaire

Qu est-ce que le Data Management?

Le Data Management est la gestion des données au sens large Dans Spad, elle recouvre, entre autres, les éléments suivants: Filtre logique Échantillonnage Dédoublonnage Tri Empilement de tables Agrégation Transposition Verticalisation Format Édition de libellés Sélection, ordre Juxtaposition Jointure Binarisation Remplacement des données manquantes Mise en classes Générateur de nouvelles variables Création d une variable de pondération

Qu est-ce que l Analyse des Données?

Traiter une enquête Trouver des profils type Détecter les oppositions de profils

L analyse des données est une branche des statistiques (et donc des mathématiques) qui traite de la description de données conjointes On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données On peut également chercher à classer les données en différents sous groupes plus homogènes : un exemple d'utilisation d'un tel classement serait celui de la reconnaissance automatique des pourriels Un type d'analyse des données, ou, plus précisément ici, de data profiling, serait l'analyse simultanée de l âge, du sexe et de la catégorie socioprofessionnelle des joueurs de golf ; la bibliométrie fait également largement appel à l'analyse de la publication des revues scientifiques afin de calculer, par exemple, leur «facteur d'impact» Source : Wikipédia, rubrique «analyse des données»

Dans l'acception française, la terminologie analyse des données désigne un sousensemble de ce qui est appelé plus généralement la statistique multivariée Elle comprend principalement : L analyse en composantes principales (ACP), utilisée pour des données quantitatives L analyse factorielle discriminante (AFD) ou analyse discriminante qui permet d identifier des groupes homogènes au sein de la population du point de vue des variables étudiées, L'analyse factorielle des correspondances (AFC), utilisée pour des données qualitatives (tableau d association) La classification automatique L analyse en composantes indépendantes (ACI) L'iconographie des corrélations, pour des données qualitatives et quantitatives Ces méthodes permettent notamment de manipuler et de synthétiser l information provenant de tableaux de données de grande taille Pour cela, il est très important de bien estimer les corrélations entre les variables que l on étudie On a alors souvent recours à la matrice des corrélations (ou la matrice de variance-covariance) entre les variables

Les techniques d analyse de données multidimensionnelles sont au cœur de la pratique marketing car elles permettent l interprétation des données Elles sont essentielles pour développer des typologies, analyser un positionnement et plus généralement pour comprendre la demande du marché et construire des propositions susceptibles de satisfaire le client Autant la disponibilité des outils d analyse que l accumulation toujours plus importante de données rendent facile mais aussi complexe l approche des données Ce cours rappelle les principes des méthodes d analyse des données afin de permettre leur mise en œuvre pratique avec un logiciel statistique (SPAD 70)

Qu est-ce que le Data Mining? Source : Wikipédia, rubrique «exploration de données»

L exploration de données (fouille de données, data mining, forage de données ou encore extraction de connaissances à partir de données) a pour objet l extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semiautomatiques L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel permet de résoudre des problématiques très diverses, allant de la gestion de la relation client à la maintenance préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web Source : Wikipédia, rubrique «exploration de données»

Le data mining est un processus d'extraction de connaissances valides et exploitables à partir de grands volumes de données Il a vocation à être utilisé dans un environnement professionnel et se distingue de l'analyse de données et de la statistique par les points suivants: Contrairement à la méthode statistique, le data mining ne nécessite jamais que l'on établisse une hypothèse de départ qu'il s'agira de vérifier Ce sont des données elles-mêmes que sont déduites les corrélations intéressantes, le logiciel n'étant là que pour les découvrir (le data mining se situe à la croisée des statistiques, de l'intelligence artificielle et des bases de données) Les connaissances extraites par le data mining ont vocation à être intégrées dans le schéma organisationnel de l'entreprise ou de l'entité considérée Le data mining impose donc d'être capable d'utiliser de manière opérationnelle les résultats des analyses effectuées, souvent dans des délais très courts Le processus d'analyse doit permettre à l'organisation une réactivité(très) importante Les données traitées sont issues des systèmes de stockage en place dans l'organisation et sont ainsi hétérogènes, multiples, plus ou moins structurées Leur raison d'être n'est donc a priori pas l'analyse (sauf dans le cas d'un entrepôt de données) Cela impose de disposer de systèmes performants de préparation ou de manipulation de données

Le data mining se propose de transformer en information, ou en connaissance, de grands volumes de données qui peuvent être stockés de manière diverse, dans des bases de données relationnelles, dans un (ou plusieurs) entrepôt de données (data warehouse), mais qui peuvent aussi être récupérées de sources riches plus ou moins structurées comme internet, ou encore en temps réel (sollicitation d'un centre d'appel, retrait d'argent dans undistributeuràbillets) Lorsque la source n est pas directement un entrepôt de données, il s'agit très souvent de construire une base de données ou un datamart dédié à l'analyse et aux analystes Cela suppose d'avoir à sa disposition une palette d'outils de gestion de données (data management) On peut également structurer les données de l entrepôt sous forme d un hypercube OLAP, même si cela est assez rare en matière de data mining

Le data mining est un processus d'analyse dont l'approche est différente de celle utilisée en statistique Cette dernière présuppose en général que l'on se fixe une hypothèse que les données permettent ou non de confirmer Au contraire, le data mining adopte une démarche sans a priori (approche pragmatique) et essaie ainsi de faire émerger, à partir des données brutes, des inférences que l'expérimentateur peut ne pas soupçonner (sérendipité), et dont il aura éventuellement à valider la pertinence Le data mining tente alors de réaliser un arbitrage entre validité scientifique, interprétabilité des résultats et facilité d'utilisation, dans un environnement professionnel où le temps d'étude joue un rôle majeur et où les analystes ne sont pas toujours des statisticiens

Le logiciel SPAD 73 SPAD version 70 Guide de l utilisateur(en pdf) Guidedudataminer(enpdf) Choixdecelogiciel:«quipeutlepluspeutlemoins!»(Aristote) wwwcoherisfr Nousdonnonslesréférencesdesguidesaveclelogo Les autres logiciels : SPSS, Le Sphinx, Modalisa, Minitab, SAS Défaut: pas de ressources sur Internet

Le Projet sous SPAD

1 3 personnes maximum (bonus si 1 ou 2) 2 Sujet : lié au diplôme ou à l entreprise, prescriptions marketing (idéal : mémoire) 3 Support papier : 30 pages 4 5 6 7 Présentation synthétique sur PowerPoint (noté à part) Supports informatiques (base Excel, projet, ppt) La base doit être prête rapidement! Date limite de remise du projet 30 juin

Dans le cours, nous apprenons à créer une enquête, à l'administrer, à la coder, à la traiter sur Excel et Spad et à la traiter statistiquement (fouillage et analyses) Le cours est théorique (même s'il y a de nombreux cas et des applications avec le logiciel) et il faut que vous travailliez vous-même sur le terrain pour acquérir l'autonomie recherchée C'est l'objet de ce travail Je vous recommande d'intégrer ce travail dans votre mémoire (synergies) Le projet demandé consiste à faire votre propre enquête, seul(e) ou en groupes (de 3 maximum) et à analyser les résultats Toutes les méthodes vues en cours doivent y figurer (tris à plat, tris croisés régression multiple, classification et analyse factorielle) Chaque procédure doit être rappelée (définition), traitée et interprétée Par exemple, avant de faire un tri à plat, il faudra expliquer pourquoi on fait un tri à plat, comment on lit le tableau produit par Spad et comment on peut l'exploiter sur un plan prescriptif

Démarche : - fixer d'abord une problématique globale (exemple : "Comment améliorer l'efficacité des négociateurs dans mon entreprise?") ; - élaborer un questionnaire dont l'analyse permettra de répondre à cette problématique (exemples de question : "Quel est votre style de négociation préféré?", "Aimez-vous négocier?") ; - faire le codage logique des réponses aux questions ouvertes (par exemple : oui=1 et non=2) ; - saisir le questionnaire (questions et réponses) sur Excel puis importer sous Spad (ou saisir directement sur Spad) ; - faire les analyses sous Spad (tris à plat, arbre de décision, analyse factorielle) ; - produire un document synthétique (introduction, partie 1) présentant votre travail ; - produire une présentation PowerPoint qui met en lumière vos résultats (sans faire de copier-coller du document) Nombre de questions minimum : 15 Nombre d'individus minimum : 30 Il faut un mélange de variables quantitatives et qualitatives

Le thème de l'enquête doit être en rapport avec le diplôme (problématique réseau, marketing) et les prescriptions doivent être professionnelles Un document écrit et des fichiers informatiques doivent être remis (base de données, fichier de présentation PowerPoint, fichiers Spad) sur une clé USB ou sur un CD-ROM Un document professionnel est attendu (mise en forme, réalité des prescriptions) Bonus de note finale : Projet fait à 3 : 0 Projet fait à 2 : +1 Projet fait seul(e) : +3 Ce travail ne doit pas être fait au dernier moment car (i) ce sera trop lourd pour vous et (ii) si vous rencontrez des difficultés (ce qui est presque certain), je ne serai plus forcément disponible pour vous aider Enfin, le travail doit être remis à la scolarité pour consignation (et non à moi directement)

Plan type Introduction Partie 1 L enquête : du questionnaire à la base de données Section 11 Le questionnaire Section 12 La base de données Partie 2 Statistiques descriptives Section 21 Tris à plat, histogramme et discrétisation Section 22 Tableaux croisés Section 23 Caractérisation de variables 231 Caractérisation d une variable continue 232 Caractérisation d une variable nominale Section 24 Analyse bivariée Partie 3 Analyses factorielles Section 31 ACP, AFC ou ACM Section 32 Description des axes factoriels Partie 4 Classification Partie 5 Modèle linéaire et ses extensions Section 51 Régression multiple Section 52 Régression logistique Partie 6 Arbres de décision interactifs Conclusion

Le Kit-étudiant Offert par l IAE (valeur de 23 ) Licence personnelle pour un an Possibilité de travailler chez soi Pas de version Mac

Ce que nous verrons Statistiques descriptives Analyses factorielles Typologies Modèle linéaire Analyses discriminantes Scoring Arbres de décision

L UNI-DIMENSIONNEL Poids Olivier 90 Sylvie 60 Louis 100 Distance euclidienne : A B d( A, B) = ( x x ) n i= 1 Olivier Louis = ( Poids Poids ) = (90 100) = 10 2 i i 2 2 Sylvie Olivier Louis 60 90 100 POIDS D(L,O)

L UNI-DIMENSIONNEL La distance qui sépare Olivier de Louis est plus petite que celle qui sépare Olivier de Sylvie Olivier ressemble donc plus à Louis qu à Sylvie, en termes de poids, et sur le critère de la distance euclidienne

LE BI-DIMENSIONNEL Poids Taille O livier 90 190 Taille Seuil 1 Sylvie 60 170 Minces Louis 100 200 Louis 200 D(L,O) Olivier 190 Seuil 2 170 Sylvie Grands (0,0) 60 90 100 Les «petits gros» Poids

Calcul de la distance euclidienne A B d( A, B) = ( x x ) n i= 1 i i 2 = ( Poids Poids ) + ( Taille Taille ) Olivier Louis 2 Olivier Louis 2 = (90 100) + (190 200) = 200 2 2 La valeur n a aucun sens La différence, elle, peut s interpréter

LE TRI-DIMENSIONNEL Taille Poids Taille Age Olivier 90 190 40 Sylvie 60 170 20 Louis 100 200 30 100 90 60 200 190 Louis 170 Sylvie 20 Olivier 30 40 Age Poids

LE N-DIMENSIONNEL Poids Taille Age Revenus Olivier 90 190 40 100 Sylvie 60 170 20 300 Louis 100 200 30 200 Eric 130 210 35 500 Plus de représentation graphique possible! Distance euclidienne et projection sur un plan

Relation entre la tranche d âge du conducteur et le type de collision : «notre premier tri croisé»

z LE POINT A(90,70,30) z 70 30 O A(90,70,30) : point en 3D 90 (90,70,0) : point en 2D x y