Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques descriptives, analyses factorielles, arbre de décision, régression multiple, régression logistique, scoring ) Pour chaque méthode, nous avons une approche non formelle et très pratique (ce que fait la méthode, comment l employer ) Théorie puis application sous Spad Théorie Applications
création d une enquête (élaboration du questionnaire, saisie, codage logique ) gestion d une base de données (data management) traitement d une enquête analyse statistique des résultats d une enquête maîtrise du logiciel SPAD version 73
Guide du Data Miner de Spad 70 (kit-étudiant et Eprel) Guide de l utilisateur de Spad 70 (kit-étudiant et Eprel) Wikipédia : Exploration de données Analyse de données Arbre de décision Analyse discriminante linéaire
Qu est-ce que le Data Management?
Le Data Management est la gestion des données au sens large Dans Spad, elle recouvre, entre autres, les éléments suivants: Filtre logique Échantillonnage Dédoublonnage Tri Empilement de tables Agrégation Transposition Verticalisation Format Édition de libellés Sélection, ordre Juxtaposition Jointure Binarisation Remplacement des données manquantes Mise en classes Générateur de nouvelles variables Création d une variable de pondération
Qu est-ce que l Analyse des Données?
Traiter une enquête Trouver des profils type Détecter les oppositions de profils
L analyse des données est une branche des statistiques (et donc des mathématiques) qui traite de la description de données conjointes On cherche par ces méthodes à donner les liens pouvant exister entre les différentes données et à en tirer une information statistique qui permet de décrire de façon plus succincte les principales informations contenues dans ces données On peut également chercher à classer les données en différents sous groupes plus homogènes : un exemple d'utilisation d'un tel classement serait celui de la reconnaissance automatique des pourriels Un type d'analyse des données, ou, plus précisément ici, de data profiling, serait l'analyse simultanée de l âge, du sexe et de la catégorie socioprofessionnelle des joueurs de golf ; la bibliométrie fait également largement appel à l'analyse de la publication des revues scientifiques afin de calculer, par exemple, leur «facteur d'impact» Source : Wikipédia, rubrique «analyse des données»
Dans l'acception française, la terminologie analyse des données désigne un sousensemble de ce qui est appelé plus généralement la statistique multivariée Elle comprend principalement : L analyse en composantes principales (ACP), utilisée pour des données quantitatives L analyse factorielle discriminante (AFD) ou analyse discriminante qui permet d identifier des groupes homogènes au sein de la population du point de vue des variables étudiées, L'analyse factorielle des correspondances (AFC), utilisée pour des données qualitatives (tableau d association) La classification automatique L analyse en composantes indépendantes (ACI) L'iconographie des corrélations, pour des données qualitatives et quantitatives Ces méthodes permettent notamment de manipuler et de synthétiser l information provenant de tableaux de données de grande taille Pour cela, il est très important de bien estimer les corrélations entre les variables que l on étudie On a alors souvent recours à la matrice des corrélations (ou la matrice de variance-covariance) entre les variables
Les techniques d analyse de données multidimensionnelles sont au cœur de la pratique marketing car elles permettent l interprétation des données Elles sont essentielles pour développer des typologies, analyser un positionnement et plus généralement pour comprendre la demande du marché et construire des propositions susceptibles de satisfaire le client Autant la disponibilité des outils d analyse que l accumulation toujours plus importante de données rendent facile mais aussi complexe l approche des données Ce cours rappelle les principes des méthodes d analyse des données afin de permettre leur mise en œuvre pratique avec un logiciel statistique (SPAD 70)
Qu est-ce que le Data Mining? Source : Wikipédia, rubrique «exploration de données»
L exploration de données (fouille de données, data mining, forage de données ou encore extraction de connaissances à partir de données) a pour objet l extraction d'un savoir ou d'une connaissance à partir de grandes quantités de données, par des méthodes automatiques ou semiautomatiques L'utilisation industrielle ou opérationnelle de ce savoir dans le monde professionnel permet de résoudre des problématiques très diverses, allant de la gestion de la relation client à la maintenance préventive, en passant par la détection de fraudes ou encore l'optimisation de sites web Source : Wikipédia, rubrique «exploration de données»
Le data mining est un processus d'extraction de connaissances valides et exploitables à partir de grands volumes de données Il a vocation à être utilisé dans un environnement professionnel et se distingue de l'analyse de données et de la statistique par les points suivants: Contrairement à la méthode statistique, le data mining ne nécessite jamais que l'on établisse une hypothèse de départ qu'il s'agira de vérifier Ce sont des données elles-mêmes que sont déduites les corrélations intéressantes, le logiciel n'étant là que pour les découvrir (le data mining se situe à la croisée des statistiques, de l'intelligence artificielle et des bases de données) Les connaissances extraites par le data mining ont vocation à être intégrées dans le schéma organisationnel de l'entreprise ou de l'entité considérée Le data mining impose donc d'être capable d'utiliser de manière opérationnelle les résultats des analyses effectuées, souvent dans des délais très courts Le processus d'analyse doit permettre à l'organisation une réactivité(très) importante Les données traitées sont issues des systèmes de stockage en place dans l'organisation et sont ainsi hétérogènes, multiples, plus ou moins structurées Leur raison d'être n'est donc a priori pas l'analyse (sauf dans le cas d'un entrepôt de données) Cela impose de disposer de systèmes performants de préparation ou de manipulation de données
Le data mining se propose de transformer en information, ou en connaissance, de grands volumes de données qui peuvent être stockés de manière diverse, dans des bases de données relationnelles, dans un (ou plusieurs) entrepôt de données (data warehouse), mais qui peuvent aussi être récupérées de sources riches plus ou moins structurées comme internet, ou encore en temps réel (sollicitation d'un centre d'appel, retrait d'argent dans undistributeuràbillets) Lorsque la source n est pas directement un entrepôt de données, il s'agit très souvent de construire une base de données ou un datamart dédié à l'analyse et aux analystes Cela suppose d'avoir à sa disposition une palette d'outils de gestion de données (data management) On peut également structurer les données de l entrepôt sous forme d un hypercube OLAP, même si cela est assez rare en matière de data mining
Le data mining est un processus d'analyse dont l'approche est différente de celle utilisée en statistique Cette dernière présuppose en général que l'on se fixe une hypothèse que les données permettent ou non de confirmer Au contraire, le data mining adopte une démarche sans a priori (approche pragmatique) et essaie ainsi de faire émerger, à partir des données brutes, des inférences que l'expérimentateur peut ne pas soupçonner (sérendipité), et dont il aura éventuellement à valider la pertinence Le data mining tente alors de réaliser un arbitrage entre validité scientifique, interprétabilité des résultats et facilité d'utilisation, dans un environnement professionnel où le temps d'étude joue un rôle majeur et où les analystes ne sont pas toujours des statisticiens
Le logiciel SPAD 73 SPAD version 70 Guide de l utilisateur(en pdf) Guidedudataminer(enpdf) Choixdecelogiciel:«quipeutlepluspeutlemoins!»(Aristote) wwwcoherisfr Nousdonnonslesréférencesdesguidesaveclelogo Les autres logiciels : SPSS, Le Sphinx, Modalisa, Minitab, SAS Défaut: pas de ressources sur Internet
Le Projet sous SPAD
1 3 personnes maximum (bonus si 1 ou 2) 2 Sujet : lié au diplôme ou à l entreprise, prescriptions marketing (idéal : mémoire) 3 Support papier : 30 pages 4 5 6 7 Présentation synthétique sur PowerPoint (noté à part) Supports informatiques (base Excel, projet, ppt) La base doit être prête rapidement! Date limite de remise du projet 30 juin
Dans le cours, nous apprenons à créer une enquête, à l'administrer, à la coder, à la traiter sur Excel et Spad et à la traiter statistiquement (fouillage et analyses) Le cours est théorique (même s'il y a de nombreux cas et des applications avec le logiciel) et il faut que vous travailliez vous-même sur le terrain pour acquérir l'autonomie recherchée C'est l'objet de ce travail Je vous recommande d'intégrer ce travail dans votre mémoire (synergies) Le projet demandé consiste à faire votre propre enquête, seul(e) ou en groupes (de 3 maximum) et à analyser les résultats Toutes les méthodes vues en cours doivent y figurer (tris à plat, tris croisés régression multiple, classification et analyse factorielle) Chaque procédure doit être rappelée (définition), traitée et interprétée Par exemple, avant de faire un tri à plat, il faudra expliquer pourquoi on fait un tri à plat, comment on lit le tableau produit par Spad et comment on peut l'exploiter sur un plan prescriptif
Démarche : - fixer d'abord une problématique globale (exemple : "Comment améliorer l'efficacité des négociateurs dans mon entreprise?") ; - élaborer un questionnaire dont l'analyse permettra de répondre à cette problématique (exemples de question : "Quel est votre style de négociation préféré?", "Aimez-vous négocier?") ; - faire le codage logique des réponses aux questions ouvertes (par exemple : oui=1 et non=2) ; - saisir le questionnaire (questions et réponses) sur Excel puis importer sous Spad (ou saisir directement sur Spad) ; - faire les analyses sous Spad (tris à plat, arbre de décision, analyse factorielle) ; - produire un document synthétique (introduction, partie 1) présentant votre travail ; - produire une présentation PowerPoint qui met en lumière vos résultats (sans faire de copier-coller du document) Nombre de questions minimum : 15 Nombre d'individus minimum : 30 Il faut un mélange de variables quantitatives et qualitatives
Le thème de l'enquête doit être en rapport avec le diplôme (problématique réseau, marketing) et les prescriptions doivent être professionnelles Un document écrit et des fichiers informatiques doivent être remis (base de données, fichier de présentation PowerPoint, fichiers Spad) sur une clé USB ou sur un CD-ROM Un document professionnel est attendu (mise en forme, réalité des prescriptions) Bonus de note finale : Projet fait à 3 : 0 Projet fait à 2 : +1 Projet fait seul(e) : +3 Ce travail ne doit pas être fait au dernier moment car (i) ce sera trop lourd pour vous et (ii) si vous rencontrez des difficultés (ce qui est presque certain), je ne serai plus forcément disponible pour vous aider Enfin, le travail doit être remis à la scolarité pour consignation (et non à moi directement)
Plan type Introduction Partie 1 L enquête : du questionnaire à la base de données Section 11 Le questionnaire Section 12 La base de données Partie 2 Statistiques descriptives Section 21 Tris à plat, histogramme et discrétisation Section 22 Tableaux croisés Section 23 Caractérisation de variables 231 Caractérisation d une variable continue 232 Caractérisation d une variable nominale Section 24 Analyse bivariée Partie 3 Analyses factorielles Section 31 ACP, AFC ou ACM Section 32 Description des axes factoriels Partie 4 Classification Partie 5 Modèle linéaire et ses extensions Section 51 Régression multiple Section 52 Régression logistique Partie 6 Arbres de décision interactifs Conclusion
Le Kit-étudiant Offert par l IAE (valeur de 23 ) Licence personnelle pour un an Possibilité de travailler chez soi Pas de version Mac
Ce que nous verrons Statistiques descriptives Analyses factorielles Typologies Modèle linéaire Analyses discriminantes Scoring Arbres de décision
L UNI-DIMENSIONNEL Poids Olivier 90 Sylvie 60 Louis 100 Distance euclidienne : A B d( A, B) = ( x x ) n i= 1 Olivier Louis = ( Poids Poids ) = (90 100) = 10 2 i i 2 2 Sylvie Olivier Louis 60 90 100 POIDS D(L,O)
L UNI-DIMENSIONNEL La distance qui sépare Olivier de Louis est plus petite que celle qui sépare Olivier de Sylvie Olivier ressemble donc plus à Louis qu à Sylvie, en termes de poids, et sur le critère de la distance euclidienne
LE BI-DIMENSIONNEL Poids Taille O livier 90 190 Taille Seuil 1 Sylvie 60 170 Minces Louis 100 200 Louis 200 D(L,O) Olivier 190 Seuil 2 170 Sylvie Grands (0,0) 60 90 100 Les «petits gros» Poids
Calcul de la distance euclidienne A B d( A, B) = ( x x ) n i= 1 i i 2 = ( Poids Poids ) + ( Taille Taille ) Olivier Louis 2 Olivier Louis 2 = (90 100) + (190 200) = 200 2 2 La valeur n a aucun sens La différence, elle, peut s interpréter
LE TRI-DIMENSIONNEL Taille Poids Taille Age Olivier 90 190 40 Sylvie 60 170 20 Louis 100 200 30 100 90 60 200 190 Louis 170 Sylvie 20 Olivier 30 40 Age Poids
LE N-DIMENSIONNEL Poids Taille Age Revenus Olivier 90 190 40 100 Sylvie 60 170 20 300 Louis 100 200 30 200 Eric 130 210 35 500 Plus de représentation graphique possible! Distance euclidienne et projection sur un plan
Relation entre la tranche d âge du conducteur et le type de collision : «notre premier tri croisé»
z LE POINT A(90,70,30) z 70 30 O A(90,70,30) : point en 3D 90 (90,70,0) : point en 2D x y