Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr



Documents pareils
Agenda de la présentation

Introduction au datamining

COURS DE DATA MINING

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Introduction au Data-Mining

Spécificités, Applications et Outils

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

Introduction au Data-Mining

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Cybermarché et analyse comportementale

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Gestion de la Relation Client (GRC)

Chap 3 : La connaissance du client. I. Les fondements de la connaissance du client. Les principales évolutions sont résumées dans le tableau suivant :

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Méthodes d apprentissage statistique «Machine Learning»

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Coheris est agréé organisme de formation, n d agrément

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

COURS DE DATA MINING

Complet Intuitif Efficace. Références

Apprentissage Automatique

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Le décisionnel plus que jamais au sommet de l agenda des DSI

Données des SIM. Données signalétiques (nom, adresse), Historique d achat, Réactions passées aux actions de promotion

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La classification automatique de données quantitatives

Intégrer le CRM : quelle utilité, quels profits pour ma PME?

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

We make your. Data Smart. Data Smart

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

DUT Statistique et Traitement Informatique des Données (S.T.I.D.)

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage,

CRM et GRC, la gestion de la relation client R A LLER PL US L OI

Accélérer l agilité de votre site de e-commerce. Cas client

LES MODELES DE SCORE

Sage CRM. La solution complète de Gestion des Relations Clients pour PME. Précision et efficacité à portée de mains!

4.2 Unités d enseignement du M1

Théodore Levitt Economiste américain, Professeur à Harvard.

Analyse de grandes bases de données en santé

QU EST-CE QUE LE DECISIONNEL?

Travailler avec les télécommunications

Les dessous des moteurs de recommandation

INTELLIGENCE MARKETING ETUDES DE MARCHE - DATA MINING - CONSEIL EN MARKETING - SYSTEMES D INFORMATION MARKETING

LIVRE BLANC. Smart data, scoring et CRM automatisé : Comment acquérir, qualifier et convertir ses prospects en clients

L information et la technologie de l informationl

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Item 169 : Évaluation thérapeutique et niveau de preuve

S84-1 LA GRC ET LE SI (Système d Information) Qualification des données clientèle La segmentation de la clientèle

CRM Assurance. Fonctionnalités clés. Vue globale de l assuré. Gestion des échanges en Multicanal

INTRODUCTION A LA GESTION DE LA RELATION CLIENT

Base de données clients outil de base du CRM

Partie I Stratégies relationnelles et principes d organisation... 23

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

(Customer Relationship Management, «Gestion de la Relation Client»)

Surabondance d information

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman

AXIAD Conseil pour décider en toute intelligence

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Les clients puissance cube

Groupe Eyrolles, 2004 ISBN :

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

«Outils de gestion pour TPE CRM / ERP» Club

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Guide d accompagnement. Document réalisé par Softcomputing et Microsoft France.

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Business & High Technology

Journées d études IARD

Les milieux Sinus au Credit Suisse

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

Chef d entreprise, Responsable Commercial, Responsable Marketing, ou acteurs de la Gestion Relation Client en entreprise.

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

DESCRIPTIF DE MODULE S5 GSI

Le MDM (Master Data Management) Pierre angulaire d'une bonne stratégie de management de l'information

Atelier Symposium MicroStrategy

Big Data et Marketing : les competences attendues

L olivier Assurances Licence 3 Econométrie Lyon II

Optimisation des ressources des produits automobile première

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Big Data et Prévisions. Philippe Picard, le 24 juin Page 1

LE MARKETING RELATIONNEL ET LA GESTION DE LA RELATION CLIENT

Business Intelligence et Data Visualisation

L analyse de la gestion de la clientèle

La Business Intelligence & le monde des assurances

SYNERGIE Associés Confidentiel Reproduction interdite sans autorisation préalable Page 1 de 44

Recommandation prédictive

LE PETIT RELATION CLIENT. Les pratiques clés en 15 fiches. Nathalie Houver

Transcription:

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1

Présentation de l auteur En charge de la statistique et du data mining dans un grand groupe bancaire Enseigne le data mining en Master 2 à l Université Paris- Dauphine, à l Université Rennes 1 et à l ISUP (Université Paris 6) Docteur en Mathématiques Auteur de : Data Mining et Scoring (épuisé), Éditions Dunod, 2002 Data Mining et Statistique Décisionnelle, Éditions Technip, 2005, 2 de édition 2007, préface de Gilbert Saporta Ouvrage consacré à l application en entreprise des techniques et méthodologies de data mining et statistique 2

Présentation du cours Cette présentation est issue de cours donnés dans des DESS et Master 2 d Économétrie et d Ingénierie Statistique entre 1999 et 2009. Ces enseignements ont ensuite trouvé un développement dans des ouvrages publiés chez Dunod puis chez Technip. Ces cours sont donc consacrés aux techniques de data mining, de statistique décisionnelle et de scoring, et à leur mise en oeuvre en entreprise. Ils contiennent une introduction, une partie technique (préparation des données, analyse factorielle, régression linéaire, régression logistique, GLM, analyse discriminante, arbres de décision, réseaux de neurones, algorithmes génétiques, SVM, k-means et centres mobiles, CAH ) et une partie méthodologique (conduite de projet, facteurs de succès, RSI, aspects informatiques, CNIL ). 3

Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les deux grandes familles de techniques Le déroulement d un projet de data mining Coûts et gains du data mining Facteurs de succès - Erreurs - Consulting Informatique décisionnelle et de gestion La préparation des données Techniques descriptives de data mining Techniques prédictives de data mining Logiciels de statistique et de data mining CNIL et limites légales du data mining Le text mining Le web mining 4

Qu est-ce que le data mining? 5

Place du data mining 6

La fouille de données Le data mining est l ensemble des : algorithmes et méthodes destinés à l exploration et l analyse de (souvent) grandes bases de données informatiques en vue de détecter dans ces données des règles, des associations, des tendances inconnues (non fixées a priori), des structures particulières restituant de façon concise l essentiel de l information utile pour l aide à la décision 7

Data mining statistiques descriptives Les techniques de data mining sont bien sûr plus complexes que de simples statistiques descriptives : outils d intelligence artificielle (réseaux de neurones) algorithmes sophistiqués (algorithmes génétiques, analyse relationnelle) théorie de l information (arbres de décision) beaucoup d analyse des données «traditionnelle» (analyse factorielle, classification, analyse discriminante, etc.) 8

Data mining et statistique 1/2 Hier : études de laboratoire expérimentations cliniques actuariat analyses de risque - scoring Volumes de données limités Analyse du réel pour mieux le comprendre : les 1 ères observations permettent de formuler des hypothèses théoriques que l on confirme ou infirme à l aide de tests statistiques 9

Data mining et statistique 2/2 Aujourd hui : de l petit (génomique) à l grand (astrophysique) du plus quotidien (reconnaissance de l écriture manuscrite sur les enveloppes) au moins quotidien (aide au pilotage aéronautique) du plus ouvert (e-commerce) au plus sécuritaire (détection de la fraude dans la téléphonie mobile ou les cartes bancaires) du plus industriel (contrôle qualité ) au plus théorique (sciences humaines, biologie ) du plus alimentaire (agronomie et agroalimentaire) au plus divertissant (prévisions d audience TV) Volumes de données importants Systèmes d aide à la décision plus ou moins automatiques 10

Des statistiques... Statistique : quelques centaines d individus quelques variables recueillies avec un protocole spécial (échantillonnage, plan d expérience...) fortes hypothèses sur les lois statistiques suivies les modèles sont issus de la théorie et confrontés aux données méthodes probabilistes et statistiques utilisation en laboratoire Analyse des données : quelques dizaines de milliers d individus quelques dizaines de variables construction des tableaux «Individus x Variables» importance du calcul et de la représentation visuelle 11

... au Data mining Data mining : plusieurs millions d individus plusieurs centaines de variables nombreuses variables non numériques, parfois textuelles données recueillies avant l étude, et souvent à d autres fins données imparfaites, avec des erreurs de saisie, de codification, des valeurs manquantes, aberrantes population constamment évolutive (difficulté d échantillonner) nécessité de calculs rapides, parfois en temps réel on ne recherche pas toujours l optimum mathématique, mais le modèle le plus facile à appréhender par des utilisateurs nonstatisticiens faibles hypothèses sur les lois statistiques suivies les modèles sont issus des données et on en tire des éléments théoriques méthodes statistiques, d intelligence artificielle et de théorie de l apprentissage («machine learning») utilisation en entreprise 12

Préhistoire 1875 : régression linéaire de Francis Galton 1896 : formule du coefficient de corrélation de Karl Pearson 1900 : distribution du χ² de Karl Pearson 1936 : analyse discriminante de Fisher et Mahalanobis 1941 : analyse factorielle des correspondances de Guttman 1943 : réseaux de neurones de Mc Culloch et Pitts 1944 : régression logistique de Joseph Berkson 1958 : perceptron de Rosenblatt 1962 : analyse des correspondances de J.-P. Benzécri 1964 : arbre de décision AID de J.P.Sonquist et J.-A.Morgan 1965 : méthode des centres mobiles de E. W. Forgy 1967 : méthode des k-means de Mac Queen 1972 : modèle linéaire généralisé de Nelder et Wedderburn 13

Histoire 1975 : algorithmes génétiques de Holland 1975 : méthode de classement DISQUAL de Gilbert Saporta 1980 : arbre de décision CHAID de KASS 1983 : régression PLS de Herman et Svante Wold 1984 : arbre CART de Breiman, Friedman, Olshen, Stone 1986 : perceptron multicouches de Rumelhart et McClelland 1989 : réseaux de T. Kohonen (cartes auto-adaptatives) vers 1990 : apparition du concept de data mining 1993 : arbre C4.5 de J. Ross Quinlan 1996 : bagging (Breiman) et boosting (Freund-Shapire) 1998 : support vector machines de Vladimir Vapnik 2000 : régression logistique PLS de Michel Tenenhaus 2001 : forêts aléatoires de L. Breiman 14

Le data mining aujourd hui Ces techniques ne sont pas toutes récentes Ce qui est nouveau, ce sont aussi : la recherche en IA et en théorie de l apprentissage les capacités de stockage et de calcul offertes par le matériel et les techniques informatiques modernes la constitution de giga-bases de données pour les besoins de gestion des entreprises les logiciels universels, puissants et conviviaux l intégration du data mining dans les processus de production qui permettent de traiter de grands volumes de données et font sortir le data mining des laboratoires de recherche pour entrer dans les entreprises 15

Le data mining aujourd hui Le data mining se répand particulièrement dans les secteurs qui, par leur activité, détiennent de nombreuses informations économiques et comportementales individualisées : VPC, grande distribution, téléphonie, banque... Selon le MIT (Massachussets Institute of Technology) : le data mining est l une des 10 technologies émergentes qui «changeront le monde» au XXI e siècle. 16

Data mining et CRM 17

Rappel : Gestion de la relation client La richesse des entreprises : leurs clients Objectifs des entreprises : augmenter la rentabilité et la fidélité de leurs clients en maîtrisant les risques en utilisant les bons canaux au bon moment pour vendre le bon produit Un des moyens d y parvenir : la Gestion de la Relation Client (GRC) synonyme : Customer Relationship Management (CRM) 2 éléments : CRM analytique, CRM opérationnel Une matière 1 ère précieuse : les données sur les clients 18

CRM analytique et opérationnel gestion des canaux collecte des informations clients gestion des campagnes analyse des informations clients CRM OPÉRATIONNEL CRM ANALYTIQUE 19

Le CRM opérationnel Objectif mise en œuvre optimale des stratégies identifiées grâce au CRM analytique Moyens gestion des différents canaux forces commerciales, centres d appels téléphoniques, serveurs vocaux, Minitel, centres d appel web, bornes interactives, téléphonie mobile, TV interactive gestion des campagnes marketing Composants outils interfacés avec les applications de back-office, les progiciels de gestion intégrée (ERP), les outils de workflow, de gestion des agendas et des alertes commerciales 20

Le CRM analytique Objectif fournir une vision complète et unifiée du client dans l entreprise et mieux comprendre son profil et ses besoins Moyens extraction, stockage, analyse et restitution des informations pertinentes Composants data warehouse data mart analyse multidimensionnelle (OLAP) data mining outils de reporting 21

Ce que l on veut savoir On ne veut plus seulement savoir : «Combien de clients ont acheté tel produit pendant telle période?» Mais : «Quel est leur profil?» «Quels autres produits les intéresseront?» «Quand seront-ils intéressés?» 22

Data mining statistiques descriptives Les profils de clientèle à découvrir sont en général des profils complexes : pas seulement des oppositions «jeunes/seniors», «citadins/ruraux» que l on pourrait deviner en tâtonnant par des statistiques descriptives, mais des combinaisons plus complexes qui ne pourraient pas être découvertes par hasard. >Le data mining fait passer d analyses confirmatoires à des analyses exploratoires. 23

Utilité du data mining Mieux connaître le client pour mieux le servir pour augmenter sa satisfaction pour augmenter sa fidélité (+ coûteux d acquérir un client que le conserver) La connaissance du client est encore plus utile dans le secteur tertiaire : les produits se ressemblent entre établissements le prix n est pas toujours déterminant ce sont surtout le service et la relation avec le client qui font la différence 24

Applications du data mining au CRM Études d appétence dans les sociétés commerciales pour concentrer les mailings et le phoning sur les clients les plus susceptibles de répondre favorablement Prédiction de l attrition dans la téléphonie mobile attrition = départ d un client pour un concurrent Analyse du ticket de caisse dans les grandes surfaces pour déterminer les produits souvent achetés simultanément, et agencer les rayons et organiser les promotions en conséquence 25

Marketing one-to-one Marketing traditionnel Marketing 1:1 Client anonyme Produit standard Production en série Publicité à large diffusion Communication unilatérale Client individualisé Produit et service personnalisés Production sur mesure Message individuel Communication interactive Réalisation d une vente, fort taux de souscription Fidélisation du client, faible taux d attrition Part de marché Large cible Segmentation métier Part de client Niche rentable Segmentation statistique Canaux de distribution traditionnels, déconnectés Nouveaux canaux (plates-formes téléphoniques, Internet, mobiles), interconnectés Marketing orienté «produit» Marketing orienté «client» 26

A quoi sert le data mining? 27

Sondage sur www.kdnuggets.com Sondage effectué en juin 2002 28

Sondage sur www.kdnuggets.com Industries/fields where you successfully applied data mining in the past 3 years [149 replies, 421 votes total] Banking (51) 12% Biotech/Genomics (11) 3% Credit Scoring (35) 8% CRM (52) 12% Direct Marketing/ Fundraising (34) 8% e-commerce (11) 3% Entertainment/ Music (4) 1% Fraud Detection (31) 7% Gambling (2) 0% Government applications (12) 3% Insurance (24) 6% Investment / Stocks (5) 1% Junk email / Anti-spam (5) 1% Health care/ HR (15) 4% Manufacturing (19) 5% Medical/ Pharma (12) 3% Retail (25) 6% Science (17) 4% Security / Anti-terrorism (5) 1% Telecom (23) 5% Travel/Hospitality (8) 2% Web (9) 2% Sondage effectué en juillet 2005 29 Other (11) 3%

Sondage sur www.kdnuggets.com In what industries/sectors were your data mining clients in 2007-2008? [100 voters] Banking (36) 36.0% Financial (21) 21.0% Telecom and wireless (20) 20.0% Retail (18) 18.0% Insurance (16) 16.0% e-commerce (15) 15.0% Utilities (gas (13) 13.0% Government (10) 10.0% Sondage effectué en mars 2008 Pharma (9) 9.0% Manufacturing (9) 9.0% Health care/ HR (9) 9.0% Biotech/Genomics (9) 9.0% Travel/Hospitality (8) 8.0% No clients (8) 8.0% Investment / Stocks (8) 8.0% Software (6) 6.0% Other (6) 6.0% Non-profit org (6) 6.0% Security (5) 5.0% Entertainment/ Music (5) 5.0% Military (4) 4.0% Mortgage/Lending (3) 3.0% Law (2) 2.0% 30

Sondage sur www.kdnuggets.com Industries / Fields where you applied Data Mining in 2008: [107 voters] CRM/ consumer analytics (41) 38.3% Banking (34) 31.8% Fraud Detection (21) 19.6% Finance (18) 16.8% Direct Marketing/ Fundraising (15) 14.0% Other (14) 13.1% Investment / Stocks (14) 13.1% Credit Scoring (14) 13.1% Telecom / Cable (13) 12.1% Retail (13) 12.1% Advertising (13) 12.1% Biotech/Genomics (12) 11.2% Science (11) 10.3% Insurance (11) 10.3% Health care/ HR (10) 9.3% Manufacturing (9) 8.4% e-commerce (8) 7.5% Web usage mining (8) 7.5% Social Policy/Survey analysis (8) 7.5% Medical/ Pharma (8) 7.5% Security / Anti-terrorism (6) 5.6% Search / Web content mining (6) 5.6% Government/Military (4) 3.7% Travel / Hospitality (3) 2.8% Junk email / Anti-spam (3) 2.8% Entertainment/ Music (3) 2.8% Social Networks (2) 1.9% Sondage effectué en décembre 2008 27/01/2009 Stéphane None (2) Tufféry - Data Mining - http://data.mining.free.fr 1.9% 31

Le data mining dans la banque Naissance du score de risque en 1941 (David Durand) Multiples techniques appliquées à la banque de détail et la banque des entreprises Surtout la banque de particuliers : montants unitaires modérés grand nombre de dossiers dossiers relativement standards Essor dû à : développement des nouvelles technologies nouvelles attentes de qualité de service des clients concurrence des nouveaux entrants (assureurs, grande distribution) et des sociétés de crédit pression mondiale pour une plus grande rentabilité surtout : nouveau ratio de solvabilité Bâle 2 32

Exemples bancaires Utilisation du score de risque pour proposer le montant de crédit le plus adapté à chaque client Aide à la décision de paiement Meilleur taux de réponse des campagnes marketing Découverte de segments de clientèle Adaptation de la communication marketing à chaque segment de clientèle Choix du meilleur canal de distribution Identification des clients susceptibles de partir à la concurrence Calcul de la rentabilité et de la life time value 33

Le data mining dans l assurance IARD Des produits obligatoires (automobile, habitation) : soit prendre un client à un concurrent soit faire monter en gamme un client que l on détient déjà D où les sujets dominants : attrition ventes croisées (cross-selling) montées en gamme (up-selling) Besoin de décisionnel dû à : concurrence des nouveaux entrants (bancassurance) bases clients des assureurs traditionnels mal organisées : compartimentées par agent général ou structurées par contrat et non par client 34

Le data mining dans la téléphonie Deux événements : ouverture du monopole de France Télécom arrivée à saturation du marché de la téléphonie mobile D où les sujets dominants dans la téléphonie : score d attrition (churn = changement d opérateur) text mining (pour analyser les lettres de réclamation) optimisation des campagnes marketing score d impayés Problème du churn : coût d acquisition moyen en téléphonie mobile : 150 euros plus d un million d utilisateurs changent chaque d année d opérateur 35

Le data mining dans le commerce VPC utilise depuis longtemps des scores d appétence pour optimiser ses ciblages et en réduire les coûts La Redoute envoie à sa clientèle 250 millions de documents par an e-commerce personnalisation des pages d un site web en fonction du profil de chaque internaute optimisation de la navigation sur un site web Distribution détermination des profils de consommateurs, du «ticket de caisse», de l effet des soldes ou de la publicité détermination des meilleures implantations (géomarketing) 36

Exemples médicaux Déterminer des segments de patients susceptibles d être soumis à des protocoles thérapeutiques déterminés, chaque segment regroupant tous les patients réagissant identiquement Mettre en évidence des facteurs de risque ou de rémission dans certaines maladies. Choisir le traitement le + approprié Pronostic des infarctus et des cancers (décès, survie) Prédire le temps de rétablissement après une opération, en fonction des données concernant le patient (âge, poids, taille, fumeur, métier, antécédents médicaux, etc.) et le praticien (nb d opérations pratiquées, nb d années d expérience, etc.) Décryptage du génome Tests de médicaments, de cosmétiques Prédire les effets sur la peau humaine de nouveaux cosmétiques, en limitant le nombre de tests sur les animaux 37

Exemples divers Contrôle qualité recherche des facteurs expliquant les défauts de la production Prévisions de trafic routier (Bison futé), recherche des causes des accidents Prédiction des parts d audience pour une nouvelle émission de télévision (BBC) en fonction des caractéristiques de l émission (genre, horaire, durée, présentateur ), des programmes précédant et suivant cette émission sur la même chaîne, des programmes diffusés simultanément sur les chaînes concurrentes, des conditions météorologiques, de l époque de l année et des événements se déroulant simultanément Le classement en «étoile» ou «galaxie» d un nouveau corps céleste découvert au télescope (système SKICAT) 38

Les deux grandes familles de techniques 39

Les 2 types de techniques de DM Les techniques descriptives : visent à mettre en évidence des informations présentes mais cachées par le volume des données (c est le cas des segmentations de clientèle et des recherches d associations de produits sur les tickets de caisse) réduisent, résument, synthétisent les données il n y a pas de variable «cible» à prédire. Les techniques prédictives : visent à extrapoler de nouvelles informations à partir des informations présentes (c est le cas du scoring) expliquent les données il y a une variable «cible» à prédire. 40

Les 2 types de techniques de DM Les techniques descriptives : analyse factorielle classification automatique (clustering) recherche d associations (analyse du ticket de caisse) Les techniques prédictives : classement/discrimination (variable «cible» qualitative) analyse discriminante / régression logistique arbres de décision réseaux de neurones prédiction (variable «cible» quantitative) régression linéaire (simple et multiple) ANOVA, MANOVA, ANCOVA, MANCOVA (GLM) arbres de décision réseaux de neurones 41

Méthodes descriptives type famille sous-famille algorithme méthodes descriptives modèles géométriques En grisé : méthodes «classiques» modèles combinatoires modèles à base de règles logiques analyse factorielle (projection sur un espace de dimension inférieure) analyse en composantes principales ACP (var. continues) analyse factorielle des correspondances AFC (var. qualitativ.) analyse des correspondances multiples ACM (var. qualitatives) méthodes de partitionnement (centres mobiles, k-means, nuées dynamiques) analyse typologique (regroupement en classes homogènes) méthodes hiérarchiques analyse typologique + réduction dimens. détection de liens classification neuronale (cartes de Kohonen) classification relationnelle (var. qualitatives) détection d associations 42

Méthodes prédictives type famille sous-famille algorithme méthodes modèles à base arbres de arbres de décision (variable à expliquer prédictives de règles logiques décision continue ou qualitative) réseaux de neurones modèles à base de fonctions mathématiques En grisé : méthodes «classiques» prédiction sans modèle modèles paramétriques ou semiparamétriques réseaux à apprentissage supervisé : perceptron multicouches, réseau à fonction radiale de base régression linéaire, ANOVA, MANOVA, ANCOVA, MANCOVA, modèle linéaire général GLM, régression PLS (variable à expliquer continue) analyse discriminante linéaire, régression logistique, régression logistique PLS (variable à expliquer qualitative) modèle log-linéaire, régression de Poisson (variable à expliquer discrète = comptage) modèle linéaire généralisé, modèle additif généralisé (variable à expliquer continue, discrète ou qualitative) k-plus proches voisins (k-nn) 43