L analyse des correspondances et ses applications en recherche marketing. MONSUG mai 2015



Documents pareils
La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

La classification automatique de données quantitatives

Scénario: Données bancaires et segmentation de clientèle

ACP Voitures 1- Méthode

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Enjeux mathématiques et Statistiques du Big Data

IBM SPSS Direct Marketing

Logiciel XLSTAT version rue Damrémont PARIS

Introduction au datamining

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Agenda de la présentation

données en connaissance et en actions?

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Stratégies marketing. Augmenter sa créativité en période de changement. Journée d information sur les cultures ornementales en serre Novembre 2009

La place de SAS dans l'informatique décisionnelle

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

SONDAGE DE LA PRESSE ET DES MÉDIAS EN LIGNE 2014

Chapitre 3. Les distributions à deux variables

Infolettre #18 : Les graphiques avec Excel 2010

Classification non supervisée

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

SUGARCRM MODULE RAPPORTS

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

IBM SPSS Direct Marketing 21

Sommaire. Textes officiels Horaires Enseignement de détermination Présentation Programme... 10

Leçon N 4 : Statistiques à deux variables

IFT 6261: L Analytique Web. Fares Aldik, Consultant principal, Analytique Web et optimisation Bell Marchés Affaires services d expérience client

Agrégation des portefeuilles de contrats d assurance vie

ballester~consulting Etude MD Expo 2007 L'utilisation du marketing direct multicanal État des lieux et tendances

Inxmail Professional 4.2

Logiciel Libre Cours 3 Fondements: Génie Logiciel

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Le meilleur programme de financement par cartes-cadeaux au Canada

Démystifier le scoring

Prendre la mesure Étude comparative sur le commerce de détail

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

Sommaire. Introduction à la 11 e édition... Chapitre 1 Le rôle du marketing est de créer de la valeur Première partie Étudier les marchés...

Analyse dialectométrique des parlers berbères de Kabylie

Direction des bibliothèques. Sondage Ithaka S+R. Questionnaire français Université de Montréal

L'analyse des données à l usage des non mathématiciens

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Définition d un Template

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

ecrm: Attrition clients

Formulaire d'évaluation du séjour hors Québec

PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier.

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Business Intelligence simple et efficace

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

LES DIFFERENTS TYPES DE MESURE

Bien comprendre et bien choisir votre complémentaire santé

Question 1 (Relève) Question 2 (Plan d expansion)

performance commerciale

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

La diffusion des résultats statistiques du recensement de la population

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Introduction à la B.I. Avec SQL Server 2008

Statistiques Descriptives à une dimension

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Les conditions de fiabilité des études online

Cycle de Découverte n 1 VISUALISER Créer la prochaine application innovante

Étude auprès de la génération X. Le paiement virtuel et la gestion des finances personnelles

Introduction au Data-Mining

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Fiche pratique n 12. Evaluation de la formation. Finalité. Mode opératoire. De quoi s agit-il? Quelle évaluation pour quels besoins?

EUDONET EN 2014 QUI SOMMES NOUS? 800 RÉFÉRENCES CLIENTS ÉDITEUR ET INTÉGRATEUR DE EUDONET + 14 ANS D EXPÉRIENCE

Comment réussir son projet de Master Data Management?

La pratique du coaching en France. Baromètre 2010


Découvrez le portefeuille de produits IBM SPSS

CREER UNE ENTREPRISE A JERSEY

LE PETIT RELATION CLIENT. Les pratiques clés en 15 fiches. Nathalie Houver

Portrait statistique de la population de représentant en épargne collective au Québec

Séance 11 : Typologies

Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

Le CRM en BFI : une approche du pilotage stratégique

Répondants et non-répondants dans les enquêtes. Analyse des séquences de contact

Etude Harris Interactive pour la Chambre Nationale des Services d Ambulances (CNSA)

NORME INTERNATIONALE D AUDIT 330 REPONSES DE L AUDITEUR AUX RISQUES EVALUES

ETUDES MARKETING ET OPINION CROSS-

1. Les types d enquêtes

Item 169 : Évaluation thérapeutique et niveau de preuve

>> Comment conquérir de nouveaux clients grâce à Internet?

«Les outils Web au service du B2B» INFOPRESSE Octobre 2007

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Interview de Hugo, coordinateur de l espace de coworking de La Cordée Perrache (Lyon)

N o d organisme. Rendement actuel Cible Justification de la cible

Statistique Descriptive Multidimensionnelle. (pour les nuls)

LoGiCieLs open Line TM

Caroline Hurault-Delarue 1, Cécile Chouquet 2, Nicolas Savy 2, Isabelle Lacroix 1, Christine Damase- Michel 1

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Gestion des Donnés Métier de Référence

Cisco Partner Demand Center. Comment stimuler les opportunités et dynamiser le business de votre entreprise?

Transcription:

L analyse des correspondances et ses applications en recherche marketing MONSUG mai 2015

Contenu Mise en contexte et exemple d application L analyse des correspondances multiples (ACM) L ACM et la segmentation L optimisation des étapes SAS pour l interprétation des résultats 2

Mise en contexte Les entreprises collectent une grande quantité d information sur leurs clients. Les sources de données sont nombreuses : Données transactionnelles : produits détenus, montant des achats, Données clients : âge, adresse, Données de sondage : habitudes, satisfactions, En recherche marketing, on tentera d identifier les relations entre ces informations pour mieux comprendre le client et orienter les décisions d affaires. 3

Mise en situation Une fondation cumule de l information sur ses donateurs. Exemple : Les donateurs font des dons mensuels et, à l occasion, peuvent faire un don spontané. La base de données contient l information pour plusieurs milliers de donateurs. 4

Mise en situation La fondation veut comprendre les caractéristiques de ses donateurs et répondre à plusieurs questions. Exemple : Est-ce que mes donateurs de longue date ont fait davantage de dons spontanés dans la dernière année? Oui Cette réponse peut susciter une autre question : Est-ce que le montant moyen par don spontané est plus ou moins élevé pour ces donateurs? 5

Analyse des correspondances Pour décrire et comprendre des individus, on a habituellement recourt à une série de tableaux de fréquences et de tableaux croisés. Dans le cas de notre fondation, un tableau croisé permet certains constats mais suscite aussi d autres questions. Bien que les statistiques descriptives révèlent de l information intéressante, des analyses statistiques multivariées comme l ACM pourraient répondre aux questions suivantes : Y a-t-il des individus qui ont les mêmes modalités sur un ensemble de caractéristiques? Quelles sont les modalités associées aux mêmes individus? 6

Analyse des correspondances L analyse des correspondances (ACM) permet d analyser la relation entre plusieurs variables catégorielles. Les avantages : Pas de postulats à respecter quant aux distributions. Ne présuppose pas la relation linéaire entre les paires de variables catégorielles. Les valeurs extrêmes sont moins problématiques. Permet d inclure les catégories de non-réponse. Permet d analyser des tableaux de réponses multiples. 7

Mise en situation La fondation veut analyser 8 variables catégorielles. Variables ou caractéristiques Modalités L ACM s avère une excellente méthode pour identifier les donateurs ayant les mêmes modalités. 8

Analyse des correspondances L ACM se fait à partir de la procédure PROC CORRESP ( 3 Variables) Tableau disjonctif (9 variables binaires) Cette procédure nécessite d avoir une table binaire. L option «BINARY» doit être utiliser pour permettre à SAS de transformer le tableau en table binaire. obs Les lignes de la table sont les individus (donateurs); les colonnes sont les modalités des variables catégorielles. 9

Analyse des correspondances Le principal intérêt de l ACM est de retenir un nombre limité de dimensions pour expliquer un maximum d information sur nos données. n i j p 0 0 1 0 1 0 0 1 0 L ACM est une méthode qui permet de décrire graphiquement le croisement entre l ensemble de nos variables. nuage des individus (points-lignes) tableau disjonctif complet analyse des correspondances nuage des modalités (points-colonnes) * * ² ² * 10

Analyse des correspondances La procédure PROC CORRESP produit : Des tableaux de décomposition de l inertie qui permettront d établir le nombre de dimensions à retenir. Une table avec les coordonnées des individus et des modalités sur les axes. Ces coordonnées permettront de faire les graphiques du nuage des individus et du nuage des modalités. 11

Analyse des correspondances Combien de dimensions retenir? Regarder le pourcentage d inertie expliquée par les axes Si les axes retenus sont interprétables d une façon raisonnable, c est une bonne indication qu ils sont justifiés. Dans notre exemple, 4 axes sont retenus 12

Analyse des correspondances Que signifient les dimensions retenues? Chaque dimension permet de regrouper des modalités partager par les mêmes individus et de mettre en opposition des modalités associées à différents individus. Le graphique à bulles permet d illustrer les modalités qui contribuent davantage à un axe. 13

-Récence: jamais donné de dons spontanés -Montant: 0$/moy - Nouveaux donateurs proviennent du portes à portes Interprétation des dimensions -Récence: ont donné depuis <2ans -Fréquence: 2+dons -Anciens donateurs 16ans+ 14

Graphique des modalités sur l axe1 et l axe2 Don récemment moins de 2 ans Jamais fait un don spontané Ont fait un don spontané Qui sont ces donateurs? Don il y a plus de 2 ans Qui sont ces donateurs? 15

Analyse des correspondances À 2 dimensions, on peut visualiser les donateurs associés aux mêmes modalités. La présentation de l axe 3 et l axe 4 permettrait d illustrer d autres modalités fortement associées ou fortement éloignées. La visualisation de nos milliers d individus sur nos 4 dimensions devient complexe à analyser. 16

Complémentarité entre l ACM et les techniques de «clustering» Lorsque le nombre d individus est grand, l ACM devient très difficile à interpréter et la visualisation des graphiques du nuage des individus est presque impossible. L analyse de type «clustering» permet de mieux comprendre la structure des données et offre une utilisation plus pratique des résultats (segments). L ACM est utilisée comme étape préliminaire à l analyse de «cluster». Monsug 2015 Analyse des correspondaces 17

Techniques de clustering On complète l ACM par une analyse de type «clustering» réalisée sur l ensemble des facteurs (axes) ou bien sur les plus significatifs. Différentes techniques de «clustering» peuvent s appliquer: Méthode hiérarchique de Ward PROC CLUSTER Méthodes itératives (K-Means) PROC FASTCLUS Méthodes mixtes (combine hiérarchique et K-Means) Plus concrètement, on applique ces méthodes sur les coordonnées des points-lignes en utilisant comme variables les premiers axes de l analyse. 18

Techniques de clustering Dans notre exemple, nous avions retenu 4 dimensions. Utilisons maintenant la méthode mixte pour regrouper nos donateurs dans des segments. Combien de segments retrouvons-nous? Quelles sont les caractéristiques de mes segments? Combien y a-t-il de donateurs par segment? 19

Techniques de clustering Étape#1 : Méthode de classification hiérarchique de Ward. L objectif est de déterminer le nombre optimal de segments. Le résultat produit consiste de statistiques aidant à déterminer le bon nombre de classes. Combien de classes retenir? Regardons le dendogramme et le graphique du coude pour déterminer le nombre de segments. 20

Techniques de clustering Graphique du coude 4 segments 21

Techniques de clustering Dendogramme 4 segments 22

Techniques de clustering Étape #2 : Méthode itérative du k-means L objectif est de séparer les individus dans 4 classes de façon optimale. La procédure FASTCLUS est conçu pour des jeux de données contenant au moins 100 observations.

Caractérisation des segments Une fois les observations regroupées, on regarde la distribution et on fait un profilage sur toutes les variables. Cela permet de savoir en quoi les observations se ressemblent à l intérieur de chaque segment. Par exemple, le segment 1 qui représente 31% des individus, est composé des donateurs qui ont pas fait de dons spontanés dans la dernière année. Segment 1 : Les donateurs spontanés (31%) 24

Caractérisation des segments Distribution des donateurs 25

Optimisation de la méthode en SAS Tous les fichiers produits sont exportés en fichier PDF La paramétrisation des variables de segmentation, les dimensions retenues, les seuils, etc. nous permet de produire plusieurs itérations pour tester les possibilités. 26

Conclusion L analyse des correspondances multiples permet de décrire la relation entre plusieurs variables catégorielles définies sur un ensemble d individus. La combinaison ACM et «clustering» a des applications très intéressantes dans le domaine de la recherche marketing (segmentation, sondage, ). On trouve de plus en plus d applications de l ACM dans des domaines aussi variés que la sociologie, la psychologie, l éducation, la médecine et, bien sûr, la recherche marketing (segmentation). 27

Questions? Merci Julie Meloche, associée (514) 648-8461, ext. 629 julie.meloche@solutionstat.ca Christine Gamelin (514) 648-8461, ext. 633 christine.gamelin@solutionstat.ca Monsug 2015 Analyse des correspondaces 28