Yassine EL BOUCHIKHI - 1 Etudes quantitatives par M. Stephane Magne



Documents pareils
Traitement des données avec Microsoft EXCEL 2010

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

SPHINX Logiciel de dépouillement d enquêtes

La classification automatique de données quantitatives

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

LES DIFFERENTS TYPES DE MESURE

Logiciel XLSTAT version rue Damrémont PARIS

La définition La méthode. Les échelles de mesure L ENQUETE PAR SONDAGE : LA METHODE

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013

Extraction d informations stratégiques par Analyse en Composantes Principales

données en connaissance et en actions?

Relation entre deux variables : estimation de la corrélation linéaire

Cycle de formation certifiante Sphinx

INTRODUCTION AU DATA MINING

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

ACP Voitures 1- Méthode

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

1. Les types d enquêtes

LE TABLEAU DE BORD DE SUIVI DE L ACTIVITE

Logiciel Le Sphinx Plus 2 version 5. Le Sphinx Développement Chavanod

Statistiques Descriptives à une dimension

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Localisation des fonctions

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Annexe commune aux séries ES, L et S : boîtes et quantiles

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Le Sphinx Millenium Modes opératoires Préparer, administrer, Dépouiller les enquêtes

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Guide méthodologique de mise en place d une enquête de satisfaction

Principe d un test statistique

Introduction au datamining

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

IBM SPSS Direct Marketing 21

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Aide-mémoire de statistique appliquée à la biologie

1 Complément sur la projection du nuage des individus

Introduction à l approche bootstrap

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Statistique Descriptive Élémentaire

Chapitre 3. Les distributions à deux variables

Formation PME Etude de marché

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

ENQUETE DE SATISFACTION (Guide méthodologique)

Résultats d Etude. L étude de marché. Résultats d Etude N 1889 : Conciergerie privée. Testez la fiabilité de votre projet.

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage,

Les conditions de fiabilité des études online

L analyse de la gestion de la clientèle

Infolettre #18 : Les graphiques avec Excel 2010


INF6304 Interfaces Intelligentes

LES FRANÇAIS ET LA COMPLEMENTAIRE SANTE

Introduction à la B.I. Avec SQL Server 2008

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

TABLE DES MATIERES. C Exercices complémentaires 42

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Biostatistiques : Petits effectifs

Veille Opérationnelle Chapitre 5 Mesure de l efficacité des moyens de communication

Construire un tableau de bord par Marc Maisonneuve

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.


Cours d Analyse. Fonctions de plusieurs variables

Table des matières. I Mise à niveau 11. Préface

CHAPITRE 2. Les variables

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Information et communication

Introduction au Data-Mining

Why Software Projects Escalate: The Importance of Project Management Constructs

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

Articulation entre mesures sociales du casino et lieux d aide spécialisés lors des mesures de limitation et d exclusion Lisiane SCHÜRMANN

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

1 radian. De même, la longueur d un arc de cercle de rayon R et dont l angle au centre a pour mesure α radians est α R. R AB =R.

IBM SPSS Statistics Base 20

Documents mis à disposition par : Attention :

La place de SAS dans l'informatique décisionnelle

Le profil des acheteurs à distance et en ligne

L'analyse des données à l usage des non mathématiciens

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Scénario: Données bancaires et segmentation de clientèle

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Séries Statistiques Simples

1. Vocabulaire : Introduction au tableau élémentaire

Le risque Idiosyncrasique

ACTIVITE. principal Animation Fournisseur C54 Participer à une animation fournisseur Mise en rayon et analyse de rayon

Arbres binaires de décision

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Coup de Projecteur sur les Réseaux de Neurones

Leçon N 4 : Statistiques à deux variables

Transcription:

Yassine EL BOUCHIKHI - 1

Analyse quantitative Données concérnées : enquetes ou indicateurs économiques Logiciels utilisés : SPSS ou Sphinx Lexica Shéma du cours : 1- Choisir la méthode d analyse de données 2- Savoir utiliser SPSS 3- Intérpréter les listings des résultats SPSS Cours 1 : Le choix d une méthode d analyse de données Rappels sur la démarche d une EDM 2- Analyse documentaire 1- Définir le probléme à résoudre Objectifs de l étude : Approche Quali / Quanti 3- Terrain Quali 4- Terrain Quanti Entretiens libres, et semidirectifs «guide d entretien» Réunions de groupe «Guide d animation» Population échantillon (méthodes aléatoires ou empiriques» Rédaction du questionnaire Pré-test Administration du questionnaire Analyse de contenu VERBATIM Analyse de données 5- Rapport EDM et recommandations Q1 : quels sont les objecttifs de l étude? Q2 : quel est le type de données à analyser? Q3 : quelle méthode choisir? Yassine EL BOUCHIKHI - 2

Projet à faire Pour les études Quantitatives: Rapport à remettre pour le 4 mars 2004, Mesurer la perception d un nouveau service (loisir, ou culture) pour le consommateur. 1. Constituer un groupe de 4 personnes 2. Choisir un nouveau service 3. Recherche documentaire compléte (tendance du marché, produits, services, concurrents ) 3 à 5 pages avec source et année. 4. Elaborer un guide d entretien (Réaliser 3 entretiens individuels par personnes intégralement enregistrés et retranscrits sur Word). 5. Analyse de contenu thématique (Manuelle ou sous sphinx Lexica) 6. Receuillir et analyser les données : - Analyses univariées «Sphinx lexica» - Analyses bivariées «Sphinx Lexica» - Analyses multivariées «SPSS» - Graphiques sous «Microsoft Excel» - 30 Questionnaire par personne 7. Rédiger le rapport et les principales recommandations «5 Pages minimum» Notre sujet : La vente de meubles sur Internet Yassine EL BOUCHIKHI - 3

1- Les objectifs de l étude : 1-1 : Les deux grands types d EDM : Les études descriptives Les études explicatives «Pourquoi» Il s agit de réduire, c est à dire décrire le marché sur 2 dimensions maximum, et Classer. Il s agit d expliquer «La baisse du CA» ou e prédire «évaluer le risque d accorder un crédit» EX : Question 1 : Les jeans CK sont-ils confortables? Dimension 2 1 2 3 4 ITEM : Libéllé BNP CL Réduire Pas du tout d accord Plutot pas Plutot d ac cord Tout à fait d ac cord L échelle Dimension 1 Var V1 V2 V3 V4 Vn 1 2 6 5 4 6 2 1 6 4 8 1 N Tableau de données Brutes Profil de réponse Question = ITEM + Echelle de mesure Nom de la variable : CONFO Les modalités de réponse Ancrage numérique : 1, 2, 3, 4, etc.. Ancrage verbal : Oui, Non, Pas du tout, etc.. élégance CK Roberto Dépouillement : prendre les données du questionnaire pour les mettre dans un tableau de données brutes. Levi s utilitaire Mapping «Cartographie : Dimensions perceptuelles» V Explicative 1 V Explicative 2 V Explicative 3 Variable à expliquer Réduire : ACP «Analyse en composantes principales», AFC «Analyse factorielle des correspondances» Classer : Typologies et classifications (hiérarchiques et non-hiérarchiques) 1-2 : Les objectifs et les méthodes : Expliquer : Régressions simples, multiples, linéaires ou non linéaires, analyse de la variance. Prédire : Analyse discriminante Méthodes Logit, Probit, Etc Yassine EL BOUCHIKHI - 4

2- Quel est le type de données à analyser? : 2-1 : Le nombre de variables présentes dans l étude : Nombre de variables 1 Variable Analyse univariée Tris à plat Etude de la distribution Tendance centrale et dispersion 2 variables Analyse bivariée Tris croisés Mesures d association entre 2 Var Tests statistiques pour vérifier si l association n est pas due au hasard. Ex illustratifs : -3 Type d analyse 47.5 +3 = 47.5 Moyenne // Dispersion Ecrat type = + 3 ou 3 (Comment ça varie autour de la moyenne) Tendance centrale = âge moyen Ex : âge et revenu Coefficent de corrélation r Fort Fort -1-0.5 0.5 +1 R =0 Si r (age/revenu) évoluent dans le même sens avec r 0.5 On dit alors que les deux variables sont fortement liées Alors on obtient soit : Revenu Revenu Revenu 1 Age 2 Age 3 Age 1 : Liées évoluent dans le même sens 2 : Liées évoluent dans un sens différent 3 : r = 0 il n existe pas de lien (pas de corrélation) Tableau de contingence : l intersection d une ligne et d une colonne contient un nombre de personnes, et la somme des lignes et des colonnes a un sens, on applique la méthode AFC. + de 2 variables Analyse multivariée : traiter simultanément un ensemble de variables Echelle au choix forcé : Elle vous oblige à faire un choix on ne peut être neutre (+ ou -) 2-2 : La nature des variables à analyser : Nature de la Var Définition Exemple Nominale «catégorielle» Elle sert d étiquette, aucune hiérarchie n existe entre les modalités. Situation de famille Ordinale Elle peut être dichotomique «Oui Non» /// mutli-chotomique «QCM» Lorsqu il existe un ordre entre les modalités mais les intervalles ne sont pas égaux. Oui NON NSP Mars Twix Lion Classez ces critéres par ordre d importance : 1 le plus important jusqu à 3 le moins important Yassine EL BOUCHIKHI - 5

Echelle Echelle de likert (Aptitude) : 1 2 3 4 5 6 Pas du tout d accord Pas D accord Sans opinion Plutot d accord Tout à fait d accord Sémantiques différentielles (images de marque) : 1 2 3 4 5 6 Ecoeurante Bonne Echelle d intervalle «Intervalles égaux avec origine arbitraire» Pseudo-Intervalle : 1 0 7-3 2 1 6-2 3 2 5-1 4 3 4 0 5 4 3 1 6 5 2 1 Echelle de STAPEL : +2 +1 Solidité de la marque A -1-2 Icones ou «Smiling Faces» : Bon pour les enfants et les personnes ayant du mal à s exprimer Les echelles à support sémantique : 1 2 3 4 5 6 Excellent Très bonne Bonne Moyenne Faible Mauvaise 7 Très Mauvaise Ex : Comment évaluez-vous la solidité de la marque A? (Voir au-dessus) Les echelles d intention d achat : Ex : Envisagez-vous d acheter la marque Mars lors de vos prochains Achats? (Voir en dessous) Je n achéterai certainement pas Mars 1 2 3 4 5 6 7 J achéterai certainement Mars Les probabilités subjectives : Ex : Combien y a t il de chances que vous achetiez la marque Mars lors de vos prochains Achats? «De 0 à 100 % de chances» Echelle a Ratio : Intervalles égaux et présence d un zéro naturel à l origine, Lorsque le 0 a un sens. Ex : Température C, Vitesse en KM/H, Poids, Taille, Volume, etc.. Les sommes constantes Ex : Vous avez 10 points à répartir entre les marques Mars et Twix en fonction de vos préférences, Combien donneriez vous à : Mars.. Twix Yassine EL BOUCHIKHI - 6

2-3 : Niveau de mesure des variables : Qualitatives // Non - métriques Echelle nominale «catégorielle» EX : N INSEE, CSP, Type de Magasin, Statut matrimonial, QCM, Oui-Non, etc Stat : Tendance centrale, Mode, Tendance de dispersion, Fréquence. Echelle ordinale EX : Nombre d étoiles d un hotel, Classement préférentiel entre marques, etc Stat : Médianes, Fractiles. Quantitatives /// Métriques Echelle d intervalle EX : Température en C, Echelle de Likert, etc Stat : Moyenne, Ecrat-type Echelle de Ratio Rapport Proportion EX : Age, Revenu, CA, Part de marché, probabilités subjectives, etc Stat : Moyenne, Ecrat-type Pour ne jamais se tromper sur les modalités Départ Sont-elles ordonnées? NON Nominales Intervalles égaux entre catégories? NON Ordinales OUI OUI Y a t il un zéro naturel? NON Intervalle OUI Ratio ou proportion Ex : Analyse sur revenu Q1 : quel est votre revenu? Possibilité 1 : 4500 euros On peut calculer la moyenne «Salaire moyen» Possibilité 2 : Votre tranche de revenus 0 1500 euros 1500-3000 euros on peut calculer le mode «salaire moyen» Yassine EL BOUCHIKHI - 7

3- Quels sont les méthodes à utiliser? : 3-1 : Les méthodes factorielles : Méthodes factorielles Carte factorielle, Mapping Méét thhooddeess ddeessccr ri iippt ti iivveess Var Quali Quali Var Quanti «Métriques» AFC : Analyse factorielle ACP : Analyse en des correspondances composantes principales CSP CA Mode hébérgement Budget Pub TEST de KHI-2 Plan ACP Décrire et réduire : COEF Corrélation a. A quelles données appliquer l analyse? b. Les données sont-elles factoriasables? c. Combien de facteurs retenir? d. Comment intérpréter les résultats? e. Conclusion : les risques de l ACP Déf. Il s agit de décrire et de réduire, Ex : Livre de 500 pages à résumer en 2 pages. Pour simplifier Pour le logiciel 1- Retenir les idées importantes 1- Recherche des tendances 2- Regrouper les idées semblables «Synthése» 2- Regroupe les Variables qui se ressemblent 3- Proportion 3- Pourcentage de l information % 4- Eliminer ce qui n a pas d importance 4- Eliminer les variables qui n apportent pas l information Exemple illustratif : Enquete sur une banque CL Q1 ou Var 1: J aime beacoup les locaux de cette banque Q2 ou Var 2 : J adore le décor de cette agence Q3 ou Var 3 : Je déteste le mobilier de cette banque Seront résumés sur un même axe factoriel «facteur ou composante» = axe esthétique. Appréciation esthétique de l agence bancaire CL Axe 1 = α 1 Locaux + α 2 Décor + α 3 Mobilier + ε «erreur» α 1 + α 2 + α 3 = Le poids ou contribution Individus / VAR Var 1 Var 2 Var 3 Var 4 Var 5 1 1 6 4 8 1 2 2 4 5 9 0 3 5 4 3 2 1.... 1000.. Tableau de données brutes Yassine EL BOUCHIKHI - 8

Objectifs de la méthode : - Résumer l information et se demander quelles sont les variables les plus importantes. - Mesurer le consensus «Ecart-type» entre les variables - Quelles sont les variables qui différencient le mieux les individus? - Créer de nouvelles variables synthétiques indépendantes - Fournir 2 représentations graphiques. a. A quelles données appliquer l analyse? *** SEULEMENT les données QUANTITATIVES dites METRIQUES : - Variables d intervalle - Variables de Ratio *** ELIMINER les données ABERRANTES : - Les variables à valeurs extremes (Très fortes ou très faibles) - Les individus pour lesquels les non-réponses sont nombreuses ATTENTION : Les données abérrantes risquent de fausser l analyse!!! X CA Y = a X + b CA = a Pub + b Budget Pub Droite de régression b. Les données sont-elles factorisables? Premiére régle : Le BON SENS Données liées à un même phénoméne pour pouvoir y chercher les dimensions communes. Ex : Satisfaction et qualité de service // Attitude envers une marque et indicateurs économiques. CA Espace OUI NON r = 0 Budget / An Absence de direction d allongement principale, équivaut absence d une corrélation globale r = 0. Corrélation = OUI Sphére, Aucune direction ou axe n est privilégié. Yassine EL BOUCHIKHI - 9

Deuxiéme régle : Les TESTS 1- Le MSA «Mesure of sampling adequacy» appelé KMO de KAISER (MEYER et OLKIN sous SPSS) Qui doit tendre vers 1. NON! pas factorisable 0 2- Le test de sphérécité de BARTLETT. 05 KMO 1 «OK Factorisable» Très significatif : Signification = 0.0000 Significatif : Signification < 0.05 Acceptable : 0.10 > Signification > 0.05 Rejet : Signification > 0.10 Troisiéme régle : Les CORRELATIONS entre variables Calculer une matrice de corrélations entre variables. - 1 er CAS : Les coefficients de corrélations sont FORTS > 0.5 OK - 2 ème CAS : Les coefficients de corrélations sont FAIBLES < 0.5 Les Variables ne mesurent pas un phénoméne commun et ne sont pas factorisables c. Combien de facteurs retenir? AXE : F2 2 AXES : F1 et F2 Plan factoriel (1,2) AXE : F1 AXE : F2 AXE : F3 3 AXES : F1 et F2 et F3 On aura 3 Plans factoriels : (1,2) et (1,3) et (2,3) AXE : F1 Avec 4 Axes : ça nous fera 6 plans factoriels. Yassine EL BOUCHIKHI - 10

Premiére régle : La RESTITUTION MINIMALE souhaitée par le chargé d études (se fixer un seuil minimal de restitution d information ou POURCENTAGE de VARIANCE). Ex : On veut que les 2 axes retenus fournissent au moins 80% de l information initiale, si tel n est pas le cas, il faut conserver l axe suivant jusqu'à obtention du pourcentage fixé. Deuxiéme régle : Régle de KAISER sur l information restituée pour chaque facteur, il faut retenir les facteurs aux valeurs propres supérieures à 1 (λ > 1). Troisiéme régle : Graphique des valeurs propres Examen de la courbe des valeurs propres (SCREE-TEST ou TEST DE COUDE) Le shéma doit ressembler à une falaise pour la régle graphique. Valeur propre 2 1.5 1 0.5 0 1 2 3 4 5 6 1 2 3 4 5 6 On retient les facteurs avant le changement de concavite : Point 3. Component number d. Comment intérpréter les résultats? Il s agit de la phase la plus DELICATE de l analyse de données = Donner des noms aux AXES. Il faut procéder en 3 temps : 1. Examen des corrélations et de la qualité de représentation des variables. 2. Projections des variables. 3. Projection des individus. 1- Examen des corrélations «Variables / Facteurs» F = α 1 V1 + α 2 V2 + α 3 V3 + + ε α 1 + α 2 + α 3 = contribution de la variable dans la formation de l AXE. Variables // Facteurs F1 F2 V1 0.95 0.20 V2 0.85-0.15 V3 0.10 0.75 V4 0.05 0.70 Tableau : MATRICE DES COMPOSANTES Yassine EL BOUCHIKHI - 11

Objectif: Répérer quelles variables sont les plus liées à l axe à intérpréter pour comprendre la logique des combinaisons entre les variables. Ex : L AXE F2 : F2 = 0.75 V3 + 0.70 V4 + ε F1 = 0.95 V1 + 0.85 V2 + (0.10 V3 + 0.05 V4). La régression multiple : Y = a1x1 + a2x2+ + ε Méthode d extraction : ACP = Analyse en composantes principales. 2- Projections des variables : (Tableau de la MATRICE DES COMPOSANTES) Carte Factorielle F1 & F2 1.2 0.95 0.7 F2 OP 2 = PI 2 + IO 2 AXE critére P Cr P -1 Cr 2 0.45 0.2 & I -0.05-1.2-0.95-0.7-0.45-0.2 0.05 0.3 0.55 0.8 1.05-0.3 F1 +1 Cr 4-0.55-0.8-1.05-1.3 Cr 3 On se trouve dans le cercle de corrélations Un mauvais critére est proche du cercle de corrélation Il existe 2 types de Mappings : Projection de variables et projection des individus, Il est dangereux de projeter les variables et les individus sur une même carte factorielle. Les Var les plus intéréssantes Proches d un axe et proches du bord du cercle de corrélations (De centre O et de rayon 1). Les Var les moins intéréssantes - Variable proche du centre du cercle (contribue peu à forger l axe) - Variable au milieu d un quart de cercle (contribue à la formation de plusieurs axes) Yassine EL BOUCHIKHI - 12

Les variables qui sont à éliminer : Var // Facteurs F1 F2 F3 V1 0.95 0.1 0.05 V2 0.85 0.15 0.1 V3 0.25 0.75 0.15 V4 0.27 0.70 0.2 V5 0.1 0.15 0.20 V6 0.45 0.55 0.10 V7 0.01 0.05 0.95 MATRICE DES COMPOSANTES 1 er CAS : V5 Corrélations faibles. 2 ème CAS : V6 Corrélations partagées. 3 ème CAS : V7 F3 = 0.95V7 λ < 1 ( une Variable sur un seul Axe) e. Conclusion : - En général, on fait plusieurs ACP consécutives avant de trouver une solution convenable. - La représentation regroupant variables et individus et un ABUS. - On ne peut pas intérpréter la proximité entre une variable et un individu. Schéma à suivre pour ne pas se tromper : Décrire ou expliquer un phénoméne? Méthodes DESCRIPTIVES Méthodes EXPLICATIVES Variables métriques Combien de variables à expliquer? Plus ACP OUI Typologie NON Ordinales? OUI Analyse des similarités et des préférences NON AFC Une OUI Variables explicatives métriques Métrique? NON Variables explicatives non-métriques OUI NON OUI NON Régression linéaire Analyse de la variance Analyse discriminante Analyse conjointe Voir Chapitre suivant sur les classifications Yassine EL BOUCHIKHI - 13

Yassine EL BOUCHIKHI - 14

Yassine EL BOUCHIKHI - 15

3-2 : Les Typologies (classifications) : Methodes descriptives 1- Réduire Tableau de données brutes. Sphinx : AFC QUALI SPSS : ACP QUANTI F(Dde) = α1confo + α2conso +. 2- Classer EX: Segments Marché de l'automobile S1 Confort S2 Conso S3 Sécurité S4 puissance S5 Prix S6 Espace Objectif : Classer des individus et des objets ou des marques. Introduction sur les méthodes Typologiques : Ex 1: Rapport Taille / Poids Individu // Var Taille Poids 1 155 55 2 160 60 3 158 58 4 189 90 5 182 95 Poids 100 80 60 40 20 0 Typologie des 2 groupes constituant le tableau Grands costauds Petits légers 0 50 100 150 200 Taille Ex 2: Tableau de données brutes Si on projete l individu 1 et 3 dans l espace ils seront proches car ils ont 2 différences seulement. Indiv // Var V1 V2 V3 V4 V.. V30 I1 1 1 3 2 9 I2 10 7 5 4 6 I3 1 1 2 2 1 I1000 3 2 2 3 9 Après une ACP, On projete les individus dans l espace, on recherche les groupes à vue d œil, et puis on compte le nombre de types repérés. 8 7 6 5 4 3 2 1 0 Projection des individus dans l'espace Groupe 2 Groupe 1 Electron 0 2 4 6 8 ATTENTION : Ne jamais projeter les individus et les variables sur le même repére, les coordonnées sont différentes. Les problémes majeurs des typologies : - Palette de méthodes différentes - Probléme de choix des méthodes (hiérarchiques, non-hiérarchiques) - Risque d artefact de mesure très fort (la méthode crée le résultat sans tenir compte des données). Yassine EL BOUCHIKHI - 16

1- Qu est-ce que la typologie? : 1-1 : Intérêt Marketing des classifications : - Rechercher des segments de clientèle (Segmentation marketing) - Classer différentes marques d un produit pour établir leurs positionnements respectifs (Quelles marques se ressemblent, marques différentes). - Etudes de styles de vie : attitudes, activités, centres d intérêt, opinions, etc 1-2 : Objet de la méthode : Déf. La description d un ensemble d individus ou objets caractérisés par un ensemble d attributs, à l aide de leur regroupement en classes. Dans le même classe : Objets ou individus les plus semblables possibles. Dans 2 classes différentes : Objets ou individus les plus dissemblables possibles. 1-3: Des individus ou des Objets «Proches»? : Réfléchir au calcul des proximités : 1- Entre les individus «si l on souhaite classer les répondants» 2- Entre les objets «si l on souhaite classer des produits ou des modéles». Ex3 : Proximité entre 2 individus Voir tableau de données brutes Ex2 page précédente Proximité (P1 : N de points communs /// P2 : N de points différents) Entre I1 et I3 ( P1=3 // P2 = 2) ------------ Entre I2 et I3 (P 1 =0 // P 2 = 5). 1-4: Les problémes à résoudre? : 1- Distance 2 - Affectation «G1, G2,..» 3- Description «Qui sont-ils?» 2- Comment faire une classification? : 2-1: Quel type de données? : 2-1-1 : Variables ACTIVES et variables PASSIVES : Variables ACTIVES : Qualité de service Varibales PASSIVES : Fiche signalétique Indiv // Var V1 V2 V3 V4 V.. V30 I1 1 1 3 2 9 I2 10 7 5 4 6 I3 1 1 2 2 1 I1000 3 2 2 3 9 Les variables ACTIVES : participent à la constitution des groupes. Ex 1 : Satisfaction vis-à-vis d une banque Typologie en 4 Groupes : Satisfaits, Indifférents, Mécontents justifiés, Eternels insatisfaits. Les variables PASSIVES ou «ILLUSTRATIVES»: servent à décrire les groupes. Ex 1 : Satisfaction vis-à-vis d une banque Les Eternels insatisfaits : 60% femmes (Var Sexe), entre 45 et 50 ans (Var Age), niveau educ Sup (Var niveau etudes). Yassine EL BOUCHIKHI - 17

2-1-2 : Variables QUALI et variables QUANTI Les donnés quanti sont les plus simples à traiter à condition de les STANDARDISER si unités de mesure hétérogénes. Il s agit de centrer réduire (Tendance centrale, Dispersion) = Obtenir des unités homogénes. Ex : Tableau comparatif de voitures Voiture / Option ABS N ESP N AIRBAGS (Max 5) TWINGO Oui 2 4 FORD KA Non 1 3 Transformer les données QUALI en données binaires 0 et 1, Présence ou absence d une caractéristique pour chaque objet à classer. Alors pour les AIRBAGS cela devient : Individu /// Var N AIRBAGS Sexe CSP 1 4 «QUANTI» 1 «QUALI» 2 «QUALI» Individu // Var AIRB1 AIRB2 AIRB3 AIRB4 AIRB5 1 0 0 0 1 0 Régle d or QUANTI vers QUALI = OUI!! QUALI vers QUANTI = NON!!!!!! «Ex : Transformer tranches d age en age réel» A 2-2: Distance entre les individus? : OA 2 = AB 2 + OB 2 (Distance euclidienne) Pour les Données QUANTI : utiliser les variables STANDARDISEES NON-CORRELEES entre elles. O O B Si les Var sont trop corrélées faire une ACP avant, pour avoir les facteurs orthogonaux (noncorrélés, et non liées) r F1F2= 0 /// Faire le typologie sur les scores factoriels. 2-3: Affectation (Indicateur de proximité entre les groupes)? : 2-3-1 : La méthode du plus proche voisin (SAUT- MINIMUM) GR 1 A GR2 B 2-3-2 : La méthode du voisin le plus éloigné (DIAMETRE DE LA REUNION) C GR 1 GR2 D 2-3-3 : La méthode du Chainage moyen (AGREGATION PAR LA MOYENNE) Le centre Point G du nuage c est le profil type (Individu-moyen ) GR 1 GR2 G G ATTENTION : Utiliser plusieurs méthodes typologiques pour voir si les résultats convergent. 2-4: Comment constituer les groupes? : Yassine EL BOUCHIKHI - 18

2-4-1 : Les méthodes Hiérarchiques 2-4-2 : Les méthodes non-hiérarchiques On les utilise lorsque : - Le nombre de groupes n est pas fixé au départ - Un arbre de classification (DENDOGRAMME) en PIED de GIRAFFE. - Méthodes très LOURDES si le nombre d individus ou objets > 100. Ex : Procédure de constitution de groupe Indiv / Var Var 1 Var 2 A 8 10 B 2 8 C 6 3 D 5 2 E 6 9 A B C D E Matrice des distances Indice de distance A 0 6.3 7.3 8.5 2.2 B - 0 6.4 6.7 4.1 C - - 0 1.4 6 D - - - 0 7.5 E - - - - 0 7.5 8 6.5 7 5.5 6 4.5 5 3.5 4 2.5 3 1.5 2 0.5 1 0 1.4 DENDOGRAMME 6 2.2 4.1 2 groupes C D A E B Nom de l'individu 3 groupes On coupe le DEDNDOGRAMME au GRAND SAUT de l indice de distance (Coupure en 3 classes). ATTENTION : Si on arrive pas à voir le SAUT de l indice c est le principe de la réalité qui prévaut, voir si on arrive à donner une définition claire au groupe sinon on l élimine. 2-5: Comment DECRIRE les groupes et valider la typologie? : - La méthode la plus connue en marketing est la méthode des NUEES DYNAMIQUES «QUICK CLUSTER». - Traiter un grand nombre d individus plus de 100. - Fixer à priori K, le nombre de groupes souhaités (Encore faut-il avoir une idée). Comment avoir une idée sur le nombre de segments? 1- Faire une ACP et projeter les individus. 2- Etudes préalables 3- Experience professionnelle. Ex : Processus de l opération si K=3 I / Var V1 V2 V3 V4 Vn V30 1 X1 Y1 Z1 2 3 X2 Y2 Z2 Yassine EL BOUCHIKHI - 19 4 5 X3 Y3 Z3 1-SPSS choisit 3 profils aussi différents que possible (1;2,3) qu on appelle les CENTRES INITIAUX! I2 CF G2 G 2 V1 V2 V3 Cr1 X1 Y1 Z1 Cr2 X2 Y2 Z2 Cr3 X3 Y3 Z3 2-SPSS fait les ITERATIONS (Calculs), si < 10 BON, ASSEZ STABLE. I25 I9 I70 CF I5 G1 G 1 I150 3-SPSS détérmine les CENTRES FINAUX pour chaque groupe et nous offre un TABLEAU D EFFECTIFS Groupe N individus 1 60 2 70 3 50 Total 180 CONSEILS : - Faire plusieurs simulation pour aboutir à des groupes suffisament HOMOGENES et DIFFERENTS. - Les groupes doivent être à peu prés HOMOGENES en taille. - Ne pas conserver un groupe < 10 % de l échantillon.

1- A partir des variables ACTIVES (Celles qui ont participé à la formation du groupe) : Calcul de moyennes. 2- A partir des variables PASSIVES (Ces variables n ont pas étés utilisées pour former les groupes) : En général celles-ci figurent dans la partie signalétique du questionnaire (Age, Sexe, CSP, Revenu,..) Ex : Etude qualitative sur ce que le voyage inspirait aux étudiants (Nouveauté, Souvenirs, ) 3- Conclusion: Les risques des classifications : - Il n existe pas une mais des typologies - Le choix des indices de distance et des critéres d affectation affectent la solution trouvée. - La typologie obtenue peut être différente selon les méthodes utilisées (Hiérarchique ou Non). - Il faut croiser les méthodes pour voir si elles convergent vers la même solution typologique. INFOS PRATIQUES : Qualité de représentation : indice entre 0 et 1 --- plus il est proche de 1 meilleure est la qualité. Rotation VARIMAX : Pour rapprocher les individus en les voyant d un angle différent. Apres une ACP : On obtient les scores factoriels ou facteurs orthogonaux non-corrélés. Projection pour les individus : L individu peut se retrouver projeté plusieurs fois (Non-pertinent), à manier avec précaution. Yassine EL BOUCHIKHI - 20