L analyse discriminante



Documents pareils
Utilisation du Logiciel de statistique SPSS 8.0

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Logiciel XLSTAT version rue Damrémont PARIS

Lire ; Compter ; Tester... avec R

Cahiers de l IMA. Fascicule SPSS

Comment Définir une Plage de données Pour Utiliser Fonctions de Filtres et de Tris

données en connaissance et en actions?

Once the installation is complete, you can delete the temporary Zip files..

Comment consolider des données

Validation probabiliste d un Système de Prévision d Ensemble

Introduction aux Statistiques et à l utilisation du logiciel R

Modèles pour données répétées

Analyse de la variance Comparaison de plusieurs moyennes

IBM SPSS Regression 21

CLIM/GTP/27/8 ANNEX III/ANNEXE III. Category 1 New indications/ 1 re catégorie Nouvelles indications

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

APPENDIX 6 BONUS RING FORMAT

Introduction à l approche bootstrap

INVESTMENT REGULATIONS R In force October 1, RÈGLEMENT SUR LES INVESTISSEMENTS R En vigueur le 1 er octobre 2001

Comment faire des étiquettes

FORMULAIRE DE STATISTIQUES

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Exercice : la frontière des portefeuilles optimaux sans actif certain

Relation entre deux variables : estimation de la corrélation linéaire

Comment faire un Mailing A partir d une feuille Calc

Notice Technique / Technical Manual

Biostatistiques : Petits effectifs

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

Comment Utiliser les Versions, les Modification, les Comparaisons, Dans les Documents

Insérer des images dans Base

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

DEMANDE D OUVERTURE DE COMPTE REQUEST OF ACCOUNT OPENING. PROFIL CLIENT Customer Profile. Identité* Identity. Nom de jeune fille* / Maiden name

IBM SPSS Statistics Base 20

Principe d un test statistique

Interest Rate for Customs Purposes Regulations. Règlement sur le taux d intérêt aux fins des douanes CONSOLIDATION CODIFICATION

Chapitre 4 : Régression linéaire

Extraction d informations stratégiques par Analyse en Composantes Principales

TABLE DES MATIERES. C Exercices complémentaires 42

Instructions Mozilla Thunderbird Page 1

Application Form/ Formulaire de demande

Traitement des données avec Microsoft EXCEL 2010

Face Recognition Performance: Man vs. Machine

Comment sauvegarder ses documents

Surveillance de Scripts LUA et de réception d EVENT. avec LoriotPro Extended & Broadcast Edition

MRK A : Méthodes d Analyse de Données en Marketing Automne 2010

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Tutoriel de formation SurveyMonkey

Exercices sur SQL server 2000

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Registration Login Ship Track/History Address Book Reports Quick Help Contact Details. FedEx Ship Manager. Vos expéditions import at sur fedex.

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

POLICY: FREE MILK PROGRAM CODE: CS-4

Installation et paramétrage de Fedora dans VirtualBox.

Exemple PLS avec SAS

F1 Security Requirement Check List (SRCL)

Aide-mémoire de statistique appliquée à la biologie

LOI SUR LA RECONNAISSANCE DE L'ADOPTION SELON LES COUTUMES AUTOCHTONES ABORIGINAL CUSTOM ADOPTION RECOGNITION ACT

Comment créer un diagramme de Gantt avec OpenOffice.org

AIDE FINANCIÈRE POUR ATHLÈTES FINANCIAL ASSISTANCE FOR ATHLETES

Exemples d application

Processus de compétitivité : Facteurs et évaluation

1 Complément sur la projection du nuage des individus

Introduction à la statistique non paramétrique

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Déploiement OOo en environnement Windows Terminal Server

SAS de base : gestion des données et procédures élémentaires

SPHINX Logiciel de dépouillement d enquêtes

RÈGLEMENT SUR LES CEINTURES DE SÉCURITÉ ET LES ENSEMBLES DE RETENUE POUR ENFANTS R.R.T.N.-O. 1990, ch. M-35

OpenOffice.org Calc Ouvrir un classeur

Séries Statistiques Simples

DOCUMENTATION MODULE BLOCKCATEGORIESCUSTOM Module crée par Prestacrea - Version : 2.0

Calculation of Interest Regulations. Règlement sur le calcul des intérêts CONSOLIDATION CODIFICATION. Current to August 4, 2015 À jour au 4 août 2015

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

4. Résultats et discussion

THE LAW SOCIETY OF UPPER CANADA BY-LAW 19 [HANDLING OF MONEY AND OTHER PROPERTY] MOTION TO BE MOVED AT THE MEETING OF CONVOCATION ON JANUARY 24, 2002

Travaux pratiques avec RapidMiner

Archived Content. Contenu archivé

Commencer avec Allplan Exchange. Nemetschek Allplan Systems GmbH, Munich. All rights reserved. Enregistrement

SYSTÈME DE GAINES À SPIRALE ET RACCORDS TOURNANTS

Installation d'un serveur RADIUS

Arbres binaires de décision

Corrigé de l'atelier pratique du module 3 : Récupération d'urgence

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

INTRODUCTION. Bienvenue dans la TCN FRENCH TEAM, nous allons ensemble démarrer une belle aventure qui peut devenir lucrative pour tous.

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Le No.1 de l économie d énergie pour patinoires.

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Auteur: Joana Neves Université : ISCTE Business School Adresse: Avª das Forças Armadas, Lisboa, Portugal joananev@netcabo.

Évaluation de la régression bornée

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

UN MODELE DE CREDIT SCORING POUR UNE INSTITUTION DE MICRO-FINANCE AFRICAINE: LE CAS DE NYESIGISO AU MALI

Saisir et traiter les engagements de coûts

HSCS 6.4 : mieux appréhender la gestion du stockage en environnement VMware et service de fichiers HNAS Laurent Bartoletti Product Marketing Manager

Création de Sous-Formulaires

Transcription:

L analyse discriminante À Propos de ce document... Introduction... La démarche à suivre sous SPSS... 2. Statistics... 2 2. Classify... 2 Analyse des résultats... 3. Vérification de l existence de différences entre les sous-groupes.... 3 2. Vérification de la validité de l étude.... 5 3. Estimation des coefficients de la fonction discriminante.... 6 4. Qualité de la représentation.... 6 À Propos de ce document Ce document a été créé dans le but d aider toute personne qui débute dans SPSS, logiciel trè puissant mais très peu sympathique. Ce document se base sur la version.0 Base de SPSS, en version anglaise. La plupart des exemples sont issus des dictatiels du programme SPSS en lui-même. Toutes les remarques, tant sur le fond que sur la forme, sont les bienvenues. N hésitez pas à me contacter à l adresse suivante : <lemoal@lemoal.org> ou à venir visiter mon site internet : http://www.lemoal.org/spss/ Merci. Introduction Le but de l analyse discriminante est d étudier les relations entre une variable qualitative et un ensemble de variables explicatives quantitatives. C est une méthode utilisée notamment par les banques pour le scoring Trois objectifs principaux peuvent être assignés à l analyse discriminante : Déterminer les variables explicatives les plus discriminantes vis à vis des classes déterminées Déterminer à quel groupe appartient un individu à partir de ses caractéristiques Mais surtout à valider une classification ou à faire un choix entre plusieurs classifications pour savoir laquelle est la plus pertinente. L analyse discriminante intervient donc a posteriori d une classification. Deux conditions sont à remplir : Les variables explicatives doivent être métriques Elles ne doivent pas être trop corrélées entre elles. Cela se vérifie par l observation des corrélations entre les variables. Si c est le cas, on peut passer par une analyse factorielle qui permet de réduire les données à quelques axes. Ces axes sont, par propriété, non corrélés entre eux.

La démarche à suivre sous SPSS Aller dans Analyse > Classify > Discriminant La boîte de dialogue suivante apparaît alors : Dans «Grouping Variable» (i.e. les critère de regroupement), il faut indiquer la variable à expliquer en la sélectionnant dans la partie de droite puis en cliquant sur la flèche qui pointe vers la droite. SPSS demande alors de définir l intervalle, c est-à-dire les différentes modalités que la variable peut prendre. Dans «Independents» (i.e. les variables explicatives), il faut indiquer les variables métriques que l on souhaite intégrer à l analyse. Il est important de choisir «Use stepwise method» (i.e. la méthode pas à pas). Trois options s offrent alors à nous : «Statistics», «Method» et «Classify». On ne touchera pas aux différentes options de «Méthod». Statistics La boîte de dialogue «Discriminant Analysis : Statistics» apparaît. Dans la boîte qui apparaît, il convient de cocher «Means» (moyennes), «Univariate ANOVAs» (ANOVA à facteur) et «Box s M» (Test de Box) dans «Descriptives» et «Fischer s» ainsi que «Unstandardized» dans «Function Coefficients». 2. Classify La boîte de dialogue «Discriminant Analysis : Classification» apparaît. 2

Dans la boîte qui apparaît, il convient de cocher «Summary Table» (option qui permet l affichage de la matrice de confusion) et «Leave-one-out classification» dans «Display». Analyse des résultats Une analyse discriminante se déroule en 3 étapes :. On vérifie l existence de différences entre les groupes. 2. On valide l étude. 3. On vérifie le pouvoir discriminant des axes. 4. On juge la qualité de la représentation du modèle. La 3 ème étape peut être passée dans la plupart des cas.. Vérification de l existence de différences entre les sousgroupes. On vérifie s il existe bien des différences entre les groupes grâce à trois indicateurs : la moyenne ou la variance, le test du F et le Lambda de Wilks. Ils s interprètent de la façon suivante : En cas d influence Moyenne ou variance Différence En absence d influence Similitude Test du F F élevé Sig F tend vers 0,000 F faible SIG F >= 0,0 ou 0,05 Lambda de Wilks <= 0,90 Tend vers Cette première analyse permet de déterminer quelles sont les variables qui sont les plus discriminantes entre les groupes. Les moyennes et écart-types s observent dans le tableau «Group Statistics». Les variables «employes», «Years at current adress», «Debt to income ration» et «Credit card debt» dans l exemple ci-dessous semblent être les variables les plus discriminantes. 3

Group Statistics Previously defaulted No Total (x00) Other debt in (x00) Other debt in (x00) Other debt in Valid N (listwise) Mean Std. Deviation Unweighted Weighted 35,545 7,70774 57 57,000,6596,90443 57 57,000 9,5087 6,66374 57 57,000 8,9458 7,00062 57 57,000 47,547 34,2205 57 57,000 8,6793 5,6520 57 57,000,2455,4223 57 57,000 2,7734 2,8394 57 57,000 33,009 8,5759 83 83,000,906,97279 83 83,000 5,2240 5,54295 83 83,000 6,3934 5,9252 83 83,000 4,23 43,553 83 83,000 4,7279 7,90280 83 83,000 2,4239 3,23252 83 83,000 3,8628 4,26368 83 83,000 34,8600 7,99734 700 700,000,7229,9282 700 700,000 8,3886 6,65804 700 700,000 8,2786 6,82488 700 700,000 45,604 36,8423 700 700,000 0,2606 6,82723 700 700,000,5536 2,720 700 700,000 3,0582 3,28755 700 700,000 Le test du F et du Lambda de Wilks s observe dans le tableau «Tests of Equality of Group Means». L examen du F dans notre exemple nous confirme que ce sont bien les variables «Years at current address»,,, et «(x00)» qui sont les plus discriminantes. De plus, d après le test du Lambda de Wilks, seule la variable «(x00)» semble avoir une influence. 4

Tests of Equality of Group Means (x00) Other debt in Wilks' Lambda F df df2 Sig.,98 3,482 698,000,987 9,30 698,002,920 60,759 698,000,973 9,402 698,000,995 3,533 698,06,848 24,889 698,000,940 44,472 698,000,979 5,42 698,000 2. Vérification de la validité de l étude. On estime la validité d une analyse discriminante à partir de indicateurs : Le test de Box. La corrélation globale. Le Lambda de Wilks. On observe le test de Box grâce au tableau «Test Results». Test Results Box's M F Approx. df df2 Sig. 364,962 36,82 0 55243,8,000 Tests null hypothesis of equal population covariance matrices. Le M doit être le plus élevé possible. La significativité du test de F doit tendre vers 0. S il est supérieur à 0,05, l analyse n est pas valide. La corrélation globale se mesure quant à elle se retrouve dans le tableau «Eigenvalues» (Valeurs propres). Function Eigenvalues Canonical Eigenvalue % of Variance Cumulative % Correlation,395 a 00,0 00,0,532 a. First canonical discriminant functions were used in the analysis. On observe notamment la colonne «Canonical Correlation» (Corrélation Canonique). Plus elle est proche de, meilleur est le modèle. Le Lambda de Wilks s observe quant à lui dans le tableau «Wilks Lambda». 5

Wilks' Lambda Test of Function(s) Wilks' Lambda Chi-square df Sig.,77 23,524 4,000 Plus la valeur du Lambda de Wilks (deuxième colonne) est faible, plus le modèle est bon. On observe également sa significativité : plus elle est tend vers 0, meileur, plus le modèle est bon. 3. Estimation des coefficients de la fonction discriminante. On observe le pouvoir discriminant des axes grâce au tableau «Canonical Discriminant Function Coefficients». Canonical Discriminant Function Coefficients (x00) (Constant) Unstandardized coefficients Function -,20 -,037,075,32,058 Ce tableau permet d obtenir la fonction discriminante. Dans notre exemple, la fonction est égale à : 0,058 0,2*( ) 0,037*(Years at current adress) + 0,075*(Debet to income ratio) + 0,32*(Credit card ddebt in ) 4. Qualité de la représentation. on observe la qualité de la représentation : on s assure que la fonction discriminante classifie bien les individus en sous-groupes. Pour cela, on analyse la matrice de confusion qui regroupe les individus bien classés et les mal classés : Groupes prévus (ou théoriques) Groupes réels (ou observés) Groupe Groupe 2 Groupe 22 4 26 Groupe 2 4 8 22 Total Total 26 22 48 Ainsi, dans notre exemple, 22 éléments du groupe ont été bien reclassés grâce à la fonction discriminante et 4 l ont mal été. De même, pour le groupe 2, 4 individus ont été mal reclassés et 8 bien reclassés. Au total, c est donc 40 individus (22 + 8) qui ont été correctement reclassés soit 83% de réussite (40 / 48 = 83%). Sous SPSS, la matrice de confusion s observe dans le tableau «Classification Results». 6

Classification Results b,c Predicted Group Membership Previously defaulted No Total Original Count No 39 26 57 42 4 83 Ungrouped cases 96 54 50 % No 75,6 24,4 00,0 23,0 77,0 00,0 Ungrouped cases 64,0 36,0 00,0 Cross-validated a Count No 39 26 57 43 40 83 % No 75,6 24,4 00,0 23,5 76,5 00,0 a. Cross validation is done only for those cases in the analysis. In cross validation, each case is classified by the functions derived from all cases other than that case. b. 76,0% of original grouped cases correctly classified. c. 75,9% of cross-validated grouped cases correctly classified. La note (b.) nous indique le pouvoir de reclassement de la fonction discriminante, ici 76,0%. On peut retrouver ce chiffre en additionnant les observations bien reclassées (ici 398 et 38 soit un total de 536) et en les divisant par le nombre total d observations classées (dans le cas présent 700 soit 57 + 83) Il existe une dernière étape qui consiste à observer les mal-classés et savoir si c est dû à un atypisme ou à une défaillance de la fonction discriminante. S il s agit d un atypisme, il convient de les enlever et de recommencer l étude. 7