M2 MASS. TP5 : Introduction au logiciel SAS Classification supervisée : Analyses Discriminantes et Régression Logistique

Documents pareils
Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Fonctions de deux variables. Mai 2011

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

«Cours Statistique et logiciel R»

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Scénario: Score d appétence de la carte visa premier

1 Modélisation d être mauvais payeur

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

TRANSPORT ET LOGISTIQUE :

Chapitre 3. Les distributions à deux variables

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

INITIATION AU LOGICIEL SAS

IBM SPSS Regression 21

TD1 Signaux, énergie et puissance, signaux aléatoires

Représentation d une distribution

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Données longitudinales et modèles de survie

Systèmes de transmission

La place de SAS dans l'informatique décisionnelle

Exemples d application

Calculs de probabilités avec la loi normale

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

ODS : organiser et diffuser des sorties

Electricité : caractéristiques et point de fonctionnement d un circuit

Exemple PLS avec SAS

Recueil de formules. Franck Nicolas

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

Exercice : la frontière des portefeuilles optimaux sans actif certain


Logiciel XLSTAT version rue Damrémont PARIS

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

données en connaissance et en actions?

Introduction à l approche bootstrap

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

L export de SAS vers Excel expliqué à ma fille

Les techniques des marchés financiers

Gnuplot. Chapitre Lancer Gnuplot. 3.2 Options des graphes

Dérivés Financiers Contrats à terme

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Logistique, Transports

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Probabilités III Introduction à l évaluation d options

BAX MC Contrats à terme sur acceptations bancaires canadiennes de trois mois

Hedging delta et gamma neutre d un option digitale

Annexe commune aux séries ES, L et S : boîtes et quantiles

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

ENTREPRENEURS «À VOS AFFAIRES»

Présentation des indicateurs techniques du Budget Général

Interest Rate for Customs Purposes Regulations. Règlement sur le taux d intérêt aux fins des douanes CONSOLIDATION CODIFICATION

Théorie des sondages : cours 5

L olivier Assurances Licence 3 Econométrie Lyon II

: seul le dossier dossier sera cherché, tous les sousdomaines

4 Exemples de problèmes MapReduce incrémentaux

Équations non linéaires

Présentation des indicateurs techniques du Budget Général

Probabilités sur un univers fini

Transactions de l agriculteur 1.5 /kilo 2.0 /kilo 2.5 /kilo Vente de la récolte l agriculteur

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

VILLE d Aix-en-Provence - Analyse 2014

Lois de probabilité. Anita Burgun

L endettement privé des ménages début 2010

PRIVOR Plus prévoyance optimisée. Sécurité élevée et chances attractives de rendement

Table des matières. Avant-propos. Chapitre 2 L actualisation Chapitre 1 L intérêt Chapitre 3 Les annuités III. Entraînement...

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Chapitre 7. Circuits Magnétiques et Inductance. 7.1 Introduction Production d un champ magnétique

Comptes rendus d Activités Techniques et Financières du Service de l Eau Potable Année 2004

Nordion Europe S.A. Incorporation Authorization Order. Décret autorisant la constitution de Nordion Europe S.A. CONSOLIDATION CODIFICATION

Monia Amami Franck Brulhart Raymond Gambini Pierre-Xavier Meschi

Introduction aux Statistiques et à l utilisation du logiciel R

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

Validation probabiliste d un Système de Prévision d Ensemble

Statistiques Descriptives à une dimension

Chapitre 4 : cas Transversaux. Cas d Emprunts

Manuel de l agent de crédit Banco Solidario

La classification automatique de données quantitatives

Résolution d équations non linéaires

Mesure du surendettement en Europe

Séance 11 : Typologies

1 Modélisation d une base de données pour une société de bourse

Correction du baccalauréat ES/L Métropole 20 juin 2014

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

SAS ENTERPRISE MINER POUR L'ACTUAIRE

TP Blender n 2 : Importation d un modèle SketchUp et animation

Quantification Scalaire et Prédictive

Mettez vos bénéfices non répartis à l œuvre

TESTIMONIAUX STAGIAIRES DESU PRATIQUES DU COACHING, UNIVERSITE PARIS 8

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Règlement relatif à l examen fait conformément à la Déclaration canadienne des droits. Canadian Bill of Rights Examination Regulations CODIFICATION

Circuits RL et RC. Chapitre Inductance

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

L OFFRE EDUCASOFT-FORMATIONS

Transcription:

Université de Montpellier 2 M2 MASS TP5 : Introduction au logiciel SAS Classification supervisée : Analyses Discriminantes et Régression Logistique 1 Les données On étudie les données du fichier entreprises.txt qui présentent 46 entreprises dont certaines ont fait faillite (valeur 1) et d autres ont gardé une situation financière stable (valeur 2). On dispose de 4 variables quantitatives X 1, X 2, X 3 et X 4 qui décrivent la situation des entreprises : X 1 : Flux de trésorerie/dette totale X 2 : Revenu Net/ Total des actifs au bilan X 3 : Actif réalisable et disponible/passif courant X 4 : Actif réalisable/ventes nettes Le passif représente ce que l entreprise doit. Le passif courant regroupe les dettes des fournisseurs, les provisions, les emprunts. Ce sont des dettes dont l échéance est inférieure à 12 mois (court terme). L actif désigne l ensemble du patrimoine de l entreprise. La variable X 1 est un indicateur de la bonne santé de l entreprise. Le Flux de trésorerie est la différence entre les recettes et les dépenses. Si X 1 est négative, c est que le flux de trésorerie est négatif : les dépenses de l entreprise sont supérieures aux recettes. La variable X 2 mesure la performance de production de l entreprise : c est un indicateur de la rentabilité globale de l entreprise. La variable X 3 exprime la capacité de l entreprise à rembourser ses dettes à court terme. Deux ans après le recueil de ces données, on sait que 21 de ces entreprises ont fait faillite et que 25 ont conservé une situation financière stable. On cherche à mettre en œuvre des méthodes de classification supervisée afin de prédire à 2 ans la situation financière des entreprises. Première Analyse des données La procédure DISCRIM de SAS permet de faire une analyse discriminante des données. 1. Créer la table SAS des données à partir du fichier entreprise.txt disponible sur l ENT. Ajouter une variable qualitative situation dont les modalités sont "Faillite" ou "Stable" selon l état de l entreprise (1 ou 2). 2. Réaliser une PROC MEANS de la table créée pour visualiser l étendue de chacune des variables. 3. Représenter les couples de variables (X 1, X 2 ) (X 1, X 3 ) (X 1, X 4 ) et (X 2, X 3 ) en utilisant un style différent pour les entreprises ayant fait faillite et les autres. Pour cela on définit un style de graphique à l aide de la PROC TEMPLATE et on utilise la procédure SGRENDER. Cette procédure permet de faire des graphiques à partir de modèles qui ont été définis par la procédure TEMPLATE.

define statgraph scatter; begingraph; entrytitle Données de Faillites des entreprises ; layout overlayequated / equatetype=fit; /* pour la légende */ scatterplot x=x1 y=x3 / group=situation name="malegende"; layout gridded / autoalign=(topleft); discretelegend "malegende" /border=false opaque=false; endlayout; endlayout; endgraph; end; proc sgrender data=entreprise template=scatter; 2 Régression Logistique Nous allons utiliser la PROC LOGISTIC de SAS dans le cas d une variable de classification binaire (2 groupes). 1. Modèle complet. Nous commençons d abord par le modèle avec toutes les variables pour examiner les sorties fournies par la proc LOGISTIC : ˆπ = (P (Y = 1 X 1, X 2, X 3, X 4 ) = exp(â 0 + â 1 X 1 + â 2 X 2 + â 3 X 3 + â 4 X 4 ) 1 + exp(â 0 + â 1 X 1 + â 2 X 2 + â 3 X 3 + â 4 X 4 ) model Y=X1 X2 X3 X4; On obtient différents tableaux en sortie. Notamment, des tests globaux de la nullité des paramètres, les estimations des paramètres avec tests de Wald (significativité). On peut voir que seule la variable X 3 a une influence significative (p-value inférieure à 0.05). Enfin, on a le tableau des Odd-ratios ou rapports des cotes. Ainsi, on observe que l Odd-ratio pour la variable X 1 est égal à 0.16 ou que celui de la variable X 3 est de 0.043. Cela signifie que exp(â 3 ) = exp( 3.1577) = 0.043. On l interprète de la façon suivante : si la variable X 3 augmente d 1 unité, les autres variables du modèles restant constantes, alors les chances de faire faillite sont 1/0.043=23 fois plus faibles pour l entreprise. En revanche, pour la variable X 4, l Odd-ratio est de 18.8 donc les chances de faire faillite sont 18 fois plus élevées. Mais comme la variable X 4 n est pas significative dans ce modèle, on n interprète pas son Odd-ratio. Le dernier tableau fournit des mesures d associations entre les probabilités calculées et les valeurs de Y observées : Pourcentage concordant : n c /T 100 = 94.1 en % avec T nombre total de paires, ici T = 21 25 = 525. n c est le nombre de paires concordantes telles que : (Y i < Y j ) et ˆπ i < ˆπ j. Ce sont les paires bien prédites. Pourcentage disconcordant : n d /T 100 = 5.9 en % Ce sont les paires bien mal prédites. Pourcentage lié : (T n c n d )/T 100 = 0 car n c + n d = T dans notre exemple (pas de paires avec ˆπ i = ˆπ j. D de Somers : (n c n d )/T = 0.882 Gamma : n c n d = 0.882 n c + n d Tau-a : n c n d 0.5N(N 1)

c : n c + 0.5(T n c n d ) ici n c /T = 0.941 T il représente l aire sous la courbe ROC, c est une mesure du pouvoir prédictif du modèle. Les indices D de Somers et Gamma sont égaux ici car n c + n d = T, plus le nombre de paires concordantes est proche du nombre total de paires, plus le pouvoir prédictif du modèle est bon. Ici, 0.882 est proche de 1. 2. Sélection de variables : Comme pour la régression linéaire avec la procédure REG, nous allons procéder à la recherche du meilleur modèle. Comparer les différentes méthodes à l aide de l option selection= (backward, forward et score). model Y=X1 X2 X3 X4/selection=score best=2; L option selection=score choisit le modèle qui maximise la log-vraisemblance (le score) pour chaque sous-modèle. Ici, le meilleur modèle à 2 variables, au sens du score de la log-vraisemblance est le modèle estimé avce les variables X 2 et X 3 ce qui correspond à une log-vraisemblance de 22.0349. Les procédures de selections backward et forward choisissent plutôt les variables X 1 et X 3. 3. Représentation graphique : On représente ensuite les entreprises dans les plans (1, 3) avec une droite frontière dont on trouve l équation qui correspond à la probabilité de faire faillite égale à 0.5 : P (Y = 1 X 1, X 3 ) = exp(6.1501 6.3915X 1 3.1109X 3 ) 1 + exp(6.1501 6.3915X 1 3.1109X 3 ) exp(6.1501 6.3915X 1 3.1109X 3 ) = 1 6.1501 6.3915X 1 3.1109X 3 = 0

Cette droite est appelée droite d isoprobabilité. Créer une table entreprise2 qui contient la variable X 5 = (6.1501/3.0322) (6.5887/3.0322) X 1. Représenter sur le même graphique les entreprises à l aide des points (X 1, X 3 ) et la droite d isoprobabilité pour la classification. 4. Table de Classification, probabilités estimées et résidus : model Y=X2 X3 /ctable pprob=(0 to 0.48 by 0.04, 0.5, 0.52 to 1 by 0.04); output out=result predicted=predicted xbeta=xbeta lower=lower upper=upper reschi=reschi resdev=resdev; Faire l analyse des résidus. Examiner la table de classification. 5. Courbes ROC Représenter la courbe ROC de la sensibilité en fonction de (1-spécificité) à l aide de l option plots=roc. 3 Analyse discriminante La procédure DISCRIM de SAS permet de faire une analyse discriminante des données. 1. On extrait un échantillon d apprentissage (ou de calibration) et un échantillon de test : /* échantillon test */ /* échantillon calibration */ data plotdata; data entreprise1; set entreprise; set entreprise; where (num<6 or num>40); where (num>5 and num<41);

On peut regarder les fréquences de la variables X 3 qui apparaissait comme la plus prédictive de la situation financière dans la régression logistique : proc freq data=entreprise noprint; tables X3 * situation / out=freqout; proc sgplot data=freqout; vbar X3 / response=count group=situation; keylegend / location=inside; 2. On fait l analyse discriminante linéaire (option pool=yes) sur la table entreprise1 qui contient l échantillon d apprentissage (n = 35) title2 Densités gaussiennes avec variance égales dans les groupes ; proc discrim data=entreprise1 method=normal pool=yes /* pool=yes : pour l analyse discriminante linéaire */ /* pool=no : pour l analyse discriminante quadratique */ testdata=plotdata testout=plotp testoutd=plotd short noclassify crosslisterr ; class situation; var X1 X3; Indiquer ce que produisent les différentes options short, noclassify, crosslisterr. Dire ce que contiennent les tables plotdata, plotp et plotd. Donner la matrice de confusion.