La régression logistique généralisée avec la procédure LOGISTIC



Documents pareils
Données longitudinales et modèles de survie

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Modèles pour données répétées

Exemple PLS avec SAS

Un exemple de régression logistique sous

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Lire ; Compter ; Tester... avec R

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

données en connaissance et en actions?

Coup de Projecteur sur les Réseaux de Neurones

Utilisation du Logiciel de statistique SPSS 8.0

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

IBM SPSS Regression 21

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

Imputation du salaire d ego dans TeO

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Introduction à la statistique non paramétrique

STATISTIQUES. UE Modélisation pour la biologie

Exemples d application

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Évaluation de la régression bornée

Introduction aux Statistiques et à l utilisation du logiciel R

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

1 Modélisation d être mauvais payeur

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

TABLE DES MATIERES. C Exercices complémentaires 42

EFFICACITÉ ET INNOCUITÉ D UN MÉDICAMENT CONTRE LA MPOC COMPARATIVEMENT À UN CONTRÔLE

BIG Data et R: opportunités et perspectives

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Medication management ability assessment: results from a performance based measure in older outpatients with schizophrenia.

INITIATION AU LOGICIEL SAS

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

VERSION 64 BITS DE SAS ET VOS FICHIERS MICROSOFT OFFICE 32-BITS

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Perl Console. Votre compagnon pour développer en Perl. Les Journées du Perl , 17 novembre, Lyon. Alexis Sukrieh

«Cours Statistique et logiciel R»

TP: Représentation des signaux binaires. 1 Simulation d un message binaire - Codage en ligne

Compléments de documentation Scilab : affichage de texte et formatage de nombres

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Chapitre 4 : Régression linéaire

Etude des propriétés empiriques du lasso par simulations

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Ships Elevator Regulations. Règlement sur les ascenseurs de navires CODIFICATION CONSOLIDATION. C.R.C., c C.R.C., ch. 1482

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Nombre dérivé et tangente

Bien lire l énoncé 2 fois avant de continuer - Méthodes et/ou Explications Réponses. Antécédents d un nombre par une fonction

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services

Loi sur l aide financière à la Banque Commerciale du Canada. Canadian Commercial Bank Financial Assistance Act CODIFICATION CONSOLIDATION

France SMS+ MT Premium Description

3 Approximation de solutions d équations

TSTI 2D CH X : Exemples de lois à densité 1

Surveillance de Scripts LUA et de réception d EVENT. avec LoriotPro Extended & Broadcast Edition

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

SAS de base : gestion des données et procédures élémentaires

Chapitre 2 Le problème de l unicité des solutions

T de Student Khi-deux Corrélation

INF6304 Interfaces Intelligentes

Modèle GARCH Application à la prévision de la volatilité

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

WEB page builder and server for SCADA applications usable from a WEB navigator

NON-LINEARITE ET RESEAUX NEURONAUX

4 Exemples de problèmes MapReduce incrémentaux

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Notes de cours : bases de données distribuées et repliquées

CONSTRUCTION DE COTE :

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Arbres binaires de décision

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

UNIVERSITE DE YAOUNDE II

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Suites numériques 3. 1 Convergence et limite d une suite

Tutoriel de formation SurveyMonkey

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

Devoir Data WareHouse

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Conférence Bales II - Mauritanie. Patrick Le Nôtre. Directeur de la Stratégie - Secteur Finance Solutions risques et Réglementations

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels

Le chi carré. Le sommaire. Approche quantitative

COMMANDES SQL... 2 COMMANDES DE DEFINITION DE DONNEES... 2

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

Cheque Holding Policy Disclosure (Banks) Regulations. Règlement sur la communication de la politique de retenue de chèques (banques) CONSOLIDATION

Précision d un résultat et calculs d incertitudes

Scénario: Score d appétence de la carte visa premier

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Mulford C. (1992). The Mother-Baby Assessment(MBA): An Apgar Score for breastfeeding. Journal of Human Lactation, 8(2),

Transcription:

La régression logistique généralisée avec la procédure LOGISTIC 1

Sommaire I / Régression logistique généralisée 3 a. Introduction 3 b. Présentation de l exemple à étudier 3 II / Modélisation avec la proc LOGISTIC 4 a. Syntaxe de la proc LOGISTIC dans le cas d une régression généralisée 4 b. Analyse de la sortie 4 III / Ecriture des équations logistiques généralisées 8 a. Enoncé des formules: 8 b. Ecriture des équations logistiques de notre exemple: 8 IV / Calcul des probabilités et prédiction: 9 a. Obtention des probabilités prédites: 9 b. Retrouver les probabilités prédites, par le calcul: 9 c. Comment faire des prévisions à partir de nouvelles données? 11 1. Utilisation de l option PREDPROBS= : 11 2. Utilisation des options OUTEST= et INEST=: 12 3. Le scoring avec SAS System 9: 13 2

La régression logistique généralisée avec la procédure LOGISTIC I / Régression logistique généralisée a. Introduction Depuis la version 8.2 de SAS, la procédure LOGISTIC permet, en plus des régressions logistiques binaires et ordinales, de réaliser des régressions logistiques généralisées (tout comme la procédure CATMOD). La variable réponse est, dans ce cas, de type «nominale» et prend un nombre limité (>2) de valeurs. Dans ce document, un exemple, réalisé en version 8.2, sera détaillé de l écriture du modèle jusqu à l obtention de prédictions. Un bref aperçu de la proc LOGISTIC dans SAS System 9 sera également donné. b. Présentation de l exemple à étudier Ces données recensent les préférences que les enfants et les adolescents filles et garçons ont, en matière de sucreries. data Confiserie; format Type $9.; input Sexe $ Age $ Type $ count @@; datalines; garçon enfant chocolat 2 garçon ado chocolat 10 garçon enfant caramel 13 garçon ado caramel 19 garçon enfant bonbon 13 garçon ado bonbon 3 fille enfant chocolat 23 fille ado chocolat 6 fille enfant caramel 3 fille ado caramel 14 fille enfant bonbon 8 fille ado bonbon 16 ; L étude vise à exprimer le choix du type de sucrerie en fonction de l âge et du sexe du sujet concerné. Ces données ne proviennent pas d un questionnaire réel, mais ont été fabriquées pour les besoins de notre exemple. 3

II / Modélisation avec la proc LOGISTIC a. Syntaxe de la proc LOGISTIC dans le cas d une régression généralisée La syntaxe que utilisée est la même que pour une régression binaire (variable réponse à deux modalités). Par défaut, l option LINK= de l instruction MODEL est positionnée à LINK=LOGIT. Pour accéder à la régression généralisée, il faut indiquer l option LINK=GLOGIT. proc logistic data=confiserie; freq count; class sexe(ref='fille') Age(ref='enfant') / param=ref; model type(ref='chocolat') = sexe Age / link=glogit; D après la table Confiserie, la variable réponse type est nominale à trois modalités {bonbon, caramel, chocolat}. Pour notre étude, c est chocolat qui a été choisi comme modalité de référence, grâce à l option REF= de l instruction MODEL. Si aucun choix n avait été fait, c est la modalité située en dernière position dans l ordre alphabétique qui aurait été la modalité de référence. Les modalités de référence des variables explicatives catégorielles peuvent également être spécifiées par une option REF=, au niveau de l instruction CLASS, comme c est le cas ici, pour les variables sexe et age. b. Analyse de la sortie Comme pour toutes les régressions, la sortie présente un bref tableau récapitulatif de l étude menée, où apparaît notamment le type de la régression demandée : generalized logit, dans le cas présent. The LOGISTIC Procedure Model Information Data Set WORK.CONFISERIE Response Variable Type Number of Response Levels 3 Number of Observations 12 Frequency Variable count Sum of Frequencies 130 Model generalized logit Optimization Technique Fisher's scoring 4

Vient ensuite le tableau concernant le profil de la variable réponse type : on y retrouve ses trois modalités, et la modalité de référence: Response Profile Ordered Total Value Type Frequency 1 bonbon 40 2 chocolat 41 3 caramel 49 Logits modeled use Type='chocolat' as the reference category. Juste après, le tableau Class Level Information doit toujours être gardé en mémoire, puisqu il indique les modalités de référence choisies pour chacune des variables de classe, et la façon dont ont été générées les variables indicatrices. (Vous trouverez plus de renseignements dans l article Allo support N 10, intitulé La gestion des variables catégorielles dans la proc LOGISTIC ). Class Level Information Design Variables Class Value 1 Sexe fille 0 garçon 1 Age ado 1 enfant 0 Les résultats asymptotiques qui suivent témoignent de la légitimité du modèle. Le test global BETA=0 présente une p-value (Pr > ChiSq) inférieure à 0.05, ce qui signifie qu au moins un des facteurs étudiés joue un rôle dans le choix du type de sucrerie. La partie Analysis of Effects indique que les deux effets sexe et âge entrent en considération dans le modèle (p-value > 0.05). Model Convergence Status Convergence criterion (GCONV=1E-8) satisfied. Model Fit Statistics Intercept Intercept and Criterion Only Covariates 5

AIC 288.537 275.480 SC 294.272 292.685-2 Log L 284.537 263.480 Testing Global Null Hypothesis: BETA=0 Test Chi-Square DF Pr > ChiSq Likelihood Ratio 21.0577 4 0.0003 Score 19.8919 4 0.0005 Wald 17.5469 4 0.0015 Type III Analysis of Effects Wald Effect DF Chi-Square Pr > ChiSq Sexe 2 12.2377 0.0022 Age 2 7.8266 0.0200 Les paramètres estimés apparaissent ensuite. Contrairement à la régression logistique binaire, on obtient plusieurs intercept ainsi que plusieurs paramètres (un pour chaque modalité de la variable réponse, sauf pour la modalité de référence). A côté de chaque variable de classe figure la modalité concernée. Analysis of Maximum Likelihood Estimates Standard Wald Parameter Type DF Estimate Error Chi-Square Pr > ChiSq Intercept bonbon 1-0.3606 0.3461 1.0856 0.2975 Intercept caramel 1-1.2521 0.4216 8.8208 0.0030 Sexe garçon bonbon 1 0.5017 0.4736 1.1220 0.2895 Sexe garçon caramel 1 1.5977 0.4742 11.3522 0.0008 Age ado bonbon 1 0.3765 0.4534 0.6895 0.4063 Age ado caramel 1 1.2724 0.4685 7.3778 0.0066 Les estimations des Odds ratio ci-dessous, nous permettent d avancer qu un garçon a environ 5 (4.942) fois plus de chances de choisir une confiserie de type caramel plutôt que chocolat par rapport à une fille. De même, un adolescent a 3.5 (3.570) fois plus de chances de choisir une confiserie de type caramel plutôt que chocolat, par rapport à un enfant. Odds Ratio Estimates Point 95% Wald Effect Type Estimate Confidence Limits Sexe garçon vs fille bonbon 1.651 0.653 4.178 Sexe garçon vs fille caramel 4.942 1.951 12.518 Age ado vs enfant bonbon 1.457 0.599 3.544 Age ado vs enfant caramel 3.570 1.425 8.941 6

Les odds ratio se calculent habituellement par la formule suivante : exp(2*estimate). Cependant, cette formule dépend de la paramétrisation choisie pour la variable de classe à expliquer. Ici, la méthode utilisée est REF (reference cell coding), et la formule à appliquer est: exp(estimate). 7

III / Ecriture des équations logistiques généralisées a. Enoncé des formules: La formule générale des équations généralisées est donnée ci-dessous : log p p i k + 1 = β i' X, i { 1, L, k + 1}, où k+1 est le nombre de modalités de la variable Réponse. b. Ecriture des équations logistiques de notre exemple: Ce sont les paramètres estimés, obtenus dans la sortie précédente, qui vont permettre d écrire les équations logistiques du modèle obtenu. Ces mêmes paramètres peuvent être récupérés dans une table SAS, grâce à l option OUTEST=. La variable réponse type ayant trois modalités, avec chocolat comme modalité de référence, nous obtenons les 2 équations suivantes: Log([Pr(Type=bonbon) / Pr(Type=chocolat)])= -0.3606 + 0.5017 * (Sexe=garçon) + 0.3765 * (Age=ado) Log([Pr(Type=caramel)/Pr(Type=chocolat)])= -1.2521 + 1.5977 * (Sexe=garçon) + 1.2724 * (Age=ado) Ces équations logistiques s adaptent, pour chaque combinaison des variables explicatives: Pour Sexe=garçon et Age=ado: Log([Pr(Type=bonbon) / Pr(Type=chocolat)])= -0.3606 + 0.5017 + 0.3765 = 0.5176 Log([Pr(Type=caramel)/Pr(Type=chocolat)])= -1.2521 + 1.5977 + 1.2724 = 1.618 Pour Sexe=garçon et Age=enfant : Log([Pr(Type=bonbon) / Pr(Type=chocolat)])= -0.3606 + 0.5017 = 0.1411 Log([Pr(Type=caramel)/Pr(Type=chocolat)])= -1.2521 + 1.5977 = 0.3456 Pour Sexe=fille et Age=ado: Log([Pr(Type=bonbon) / Pr(Type=chocolat)])= -0.3606 + 0.3765 = 0.0159 Log([Pr(Type=caramel)/Pr(Type=chocolat)])= -1.2521 + 1.2724 = 0.0203 Pour Sexe=fille et Age=enfant: Log([Pr(Type=bonbon) / Pr(Type=chocolat)])= -0. 3606 Log([Pr(Type=caramel)/Pr(Type=chocolat)])= -1.2521 8

IV / Calcul des probabilités et prédiction: a. Obtention des probabilités prédites: Pour obtenir les probabilités de choisir chaque réponse, il suffit de préciser l option PREDPROBS=I (Individual), au niveau de l instruction OUTPUT, qui crée une table en sortie: proc logistic data=confiserie; freq count; class sexe(ref='fille') Age(ref='enfant') / param=ref; model type(ref='chocolat') = sexe Age / link=glogit; output out=out predprobs = I; run ; proc print data=out; La table out en sortie se présente, comme suit : Obs Type Sexe Age count _FROM INTO_ IP_bonbon IP_chocolat IP_caramel 1 chocolat garçon enfant 2 chocolat caramel 0.32306 0.28056 0.39638 2 chocolat garçon ado 10 chocolat caramel 0.21732 0.12951 0.65317 3 caramel garçon enfant 13 caramel caramel 0.32306 0.28056 0.39638 4 caramel garçon ado 19 caramel caramel 0.21732 0.12951 0.65317 5 bonbon garçon enfant 13 bonbon caramel 0.32306 0.28056 0.39638 6 bonbon garçon ado 3 bonbon caramel 0.21732 0.12951 0.65317 7 chocolat fille enfant 23 chocolat chocolat 0.35159 0.50425 0.14416 8 chocolat fille ado 6 chocolat caramel 0.33460 0.32932 0.33607 9 caramel fille enfant 3 caramel chocolat 0.35159 0.50425 0.1441610 10 caramel fille ado 14 caramel caramel 0.33460 0.32932 0.33607 11 bonbon fille enfant 8 bonbon chocolat 0.35159 0.50425 0.14416 12 bonbon fille ado 16 bonbon caramel 0.33460 0.32932 0.33607 Cette table reprend les données de départ, auxquelles viennent s ajouter des variables automatiques : - _FROM_: contient la valeur formatée de la réponse observée - _INTO_ : contient la valeur formatée de la réponse prédite (correspondant à la plus forte probabilité) - pour chaque modalité de la variable réponse, des variables _IP_, correspondant aux probabilités individuelles prédites. Une question qui revient souvent est de savoir comment retrouver, par le calcul, les probabilités prédites. b. Retrouver les probabilités prédites, par le calcul: La résolution des équations logistiques généralisées, nous amène à la formule des probabilités prédites suivante: 9

p i exp( βi' X ), exp( βi' X ) i { 1, L, + 1}, = k i où k+1 est le nombre de modalités de la variable Réponse β k + 1 étant considéré à zéro (vecteur zéro), on en déduit: p k + 1 = i 1 exp( βi' X ) Pour obtenir les probabilités prédites, il suffit donc d appliquer ces formules, pour chaque combinaison de variables explicatives. Ainsi, pour Sexe=garçon et Age=ado, on obtient: Pr(Type=bonbon) = exp(0.5176) = 0.21733 1 + exp(0.5176) + exp(1.618) Pr(Type=caramel) = exp(1.618) = 0.65315 1 + exp(1.618) + exp(0.5176) Pr(Type=chocolat) = 1- Pr(Type=caramel) - Pr(Type=bonbon) = 1 = 0.12952 1 + exp(0.5176) + exp(1.618) Plus facilement, cela peut se coder de la façon suivante : data prob(drop=logbsurc logssurc count); set out; /* Première équation logistique: */ logbsurc = -0.3606 + 0.5017 * (Sexe='garçon') + 0.3765 * (Age='ado'); /* Deuxième équation logistique: */ logssurc = -1.2521 + 1.5977 * (Sexe='garçon') + 1.2724 * (Age='ado'); /* Calcul des probabilités prédites: */ PCalc_bonbon = exp(logbsurc)/(1+exp(logbsurc)+exp(logssurc)); PCalc_caramel = exp(logssurc)/(1+exp(logbsurc)+exp(logssurc)); PCalc_chocolat=1-PCalc_bonbon-PCalc_caramel; title 'Comparaison entre les probabilités obtenues par l''option PREDPROBS= et celles calculées manuellement'; proc print data=prob; 10

On vérifie ainsi aisément que les probabilités calculées à partir du modèle obtenu sont identiques (aux différences d arrondis près) à celles calculées par l option PREDPROBS=I : Comparaison entre les probabilités obtenues par l'option PREDPROBS=et celles calculées manuellement PCalc_ PCalc_ PCalc_ Obs Type Sexe Age _FROM INTO_ IP_bonbon IP_chocolat IP_caramel bonbon caramel chocolat chocolat 1 chocolat garçon enfant chocolat caramel 0.32306 0.28056 0.39638 0.32307 0.39638 0.28055 2 chocolat garçon ado chocolat caramel 0.21732 0.12951 0.65317 0.21733 0.65315 0.12952 3 caramel garçon enfant caramel caramel 0.32306 0.28056 0.39638 0.32307 0.39638 0.28055 4 caramel garçon ado caramel caramel 0.21732 0.12951 0.65317 0.21733 0.65315 0.12952 5 bonbon garçon enfant bonbon caramel 0.32306 0.28056 0.39638 0.32307 0.39638 0.28055 6 bonbon garçon ado bonbon caramel 0.21732 0.12951 0.65317 0.21733 0.65315 0.12952 7 chocolat fille enfant chocolat chocolat 0.35159 0.50425 0.14416 0.35159 0.14417 0.50425 8 chocolat fille ado chocolat caramel 0.33460 0.32932 0.33607 0.33460 0.33608 0.32932 9 caramel fille enfant caramel chocolat 0.35159 0.50425 0.14416 0.35159 0.14417 0.50425 10 caramel fille ado caramel caramel 0.33460 0.32932 0.33607 0.33460 0.33608 0.32932 11 bonbon fille enfant bonbon chocolat 0.35159 0.50425 0.14416 0.35159 0.14417 0.50425 12 bonbon fille ado bonbon caramel 0.33460 0.32932 0.33607 0.33460 0.33608 0.32932 c. Comment faire des prévisions à partir de nouvelles données? La procédure SCORE n est pas utilisable dans le cas d une régression multinomiale, mais il reste, malgré tout, deux solutions que nous allons développer : 1. Utilisation de l option PREDPROBS= : Il est possible de faire de la prédiction en ajoutant simplement les nouvelles données, pour lesquelles la variable réponse est manquante, aux données servant à construire le modèle. Les observations ainsi ajoutées ne seront pas utilisées pour la construction du modèle, comme en témoigne une note dans la sortie: NOTE: 1 observation was deleted due to missing values for the response or explanatory variables. Cependant, les prédictions seront calculées pour chacune d entre elles. Ci-dessous, la prédiction calculée pour l observation 13 est caramel, car la probabilité d obtenir une caramel, pour un adolescent garçon (IP_caramel) est plus élévée que celle d obtenir bonbon ou chocolat. 11

Prédiction, avec l option PREDPROBS=: Obs Type Sexe Age count _FROM INTO_ IP_bonbon IP_chocolat IP_caramel 1 chocolat garçon enfant 2 chocolat caramel 0.32306 0.28056 0.39638 2 chocolat garçon ado 10 chocolat caramel 0.21732 0.12951 0.65317 3 caramel garçon enfant 13 caramel caramel 0.32306 0.28056 0.39638 4 caramel garçon ado 19 caramel caramel 0.21732 0.12951 0.65317 5 bonbon garçon enfant 13 bonbon caramel 0.32306 0.28056 0.39638 6 bonbon garçon ado 3 bonbon caramel 0.21732 0.12951 0.65317 7 chocolat fille enfant 23 chocolat chocolat 0.35159 0.50425 0.14416 8 chocolat fille ado 6 chocolat caramel 0.33460 0.32932 0.33607 9 caramel fille enfant 3 caramel chocolat 0.35159 0.50425 0.1441610 10 caramel fille ado 14 caramel caramel 0.33460 0.32932 0.33607 11 bonbon fille enfant 8 bonbon chocolat 0.35159 0.50425 0.14416 12 bonbon fille ado 16 bonbon caramel 0.33460 0.32932 0.33607 13 garçon ado 3 caramel 0.21732 0.12951 0.65317 2. Utilisation des options OUTEST= et INEST=: Pour cette deuxième solution, la prédiction se fait en deux temps: - une première proc LOGISTIC est lancée sur les données servant à fabriquer le modèle. Les paramètres estimés du modèle sont stockés, sous forme de table, grâce à l option OUTEST= - une deuxième proc LOGISTIC réalise les prédictions sur de nouvelles données, en appliquant le modèle obtenu dans la première étape, grâce à l option INEST=. L option MAXITER est mise à zéro, afin que le modèle ne soit pas recalculé. proc logistic data=confiserie outest=outest; freq count; class sexe(ref='fille') Age(ref='enfant') / param=ref; model type(ref='chocolat') = sexe Age/ link=glogit; output out=out predprobs = I; proc logistic data=new inest=outest; class sexe(ref='fille') Age(ref='enfant') / param=ref; model type(ref='chocolat') = sexe Age / link=glogit maxiter=0; output out=newout predprobs = I; L option MAXITER étant positionnée à 0, l avertissement ci-dessous apparaît à la fois dans la log et dans la sortie : 12

Iteration limit reached without convergence. WARNING: Convergence was not attained in 0 iterations. You may want to increase the maximum number of iterations (MAXITER= option) or change the convergence criteria (ABSFCONV=, FCONV=, GCONV=, XCONV= options) in the MODEL statement. WARNING: The LOGISTIC procedure continues in spite of the above warning. Results shown are based on the last maximum likelihood iteration. Validity of the model fit is questionable. Cependant, le système poursuit le traitement, en se servant des paramètres estimés fournis (INEST=) pour calculer les prédictions. Précautions d emploi : - Cette méthode doit être exclusivement utilisée pour calculer les probabilités prédites : toutes les statistiques basées sur la matrice de covariance, comme les intervalles de confiance des probabilités prédites, seront incorrectes, puisque la matrice de covariance du modèle d origine n est pas utilisée. - En toute logique, les observations de la table, sur laquelle doivent se faire les prédictions ( new dans notre exemple), comportent une variable réponse non renseignée. Dans la pratique, il s avère que, pour que la prédiction fonctionne, il est obligatoire que cette table contienne au moins quelques observations ayant une variable réponse renseignée. 3. Le scoring avec SAS System 9: A partir de SAS System 9, quelques modifications de syntaxe apparaissent dans la proc LOGISTIC. Les prédictions peuvent maintenant être obtenues grâce à l instruction SCORE et les paramètres du modèle sont désormais stockés, grâce à l option OUTMODEL=. proc logistic data=confiserie outmodel=sasuser.confmodel; freq count; class sexe(ref='fille') Age(ref='enfant') / param=ref; model type(ref='chocolat') = sexe Age / link=glogit; score out=score1; Le modèle est réutilisable grâce à l option INMODEL= pour calculer les prédictions sur de nouvelles données: proc logistic inmodel=sasuser.confmodel; score data=confiserie out=score2; Pour plus de renseignements, un exemple est présenté dans la documentation en ligne de SAS System 9 (Example 40.13: Scoring Data Sets with the SCORE Statement). 13

Depuis la version 8, l utilisation de la procédure LOGISTIC tend à se simplifier: les variables de classe peuvent maintenant être traitées à l intérieur de la procédure, grâce à l instruction CLASS, et des régressions logistiques généralisées peuvent être menées sur des variables réponses nominales. L aperçu de la proc LOGISTIC sous SAS System 9 évolue dans ce sens, en proposant une syntaxe de plus en plus intuitive et simplifiée. Blandine Colas Ingénieur Consultant 14

15