MODELISATION DE DONNÉES QUALITATIVES REGRESSION LOGISTIQUE SIMPLE

Documents pareils
Pratique de la statistique avec SPSS

COMPARAISON DE MÉTHODES POUR LA CORRECTION

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

1. Les enjeux de la prévision du risque de défaut de paiement

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

STATISTIQUE AVEC EXCEL

Remboursement d un emprunt par annuités constantes

TD 1. Statistiques à une variable.

MINISTERE DE L ECONOMIE ET DES FINANCES

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)

Dirigeant de SAS : Laisser le choix du statut social

hal , version 1-14 Aug 2009

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

santé Les arrêts de travail des séniors en emploi

Mesure avec une règle

LA SURVIE DES ENTREPRISES DÉPEND-ELLE DU TERRITOIRE D'IMPLANTATION?

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

Montage émetteur commun

Système solaire combiné Estimation des besoins énergétiques

Exercices d Électrocinétique

Prise en compte des politiques de transport dans le choix des fournisseurs

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

DOIT-ON UTILISER LA STANDARDISATION DIRECTE OU INDIRECTE DANS L ANALYSE DE

Un exemple de régression logistique sous

Les jeunes économistes

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

La Quantification du Risque Opérationnel des Institutions Bancaires

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Stéganographie Adaptative par Oracle (ASO)

Version provisoire Ne pas citer sans l accord des auteurs

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

Page 5 TABLE DES MATIÈRES

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

TRANSPORT ET LOGISTIQUE :

Afflux de capitaux, taux de change réel et développement financier : évidence empirique pour les pays du Maghreb

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

Intégration financière et croissance économique : évidence empirique dans. la région MENA

Analyse des Performances et Modélisation d un Serveur Web

Étranglement du crédit, prêts bancaires et politique monétaire : un modèle d intermédiation financière à projets hétérogènes

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

Pauvreté et fécondité au Congo

Le Prêt Efficience Fioul

Table des Matières RÉSUMÉ ANALYTIQUE... 1 I. CONTEXTE La dette publique du Gouvernement Contexte institutionnel de gestion de la

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

Données longitudinales et modèles de survie

Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr

RÉSUMÉ ANALYTIQUE... 1

Editions ENI. Project Collection Référence Bureautique. Extrait

Généralités sur les fonctions 1ES

THESE. Khalid LEKOUCH

Grandeur physique, chiffres significatifs

Une analyse économique et expérimentale de la fraude à l assurance et de l audit

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

Calcul de tableaux d amortissement

Prêt de groupe et sanction sociale Group lending and social fine

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P Préférences temporelles et recherche d emploi

- Acquisition de signaux en sismologie large bande. - Acquisition de signaux lents, magnétisme, MT.

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

ESTIMATION DES TITRES VIRAUX : UNE PROGRAMMATION PRATIQUE ET FIABLE SUR CALCULATRICE DE POCHE, ET ACCESSIBLE PAR l INTERNET

Projet de fin d études

EURIsCO. Cahiers de recherche. Cahier n L épargne des ménages au Maroc : Une analyse macroéconomique et microéconomique.

Surveillance temps-réel des systèmes Homme-Machine. Application à l assistance à la conduite automobile

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours.

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

INTRODUCTION. Jean-Pierre MAGNAN Chef de la section des ouvrages en terre Département des sols et fondations Laboratoire central

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

Analyse de la variance Comparaison de plusieurs moyennes

Limites finies en un point

Mes Objectifs. De, par, avec Sandrine le Métayer Lumières de Philippe Férat. spectacle produit par la Cie DORE

Thermodynamique statistique Master Chimie Université d Aix-Marseille. Bogdan Kuchta

Séparation de Sources par lissage cepstral des masques binaires

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Imputation du salaire d ego dans TeO

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Evaluation de performances d'ethernet commuté pour des applications temps réel

Qualité de service 7. Ordonnanceurs de paquets. Contexte. Intégration de services. Plan. Multiplexage. FIFO/DropTail. Priorités

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Transcription:

MODELISATION DE DONNÉES QUALITATIVES REGRESSION LOGISTIQUE SIMPLE Perre-Lous Gonzalez

MODELES A REPONSE DICHOTOMIQUE Quelques applcatons: Y est dchotomque: succès ou échec, présence ou absence. Un organsme de crédt dot l accorder un prêt à l un de ses clents? Une entreprse présente t-elle des rsques de fallte à moyen terme ( ans)? Un patent est-l attent d une certane malade? Dot-on déclencher une alerte à atmosphérque? la polluton

LA RÉGRESSION LOGISTISQUE SIMPLE (cas Y bnare) I LE MODÈLE LOGISTIQUE - Les données Y varable à eplquer bnare (E : présence/absence d une malade cardaque) X varable eplcatve quanttatve (E : âge) 3

II. Etude des données Le graphque 4 ne montre pas clarement l estence d une lason entre Y et X.,8 CHD,6,4, 3 4 5 6 7 AGE 4

Par contre s l on utlse la varable âge découpée en classes et la proporton de malades par classe, la lason entre Y et X apparaît plus clarement sous la forme d une courbe en S.,8,6,4, 5 35 45 55 65 Age 5

- Le modèle logstque Objectf Modélser Π ( ) Prob ( Y / X ). Modèle lnéare Π ( ) + Ce modèle convent mal pour deu rasons : Π ( ) sort de [, ] Π ( ) dot tendre vers lorsque ( ) Π ( ) est une courbe en S Π tend vers ou 6

. Modèle logstque Π ( ) + e + e + ( ) ( ) ( ) - ( ) Π Π Π ( ) Π( ) Π Donc lorsque ou 7

Justfcatons concernant le cho de la foncton logstque La foncton logstque est défne par : F() / ( + e - ) 8

Cette foncton est ben adaptée à la modélsaton de probabltés car elle prend ses valeurs entre et selon une courbe en S. Son utlsaton est par eemple ndquée lors de la modélsaton du rsque ndvduel de développer une malade dans les études épdémologques. En effet, en consdérant que la varable représente un ndce résultant de la combnason de pluseurs facteurs de rsque, on peut nterpréter F() comme le rsque d être attent de cette malade. Dans ce contete le rsque est mnmal pour de fables valeurs de. Il augmente pour les valeurs ntermédares de. Il apparaît proche de pour des valeurs plus élevées de. 9

3 - Estmaton des paramètres du modèle logstque Données X Y y Π ( ) Π P( Y X ) y............ y + e + e + n y n

Vrasemblance n y ( ) ( ) Π ( ) ( ) LB ( Cec résulte du fat que : y f( y, ) Y y X, Prob Π ( ) Π( ) pour y pour y )

Log de la vrasemblance ( ) ( ) + ( ) ( ) Log Log Mamum de vrasemblance On obtent en annulant n Log L Log L ( ) ( ) Log L n ( ) ( y Π( ) ) n e y + e n + + ( Π( )) y n e y + e + ( ) L y Π y Log Π +

Résultats 5, 395, 9 Log L 7, 35 Modèle estmé : Π ( ) est mnmum + e + e 5, 395, 9 5, 395+, 9 La probablté d être attent de la malade augmente avec l âge. 3

4 En notant ( ) Π Π, on a : ( ) ( ) V L Log ( ) ( ) ( ) ( ) Π Π Π Π Π Π Π Π n n n n ( ) XVX ( ) ( ) n n n n Π Π Π Π............... 4 - Calcul des écarts-types des estmateurs des paramètres

Résultats Analyss of Mamum Lkelhood Estmates Parameter Standard Wald Pr > Standardzed Odds Varable DF Estmate Error Ch-Square Ch-Square Estmate Rato INTERCPT -5.395.337.935... AGE.9.4.54..7686.7 ( ), 85, 66 V, 66, 5388 s D où ( ), 85, 337 s ( ), 5388, 4 5

5 - Utlsatons des écarts-types 5. Test de nullté (ou de sgnfcaton) d un coeffcent au nveau α j H : j H : j 6

Test de Wald : s ˆ j ( ˆ ) j χ ( ) sous H On rejette H s : ˆ > j W j χ α s ( ˆ ) j Pr > w < [ χ ] ( ) j ( ) j P-value j > s u α () α α α χ ( ) α χ α u α ( ) α u α 7

5. Intervalle de confance de Π( ) Π( ) + e + e + On dédut un ntervalle de confance de de l ntervalle de confance de g ( ) +. ( ) Π I.C. à 95 % de g ( ) +. + ±, σ + ( ) 96 ( ) ( ) avec σ (, ) ( ) + V ( ) 8

Eemple ( ) ans g + 5, 395 +, 9 3, 95 395, e, 454338 Π( ) 3, 95 + e, 454338, 43459 σ ( ) (,, 85, 67 + ), 67, 5788 448, 9

Intervalle de confance à 95 % de ( ) g + [ ] 3, 95 ±, 96, 448 4, 434 ;, 7796 Intervalle de confance à 95 % de Π( ) Prob ( Y X ) Inf ( 95 ) 4434, % e 4 434, +, e Sup ( 95 ), 7796 % e 44 7796, +, e

6 - Autres tests 6. Test du rapport de vrasemblance Modèle Π( ) + e + e Test de l nfluence de X sur Y H H : : + Statstque utlsée Λ Log L ~, L ( ) ( ),

Calcul du Log (vrasemblance) sous H Sous H + : Π e e ( ) + e + + e e Π( ) ~ + e ~ n n où n nombre de ( ) y ~ Log L, y Log y Log ( ( )) n [ ( ) ( )] Π + Π n Log n + n Log n n n où n nombre de ( ) y

Résultat Λ Log ( ) L, L ( ), ( vrasemblance sans la varable) ( vrasemblance avec la varable) ( Log ) Log χ ( ) sous H Eemple Λ 36, 663 7, 353 9, 3 âge très sgnfcatf 3

6. Test du score Vecteur score : u ( ) Log L Log L ( ) ( ) N( ) u( ),I( ) où I ( ) E Log L ( ) 4

Test H H : : On estme sous H ( ) H, Log n, n Statstque utlsée Score U I U ( Σ ( y y) ) ( ) Σ( ) y y ( ) ( ) ˆ ˆ ˆ ( ˆ ) H H H χ ( ) sous H Eemple Score 6, 4 âge très sgnfcatf 5

6

II - ANALYSE DES RÉSIDUS, DES OBSERVATIONS - Analyse des résdus Résdu de Pearson Π + ε Modèle : Y ε Π avec une proba Π et ε Π avec une proba Π ε ( ) ( Π ) Π Π ( Π ) E ε + ( ) ( Π ) Π Π ( Π ) Π ( Π ) V 7

On défnt le résdu de Pearson par : r y Π Π ( Π ) à comparer à Résultat : χ n r χ n s le modèle étudé est eact. 8

Dévance Dévance D Log n ( vrasemblance modèle étudé) ( y ( y ) ( )) Log Π Log Π + Log L somme des carrés résduelle d Résdu-dévance : pour y Log Π ˆ Log Π y ( y ) ( ˆ ) ( ˆ ) Log Π Log Π pour y Résultat : n D d Log L χ s le modèle étudé est eact. ( n ) 9

- Analyse des observatons Lever ( ) H X X X X en régresson multple ( ) / / H V X X VX X V X... où et V en régresson logstque Π ( Π )...... Π ( Π ) n n n On défnt le lever par : ( Π ) ( ) ( ) h Π, X VX 3

Résultats : n h h n Mesure l élognement d une observaton par rapport au autres dans, 9, l espace des varables eplcatves lorsque. h h 4 n On compare à. Π 3

Influence de chaque observaton sur le calcul de On note ( ) estmaton de sans utlser l'observaton ( ) ( ) ( ) C X VX ( ) rh ( h ) Influence de chaque observaton sur le χ de Pearson r h Δ χ 3

Influence de chaque observaton sur la dévance rh Δ D d + h Influence de chaque observaton sur le calcul de j DFBETA j ( ) j j σ ( ) j ( ) 33

III - REMARQUES Le cas où la varable ndépendante est à pluseurs modaltés est traté dans le cadre de la régresson logstque multple. En effet, on remplace la colonne de la varable qualtatve codée par le tableau des ndcatrces de ses modaltés. Pour évter les problèmes d ndétermnaton, on supprme une des ndcatrces des calculs (souvent on supprme celle qu correspond à la stuaton la plus courante : stuaton de référence). Les résultats sont ndépendants du cho effectué. Les aspects générau concernant la qualté d un modèle, l nterprétaton des coeffcents... seront tratés après la présentaton de la régresson logstque multple 34

3. Comparason des modèles utlsant les fonctons de len logt et probt. L estmaton du paramètre obtenue avec la foncton de len logt est envron π/ 3 fos plus grande que celle obtenue avec la foncton de len probt. Les estmatons standardsées sont donc assez proches l une de l autre. Les résultats des tests de valdté des modèles sont équvalents. Enfn la comparason des probabltés estmées montre que les prévsons sont relatvement smlares. 35

PROBIT Model Fttng Informaton and Testng Global Null Hypothess BETA Intercept Intercept and Crteron Only Covarates Ch-Square for Covarates AIC 38.663.499. SC 4.68 6.79. - LOG L 36.663 7.499 9.64 wth DF (p.) Score.. 6.399 wth DF (p.) LOGIT Intercept Intercept and Crteron Only Covarates Ch-Square for Covarates AIC 38.663.353. SC 4.68 6.563. - LOG L 36.663 7.353 9.3 wth DF (p.) Score.. 6.399 wth DF (p.) 36

PROBIT Analyss of Mamum Lkelhood Estmates Parameter Standard Wald Pr > Standardzed Varable DF Estmate Error Ch-Square Ch-Square Estmate INTERCPT -3.457.646 5.3657.. AGE.658.33 4.395..7733 LOGIT Parameter Standard Wald Pr > Standardzed Odds Varable DF Estmate Error Ch-Square Ch-Square Estmate Rato INTERCPT -5.395.337.935... AGE.9.4.54..7686.7 37

EXEMPLES DE PREVISIONS PROBIT OBS ID AGRP AGE CHD _LEVEL_ PCALCULE INF95 SUP95.3365.534.3436 39 39 4 4.3378.5.493 9 9 8 6.78888.637.89745 8 69.9846.7658.985 LOGIT OBS ID AGRP AGE CHD _LEVEL_ PCALCULE INF95 SUP95.4348.7.447 39 39 4 4.947.95.4873 9 9 8 6.79344.6345.89556 8 69.946.7687.974 38