Aurélien VESIN - Institut Albert Bonniot Grenoble (Version du 02/2012)

Documents pareils
SAS ENTERPRISE MINER POUR L'ACTUAIRE

TABLE DES MATIERES. C Exercices complémentaires 42

Données longitudinales et modèles de survie

Un exemple de régression logistique sous

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Exemple PLS avec SAS

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Régression linéaire. Nicolas Turenne INRA

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

1 Définition de la non stationnarité

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Logiciel XLSTAT version rue Damrémont PARIS

Chapitre 4 : Régression linéaire

Probabilités sur un univers fini

Annexe commune aux séries ES, L et S : boîtes et quantiles

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

données en connaissance et en actions?

1 Imputation par la moyenne

Exemples d application

Couples de variables aléatoires discrètes

«Cours Statistique et logiciel R»

Statistique Descriptive Élémentaire

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Lire ; Compter ; Tester... avec R

Analyse des durées de vie avec le logiciel R

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

FORMULAIRE DE STATISTIQUES

Séries Statistiques Simples

Représentation d une distribution

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

1 Complément sur la projection du nuage des individus

Température corporelle d un castor (une petite introduction aux séries temporelles)

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Consolidation de fondamentaux

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

INITIATION AU LOGICIEL SAS

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

La place de SAS dans l'informatique décisionnelle

Modèles pour données répétées

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Comparaisons internationales de la dette

L olivier Assurances Licence 3 Econométrie Lyon II

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites


Probabilités III Introduction à l évaluation d options

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Statistique de l assurance

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

PROGRAMME (Susceptible de modifications)

Statistiques à une variable

Biostatistiques : Petits effectifs

Introduction à l approche bootstrap

MODELE A CORRECTION D ERREUR ET APPLICATIONS

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Influence de la partition homme/femme et de l expériance kilométrique dans l assurance automobile

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Mise en place du Business Activity Monitoring (BAM) pour piloter les processus logistiques grâce aux Echanges de Données Informatisés (EDI)

Etude des propriétés empiriques du lasso par simulations

Arbres binaires de décision

Estimation et tests statistiques, TD 5. Solutions

Modélisation de la dépendance entre les garanties applicables en assurance automobile

STATISTIQUES. UE Modélisation pour la biologie

Moments des variables aléatoires réelles

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

bouchons? Choisir ou des descoquilles

Statistiques Descriptives à une dimension

Théorie des sondages : cours 5

(Customer Relationship Management, «Gestion de la Relation Client»)

Précision d un résultat et calculs d incertitudes

PROJET MODELE DE TAUX

Séance 11 : Typologies

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

Modélisation des risques

Qu est-ce qu une probabilité?

Lois de probabilité. Anita Burgun

Modèles et Méthodes de Réservation

Imputation du salaire d ego dans TeO

Optimisation des ressources des produits automobile première

Probabilités conditionnelles Loi binomiale

LES MODELES DE SCORE

Chapitre 3. Les distributions à deux variables

SAS de base : gestion des données et procédures élémentaires

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

L impact de la sinistralité passée sur la sinistralité future : Approche empirique en assurance automobile

IBM SPSS Statistics Base 20

T de Student Khi-deux Corrélation

Télégestion et logiciels, des auxiliaires pour une gestion patrimoniale performante

Faire un semi variograme et une carte krigée avec surfer

ACP Voitures 1- Méthode

Analyse en Composantes Principales

CAPTEURS - CHAINES DE MESURES

Relation entre deux variables : estimation de la corrélation linéaire

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

Leçon N 4 : Statistiques à deux variables

Transcription:

La régression de Poisson Théorie et Applications SAS Albert Bonniot Grenoble (Version du 02/2012)

Introduction Principe : Modéliser une variable discrète positive En principe un nombre de quelque chose (comptage) Un événement plutôt rare Exemple = Nombre de visites chez le médecin Nombre de failles d un système d exploitation Nombre d appels à un standard téléphonique

Modèle de Poisson P( y = r) = λ r e r! λ Avec r = 0,1,2, Et λ le paramètre Propriété de la loi de Poisson : E(Y) = Var(Y) = λ La moyenne est égale à la variance! Le seul paramètre λ permet de modifier la forme de la distribution On a besoin d estimer un λ qui permette à la distribution théorique de coller à celle de nos données

Modèle de Poisson 0,3 0,25 P(y=r) 0,2 0,15 Λ = 2 0,1 0,05 Variance = 2 0 0 1 2 3 4 5 6 7 8 9 10 r 0,25 0,2 P(y=r) 0,15 0,1 Variance = 3 Λ = 3 0,05 0 0 1 2 3 4 5 6 7 8 9 10 r

Modèle de Poisson Modèle de Poisson fait partie des modèles linéaires généralisés : Fontion de lien LOG et distribution de POISSON PROC GENMOD sous SAS Fonction GLM sous R log λ = β + β x + β x 2 +... + β x i 0 1 i 1 2 i2 k ik On modélise le log du λ comme une combinaison linéaire des covariables X et de leurs paramètres β

Données illustration Étude FRATER Étudier le nombre d arrachements de tuyaux en réanimation par semaine N = 97 semaines Y = nbre d arrachement /semaine X = Age médian des patients de la semaine i Proportion de femmes dans la semaine i Nombre minimum d infirmière dans la semaine i Etc

Modélisation sous SAS proc genmod data=frater.semaine; model nb_incidents = p_femme / link=log dist=poisson; run; Analyse des résultats estimés de paramètres Paramètre DF Estimation Erreur Wald 95Limites de confiance standard % Khi 2 Pr > Khi 2 Intercept 1 1.0598 0.0866 0.8900 1.2296 149.64 <.0001 p_femme 1-0.0082 0.0039-0.0158-0.0006 4.49 0.0341 Scale 0 1.0000 0.0000 1.0000 1.0000 Exp(β p_femme ) s interprète comme un Risque Relatif (RR) : Ex : RRp_femme=exp(-0.0082)=0.992 donc le nombre d incidents diminue de 1/0.992 = 0.82% pour chaque augmentation de 1 point du pourcentage de femmes /!\ L effet des variables quantitatives sur Y doit être log linéaire

Modélisation sous SAS Critère pour évaluer la qualité de l'ajustement Critère DF Valeur Valeur/DF Deviance 95 187.8591 1.9775 Scaled Deviance 95 187.8591 1.9775 Pearson Chi-Square 95 163.4784 1.7208 Scaled Pearson X2 95 163.4784 1.7208 Log Likelihood -15.7139 DF = Nombre obs. Nombre de paramètres La Déviance (-2log L) suit un Chi 2(n-p ddl) Pearson Chi square estime la déviance On s intéresse surtout à la quantité (VALEUR/DF) : Doit être très proche de 1 Dans notre cas : D =1.98 Problème de Sur dispersion

Problème de sur dispersion Problème majeur du modèle de Poisson Hypothèse du modèle de Poisson : E(Y) = Var(Y) = λ En réalité la variance est souvent plus élevée! Sous estimation des écarts types surestime les stats de test augmente significativité! Des solutions existent : Introduire un terme de bruit qui correspond à la variance de Y non expliqué par les variables Modèle de régression négative binomiale (extension du modèle de Poisson) Autres solutions plus complexes (non traité)

Sur dispersion Correction avec un terme de bruit : Dscale : Par le ratio Déviance/DF Pscale : Par le ratio Pearson X2/DF Dans la littérature le 2 nd est préféré proc genmod data=frater.semaine; model nb_incidents = p_femme / link=log dist=poisson PSCALE; run; Dev/DF = Dscale Pea/DF = Pscale

Scale = Racine(1.72) SE scaled =SE * Scale Khi2 scaled =Khi2/scale² Surdispersion Critère pour évaluer la qualité de l'ajustement Critère DF Valeur Valeur/DF Deviance 95 187.8591 1.9775 Scaled Deviance 95 109.1680 1.1491 Pearson Chi-Square 95 163.4784 1.7208 Scaled Pearson X2 95 95.0000 1.0000 Log Likelihood -9.1316 Analyse des résultats estimés de paramètres Paramètre DF Estimation Erreur standard Wald 95Limites de confiance % Khi 2 Pr > Khi 2 Intercept 1 1.0598 0.1137 0.8371 1.2826 86.96 <.0001 p_femme 1-0.0082 0.0051-0.0182 0.0018 2.61 0.1063 Scale 0 1.3118 0.0000 1.3118 1.3118 Après correction de la surdispersion la variable proportion de femmes n est plus significative!

Régression Binomiale négative Extension du modèle de Poisson pour palier au problème de sur dispersion Inclusion d un terme de bruit log β β i x β 0 + 1 i1 + 2xi2 λ = +... + β x + σε k ik i proc genmod data=frater.semaine; model nb_incidents = p_femme / link=log dist=negbin; run;

Régression binomiale négative Paramètre DF Estimation Erreur standard Analyse des résultats estimés de paramètres Wald 95Limites de confiance % Khi 2 Pr > Khi 2 Intercept 1 1.0604 0.1163 0.8325 1.2884 83.12 <.0001 p_femme 1-0.0083 0.0050-0.0181 0.0016 2.70 0.1004 Dispersion 1 0.3393 0.1143 0.1153 0.5633 Les résultats sont très proches des précédents

Ajustement par variable OFFSET Exemple du temps d exposition Processus de comptage Le temps d exposition peut être différent entre les observations Influence évidente de la durée d exposition sur le nombre d événements observés 12 appels 6 appels 10 appels 15 appels Le temps d exposition est un facteur connu mais qui ne nous intéresse pas donc on veut ajuster dessus

Ajustement par variable OFFSET Solution : Introduire le temps d exposition t P( y = r) = ( λ t i i ) r e r! log i log( ti ) + β0 + β1xi 1 + β2xi 2 λ λ = +... + β x + σε Le temps est introduit sans coefficient, il est pris en compte mais son coefficient forcé a 1.0 Dans notre cas, le nombre de patients présents dans la semaine i peut être introduit comme variable OFFSET! proc genmod data=frater.semaine; model nb_incidents = p_femme / link=log dist=negbin OFFSET=nb_patients; run; i t i k ik i

Sélection des variables Est-ce que une variable X apporte de l information sur Y? Test de Type 3 Est-ce que l ajout d une variable X dans le modèle précédent apporte de l information de façon significative? Test de Type 1 (séquentiel) proc genmod data=frater.semaine; model nb_incidents = p_femme / link=log dist=negbin OFFSET=logtemps; Output out=sortie pred=lambdaest TYPE1 TYPE3; run;

Sélection de variables Exemple de procédure de sélection de type «Backward» 1. Tester l apport de Déviance de chaque variable indépendamment (Test de Type 3) 2. Entrer toutes les variables retenues dans le modèle 3. Retirer une à une les variables les moins significatives jusqu à ce que les variables restantes soient toutes significatives D autres méthodes peuvent être appliquées!

Prédiction Avec nos paramètres estimés précédemment : A Combien d arrachement de tuyau peut on s attendre s il y a 80 % de femme? Log(λ est ) = 1.0604-0.0083 P_FEMMEi = 0.3964 Exp(log(λi est )) = λi est = exp(0.3964) = 1.48 arrachements! Le λiest est la valeur «attendue» de Y pour l individu i Notes : Ne pas oublier d introduire la variable offset si elle existe. SAS donne en sortie l estimation du λ est pour chaque individu proc genmod data=frater.semaine; model nb_incidents = p_femme / link=log dist=negbin OFFSET=logtemps; Output out=sortie pred=lambdaest; run;

Avantages et inconvénients Avantages Spécialement adapté aux variables discrètes Assez simple à utiliser Inconvénients Problème de sur dispersion quasi systématique Avoir une variable dépendante avec une distribution poissonienne (pas évident!)

Modèle sur étude FRATER Critère pour évaluer la qualité de l'ajustement Critère DF Valeur Valeur/DF Deviance 91 152.9359 1.6806 Scaled Deviance 91 101.9964 1.1208 Pearson Chi-Square 91 136.4477 1.4994 Scaled Pearson X2 91 91.0000 1.0000 Log Likelihood 1.1655 Modèle de Poisson Pearson Khi2 scale Offset = Log(nb jours-patient) Paramètre DF Estimation Erreur standard Analyse des résultats estimés de paramètres Wald 95Limites de confiance % Khi 2 Pr > Khi 2 Intercept 1-4.2643 0.7176-5.6709-2.8578 35.31 <.0001 p_sypt_chpsurv 1 0.0324 0.0104 0.0120 0.0527 9.73 0.0018 p_sympt_coma 1 0.0499 0.0134 0.0237 0.0761 13.93 0.0002 p_femme 1-0.0147 0.0048-0.0242-0.0052 9.24 0.0024 p_kta 1 0.0974 0.0367 0.0255 0.1693 7.05 0.0079 p_sondeu 1-0.0252 0.0103-0.0453-0.0050 6.01 0.0143 Scale 0 1.2245 0.0000 1.2245 1.2245

p_obs 50 40 30 20 10 0 0 1 2 3 4 5 6 7 8 9 nb_i nci dent s PLOT Obser ve Pr edi t

pcum_obs 100 90 80 70 60 50 40 30 20 10 0 1 2 3 4 5 6 7 8 9 nb_i nci dent s PLOT Obser ve Pr edi t