Régression de Poisson

Documents pareils

Données longitudinales et modèles de survie

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

TABLE DES MATIERES. C Exercices complémentaires 42

Un exemple de régression logistique sous

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Simulation de variables aléatoires

«Cours Statistique et logiciel R»

IBM SPSS Regression 21

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

PROBABILITES ET STATISTIQUE I&II

Moments des variables aléatoires réelles

Modèles et Méthodes de Réservation

Loi binomiale Lois normales

Les modèles de choix binaire

Programmes des classes préparatoires aux Grandes Ecoles

Méthodes de Simulation

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Analyse de la variance Comparaison de plusieurs moyennes

STATISTIQUES. UE Modélisation pour la biologie

Exemples d application

Évaluation de la régression bornée

NON-LINEARITE ET RESEAUX NEURONAUX

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

MCMC et approximations en champ moyen pour les modèles de Markov

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Table des matières. I Mise à niveau 11. Préface

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Statistique de l assurance

Arbres binaires de décision

SAS ENTERPRISE MINER POUR L'ACTUAIRE

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Introduction à l approche bootstrap

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Le modèle de régression linéaire

MÉTHODE DE MONTE CARLO.

Exercices Corrigés Premières notions sur les espaces vectoriels

Chapitre 3. Les distributions à deux variables

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Exercice : la frontière des portefeuilles optimaux sans actif certain

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Lagrange, où λ 1 est pour la contrainte sur µ p ).

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Cours de méthodes de scoring

Chapitre 4 : Régression linéaire

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Le Modèle Linéaire par l exemple :

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

3 Approximation de solutions d équations

Probabilités III Introduction à l évaluation d options

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Analyse des durées de vie avec le logiciel R

Le théorème des deux fonds et la gestion indicielle

Programmation linéaire et Optimisation. Didier Smets

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Modèle GARCH Application à la prévision de la volatilité

Théorie de l estimation et de la décision statistique

Que faire lorsqu on considère plusieurs variables en même temps?

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

1 Complément sur la projection du nuage des individus

Espérance conditionnelle

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Théorème du point fixe - Théorème de l inversion locale

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Estimation et tests statistiques, TD 5. Solutions

Bien lire l énoncé 2 fois avant de continuer - Méthodes et/ou Explications Réponses. Antécédents d un nombre par une fonction

Température corporelle d un castor (une petite introduction aux séries temporelles)

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Cours 02 : Problème général de la programmation linéaire

Modélisation de la dépendance entre les garanties applicables en assurance automobile

Probabilités Loi binomiale Exercices corrigés

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Modèles pour données répétées

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

données en connaissance et en actions?

Le modèle de Black et Scholes

i ANALYSE STATISTIQUE DES TARIFS DES GARANTIES DOMMAGES EN ASSURANCES AUTOMOBILE : CAS DE CHANAS ASSURANCES S.A Mémoire Par : LELE SIAKA HERNANDEZ

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Introduction à la statistique non paramétrique

TD1 Signaux, énergie et puissance, signaux aléatoires

de calibration Master 2: Calibration de modèles: présentation et simulation d

Quantification Scalaire et Prédictive

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Résumé du Cours de Statistique Descriptive. Yves Tillé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Théorie des probabilités

TSTI 2D CH X : Exemples de lois à densité 1

Chapitre 3 : INFERENCE

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

Transcription:

ZHANG Mudong & LI Siheng & HU Chenyang 21 Mars, 2013

Plan Composantes des modèles Estimation Qualité d ajustement et Tests Exemples Conclusion 2/25

Introduction de modèle linéaire généralisé La relation d une variable par rapport à une ou plusieurs autres Regrouper tous les modèles linéaire Nelder et Wedderburn(1972) Logiciel:SAS(genmod) et R(glm) 3/25

Composantes des modèles Distribution On suppose que l échantillon statistique est constitué de n variables aléatoires {Y i ; i = 1,..., n} indépendantes admettant des distributions issues d une structure exponentielle. Cela signifie que les lois de ces variables sont dominées par une même mesure dite de référence et que la famille de leurs densités par rapport à cette mesure se met sous la forme: { } yi θ i v(θ i ) f(y i, θ i, φ) = exp + w(y i, φ) u(φ) Le paramètre θ i est appelé paramètre naturel de la famille exponentielle. 4/25

Pour certaines lois, la fonction u est de la forme : u(φ) = φ ω i où les poids ω i sont les poids connus des observations, fixés ici à 1 pour simplifie; φ est appelé alors paramétre de dispersion 5/25

L expression de la structure exponentielle se met alors sous la forme canonique en posant : Q(θ) = θ φ { a(θ) = exp v(θ) } φ b(y) = exp {w(y, φ)} on obtient f(y i, θ i ) = a(θ i )b(y i )exp {y i Q(θ i )} 6/25

Prédicteur linéaire Des variables explicatives construisent la matrice X = (x 1,..., x p ) T, soit β un vecteur de p paramètres. Alors le prédicteur linéaire, composante déterministe du modèle est le vecteur à n composantes : η = Xβ 7/25

Lien Une relation fonctionnelle entre la composante aléatoire et le prédicteur linéaire. Soit {µ i = E(Y i ); i = 1,..., n}, on pose η i = g(µ i ) i = 1,..., n où g, appelée fonction lien. Ceci revient donc à écrire un modèle dans lequel une fonction de la moyenne appartient au sous-espace engendré par les variables explicatives : g(µ i ) = x iβ = θ i i = 1,..., n 8/25

Loi de Bernouilli Considérons n variables aléatoires binaires indépendantes Z i de probabilité de succès i et donc d espérance E(Z i ) = π i. Les fonctions de densité de ces variables sont éléments de la famille : { f(z i, π i ) = π z i i (1 π i) 1 z i = (1 π i )exp z i ln π } i 1 π i qui est la forme canonique d une structure exponentielle de paramètre naturel θ i = ln π i 1 π i Cette relation définit la fonction logit pour fonction lien canonique associée à ce modèle. 9/25

Loi de Poisson On considère n variables indépendantes Y i de loi de Poisson de paramètre µ i = E(Y i ). Les Y i sont par exemple les effectifs d une table de contingence. Ces variables admettent pour densités : f(y i, µ i ) = µy i i e µ i y i! = exp { µ i } 1 y i! exp {y ilnµ i } qui sont issues d une structure exponentielle et, mises sous la forme canonique, de paramètre naturel θ i = lnµ i définissant comme fonction lien canonique le logarithme pour ce modèle. 10/25

Estimation L estimation des paramètres β j est calculée en maximisant la log-vraisemblance du modèle linéaire généralisé. Pour n observations supposées indépendantes et en tenant compte que dépend θ de β, la log-vraisemblance s écrit n n L(β) = ln f(y i ; θ i, φ) = l(θ i ; φ; y i ) Calculons i=1 i=1 l i β j = l i θ i θ i µ i µ i η i η i β j 11/25

l i θ i = [ y i v (θ i ) ] /u(φ) = (y i µ i )/u(φ) µ i θ i = v (θ i ) = V ar(y i )/µ(φ) η i β j = x ij car η i = x iβ µ i η i depend de la fonction lien η i = g(µ i ) Les équations de la vraisemblance sont : n i=1 (y i µ i )x ij Var(Y i ) µ i η i = 0 j = 1,..., p 12/25

Qualité d ajustement Il s agit d évaluer la qualité d ajustement du modèle sur la base des différences entre observations et estimations. Plusieurs critères sont proposés. Déviance Test de Pearson 13/25

Déviance Le modèle estimé est comparé avec le modèle dit saturé. Cette comparaison est basée sur l expression de la déviance D des logvraisemblances L et L sat : D = 2(L L sat ) qui est le logarithme du carré du rapport des vraisemblances. D suit une loi du χ 2 à n p degrés de liberté ce qui permet de construire un test de rejet ou d acceptation du modèle. 14/25

Test de Pearson Un test du χ 2 est également utilisé pour comparer les valeurs observées y i à leur prévision par le modèle. La statistique du test est définie par X 2 = I i=1 (y i ˆµ i ) 2 var(ˆµ i ) (µ i est remplacé par n i π i dans le cas binomial) et on montre qu elle admet asymptotiquement la même loi que la déviance. le modèle peut être jugé satisfaisant pour un rapport D/ddl plus petit que 1. 15/25

Tests Rapport de vraisemblance Le rapport de vraisemblance ou la différence de déviance est une évaluation de l apport des variables explicatives supplémentaires dans l ajustement du modèle. La différence des déviances entre deux modèles emboîtés respectivement à q 1 et q 2 (q 2 > q 1 ) variables explicatives D 2 D 1 = 2(L 1 L sat ) 2(L 2 L sat ) = 2(L 1 L 2 ) suit approximativement une loi du χ 2 à (q 2 q 1 ) degrés de liberté pour les lois à 1 paramètre (binomial, Poisson) et une loi de Fisher pour les lois à deux paramètres (gaussienne). 16/25

Test de Wald Ce test est basé sur la forme quadratique faisant intervenir la matrice de covariance des paramètres, l inverse de la matrice d information observée (X W X) 1. 17/25

Diagnostics Résidus Pearson Les résidus obtenus en comparant valeurs observées y i et valeurs prédites ŷ i sont pondérés par leur précision estimée par l écart-type : s i de ŷ i. Ceci définit les résidus de Pearson : r pi = y i ŷ i s i dont la somme des carrés conduit à la statistique du même nom. 18/25

Déviance Ces résidus mesurent la contribution de chaque observation à la déviance du modèle par rapport au modèle saturé. Des versions standardisées et studentisées en sont définies comme pour ceux de Pearson. 19/25

Exemples Deb et Trivedi (1997) analysent des données sur 4406 personnes, âgées de 66 ans et plus, qui sont couverts par Medicare, un programme public d assurance. L objectif est de modéliser la demande de soins médical, comme capturée par le nombre de bureaux des médecins et les consultations externes des hôpitaux par les covariables disponibles pour les patients. 20/25

Explication des données ofp: Le nombre des visites chez le bureau de médecin, variable dépendante. hosp: Nombre de séjours à l hôpital health: État de santé auto-évaluation numchron: Nombre de maladies chroniques gendre: Sexe school: Nombre des années d études privins: Indicateur de l assurance privée 21/25

Frequency 0 200 500 0 7 15 24 33 42 51 61 89 Number of physician office visits L histogramme montre que la distribution marginale présente à la fois des variations considérables et un assez grand nombre de zéros. 22/25

Physician office visits (in clogs) 0 1 2 3 4 health poor average excellent Self perceived health status Physician office visits (in clogs) 0 1 2 3 4 numchron 0 1 2 3+ Number of chronic conditions Physician office visits (in clogs) 0 1 2 3 4 privins no yes Covered by private insurance Physician office visits (in clogs) 0 1 2 3 4 hospital 0 1 2+ Number of hospital stays Physician office visits (in clogs) 0 1 2 3 4 female gender Gender male Physician office visits (number of visits) 0 1 4 5 10+ school 0 4 8 10 12 14 18 Number of years of education 0.0 0.4 0.8 23/25

Deviance Residuals: Min 1Q Median 3Q Max -8.4055-1.9962-0.6737 0.7049 16.3620 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 1.028874 0.023785 43.258 <2e-16 *** hosp 0.164797 0.005997 27.478 <2e-16 *** healthpoor 0.248307 0.017845 13.915 <2e-16 *** healthexcellent -0.361993 0.030304-11.945 <2e-16 *** numchron 0.146639 0.004580 32.020 <2e-16 *** gendermale -0.112320 0.012945-8.677 <2e-16 *** school 0.026143 0.001843 14.182 <2e-16 *** privinsyes 0.201687 0.016860 11.963 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 26943 on 4405 degrees of freedom Residual deviance: 23168 on 4398 degrees of freedom AIC: 35959 Number of Fisher Scoring iterations: 5 24/25

Conclusion Binômiale: la variable binômiale B(m, p) est la somme de m Bernoullis B(1, p) indépendants. Exemple: Taille d un sous-échantillon dans un échantillon de taille donnée (nombre de sujets réagissant favorablement). Poisson Une somme de variables de Poisson indépendantes est encore de Poisson. Exemple: Nombres d événements (ex: en pannes) arrivant sur une durée donné. Comptes dans une table de contingence. 25/25