Résumé Introductions au modèle linéaire général Retour au plan du cours Travaux pratiques 1 Introduction L objet de ce chapitre est d introduire le cadre théorique global permettant de regrouper tous les modèles (linéaire gaussien, logit, log-linéaire) de ce cours et qui cherchent à exprimer l espérance d une variable réponse Y en fonction d une combinaison linéaire des variables explicatives Le modèle linéaire généralisé développé initialement en 1972 par Nelder et Wedderburn et dont on trouvera des exposés détaillés dans Nelder et Mc Cullagh (1983), Agresti (1990) ou Antoniadis et al (1992), n est ici qu esquissé afin de définir les concepts communs à ces modèles : famille exponentielle, estimation par maximum de vraisemblance, tests, diagnostics, résidus Il est mis en œuvre dans plusieurs logiciels dont GLIM, glm de Splus, genmod et insight de SAS 2 Composantes des modèles Les modèles catalogués dans la classe des modèles linéaires généralisés sont caractérisés par trois composantes 21 Distribution La composante aléatoire identifie la distribution de probabilités de la variable à expliquer On suppose que l échantillon statistique est constitué de n variables aléatoires Y i ; i = 1,, n indépendantes admettant des distributions issues d une structure exponentielle Cela signifie que les lois de ces variables sont dominées par une même mesure dite de référence et que la famille de leurs densités par rapport à cette mesure se met sous la forme : yi θ i v(θ i ) f(y i ; θ i, φ) = exp + w(y i, φ) (1) u(φ) Cette formulation inclut la plupart des lois usuelles comportant un ou deux paramètres : gaussienne, gaussienne inverse, gamma, Poisson, binomiale Le paramètre θ i est appelé paramètre naturel de la famille exponentielle Attention, la mesure de référence change d une structure exponentielle à l autre, la mesure de Lebesgues pour une loi continue, une mesure discrète combinaison de masses de Dirac pour une loi discrète Consulter Antoniadis et al (1992) pour une présentation générale des structures exponentielles et des propriétés asymptotiques des estimateurs de leurs paramètres Pour certaines lois, la fonction u est de la forme : u(φ) = φ ω i où les poids ω i sont les poids connus des observations, fixés ici à 1 pour simplifier ; φ est appelé alors paramètre de dispersion, c est un paramètre de nuisance intervenant, par exemple lorsque les variances des lois gaussiennes sont inconnues, mais égal à 1 pour les lois à un paramètre (Poisson, binomiale) L expression de la structure exponentielle (1) se met alors sous la forme canonique en posant : on obtient 22 Prédicteur linéaire Q(θ) = θ φ, a(θ) = exp v(θ), φ b(y) = expw(y, φ), f(y i, θ i ) = a(θ i )b(y i ) exp y i Q(θ i ) (2) Les observations planifiées des variables explicatives sont organisées dans la matrice X de planification d expérience (design matrix) Soit β un vecteur de p paramètres, le prédicteur linéaire, composante déterministe du modèle, est le vecteur à n composantes : η = Xβ 1
2 23 Lien La troisième composante exprime une relation fonctionnelle entre la composante aléatoire et le prédicteur linéaire Soit µ i = E(Y i ); i = 1,, n, on pose η i = g(µ i ) i = 1,, n où g, appelée fonction lien, est supposée monotone et différentiable Ceci revient donc à écrire un modèle dans lequel une fonction de la moyenne appartient au sous-espace engendré par les variables explicatives : g(µ i ) = x iβ i = 1,, n La fonction lien qui associe la moyenne µ i au paramètre naturel est appelée fonction lien canonique Dans ce cas, 24 Exemples 241 Loi gaussienne g(µ i ) = θ i = x iβ Dans le cas d un échantillon gaussien, les densités d une famille de lois N (µ i, σ 2 ) s écrit : f(y i, µ i ) = 1 exp (y i µ i ) 2 2πσ 2 2σ 2 = exp 1 2 µ 2 i σ 2 exp 1 yi 2 2 σ 2 1 2 ln(2πσ2 ) µ i exp y i σ 2 la famille gaussienne se met sous la forme canonique (2) qui en fait une famille exponentielle de paramètre de dispersion φ = σ 2 et de paramètre naturel θ i = E(Y i ) = µ i et donc de fonction lien canonique, la fonction identité 242 Loi de Bernouilli Considérons n variables aléatoires binaires indépendantes Z i de probabilité de succès π i et donc d espérance E(Z i ) = π i Les fonctions de densité de ces variables sont éléments de la famille : f(z i, π i ) = π zi i (1 π i) 1 zi = (1 π i ) exp z i ln π i 1 π i qui est la forme canonique d une structure exponentielle de paramètre naturel θ i = ln π i 1 π i Cette relation définit la fonction logit pour fonction lien canonique associée à ce modèle La loi binomiale conduit à des résultats identiques en considérant les sommes de n i (n i connus) variables de Bernouilli 243 Loi de Poisson On considère n variables indépendantes Y i de loi de Poisson de paramètre µ i = E(Y i ) Les Y i sont par exemple les effectifs d une table de contingence Ces variables admettent pour densités :, En posant Q(θ i ) = θ i φ = µ i σ 2 a(θ i ) = exp 1 2 b(y i ) = exp 1 2 µ 2 i σ 2 yi 2 σ 2 1 2 ln(2πσ2 ) f(y i, µ i ) = µyi i e µi y i! = exp µ i 1 y i! exp y i ln µ i qui sont issues d une structure exponentielle et, mises sous la forme canonique, de paramètre naturel θ i = ln µ i définissant comme fonction lien canonique le logarithme pour ce modèle
3 3 Estimation L estimation des paramètres β j est calculée en maximisant la logvraisemblance du modèle linéaire généralisé Celle-ci s exprime pour toute famille de distributions mise sous la forme (1) d une structure exponentielle 31 Expression des moments Notons l(θ i, φ; y i ) = ln f(y i ; θ i, φ) la contribution de la ième observation à la log-vraisemblance l(θ i, φ; y i ) = [y i θ i v(θ i )]/u(φ) + w(y i, φ) L étude du maximum de la log-vraisemblance nécessite la connaissance des dérivées : l = [y i v (θ i )]/u(φ) 2 l = v (θ i )/u(φ) θ 2 i Pour des lois issues de structures exponentielles, les conditions de régularité vérifiées permettent d écrire : Alors, et comme il vient donc : E ( ) l = 0 et E θ ( 2 ) l θ 2 = E E(Y i ) = µ i = v (θ i ) ( ) 2 l θ Ev (θ i )/u(φ) = E[Y i v (θ i )]/u(φ) 2 = Var(Y i )/u 2 (φ) Var(Y i ) = v (θ i )u(φ) ; justifiant ainsi l appellation de paramètre de dispersion pour φ lorsque u est la fonction identité 32 Équations de vraisemblance Considérons p variables explicatives dont les observations sont rangées dans la matrice de plan d expérience X, β un vecteur de p paramètres et le prédicteur linéaire à n composantes η = Xβ La fonction lien g est supposée monotone différentiable telle que : η i = g(µ i ) ; c est la fonction lien canonique si : g(µ i ) = θ i Pour n observations supposées indépendantes et en tenant compte que θ dépend de β, la log-vraisemblance s écrit : n n L(β) = ln f(y i ; θ i, φ) = l(θ i, φ; y i ) Calculons Comme l i β j = l i β j l i = [y i v (θ i )]/u(φ) = (y i µ i )/u(φ), = v (θ i ) = Var(Y i )/u(φ), β j = x ij car η i = x iβ, dépend de la fonction lien η i = g(µ i ), Les équations de la vraisemblance sont : n (y i µ i )x ij = 0 j = 1,, p Var(Y i ) Ce sont des équations non-linéaires en β dont la résolution requiert des méthodes itératives dans lesquelles interviennent le Hessien (pour Newton- Raphson) ou la matrice d information (pour les Scores de Fisher) La matrice
4 d information est la matrice de terme général I = X WX [I] jk = E 2 L(β) β j β k = n x ij x ik Var(Y i ) et où W est la matrice diagonale de pondération : ( ) 2 1 µi [W] ii = Var(Y i ) 33 Fonction lien canonique ( µi Dans le cas particulier où la fonction lien du modèle linéaire généralisé utilisée est la fonction lien canonique associée à la structure exponentielle alors plusieurs simplifications interviennent : Ainsi, η i = θ i = x iβ, = = v (θ i ) = v (θ i ) l i = (y i µ i ) β j Var(Y i ) v (θ i )x ij = (y i µ i ) x ij u(φ) De plus, comme les termes 2 L(β) β j β k ne dépendent plus de y i, on montre que le Hessien est égal à la matrice d information et donc les méthodes de résolution du score de Fisher et de Newton-Raphson coïncident Si, de plus, u(φ) est constante pour les observations, les équations de vraisemblance deviennent : X y = X µ Ainsi, dans le cas gaussien, le modèle s écrivant µ = Xβ avec la fonction de lien canonique identité, on retrouve la solution : b = (X X) 1 X y qui coïncide avec celle obtenue par minimisation des moindres carrés ) 2 4 Qualité d ajustement Il s agit d évaluer la qualité d ajustement du modèle sur la base des différences entre observations et estimations Plusieurs critères sont proposés 41 Déviance Le modèle estimé est comparé avec le modèle dit saturé, c est-à-dire le modèle possédant autant de paramètres que d observations et estimant donc exactement les données Cette comparaison est basée sur l expression de la déviance D des log-vraisemblances L et L sat : D = 2(L L sat ) qui est le logarithme du carré du rapport des vraisemblances Ce rapport remplace ou généralise l usage des sommes de carrés propres au cas gaussien et donc à l estimation par moindres carrés On montre qu asymptotiquement, D suit une loi du χ 2 à n p degrés de liberté ce qui permet de construire un test de rejet ou d acceptation du modèle selon que la déviance est jugée significativement ou non importante Attention, l approximation de la loi du χ 2 peut être douteuse De plus, dans le cas de données non groupées (modèle binomial), le cadre asymptotique n est plus adapté car le nombre de paramètres estimés tend également vers l infini avec n et il ne faut plus se fier à ce test 42 Test de Pearson Un test du χ 2 est également utilisé pour comparer les valeurs observées y i à leur prévision par le modèle La statistique du test est définie par X 2 = I (y i ˆµ i ) 2 Var(ˆµ i ) (µ i est remplacé par n i π i dans le cas binomial) et on montre qu elle admet asymptotiquement la même loi que la déviance En pratique ces deux approches conduisent à des résultats peu différents et, dans le cas contraire, c est une indication de mauvaise approximation de la loi asymptotique Sachant que l espérance d une loi du χ 2 est son nombre de
5 degrés de liberté et, connaissant les aspects approximatifs des tests construits, l usage est souvent de comparer les statistiques avec le nombre de degrés de liberté le modèle peut être jugé satisfaisant pour un rapport D/ddl plus petit que 1 5 Tests Deux critères sont habituellement proposés pour aider au choix de modèle 51 Rapport de vraisemblance Comme dans le cas de la régression multiple où un test permet de comparer un modèle avec un modèle réduit, le rapport de vraisemblance ou la différence de déviance est une évaluation de l apport des variables explicatives supplémentaires dans l ajustement du modèle La différence des déviances entre deux modèles emboîtés respectivement à q 1 et q 2 (q 2 > q 1 ) variables explicatives D 2 D 1 = 2(L 1 L sat ) 2(L 2 L sat ) = 2(L 1 L 2 ) suit approximativement une loi du χ 2 à (q 2 q 1 ) degrés de liberté pour les lois à 1 paramètre (binomial, Poisson) et une loi de Fisher pour les lois à deux paramètres (gaussienne) Ceci permet donc de tester la significativité de la diminution de la déviance par l ajout de variables explicatives ou la prise en compte d interactions 52 Test de Wald Ce test est basé sur la forme quadratique faisant intervenir la matrice de covariance des paramètres, l inverse de la matrice d information observée (X WX) 1 Cette matrice est calculée à partir du Hessien approché par l algorithme de maximisation Elle généralise la matrice (X X) 1 utilisée dans le cas du modèle linéaire gaussien en faisant intervenir une matrice W de pondération Ainsi, test de Wald et test de Fisher sont équivalents dans le cas particulier du modèle gaussien Si la matrice K, dite contraste, définit l ensemble H 0 des hypothèses à tester sur les paramètres : K β = 0, on montre que la statistique suit asymptotiquement une loi du χ 2 (K b) (K (X WX) 1 K) 1 K b Attention, le test de Wald, approximatif, peut ne pas être précis si le nombre d observations est faible 6 Diagnostics De nombreux indicateurs, comme dans le cas de la régression linéaire multiple, sont proposés afin d évaluer la qualité ou la robustesse des modèles estimés Ils concernent la détection des valeurs influentes et l étude graphique des résidus La définition de ces derniers pose quelques difficultés 61 Effet levier On construit la matrice de projection (hat matrix) H = W 1/2 X(X WX) 1 X )W 1/2, relative au produit scalaire de matrice W, sur le sous-espace engendré par les variables explicatives Les termes diagonaux de cette matrice supérieurs à (3p/n) indiquent des valeurs potentiellement influentes Le graphe représentant les points d ordonnées h ii et d abscisses le numéro de l observation les visualise 62 Résidus Avec des erreurs centrées, additives, c est-à-dire dans le cas du modèle gaussien utilisant la fonction lien identité, il est naturel de définir des résidus par : ε i = y i E(y i ) = y i µ i comme dans le cas du modèle linéaire Ce cadre est ici inadapté au cas général et différents substituts sont proposés Chacun possède par ailleurs une version standardisée et une version studentisée
6 Pearson Les résidus obtenus en comparant valeurs observées y i et valeurs prédites ŷ i sont pondérés par leur précision estimée par l écart-type : s i de ŷ i Ceci définit les résidus de Pearson : r P i = y i ŷ i s i dont la somme des carrés conduit à la statistique du même nom Ces résidus mesurent donc la contribution de chaque observation à la significativité du test découlant de cette statistique Par analogie au modèle linéaire, on vérifie que ce sont également les résidus de la projection par la matrice H Ces résidus ne sont pas de variance unité et sont donc difficiles à interpréter Une estimation de leurs écarts-types conduit à la définition des résidus de Pearson standardisés : r P si = y i ŷ i s i hii faisant intervenir le terme diagonal de la matrice H De plus, prenant en compte que les estimations des écarts-types s i dépendent de la ième observation et sont donc biaisés, des résidus studentisés sont obtenus en approchant au premier ordre le paramètre de dispersion s (i) calculé sans la ième observation : r P ti = y i ŷ i s (i) hii Déviance Ces résidus mesurent la contribution de chaque observation à la déviance du modèle par rapport au modèle saturé Des versions standardisées et studentisées en sont définies comme pour ceux de Pearson Anscombe Les lois des résidus précédents sont inconnues et même dissymétriques Anscombe a donc proposé de faire opérer une transformation préalable afin de construire des résidus suivant une loi normale : r Ai = t(y i) t(ŷ i ) t (y i )s i L explicitation de la fonction t dans le cadre du modèle linéaire généralisé est relativement complexe mais le calcul en est fourni par les logiciels Comme précédemment, des versions standardisées et studentisées sont également calculées Un graphe utilisant ces résidus en ordonnées et les numéros d observation en abscisses permet d identifier les observations les moins bien ajustées par le modèle 63 Mesure d influence De nombreux indicateurs sont proposés afin d évaluer l influence d une observation sur l estimation d un paramètre, sur les prédictions ou encore sur la variance des estimateurs Le plus utilisé, la distance de Cook, mesure globalement l influence sur l ensemble des paramètres C est la distance, au sens de la métrique définie par l inverse de la covariance des paramètres, entre le vecteur des paramètres b estimé avec toutes les observations et celui estimé lorsque la ième observation est supprimée D i = 1 2 (b b (i)) (X WX) 1 (b b (i) ) Cet indicateur prend simultanément en compte l effet levier et l importance du résidu de chaque observation Le graphe de ces valeurs est donc plus synthétique et interprétable en tenant compte du graphe des résidus et de celui des termes diagonaux de H 7 Compléments 71 Sur-dispersion Dans certaines situations, par exemple lors d observations dépendantes, la variance de la variable Y i supposée binomiale ou de Poisson, qui est théoriquement fixée par le modèle, est plus importante, multipliée par un facteur d échelle (scale parameter) σ 2 Si ce paramètre est plus grand que 1, on dit qu il y a sur-dispersion Une méthode basée sur une maximisation de la formule de quasi-vraisemblance est alors utilisée pour estimer à la fois σ et β
7 72 Variable offset Lorsque la variable à expliquer dans le cas d un modèle linéaire généralisé dépend également linéairement d une autre variable, cette dernière est déclarée offset et sert ainsi à tarer le modèle Exemple : pour modéliser le nombre de sinistres déclarés par catégorie de conducteurs, la variable nombre de contrats est déclarée offset