TD1, sur la Régression Logistique (STA 2211)

TD, sur la Régression Logistique STA 22) Exercice : Un sondage international cité dans un article de presse le 4 décembre 2004) rapportait le faible taux d approbation de la politique du Président des États-Unis d Amérique, George W. Bush, dans les pays traditionnellement alliés des États-Unis : 32% au Canada, 30% au Royaume-Uni, 9% en Espagne et 7% en Allemagne. Soient Y la variable aléatoire binaire indiquant l approbation d une personne à la politique de G. W. Bush approuve, 0 désapprouve), X la variable indiquant si la personne est Canadienne Canadien, 0autre), X 2 la variable indiquant si la personne est Britannique Britannique, 0autre), X 3 la variable indiquant si la personne est Espagnol Espagnol, 0autre). Montrez qu en terme de modèle logistique les résultats du sondage se traduisent par logit[ PY X x, X 2 x 2, X 3 x 3 ).59 + 0.83x + 0.74x 2 + 0.4x 3. ).59 log 0.7/ 0.7) 0.83 log 0.74 log 0.4 log 0.32/ 0.32) 0.7/ 0.7) 0.30/ 0.30) 0.7/ 0.7) 0.9/ 0.9) 0.7/ 0.7) Exercice 2 : Soit Y une variable aléatoire à valeur dans {0, } et X une variable aléatoire réelle. Supposons que la distribution de X sachant Y j soit N µ j, σ 2) pour j 0,. Montrez que la distribution de Y sachant X suit un modèle logistique et exprimez les paramètres du modèle en fonction de µ, µ 2, σ et PY ).

D après le théorème de Bayes, avec D où PY X x) fx Y j) σ 2π exp PY X x) fx Y )PY ) fx Y )PY ) + fx Y 0)PY 0), [ x µ j) 2 exp [ x µ ) 2, j 0,. exp x µ ) 2 + ) exp + ) + ) + ) exp x µ ) 2 x µ 0) 2 exp 2x µ µ 0 )µ 0 µ ) 2xµ0 µ exp ) µ 2 µ2 0 ) x µ 0) 2 et ainsi, PY X x) + exp[ α + βx) expα + βx) + expα + βx) avec ) α log + µ2 µ 2 0 β µ µ 0 σ 2 Exercice 3 : En épidémiologie, il est fréquent de s intéresser à l étude de maladies rares. Lorsqu on sélectionne aléatoirement un échantillon de personnes dans la population par exemple par tirage au sort sur les listes électorales), les données contiennent alors souvent très peu de personnes atteintes de cette maladie. 2

Question Soit π la prévalence de la maladie rare dans la population, c est à dire la probabilité qu un individu tiré au hasard soit malade. Soit n la taille d un échantillon de la population tiré au hasard. Soit Z n le nombre de personnes malades observé dans un échantillon aléatoire de taille n.. Proposez un intervalle de fluctuation à 95% de Z n pour n grand, c est à dire un intervalle dans lequel Z n sera inclut avec une probabilité de 95% pour n grand. D après le Théorème Central Limite TCL), pour n grand alors on a approximativement Zn n n π N 0, π π). D où, pour n grand, l intervalle [nπ ± z α/2 nπ π), ) où z α/2 est le quantile à 00 α/2)% d un loi normale centrée réduite, contient Z n avec une probabilité approximativement égale à α. Pour 5%, on connaît z α/2.96..2 En déduire un intervalle de fluctuation de Z n pour n 000 et π 0.006. Numériquement, [ 000 0.006 ±.96 000 0.006 0.006) [;.2 Supposons que i) π 0.006, ii) que les épidémiologies n ont d argent que pour interroger n 000 personnes et iii) qu ils récoltent leurs données en interrogeant des personnes tirées aléatoirement sur les listes électorales. Pensez vous que les épidémiologistes auront alors probablement assez de données pour estimer un modèle logistique pour étudier cette maladie rare? Question 2 Les épidémiologistes souhaitent collecter leurs données retrospectivement, c est à dire qu ils choisissent d interroger n patients malades récemment diagnostiqués à l hôpital) et n 0 personnes non malades, ces derniers étant tirés au sort sur les listes électorales, pour faire des comparaisons. Soit Y la variable aléatoire binaire à expliquer Y signifiant malade, Y 0 non malade) et X X,..., X p ) le vecteurs des variables explicatives qui modélise les informations qu ils récoltent sur chaque personne. On cherche à modéliser la probabilité de Y sachant X dans la population générale. 3

2. Rappelez la définition du modèle logistique. Pour tout X X,..., X p ) x,..., x p ) x : p PY X x) eβ 0+ j β jx j + e β 0+ p j β jx j On définit par S la variable aléatoire binaire qui indique si une personne dans la population générale) est inclue dans l échantillon S ) ou non S 0). 2.2 Quelles sont les valeurs des probabilités τ PY S ) et PY 0 S )? τ n /n + n 0 ) n 0 /n + n 0 ) 2.3 Pourquoi est-il raisonnable de supposer que quelque soit j {0, }, pour tout x x on a la relation suivante? PS Y j, X x) PS Y j, X x ) 2) Ici on suppose que les informations X) sont récoltés après le tirage au sort. Les probabilités d être tiré au sort sachant le statut malade ou non) n ont donc aucune raison de dépendre de X i.e. des réponses des personnes aux questions de l enquête). Dans la suite on suppose 2) et on pose τ PS Y ), PS Y 0), px) PY X x, S ) et πx) PY X x). 2.3 Montrez que logit{px)} log τ ) + logit{πx)} 3) 4

px) PY X x, S ) PS Y, X x)py X x) PS Y, X x)py X x) + PS Y 0, X x)py 0 X x) τ PY X x) τ PY X x) + PY 0 X x) τ πx) τ πx) + πx) τ πx) ) / τ πx) ) πx) πx) + d où logit { px) } τ log τ log πx) ) πx) + logit{πx)} Question 3 En déduire si la collecte rétrospective des données permet d estimer simplement certains paramètres du modèle logistique, et si oui, lesquels? Conclure : une approche consistant à collecter rétrospectivement des données pour ensuite les analyser avec un modèle logistique vous parait-elle puissante pour l étude des facteurs de risques d une maladie rare? Oui, tous les paramètres sauf β 0. La collecte rétrospective de données et l utilisation du modèle logistique est une méthode puissante pour l étude des facteurs de risque d une maladie rare 5