TD1, sur la Régression Logistique (STA 2211)



Documents pareils
Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Probabilités sur un univers fini

TRANSPORT ET LOGISTIQUE :

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Probabilités sur un univers fini

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Annexe commune aux séries ES, L et S : boîtes et quantiles

La publication, au second

Cours de Tests paramétriques

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Correction du baccalauréat STMG Polynésie 17 juin 2014

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

«Cours Statistique et logiciel R»

Écoutez ce qui se dit sur l épargne-retraite au Canada

Parmi les nombreuses expériences qui transforment

Annexe VI au Protocole au Traité sur l Antarctique relatif à la protection de l environnement

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Correction de l examen de la première session

P1 : Corrigés des exercices

ASSOCIATION CANADIENNE DES PAIEMENTS RÈGLE 4 DU STPGV COMMENCEMENT DU CYCLE

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Réglementation des jeux de casino

Chapitre 2 Le problème de l unicité des solutions

Un régime d assurance? Si oui, lequel?

Probabilités conditionnelles Loi binomiale

Etude tendancielle de la SaarLB sur les énergies renouvelables

Estimation et tests statistiques, TD 5. Solutions

Exercices sur le chapitre «Probabilités»

Sommaire. Rentabilité du retour d une franchise de baseball de la Ligue majeure de baseball à Montréal (les «Expos»)

Principes de mathématiques 12 SÉRIE DE PROBLÈMES. Septembre Student Assessment and Program Evaluation Branch

Introduction à la statistique non paramétrique

Item 169 : Évaluation thérapeutique et niveau de preuve

NE PAS DISTRIBUER LE PRÉSENT COMMUNIQUÉ AUX AGENCES DE TRANSMISSION AMÉRICAINES ET NE PAS LE DIFFUSER AUX ÉTATS-UNIS

Economical présente un aperçu du projet de règlement sur la démutualisation des sociétés d assurances multirisques

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Calculs de probabilités conditionelles

TD 3 : suites réelles : application économique et nancière

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Une nouvelle norme mondiale sur la comptabilisation des produits

Introduction au Data-Mining

Qu est-ce que l effet de levier?

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Chapitre 2. Eléments pour comprendre un énoncé

Crédit-bail d équipement agricole

OBSERVATOIRE DE L EPARGNE EUROPEENNE

RÈGLEMENTS OFFICIELS DU CONCOURS «ET SI VOTRE PROJET D AMÉNAGEMENT VOUS FAISAIT GAGNER $ EN ARGENT?»

4 Distributions particulières de probabilités

TSTI 2D CH X : Exemples de lois à densité 1

Simulation de variables aléatoires

Qu est-ce qu une probabilité?

Lagrange, où λ 1 est pour la contrainte sur µ p ).

mathématiques mathématiques mathématiques mathématiques

Travaux dirigés d introduction aux Probabilités

Apllication au calcul financier

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Nobody s Unpredictable

Chapitre 3 : INFERENCE

COLLECTE DE FONDS Les écoles élémentaires et secondaires peuvent entreprendre des activités de collecte de fonds si :

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Transmission d informations sur le réseau électrique

PLAN DE LEÇON TITRE : Comprendre le crédit et votre rapport de solvabilité. Résultats d apprentissage de la littératie financière

Règlement de la promotion. «Spain in Detail/L Espagne en détail»

Formules et Approches Utilisées dans le Calcul du Coût Réel

Politique des stages. Direction des études

Introduction à l approche bootstrap

1 TD1 : rappels sur les ensembles et notion de probabilité

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

RECOMMANDATIONS PROPOSÉES

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

LES GENERATEURS DE NOMBRES ALEATOIRES

RENOUVELER ET RENÉGOCIER VOTRE PRÊT HYPOTHÉCAIRE

mathématiques mathématiques mathématiques mathématiques mathématiques mathématiques SÉRIE ES ANNALES DES SUJETS DE MATHÉMATIQUES SESSION 2013

Introduction des. comptes d épargne libre d impôt

Directives pour les fournisseurs concernant:

CHAPITRE 5. Stratégies Mixtes

DEMANDE D OUVERTURE DE COMPTE CONJOINT

La nouvelle planification de l échantillonnage

Sécurité par compression! ReSIST Gilles RICHARD IRIT

C R É D I T A G R I C O L E A S S U R A N C E S. Des attitudes des Européens face aux risques

RÉGIMES D ASSURANCE SALAIRE (RAS) MISE À JOUR DE

Probabilités et statistique. Benjamin JOURDAIN

Antivirus : les Français, rois du gratuit, les Russes, rois du payant

Processus aléatoires avec application en finance

Webinaire trimestriel ICCA/RBC: Tendances conjoncturelles - Options de financement de biens d'équipement

RENSEIGNEMENTS GÉNÉRAUX et RÈGLEMENTS DE PARTICIPATION. CONCOURS «Gagnez jusqu à $ avec Immo-Clic.ca!»

ilottery 2.0 DÉVELOPPER LE JEU En collaboration avec

Cours de méthodes de scoring

évaluations avec date de calcul à compter du 31 décembre 2014 (mais au plus tard le 30 décembre 2015).

Transcription:

TD, sur la Régression Logistique STA 22) Exercice : Un sondage international cité dans un article de presse le 4 décembre 2004) rapportait le faible taux d approbation de la politique du Président des États-Unis d Amérique, George W. Bush, dans les pays traditionnellement alliés des États-Unis : 32% au Canada, 30% au Royaume-Uni, 9% en Espagne et 7% en Allemagne. Soient Y la variable aléatoire binaire indiquant l approbation d une personne à la politique de G. W. Bush approuve, 0 désapprouve), X la variable indiquant si la personne est Canadienne Canadien, 0autre), X 2 la variable indiquant si la personne est Britannique Britannique, 0autre), X 3 la variable indiquant si la personne est Espagnol Espagnol, 0autre). Montrez qu en terme de modèle logistique les résultats du sondage se traduisent par logit[ PY X x, X 2 x 2, X 3 x 3 ).59 + 0.83x + 0.74x 2 + 0.4x 3. ).59 log 0.7/ 0.7) 0.83 log 0.74 log 0.4 log 0.32/ 0.32) 0.7/ 0.7) 0.30/ 0.30) 0.7/ 0.7) 0.9/ 0.9) 0.7/ 0.7) Exercice 2 : Soit Y une variable aléatoire à valeur dans {0, } et X une variable aléatoire réelle. Supposons que la distribution de X sachant Y j soit N µ j, σ 2) pour j 0,. Montrez que la distribution de Y sachant X suit un modèle logistique et exprimez les paramètres du modèle en fonction de µ, µ 2, σ et PY ).

D après le théorème de Bayes, avec D où PY X x) fx Y j) σ 2π exp PY X x) fx Y )PY ) fx Y )PY ) + fx Y 0)PY 0), [ x µ j) 2 exp [ x µ ) 2, j 0,. exp x µ ) 2 + ) exp + ) + ) + ) exp x µ ) 2 x µ 0) 2 exp 2x µ µ 0 )µ 0 µ ) 2xµ0 µ exp ) µ 2 µ2 0 ) x µ 0) 2 et ainsi, PY X x) + exp[ α + βx) expα + βx) + expα + βx) avec ) α log + µ2 µ 2 0 β µ µ 0 σ 2 Exercice 3 : En épidémiologie, il est fréquent de s intéresser à l étude de maladies rares. Lorsqu on sélectionne aléatoirement un échantillon de personnes dans la population par exemple par tirage au sort sur les listes électorales), les données contiennent alors souvent très peu de personnes atteintes de cette maladie. 2

Question Soit π la prévalence de la maladie rare dans la population, c est à dire la probabilité qu un individu tiré au hasard soit malade. Soit n la taille d un échantillon de la population tiré au hasard. Soit Z n le nombre de personnes malades observé dans un échantillon aléatoire de taille n.. Proposez un intervalle de fluctuation à 95% de Z n pour n grand, c est à dire un intervalle dans lequel Z n sera inclut avec une probabilité de 95% pour n grand. D après le Théorème Central Limite TCL), pour n grand alors on a approximativement Zn n n π N 0, π π). D où, pour n grand, l intervalle [nπ ± z α/2 nπ π), ) où z α/2 est le quantile à 00 α/2)% d un loi normale centrée réduite, contient Z n avec une probabilité approximativement égale à α. Pour 5%, on connaît z α/2.96..2 En déduire un intervalle de fluctuation de Z n pour n 000 et π 0.006. Numériquement, [ 000 0.006 ±.96 000 0.006 0.006) [;.2 Supposons que i) π 0.006, ii) que les épidémiologies n ont d argent que pour interroger n 000 personnes et iii) qu ils récoltent leurs données en interrogeant des personnes tirées aléatoirement sur les listes électorales. Pensez vous que les épidémiologistes auront alors probablement assez de données pour estimer un modèle logistique pour étudier cette maladie rare? Question 2 Les épidémiologistes souhaitent collecter leurs données retrospectivement, c est à dire qu ils choisissent d interroger n patients malades récemment diagnostiqués à l hôpital) et n 0 personnes non malades, ces derniers étant tirés au sort sur les listes électorales, pour faire des comparaisons. Soit Y la variable aléatoire binaire à expliquer Y signifiant malade, Y 0 non malade) et X X,..., X p ) le vecteurs des variables explicatives qui modélise les informations qu ils récoltent sur chaque personne. On cherche à modéliser la probabilité de Y sachant X dans la population générale. 3

2. Rappelez la définition du modèle logistique. Pour tout X X,..., X p ) x,..., x p ) x : p PY X x) eβ 0+ j β jx j + e β 0+ p j β jx j On définit par S la variable aléatoire binaire qui indique si une personne dans la population générale) est inclue dans l échantillon S ) ou non S 0). 2.2 Quelles sont les valeurs des probabilités τ PY S ) et PY 0 S )? τ n /n + n 0 ) n 0 /n + n 0 ) 2.3 Pourquoi est-il raisonnable de supposer que quelque soit j {0, }, pour tout x x on a la relation suivante? PS Y j, X x) PS Y j, X x ) 2) Ici on suppose que les informations X) sont récoltés après le tirage au sort. Les probabilités d être tiré au sort sachant le statut malade ou non) n ont donc aucune raison de dépendre de X i.e. des réponses des personnes aux questions de l enquête). Dans la suite on suppose 2) et on pose τ PS Y ), PS Y 0), px) PY X x, S ) et πx) PY X x). 2.3 Montrez que logit{px)} log τ ) + logit{πx)} 3) 4

px) PY X x, S ) PS Y, X x)py X x) PS Y, X x)py X x) + PS Y 0, X x)py 0 X x) τ PY X x) τ PY X x) + PY 0 X x) τ πx) τ πx) + πx) τ πx) ) / τ πx) ) πx) πx) + d où logit { px) } τ log τ log πx) ) πx) + logit{πx)} Question 3 En déduire si la collecte rétrospective des données permet d estimer simplement certains paramètres du modèle logistique, et si oui, lesquels? Conclure : une approche consistant à collecter rétrospectivement des données pour ensuite les analyser avec un modèle logistique vous parait-elle puissante pour l étude des facteurs de risques d une maladie rare? Oui, tous les paramètres sauf β 0. La collecte rétrospective de données et l utilisation du modèle logistique est une méthode puissante pour l étude des facteurs de risque d une maladie rare 5