1 Université Joseph Fourier L/STA30 TD7 Régression linéaire Objectifs : Epliquer un facteur modélisé par une variable aléatoire gaussienne à l aide d une variable eplicative, au vu d une série de n couples d observations des variables eplicatives et à epliquer. Construction d un modèle linéaire défini par trois paramètres inconnus. Estimer ces paramètres et valider le modèle ajusté. Si le modèle est déclaré satisfaisant calculer une prévision du facteur à epliquer, pour une nouvelle valeur de la variable eplicative. Eercice 1 Il s agit de traiter un eemple fictif, construit par Anscombe qui montre la nécessité d une analse des résidus pour juger de l adéquation du modèle ajusté. Il s agit de quatre jeu de 11 données dont les résultats numériques identiques sont résumés dans le tableau suivant. ȳ s s c jeu n.1 à 4 9.0 7.5 3. 1.9 5.00 Ajustez une droite de régression simple et calculez les diverses statistiques d ajustement (en particulier ˆσ et R ). On donne ci-dessous les quatre graphes correspondants. Vos Conclusions? jeu n. 1 jeu n. 4 5 6 7 8 9 10 11 3 4 5 6 7 8 9 4 6 8 10 1 14 4 6 8 10 1 14 jeu n. 3 jeu n. 4 6 8 10 1 6 8 10 1 4 6 8 10 1 14 8 10 1 14 16 18 Eercice On dit souvent que le pouls Y d une personne est relié à l âge X par Y = 0 X. Supposons que l on veuille le prouver empiriquement et que pour cela on dispose des observations
suivantes : âge 18 3 5 35 65 54 34 p 0 186 187 180 156 169 174 On donne les résultats suivants : âge 56 7 19 3 4 18 39 37 p 17 153 199 193 174 198 183 178 i = 560, i = 704, i = 5188, i = 490438, i i = 97534. Les données du pouls et de l âge confirment-elles la règle indiquée ci-dessus. (On pourra au seuil de 5%, tester a = 1 contre l hpothèse a 1, et b = 0 contre l hpothèse b 0..) Eercice 3 On veut prédire la hauteur H d un arbre en fonction de son diamètre D. Pour faire une régression linéaire, on effectue un changement de variable en posant Y = ln H et X = ln D. Voici les mesures faites sur 5 arbres. On donne les résultats suivants : X 1.61 1.0 0.97 0.51 0.4 Y..7.38.60.65 i = 4.71, i = 1.1, i = 5.4095, i = 9.58, i i = 11.0458. 1. Donner le coefficient de corrélation linéaire empirique entre X et Y.. Donner l équation de la droite de régression empirique de Y par rapport à X. 3. Tester la signification de cette régression au seuil 5%. 4. Donner la hauteur prévue d un arbre de diamètre 0.7. 5. Donner un intervalle de confiance de niveau 95% pour la prédiction d un arbre de diamètre 0.7. Eercice 4 On étudie la pollution de l air dans 41 villes américaines par la variable Y, mesurant le volume de So dans l air en micro-grammes par m 3, en fonction de la température moenne annuelle X, eprimée en degrés F. On donne les résultats numérique suivant : i = 86, i = 13, i = 19549, i = 59050, i i = 65698. 1. Donner l équation de la droite de régression empirique de Y par rapport à X.. Tester la régression linéaire au seuil de 1%, c est-à-dire faire le test a = 0 contre a 0.
3 Eercice 5 On souhaite vérifier si l augmentation du poids d un mouton dépend du poids de ce mouton. On cherche donc s il eiste deu constantes a et b telles que Y = ax + b + ε où X et Y sont les variables correspondant respectivement au poids des moutons avant et après suralimentation, et où Z est une variable aléatoire de loi N(0,σ ). Sur 10 moutons, on donne les résultats suivants : i = 406, i = 43, i = 16570, i = 18057, i i = 1780. 1. Estimer les paramètres a, b et σ.. Tester au seuil 5%, l hpothèse a = 1. contre l hpothèse a > 1.. Eercice 6 On a mesuré pour 16 malades atteints de leucémie : i le logarithme décimal du nombre de globules blancs le jour du diagnostic de la maladie, i le nombre de semaines de survie après le diagnostic. On suppose que chaque i est une observation d une loi N(a i + b,σ ) et que les 16 mesures sont indépendantes. On donne les résultats suivants i = 64.63, i = 1061, i = 66,457, i = 113611, i i = 397.6. 1. Estimer les paramètres a, b et σ.. Calculer un intervalle de confiance pour le paramètre σ, au seuil de 5%. 3. Calculer un intervalle de confiance pour le paramètre a, au seuil de 5%. 4. Tester l hpothèse a = 0 contre l hpothèse a 0 au seuil de 5%. Eercice 7 (Etrait de l eamen, DEUG SVST, juin 1997, Grenoble) Le volume d air epiré Y est une mesure standard du fonctionnement pulmonaire. Pour identifier une population possédant un fonctionnement pulmonaire anormal, il faut établir un modèle pour le volume d air epiré dans une population normale. Pour cela, on mesure Y et la taille X sur des garçons âgés de 10 à 15 ans. On obtient les résumés numériques suivants : i = 187, i = 3.3, i = 9430, i = 93.11, i i = 5156.0. 1. Quelles hpothèses faut-il faire pour pouvoir utiliser un modèle de régression linéaire?. Calculer les estimations des coefficients de la droite de régression linéaire ( = â + ˆb). Donner les valeurs du coefficient de corrélation ainsi que de la variance estimée. 3. Tester la pertinence de la régression, au risque de 1%. 4. Établir l intervalle de confiance de la valeur prédite pour = 160 cm, au niveau de confiance de 95%. 5. Est-il normal qu un adolescent de 1 ans, mesurant 160 cm, epire un volume d air de.7 litres?
4 Eercice 8 (Etrait de l eamen, DEUG SV, décembre 00, Grenoble) On envisage de prévoir la taille des oeufs de coucou susceptibles d être pondus dans un nid, à partir de ses dimensions. La variable Y désigne la variable longueur d un oeufs et la variable X le diamètre d un nid en mm. Pour chaque oeuf d un échantillon de n = 16 oeufs de coucou, on a relevé d une part la réalisation de Y et d autre part celle de X pour le nid où il a été trouvé. Les valeurs observées ( i, i ) du couple (X,Y ) sont les suivantes : i 100 113 110 106 11 105 107 108 i 19.8.1 1.5 0.9 0.8 1. 1 i 1 16 11 1 110 116 118 10 i 3.8 4.9 4 3.8 1.7.8 3.1 3.5 1. Préciser le modèle de régression linéaire approprié pour aborder le problème de prévision posé et les hpothèses de travail nécessaires pour appliquer l analse de ce modèle.. Calculer les estimations des paramètres a, b et σ du modèle correspondant au données (cf. indication numérique ci-dessous). 3. En choisissant un niveau de risque de 1%, faire le test de l hpothèse a = 0 contre l hpothèse a 0. 4. Le graphique des résidu standardisés de la régression estimée est donné ci-après. Commenter ce graphique et conclure quant à la validité du modèle. 5. On s intéresse au nids de 18 mm de diamètre et on cherche à prévoir la taille des oeufs de coucou qu on peut s attendre à trouver. (a) Quelle est la valeur prédite de la longueur de tels oeufs, c est-à-dire l estimation de la moenne de Y lorsque X = 18. (b) Déterminer l intervalle de confiance pour cette moenne au niveau de confiance 95%. (c) On suppose que la longueur des oeufs concernés est une variable aléatoire de loi normale de moenne 5.14 mm et de variance 0.0108 mm. Évaluer la probabilité qu un oeuf de coucou qu on trouve dans un nid de 18 mm de diamètre soit de longueur supérieure à 6 mm. Indications numériques : i = 1816, i = 356.9, i = 0695, i = 799.07, i i = 40668.3.
5 Valeurs résiduelles en fonction de l ordre des X Valeur résiduelle studentisée 1 0 1 5 10 15 Ordre d observation Eercice 9 (Etrait de l eamen, DEUG SV, décembre 000, Grenoble) Dans le cadre de travau de recherche sur la durée de la saison de végétation en montagne, des stations météorologiques sont installées à différentes altitudes. La température moenne ainsi que l altitude (en mètres) de chaque saison sont relevées et données dans le tableau ci-dessous : Alt. 1040 130 1500 1600 1740 1950 00 530 800 3100 Temp. 7.4 6 4.5 3.8.9 1.9 1-1. -1.5-4.5 A partir de l altitude d un lieu, on cherche à évaluer sa température moenne sans avoir implanter une nouvelle station. 1. Epliquer en quoi la méthode de régression linéaire est adaptée à cette problématique. Préciser le modèle approprié.. Formuler les hpothèses nécessaires à cette analse. 3. Calculer les estimations des paramètres a, b et σ. 4. Faire le test de pertinence permettant de vérifier que le coefficient a est non nul au risque de 5%. 5. On suppose que les hpothèses du modèle sont toutes vérifiées. Sachant qu une certaine plante ne survit qu à une température moenne supérieure à 6 o c, est-il raisonnable de penser que l on ne trouvera pas cette plante à une altitude de 3500 mètres? Indications numériques : i = 19690, i = 0.3, i = 495500, i = 16.41, i i = 17671.