TD7 Régression linéaire



Documents pareils
Chapitre 6. Fonction réelle d une variable réelle

Dérivées et différentielles des fonctions de plusieurs variables

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Chapitre 3. Les distributions à deux variables

UNIVERSITE DE TOULON UFR FACULTE DE DROIT REGLEMENT D EXAMEN ANNEE 2012/2017 LICENCE DROIT MENTION DROIT GENERAL

Fonction réciproque. Christelle MELODELIMA. Chapitre 2 :

Analyse de la variance Comparaison de plusieurs moyennes

DUT Techniques de commercialisation Mathématiques et statistiques appliquées

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Principe d un test statistique

Correction du bac blanc CFE Mercatique

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

Que faire lorsqu on considère plusieurs variables en même temps?

La médiatrice d un segment

Feuille TD n 1 Exercices d algorithmique éléments de correction

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Développements limités, équivalents et calculs de limites

Estimation et tests statistiques, TD 5. Solutions

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Cours Fonctions de deux variables

Limites finies en un point

Mathématiques financières

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Algèbre binaire et Circuits logiques ( )

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Chapitre 2 Le problème de l unicité des solutions

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

TD 1 - Structures de Traits et Unification

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Une réponse (très) partielle à la deuxième question : Calcul des exposants critiques en champ moyen

Relation entre deux variables : estimation de la corrélation linéaire

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Théorie des Graphes Cours 3: Forêts et Arbres II / Modélisation

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Perrothon Sandrine UV Visible. Spectrophotométrie d'absorption moléculaire Étude et dosage de la vitamine B 6

Exprimer ce coefficient de proportionnalité sous forme de pourcentage : 3,5 %

Analyse en Composantes Principales

Enoncé et corrigé du brevet des collèges dans les académies d Aix- Marseille, Montpellier, Nice Corse et Toulouse en Énoncé.

CHAPITRE 2 SYSTEMES D INEQUATIONS A DEUX INCONNUES

Actualités sur la sélection des pondeuses Prospections futures. Dr. Matthias Schmutz, Lohmann Tierzucht

Baccalauréat ES Amérique du Nord 4 juin 2008

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Dérivées d ordres supérieurs. Application à l étude d extrema.

Planche n o 22. Fonctions de plusieurs variables. Corrigé

Probabilités conditionnelles Exercices corrigés

Optimisation des fonctions de plusieurs variables

Chapitre 1 : Évolution COURS

Correction du baccalauréat ES/L Métropole 20 juin 2014

enquête pour les fautes sur le fond, ce qui est graves pour une encyclopédie.

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Correction du baccalauréat S Liban juin 2007

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

1. L'été le plus chaud que la France ait connu ces cinquante dernières années.

SOMMAIRE. Introduction...05 Domaine d'application...05 Visées des textes existants...06

Chapitre 6: Moment cinétique

BACCALAURÉAT PROFESSIONNEL SUJET

OLYMPIADES ACADÉMIQUES DE MATHÉMATIQUES

Microsoft Excel : tables de données

500 W sur 13cm avec les modules PowerWave

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

PROBLEME(12) Première partie : Peinture des murs et du plafond.

Continuité et dérivabilité d une fonction

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

MIS 102 Initiation à l Informatique

TSTT ACC OUTILS DE GESTION COMMERCIALE FICHE 1 : LES MARGES

LE PRODUIT SCALAIRE ( En première S )

Dans cette directive, «autorisé(s) ou autorisée(s)» signifie autorisé(s) ou autorisée(s) en vertu de la Loi sur les terres publiques;

Valérie Roy-Fortin, agr. Bio pour tous! - 6 mars 2015

Exemples d application

BAIES RESEAUX 19" SÉRIE OPTIMAL ::ROF

1 cadre. 3 c 5 c. 7c 9 c. Actu Api n 19

10 leçon 2. Leçon n 2 : Contact entre deux solides. Frottement de glissement. Exemples. (PC ou 1 er CU)

Une forme générale de la conjecture abc

Caisson bas. Notice de montage. Pour caissons de taille : Structure du caisson. 1 personne 4. Retrouvez toutes les informations sur

La petite poule qui voulait voir la mer

AUTRES ASPECTS DU GPS. Partie I : tolérance de Battement Partie II : tolérancement par frontières

Object detection in underwater images

COMPTE-RENDU «MATHS EN JEANS» LYCEE OZENNE Groupe 1 : Comment faire une carte juste de la Terre?

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Exo7. Limites de fonctions. 1 Théorie. 2 Calculs

TD1 Signaux, énergie et puissance, signaux aléatoires

BONUS MALUS. Voici, la façon de calculer la prime : Le montant de la prime à acquitter est égale à : P = PB. C où : P

Problème 1 : applications du plan affine

VII Escaliers et rampes

Terminale SMS - STL

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Le suivi de la qualité. Méthode MSP : généralités

LE PROCESSUS ( la machine) la fonction f. ( On lit : «fonction f qui à x associe f (x)» )

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Cryptographie. Master de cryptographie Architectures PKI. 23 mars Université Rennes 1

INTRODUCTION. A- Modélisation et paramétrage : CHAPITRE I : MODÉLISATION. I. Paramétrage de la position d un solide : (S1) O O1 X

Transcription:

1 Université Joseph Fourier L/STA30 TD7 Régression linéaire Objectifs : Epliquer un facteur modélisé par une variable aléatoire gaussienne à l aide d une variable eplicative, au vu d une série de n couples d observations des variables eplicatives et à epliquer. Construction d un modèle linéaire défini par trois paramètres inconnus. Estimer ces paramètres et valider le modèle ajusté. Si le modèle est déclaré satisfaisant calculer une prévision du facteur à epliquer, pour une nouvelle valeur de la variable eplicative. Eercice 1 Il s agit de traiter un eemple fictif, construit par Anscombe qui montre la nécessité d une analse des résidus pour juger de l adéquation du modèle ajusté. Il s agit de quatre jeu de 11 données dont les résultats numériques identiques sont résumés dans le tableau suivant. ȳ s s c jeu n.1 à 4 9.0 7.5 3. 1.9 5.00 Ajustez une droite de régression simple et calculez les diverses statistiques d ajustement (en particulier ˆσ et R ). On donne ci-dessous les quatre graphes correspondants. Vos Conclusions? jeu n. 1 jeu n. 4 5 6 7 8 9 10 11 3 4 5 6 7 8 9 4 6 8 10 1 14 4 6 8 10 1 14 jeu n. 3 jeu n. 4 6 8 10 1 6 8 10 1 4 6 8 10 1 14 8 10 1 14 16 18 Eercice On dit souvent que le pouls Y d une personne est relié à l âge X par Y = 0 X. Supposons que l on veuille le prouver empiriquement et que pour cela on dispose des observations

suivantes : âge 18 3 5 35 65 54 34 p 0 186 187 180 156 169 174 On donne les résultats suivants : âge 56 7 19 3 4 18 39 37 p 17 153 199 193 174 198 183 178 i = 560, i = 704, i = 5188, i = 490438, i i = 97534. Les données du pouls et de l âge confirment-elles la règle indiquée ci-dessus. (On pourra au seuil de 5%, tester a = 1 contre l hpothèse a 1, et b = 0 contre l hpothèse b 0..) Eercice 3 On veut prédire la hauteur H d un arbre en fonction de son diamètre D. Pour faire une régression linéaire, on effectue un changement de variable en posant Y = ln H et X = ln D. Voici les mesures faites sur 5 arbres. On donne les résultats suivants : X 1.61 1.0 0.97 0.51 0.4 Y..7.38.60.65 i = 4.71, i = 1.1, i = 5.4095, i = 9.58, i i = 11.0458. 1. Donner le coefficient de corrélation linéaire empirique entre X et Y.. Donner l équation de la droite de régression empirique de Y par rapport à X. 3. Tester la signification de cette régression au seuil 5%. 4. Donner la hauteur prévue d un arbre de diamètre 0.7. 5. Donner un intervalle de confiance de niveau 95% pour la prédiction d un arbre de diamètre 0.7. Eercice 4 On étudie la pollution de l air dans 41 villes américaines par la variable Y, mesurant le volume de So dans l air en micro-grammes par m 3, en fonction de la température moenne annuelle X, eprimée en degrés F. On donne les résultats numérique suivant : i = 86, i = 13, i = 19549, i = 59050, i i = 65698. 1. Donner l équation de la droite de régression empirique de Y par rapport à X.. Tester la régression linéaire au seuil de 1%, c est-à-dire faire le test a = 0 contre a 0.

3 Eercice 5 On souhaite vérifier si l augmentation du poids d un mouton dépend du poids de ce mouton. On cherche donc s il eiste deu constantes a et b telles que Y = ax + b + ε où X et Y sont les variables correspondant respectivement au poids des moutons avant et après suralimentation, et où Z est une variable aléatoire de loi N(0,σ ). Sur 10 moutons, on donne les résultats suivants : i = 406, i = 43, i = 16570, i = 18057, i i = 1780. 1. Estimer les paramètres a, b et σ.. Tester au seuil 5%, l hpothèse a = 1. contre l hpothèse a > 1.. Eercice 6 On a mesuré pour 16 malades atteints de leucémie : i le logarithme décimal du nombre de globules blancs le jour du diagnostic de la maladie, i le nombre de semaines de survie après le diagnostic. On suppose que chaque i est une observation d une loi N(a i + b,σ ) et que les 16 mesures sont indépendantes. On donne les résultats suivants i = 64.63, i = 1061, i = 66,457, i = 113611, i i = 397.6. 1. Estimer les paramètres a, b et σ.. Calculer un intervalle de confiance pour le paramètre σ, au seuil de 5%. 3. Calculer un intervalle de confiance pour le paramètre a, au seuil de 5%. 4. Tester l hpothèse a = 0 contre l hpothèse a 0 au seuil de 5%. Eercice 7 (Etrait de l eamen, DEUG SVST, juin 1997, Grenoble) Le volume d air epiré Y est une mesure standard du fonctionnement pulmonaire. Pour identifier une population possédant un fonctionnement pulmonaire anormal, il faut établir un modèle pour le volume d air epiré dans une population normale. Pour cela, on mesure Y et la taille X sur des garçons âgés de 10 à 15 ans. On obtient les résumés numériques suivants : i = 187, i = 3.3, i = 9430, i = 93.11, i i = 5156.0. 1. Quelles hpothèses faut-il faire pour pouvoir utiliser un modèle de régression linéaire?. Calculer les estimations des coefficients de la droite de régression linéaire ( = â + ˆb). Donner les valeurs du coefficient de corrélation ainsi que de la variance estimée. 3. Tester la pertinence de la régression, au risque de 1%. 4. Établir l intervalle de confiance de la valeur prédite pour = 160 cm, au niveau de confiance de 95%. 5. Est-il normal qu un adolescent de 1 ans, mesurant 160 cm, epire un volume d air de.7 litres?

4 Eercice 8 (Etrait de l eamen, DEUG SV, décembre 00, Grenoble) On envisage de prévoir la taille des oeufs de coucou susceptibles d être pondus dans un nid, à partir de ses dimensions. La variable Y désigne la variable longueur d un oeufs et la variable X le diamètre d un nid en mm. Pour chaque oeuf d un échantillon de n = 16 oeufs de coucou, on a relevé d une part la réalisation de Y et d autre part celle de X pour le nid où il a été trouvé. Les valeurs observées ( i, i ) du couple (X,Y ) sont les suivantes : i 100 113 110 106 11 105 107 108 i 19.8.1 1.5 0.9 0.8 1. 1 i 1 16 11 1 110 116 118 10 i 3.8 4.9 4 3.8 1.7.8 3.1 3.5 1. Préciser le modèle de régression linéaire approprié pour aborder le problème de prévision posé et les hpothèses de travail nécessaires pour appliquer l analse de ce modèle.. Calculer les estimations des paramètres a, b et σ du modèle correspondant au données (cf. indication numérique ci-dessous). 3. En choisissant un niveau de risque de 1%, faire le test de l hpothèse a = 0 contre l hpothèse a 0. 4. Le graphique des résidu standardisés de la régression estimée est donné ci-après. Commenter ce graphique et conclure quant à la validité du modèle. 5. On s intéresse au nids de 18 mm de diamètre et on cherche à prévoir la taille des oeufs de coucou qu on peut s attendre à trouver. (a) Quelle est la valeur prédite de la longueur de tels oeufs, c est-à-dire l estimation de la moenne de Y lorsque X = 18. (b) Déterminer l intervalle de confiance pour cette moenne au niveau de confiance 95%. (c) On suppose que la longueur des oeufs concernés est une variable aléatoire de loi normale de moenne 5.14 mm et de variance 0.0108 mm. Évaluer la probabilité qu un oeuf de coucou qu on trouve dans un nid de 18 mm de diamètre soit de longueur supérieure à 6 mm. Indications numériques : i = 1816, i = 356.9, i = 0695, i = 799.07, i i = 40668.3.

5 Valeurs résiduelles en fonction de l ordre des X Valeur résiduelle studentisée 1 0 1 5 10 15 Ordre d observation Eercice 9 (Etrait de l eamen, DEUG SV, décembre 000, Grenoble) Dans le cadre de travau de recherche sur la durée de la saison de végétation en montagne, des stations météorologiques sont installées à différentes altitudes. La température moenne ainsi que l altitude (en mètres) de chaque saison sont relevées et données dans le tableau ci-dessous : Alt. 1040 130 1500 1600 1740 1950 00 530 800 3100 Temp. 7.4 6 4.5 3.8.9 1.9 1-1. -1.5-4.5 A partir de l altitude d un lieu, on cherche à évaluer sa température moenne sans avoir implanter une nouvelle station. 1. Epliquer en quoi la méthode de régression linéaire est adaptée à cette problématique. Préciser le modèle approprié.. Formuler les hpothèses nécessaires à cette analse. 3. Calculer les estimations des paramètres a, b et σ. 4. Faire le test de pertinence permettant de vérifier que le coefficient a est non nul au risque de 5%. 5. On suppose que les hpothèses du modèle sont toutes vérifiées. Sachant qu une certaine plante ne survit qu à une température moenne supérieure à 6 o c, est-il raisonnable de penser que l on ne trouvera pas cette plante à une altitude de 3500 mètres? Indications numériques : i = 19690, i = 0.3, i = 495500, i = 16.41, i i = 17671.