12. Régression linéaire simple

Documents pareils
3. Caractéristiques et fonctions d une v.a.

Analyse de la variance Comparaison de plusieurs moyennes

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

STATISTIQUES. UE Modélisation pour la biologie

Principe d un test statistique

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Chapitre 3. Les distributions à deux variables

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Exemples d application

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Régression linéaire. Nicolas Turenne INRA

14. Introduction aux files d attente

Introduction aux Statistiques et à l utilisation du logiciel R

Équations non linéaires

Leçon N 4 : Statistiques à deux variables

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

TESTS D'HYPOTHESES Etude d'un exemple

Estimation et tests statistiques, TD 5. Solutions

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Le Modèle Linéaire par l exemple :

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Relation entre deux variables : estimation de la corrélation linéaire

Cours de Tests paramétriques

Econométrie et applications

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Chapitre 2 Le problème de l unicité des solutions

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Analyse en Composantes Principales

Introduction à l approche bootstrap

Introduction à la statistique non paramétrique

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Température corporelle d un castor (une petite introduction aux séries temporelles)

Sujet 4: Programmation stochastique propriétés de fonction de recours

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

L exclusion mutuelle distribuée

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

données en connaissance et en actions?

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Fonctions de plusieurs variables

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

Cours de méthodes de scoring

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

1 Complément sur la projection du nuage des individus

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Principe de symétrisation pour la construction d un test adaptatif

3. Conditionnement P (B)

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Modèles et Méthodes de Réservation

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

1 Définition de la non stationnarité

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Biostatistiques : Petits effectifs

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Apprentissage non paramétrique en régression

Probabilité et Statistique pour le DEA de Biosciences. Avner Bar-Hen

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

Évaluation de la régression bornée

Cours 7 : Utilisation de modules sous python

Lire ; Compter ; Tester... avec R

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

Validation probabiliste d un Système de Prévision d Ensemble

Introduction à la théorie des files d'attente. Claude Chaudet

Logiciel XLSTAT version rue Damrémont PARIS

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

La classification automatique de données quantitatives

Aide-mémoire de statistique appliquée à la biologie

Annexe commune aux séries ES, L et S : boîtes et quantiles

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

CHAPITRE 5. Stratégies Mixtes

DOCM Solutions officielles = n 2 10.

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Probabilités conditionnelles Loi binomiale

Introduction à la Statistique Inférentielle

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun>

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Analyse des durées de vie avec le logiciel R

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Travaux Pratiques d Optique

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Espérance conditionnelle

PROBABILITES ET STATISTIQUE I&II

Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables

Coup de Projecteur sur les Réseaux de Neurones

Équivalence et Non-infériorité

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Chapitre 3 : INFERENCE

Simulation de variables aléatoires

Table des matières. I Mise à niveau 11. Préface

Notes de cours Statistique avec le logiciel R

Transcription:

12. Régression linéaire simple MTH2302D S. Le Digabel, École Polytechnique de Montréal A2016 (v1) MTH2302D: régression 1/45

Plan 1. Introduction 2. Régression linéaire simple 3. Estimation des paramètres 4. Intervalles de confiance et tests 5. Analyse des résidus 6. Corrélation MTH2302D: régression 2/45

1. Introduction 2. Régression linéaire simple 3. Estimation des paramètres 4. Intervalles de confiance et tests 5. Analyse des résidus 6. Corrélation MTH2302D: régression 3/45

Régression linéaire : introduction But : établir un lien entre une variable dépendante Y et une variable indépendante X pour pouvoir ensuite faire des prévisions sur Y lorsque X est mesurée. Exemple 1 L analyse de la température de fonctionnement d un procédé chimique sur le rendement du produit a donné les valeurs suivantes pour la température X i et le rendement correspondant Y i : Température C Rendement % Température C Rendement % 100 45 150 70 110 51 160 74 120 54 170 78 130 61 180 85 140 66 190 89 MTH2302D: régression 4/45

Exemple 1 (suite) Le graphe ci-dessous représente les points (X i, Y i ) pour ces données et suggère une relation linéaire entre X et Y. 90 rendement vs température 85 80 75 70 65 60 55 50 45 40 90 110 130 150 170 190 MTH2302D: régression 5/45

1. Introduction 2. Régression linéaire simple 3. Estimation des paramètres 4. Intervalles de confiance et tests 5. Analyse des résidus 6. Corrélation MTH2302D: régression 6/45

Modèle linéaire Définition Un modèle de régression linéaire simple est de la forme où Y = β 0 + β 1 X + ε Y est la variable dépendante (une v.a.). β 0 et β 1 sont les coefficients (ordonnée à l origine et pente). X est la variable indépendante (variable explicative). ε est une erreur aléatoire. MTH2302D: régression 7/45

Modèle linéaire (suite) L espérance de Y pour chaque X est le point sur la droite d équation E(Y X) = β 0 + β 1 X. On suppose que Pour chaque valeur de X, E(ε) = 0 et V(ε) = σ 2. ε N(0, σ 2 ). Les erreurs ε sont indépendantes (non corrélées). On cherche à Estimer les paramètres β 0, β 1 et σ 2. Vérifier si le modèle est adéquat. MTH2302D: régression 8/45

1. Introduction 2. Régression linéaire simple 3. Estimation des paramètres 4. Intervalles de confiance et tests 5. Analyse des résidus 6. Corrélation MTH2302D: régression 9/45

Paramètres β 0 et β 1 Supposons que n paires d observations (X 1, Y 1 ), (X 2, Y 2 ),..., (X n, Y n ) ont été faites. Substituant dans le modèle linéaire, on obtient Y i = β 0 + β 1 X i + ε i ε i = Y i β 0 β 1 X i. Les coefficients sont déterminés par la méthode des moindres carrés qui minimise la somme des carrés des erreurs : L(β 0, β 1 ) = n (Y i β 0 β 1 X i ) 2. i=1 On résout le système de deux équations à deux inconnues L( ˆβ 0, ˆβ 1 ) = 0. MTH2302D: régression 10/45

Paramètres β 0 et β 1 (suite) ˆβ 0 = Y ˆβ 1 X L( ˆβ 0, ˆβ 1 ) = 0 n i=1 ˆβ 1 = X iy i n X Y n i=1 X2 i avec nx2 X = 1 n n i=1 X i et Y = 1 n n i=1 Y i. = S XY S XX S XX = n i=1 (X i X) 2 = n i=1 X2 i nx2 = (n 1)S 2. S Y Y = n i=1 (Y i Y ) 2 = n i=1 Y 2 i ny 2. S XY = n i=1 (X i X)(Y i Y ) = n i=1 X iy i n X Y. Exemple 2 : retrouver ces formules. MTH2302D: régression 11/45

Droite de régression pour l exemple 1 90 85 80 75 70 65 données droite de régression 60 55 50 45 40 90 110 130 150 170 190 Voir fichier Excel. MTH2302D: régression 12/45

Propriétés de β 0 et β 1 La droite de régression estimée est Ŷ = ˆβ 0 + ˆβ 1 X. Les variables aléatoires ˆβ 0 et ˆβ 1 sont des estimateurs de l ordonnée à l origine β 0 et de la pente β 1. Théorème 1. E( ˆβ 0 ) = β 0 et E( ˆβ 1 ) = β 1 (estimateurs non biaisés). [ ] 2. V( ˆβ 0 ) = σ 2 1 n + X2 et V( S ˆβ 1 ) = σ2. XX S XX 3. Cov( ˆβ 0, ˆβ 1 ) = σ2 X S XX. MTH2302D: régression 13/45

Paramètre σ 2 Rappel : le modèle de régression est Y = β 0 + β 1 X + ε avec ε N(0, σ 2 ). La différence entre la valeur estimée Ŷi = ˆβ 0 + ˆβ 1 X i et la valeur observée Y i est appelée résidu et est dénotée E i = Ŷi Y i. On définit La somme des carrés dûe à l erreur par SS E = n Ei 2 = i=1 n (Ŷi Y i ) 2. i=1 La somme des carrés dûe à la régression par SS R = n i=1 (Ŷi Y ) 2 = ˆβ 2 1S XX = S2 XY S XX. MTH2302D: régression 14/45

Paramètre σ 2 (suite) La quantité S Y Y décomposer par représente la variabilité totale des Y i. On peut la S Y Y = SS T = SS E + SS R. Théorème 1. E(SS E ) = (n 2)σ 2. 2. ˆσ 2 = SS E n 2 MS E est donc un estimateur sans biais de σ 2. MTH2302D: régression 15/45

Exemple 1 (suite) L analyse de la température de fonctionnement d un procédé chimique sur le rendement du produit a donné les valeurs suivantes pour la température X i et le rendement correspondant Y i : Température C Rendement % Température C Rendement % 100 45 150 70 110 51 160 74 120 54 170 78 130 61 180 85 140 66 190 89 Voir fichier Excel. MTH2302D: régression 16/45

1. Introduction 2. Régression linéaire simple 3. Estimation des paramètres 4. Intervalles de confiance et tests 5. Analyse des résidus 6. Corrélation MTH2302D: régression 17/45

Distributions pour ˆβ 0 et ˆβ 1 Théorème La statistique ˆβ 0 β 0 [ ] MS 1 E n + X2 S XX suit une loi de Student à n 2 degrés de liberté. Théorème La statistique ˆβ 1 β 1 MSE /S XX suit une loi de Student à n 2 degrés de liberté. MTH2302D: régression 18/45

Intervalles de confiance pour β 0 et β 1 Théorème Intervalles de confiance bilatéraux au niveau de confiance 1 α pour β 0 et β 1 : [ ] β 0 = ˆβ 0 ± t 1 α/2;n 2 MSE n + X2 S XX β 1 = ˆβ 1 ± t α/2;n 2 MSE S XX. Voir fichier Excel. MTH2302D: régression 19/45

Intervalles de confiance pour la droite de régression Il s agit d un intervalle de confiance pour E(Y 0 x 0 ), la réponse moyenne à la valeur x 0. Pour x 0 donné soit Ŷ0 = ˆβ 0 + ˆβ 1 x 0 l estimateur de E(Y 0 x 0 ). Théorème Intervalle de confiance pour E(Y 0 x 0 ) au niveau de confiance 1 α : [ 1 E(Y 0 x 0 ) = Ŷ0 ± t α/2;n 2 MS E n + (X x 0) 2 ] S XX MTH2302D: régression 20/45

Exemple 1 (suite) Le calcul de l intervalle de confiance à 95% en chaque point x 0 = X i, i = 1, 2,..., 10 donne le tableau suivant : x 0 100 110 120 130 140 ŷ 0 45.56 50.39 55.22 60.05 64.88 limites ±1.30 ±1.10 ±0.93 ±0.79 ±0.71 x 0 150 160 170 180 190 ŷ 0 69.72 74.55 79.38 84.21 89.04 limites ±0.71 ±0.79 0.93 ±1.10 ±1.30 Voir fichier Excel. MTH2302D: régression 21/45

Exemple 1 (suite) à partir des données du tableau précédent, on a tracé l intervalle de confiance pour la droite de régression : 89 84 79 74 69 données droite de régression sous- approx. 64 sur- approx. 59 54 49 44 95 105 115 125 135 145 155 165 175 185 195 MTH2302D: régression 22/45

Intervalles de prévision Soit x 0 une valeur quelconque. La valeur correspondante de Y est Y 0 = Y x 0 = β 0 + β 1 x 0 + ε 0. On estime ponctuellement Y 0 par Ŷ 0 = ˆβ 0 + ˆβ 1 x 0. La statistique Y 0 [ MS Ŷ0 ] E 1 + 1 n + (X x 0) 2 S XX suit une loi de Student à n 2 degrés de liberté. Théorème Intervalle de prévision pour la valeur de Y en x 0 : [ Y 0 = Ŷ0 ± t α/2;n 2 MS E 1 + 1 n + (X x 0) 2 ]. S XX MTH2302D: régression 23/45

Remarques : IC vs IP Les longueurs des deux types d intervalles croissent lorsque x 0 s éloigne de X. L IC de la droite de régression ne convient pas pour effectuer des prévisions puisqu il concerne la vraie réponse moyenne au point X = x 0, soit un paramètre de la population, et non une nouvelle observation, i.e. une nouvelle valeur pour la v.a. Y. L IP en x 0 est toujours plus grand que l IC en x 0 car il dépend de l erreur associée aux futures observations. L IP prend en compte une nouvelle observation, d où une augmentation de σ 2 MS E de la variance. L IP n est valide que pour une nouvelle observation à la fois. Pour une série de nouvelles observations, il faut mettre à jour le modèle au fur et à mesure. Voir fichier Excel. MTH2302D: régression 24/45

Exemple 1 (suite) à partir des données du tableau précédent, on a tracé l intervalle de prévision pour α = 5% : 118 98 78 données droite de régression sous- approx. 58 sur- approx. 38 18 50 70 90 110 130 150 170 190 210 230 250 MTH2302D: régression 25/45

Tests d hypothèses pour β 0 La distribution t 0 = ˆβ 0 β 0,0 [ ] T n 2 MS 1 E n + X2 S XX permet de tester des hypothèses du type H 0 : β 0 = β 0,0 H 1 : β 0 β 0,0 On rejette H 0 au seuil α si t 0 > t α/2;n 2. MTH2302D: régression 26/45

Tests d hypothèses pour β 1 La distribution t 0 = ˆβ 1 β 1,0 MSE /S XX T n 2 permet de tester des hypothèses du type H 0 : β 1 = β 1,0 H 1 : β 1 β 1,0 On rejette H 0 au seuil α si t 0 > t α/2;n 2. MTH2302D: régression 27/45

Tableau d analyse de la variance L information donnée par les valeurs S Y Y, SS E et SS R est présentée dans un tableau d analyse de la variance : Source de Somme Nombre Moyenne variation des carrés de d.d.l. des carrés F 0 Régression SS R 1 MS R = SS R 1 MS R MS E Résidus SS E n 2 MS E = SS E n 2 Total SS T = S Y Y n 1 MTH2302D: régression 28/45

Signification de la régression Il s agit de tester les hypothèses H 0 : β 1 = 0 H 1 : β 1 0 Accepter H 0 implique que l on conclut qu il n y a pas de relation linéaire entre X et Y. Ceci peut signifier que La relation entre X et Y n est pas linéaire. La variation de X influe peu ou pas sur la variation de Y. Au contraire, rejeter H 0 implique que l on conclut que la variation de X influe sur la variation de Y. Le critère est : rejeter H 0 au seuil α si F 0 > F α;1,n 2, ou encore si la valeur-p calculée est petite, avec valeur-p =P (F 1,n 2 F 0 ). MTH2302D: régression 29/45

Exemple 1 : tableau d analyse de la variance Source de Somme Nombre Moyenne variation des carrés de d.d.l. des carrés F 0 Régression SS R = 1924.88 1 MS R = 1924.88 2131.57 Résidus SS E = 7.22 8 MS E = 0.90 Total SS T = 1932.10 9 P -val. : P (F 1,8 F 0 ) 5.35 10 11 < α = 5% on rejette H 0. MTH2302D: régression 30/45

Signification de la régression (suite) On ne rejette pas H 0 : y y x x MTH2302D: régression 31/45

Signification de la régression (suite) On rejette H 0 : y y x x MTH2302D: régression 32/45

1. Introduction 2. Régression linéaire simple 3. Estimation des paramètres 4. Intervalles de confiance et tests 5. Analyse des résidus 6. Corrélation MTH2302D: régression 33/45

Rappel des hypothèses pour la régression linéaire Tout ce qui a été fait jusqu ici suppose que Pour chaque X, E(ε) = 0 et V(ε) = σ 2 est constante. Les erreurs ε sont non corrélées. Les erreurs ε sont distribuées normalement. On veut vérifier, après que les observations soient faites, si ces hypothèses sont satisfaites. MTH2302D: régression 34/45

Analyse graphique des résidus Pour vérifier l hypothèse sur σ 2, on peut tracer le graphe des points (Ŷi, E i ) ou (X i, E i ). Les situations possibles sont illustrées ci-dessous. Situation a) Convenable : e i 0 MTH2302D: régression 35/45 ^ y i

Analyse graphique des résidus (suite) Situation b) La variance augmente avec la valeur de Ŷi (ou X i ), donc σ 2 n est pas constante : e i 0 ^ y i MTH2302D: régression 36/45

Analyse graphique des résidus (suite) Situation c) La variance σ 2 n est pas constante : e i 0 ^ y i MTH2302D: régression 37/45

Analyse graphique des résidus (suite) Situation d) Le modèle linéaire n est pas approprié : e i 0 ^ y i MTH2302D: régression 38/45

Test de la normalité des résidus Si les résidus E i sont normalement distribués alors les erreurs ε i le sont aussi. On peut tester si les résidus suivent une loi normale avec : Un histogramme. Un test de normalité (par ex. Shapiro-Wilk). Un graphique de probabilité normal des E i. MTH2302D: régression 39/45

Exemple 1 (suite) Graphe des points (Ŷi, E i ) : Residuals 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0-0,2-0,4-0,6-0,8-1,0-1,2-1,4 Predicted vs. Residual Scores Dependent variable: Rend -1,6 40 45 50 55 60 65 70 75 80 85 90 95 Predicted Values 0,95 Conf.Int. MTH2302D: régression 40/45

Exemple 1 (suite) Graphe de probabilité normale des E i : 2,0 Normal Probability Plot of Residuals 1,5 1,0 Expected Normal Value 0,5 0,0-0,5-1,0-1,5-2,0-1,6-1,4-1,2-1,0-0,8-0,6-0,4-0,2 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 Residuals MTH2302D: régression 41/45

Coefficient de détermination Le coefficient de détermination du modèle de régression linéaire est R 2 = SS R S Y Y = ˆβ 2 1 S XX S Y Y = 1 SS E S Y Y. Le coefficient R 2 mesure le pourcentage de la variabilité totale S Y Y qui est expliquée par le modèle. Si R 2 est proche de 1, alors le modèle semble adéquat. Exemple 1 : R 2 99.63%. MTH2302D: régression 42/45

1. Introduction 2. Régression linéaire simple 3. Estimation des paramètres 4. Intervalles de confiance et tests 5. Analyse des résidus 6. Corrélation MTH2302D: régression 43/45

Coefficient de corrélation Rappel : La corrélation entre deux variables aléatoires X et Y est mesurée par le coefficient ρ = Cov(X, Y ) V(X)V(Y ). Définition Le coefficient de corrélation échantillonnal est r = S XY SXX S Y Y. Le coefficient de corrélation ρ est estimé ponctuellement par r. Exemple 1 : r 99.81%. MTH2302D: régression 44/45

Interprétation du coefficient de corrélation On peut montrer que 1 r 1. Si r = 1 ou r = 1 alors il y a corrélation parfaite entre X et Y et les points (X i, Y i ) sont tous sur la droite de régression. Si r = 0 alors il n y a pas de corrélation entre X et Y et les points (X i, Y i ) sont dispersés au hasard. Si 0 < r < 1 alors il y a corrélation positive faible, moyenne ou forte entre X et Y. Dans ce cas, une augmentation de X entraîne une augmentation de Y. Si 1 < r < 0 alors il y a corrélation négative faible, moyenne ou forte entre X et Y. Dans ce cas, une augmentation de X entraîne une diminution de Y. MTH2302D: régression 45/45