Régression linéaire multiple

Documents pareils
Analyse de la variance Comparaison de plusieurs moyennes

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Le Modèle Linéaire par l exemple :

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

FORMULAIRE DE STATISTIQUES

Exemples d application

Table des matières. I Mise à niveau 11. Préface

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Cours de méthodes de scoring

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

3 Approximation de solutions d équations

Fonctions de plusieurs variables

Introduction à la Statistique Inférentielle

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Programmation linéaire

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Calcul différentiel sur R n Première partie

Introduction aux Statistiques et à l utilisation du logiciel R

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Données longitudinales et modèles de survie

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Évaluation de la régression bornée

Analyse en Composantes Principales

STATISTIQUES. UE Modélisation pour la biologie

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Programmation linéaire et Optimisation. Didier Smets

Lire ; Compter ; Tester... avec R

Chapitre 2. Matrices

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Mathématiques appliquées à l'économie et à la Gestion

Exercice : la frontière des portefeuilles optimaux sans actif certain

Résolution d équations non linéaires

1 Complément sur la projection du nuage des individus

Enjeux mathématiques et Statistiques du Big Data

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Etude des propriétés empiriques du lasso par simulations

Principe d un test statistique

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

TABLE DES MATIERES. C Exercices complémentaires 42

Équations non linéaires

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Relation entre deux variables : estimation de la corrélation linéaire

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Étude des flux d individus et des modalités de recrutement chez Formica rufa

Modèles Estimés sur Données de Panel

3. Caractéristiques et fonctions d une v.a.

Biostatistiques : Petits effectifs

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Modèles pour données répétées

Chapitre 3. Les distributions à deux variables

Programmes des classes préparatoires aux Grandes Ecoles

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Introduction à la statistique non paramétrique

Prudence, Epargne et Risques de Soins de Santé Christophe Courbage

Econométrie et applications

Résolution de systèmes linéaires par des méthodes directes

Un exemple de régression logistique sous

1 Définition de la non stationnarité

Leçon N 4 : Statistiques à deux variables

Couples de variables aléatoires discrètes

Principe de symétrisation pour la construction d un test adaptatif

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Quantification Scalaire et Prédictive

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Résumé du Cours de Statistique Descriptive. Yves Tillé

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

VI. Tests non paramétriques sur un échantillon

Cours d analyse numérique SMI-S4

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Simulation de variables aléatoires

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Python - introduction à la programmation et calcul scientifique

La classification automatique de données quantitatives

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

Le modèle de régression linéaire

Programmation Linéaire - Cours 1

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Exercices - Polynômes : corrigé. Opérations sur les polynômes

données en connaissance et en actions?

Correction du Baccalauréat S Amérique du Nord mai 2007

Arbres binaires de décision

Exemple PLS avec SAS

L Econométrie des Données de Panel

Cours de Tests paramétriques

Introduction à l approche bootstrap

Transcription:

1 1 IRMA, Université de Strasbourg France ESIEA 08-03-2012

Régression linéaire simple Exemple Affiner le modèle Exemple : Issu du livre «Statistiques avec R», P.A. Cornillon, et al., Deuxième édition, 2010 Problème : Étude de la concentration d ozone dans l air. Modèle : La température à 12 heures (v.a. X 1 ) et la concentration d ozone (v.a. Y ) sont liées de manière linéaire : Y = β 0 + β 1 X 1 + ε. Observations : n = 112 observations de la température à 12 heures et de la concentration d ozone. But : Estimer β 0 et β 1 afin de prédire la concentration d ozone connaissant la température à 12 heures.

Régression linéaire simple Exemple Affiner le modèle

Régression linéaire simple Exemple Affiner le modèle Affiner le modèle Souvent la régression linéaire est trop simpliste. Il faut alors utiliser d autres modèles plus réalistes mais parfois plus complexes : Utiliser d autres fonctions que les fonctions affines comme les fonctions polynômiales, exponentielles, logarithmiques... Considérer plusieurs variables explicatives. Exemple : La température à 12 heures et la vitesse du vent.

Vision pratique Le principe de la régression linéaire multiple est simple : Déterminer la variable expliquée Y. Exemple : La concentration d ozone. Déterminer (p 1) variables explicatives X 1,..., X p 1 Exemple : X 1 température à 12 heures, X 2 vitesse du vent,... Il ne reste plus qu à appliquer un modèle linéaire : Y = β 0 + β 1 X 1 + + β p 1 X p 1 + ε.

Vision pratique Dans un échantillon de n individus, nous mesurons y i, x i,1,..., x i,p 1 pour i = 1,..., n. Remarque Observations Y X 1... X p 1 1 y 1 x 1,1... x 1,p 1 2 y 2 x 2,1... x 2,p 1..... n y n x n,1... x n,p 1 Les variables x i,j sont fixes tandis que les variables Y i sont aléatoires.

Méthode Version matricielle Les calculs Cas p = 2 Exemple avec le logiciel R Problème Il faut estimer les paramètres β 0,..., β p 1 du modèle de régression et ce de manière optimale. Solution Utiliser la méthode des moindres carrés. Cette méthode revient à minimiser la quantité suivante : min β 0,...,β p 1 n ( yi ( )) 2 β 0 + β 1 x i,1 + + β p 1 x i,p 1. i=1

Méthode Version matricielle Les calculs Cas p = 2 Exemple avec le logiciel R Le système peut se réécrire : y 1 1 x 1,1 x 1,p 1. =.... 1 x n,1 x n,p 1 y = X β + ε y n Vecteur des résidus : ê = y ŷ = y X β. β 0. β p 1 + ε 1. ε n

Méthode Version matricielle Les calculs Cas p = 2 Exemple avec le logiciel R Remarque Les variables y et X sont mesurées tandis que l estimateur β est à déterminer. La méthode des moindres carrés ordinaires consiste à trouver le vecteur β qui minimise ε 2 = t εε.

Méthode Version matricielle Les calculs Cas p = 2 Exemple avec le logiciel R Les calculs ε 2 = t( y X β )( y X β ) = t yy t βt Xy t yx β + t βt XX β = t yy 2 t βt Xy + t βt XX β car t βt Xy est un scalaire. Donc il est égal à sa transposée. La dérivée par rapport à β est alors égale à : 2 t Xy + 2 t XX β.

Méthode Version matricielle Les calculs Cas p = 2 Exemple avec le logiciel R Problème Nous cherchons β qui annule cette dérivée. Donc nous devons résoudre l équation suivante : t XX β = t Xy. Solution Nous trouvons après avoir inversé la matrice t XX (il faut naturellement vérifier que t XX est carrée et inversible c est-à-dire qu aucune des colonnes qui compose cette matrice ne soit proportionnelle aux autres colonnes) β = ( t XX) 1t Xy.

Méthode Version matricielle Les calculs Cas p = 2 Exemple avec le logiciel R Remarque Retrouvons les résultats de la régression linéaire simple (p = 2) t XX = ( n xi xi x 2 i ) ; ( ) t yi Xy =. xi y i Donc : ( t XX) 1 = = ( 1 x n xi 2 ( 2 i x i x i ) 2 x i n ( ) 1 x 2 i /n x n (xi x n ) 2. x n 1 )

Méthode Version matricielle Les calculs Cas p = 2 Exemple avec le logiciel R Suite et fin de la remarque Finalement nous retrouvons bien : Y n x 2 ( ) i x n xi Y i β0 (xi x n ) 2 β = = β 1 xi Y i nx n Y n (xi x n ) 2 ce qui correspond aux estimateurs de la régression linéaire simple que nous avons déjà rencontrés dans le cours 6.

Méthode Version matricielle Les calculs Cas p = 2 Exemple avec le logiciel R Exemple avec le logiciel R Reprenons l exemple traité en début de ce chapitre. Introduisons comme variables explicatives la température à 12 heures et la vitesse du vent. Utilisons pour cela R. > modele1 <- lm(max03 T12 + Vx12) > summary(modele1) Call: lm(formula = max03 T12 + Vx12) Residuals: Min 1Q Median 3Q Max -33.08-12.00-1.20 10.67 45.67

Méthode Version matricielle Les calculs Cas p = 2 Exemple avec le logiciel R Suite de l exemple avec le logiciel R Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -14.4242 9.3943-1.535 0.12758 T12 5.0202 0.4140 12.125 < 2e-16 *** Vx12 2.0742 0.5987 3.465 0.00076 *** Residual standard error: 16.75 on 109 degrees of freedom Multiple R-squared: 0.6533, Adjusted R-squared: 0.6469 F-statistic: 102.7 on 2 and 109 DF, p-value: < 2.2e-16

Méthode Version matricielle Les calculs Cas p = 2 Exemple avec le logiciel R Test de normalité Pour lire la p valeur du test de Fisher et celles des tests de Student, il faut s assurer auparavant que les résidus suivent une loi normale. Pour cela, vous allez réaliser un test de normalité, celui de Shapiro-Wilk avec R. > residus<-residuals(modele2) > shapiro.test(residus) Shapiro-Wilk normality test data: residus W = 0.9854, p-value = 0.2624

Méthode Version matricielle Les calculs Cas p = 2 Exemple avec le logiciel R Conclusion du test de normalité La p-valeur (p-value = 0,2624) du test de Shapiro-Wilk étant strictement supérieure à α = 5%, le test n est pas significatif. Nous décidons de ne pas rejeter et donc d accepter H 0 au seuil α = 5%. Le risque d erreur associé à cette décision est un risque d erreur de seconde espèce β. Dans le cas présent, vous ne pouvez pas l évaluer. Interprétation Il ne nous reste plus qu à interpréter la sortie de summary(modele2).

Méthode Version matricielle Les calculs Cas p = 2 Exemple avec le logiciel R Suite de l interprétation La p-valeur (p-value < 2.2e-16) du test de Fisher étant inférieure ou égale à α = 5%, le test est significatif. Nous rejetons H 0 et nous décidons que H 1 est vraie avec un risque de première espèce α = 5%. Donc il y a au moins une des deux variables qui joue le rôle de variable explicative. La p-valeur (p-value < 2e-16) du test de Student, associée à «T12» étant inférieure ou égale à α = 5%, le test est significatif. Nous rejetons H 0 et nous décidons que H 1 est vraie avec un risque de première espèce α = 5%. Nous pouvons faire la même conclusion pour la variable vitesse du vent à 12 heures.

«à la Pythagore» Coefficient de détermination Résultats préliminaires 1 ŷ 2 i = ŷ i y i ou (forme matricielle) t ŷŷ = t yŷ 2 ŷi = y i Propriété des moindres carrés ordinaires (yi y n ) 2 = (ŷ i y n ) 2 + (y i ŷ i ) 2 sc tot = sc reg + sc res

«à la Pythagore» Coefficient de détermination Représentation graphique de la relation fondamentale

«à la Pythagore» Coefficient de détermination Rappel sur le coefficient de détermination Nous rappelons que le coefficient de détermination est défini par : R 2 = sc reg sc tot Intuitivement ce coefficient de détermination quantifie la capacité du modèle à expliquer les variations de Y. Si R 2 est proche de 1 alors le modèle est proche de la réalité. Si R 2 est proche de 0 alors le modèle explique très mal la réalité. Il faut alors trouver un meilleur modèle.

Hypothèses pour les tests Estimation de σ 2 Les hypothèses indispensables pour réaliser les tests Nous faisons les hypothèses suivantes : y = Xβ + ε où le vecteur aléatoire ε suit une loi multinormale qui vérifie les hypothèses suivantes : E[ε] = 0 Var[ε] = σ 2 I n, où σ 2 est la variance de la population et I n est la matrice identité de taille n.

Hypothèses pour les tests Estimation de σ 2 Conséquences Les hypothèses précédentes impliquent E [y] = Xβ Var [y] = σ 2 I n. Nous pouvons alors démontrer, sous ces hypothèses : ] E [ β = β. Ce qui signifie que le vecteur β est un estimateur sans biais de β. [ β] Var = σ 2 ( t XX) 1. Problème La variance σ 2 est inconnue. Donc il faut estimer σ 2!

Hypothèses pour les tests Estimation de σ 2 Construction d un estimateur de σ 2 Un estimateur sans biais de la variance σ 2 est défini par : CM res = (Yi Ŷi) 2 n p = SC res n p = SC tot SC reg n p où n est le nombre d individus/d observations, p est le nombre de variables explicatives. Nous rappelons que la quantité (n p) est le nombre de degrés de liberté associé à SC res.

Test de Fisher Tester l hypothèse nulle : H 0 : β 1 = β 2 = = β p 1 = 0 contre l hypothèse alternative : H 1 : au moins un j pour lequel β j 0 où j varie de 1 à p 1. Remarque Si l hypothèse nulle H 0 est vérifiée alors le modèle s écrit : Y i = β 0 + ε i.

Tableau de l analyse de la variance Source de sc ddl cm F obs variation Régression n sc reg = (ŷ i y) 2 sc reg cm reg p 1 p 1 cm res Résiduelle sc res = Totale sc tot = i=1 n (y i ŷ i ) 2 n p i=1 n (y i y) 2 n 1 i=1 sc res n p

Méthode 1 Calculer la statistique F obs = CM reg CM res 2 Lire la valeur critique F 1 α,p 1,n p où F 1 α,p 1,n p est le (1 α)-quantile d une loi de Fisher avec (p 1) et (n p) degrés de liberté, car si l hypothèse nulle H 0 est vraie, alors F obs suit une loi de Fisher avec (p 1) et (n p) degrés de liberté. 3 Comparer la statistique c est-à-dire la valeur observée à la valeur critique.

Règle de décision Nous décidons de rejeter l hypothèse nulle H 0 et d accepter l hypothèse alternative H 1, au seuil α = 5%, si F obs F 1 α,p 1,n p. Nous décidons de ne pas rejeter l hypothèse nulle H 0 et donc de l accepter si F obs < F 1 α,p 1,n p.

Les tests de Student Intervalles de confiance Test de Fisher partiel Tests de Student Tester l hypothèse nulle H 0 : β j = b j pour j = 0,..., p 1 contre l hypothèse alternative H 1 : β j b j pour un certain j entre 0 et p 1.

Les tests de Student Intervalles de confiance Test de Fisher partiel Méthode 1 Calculer la statistique t obs = β j b j s( β j ) où s 2 ( β j ) est l élément diagonal d indice j de CM res ( t XX) 1. 2 Lire la valeur critique t n p;1 α/2 où t n 2;1 α/2 est le (1 α/2)-quantile d une loi de Student avec (n p) degrés de liberté, car si l hypothèse nulle H 0 est vraie, alors t obs suit une loi de Student avec (n p) degrés de liberté. 3 Comparer la statistique c est-à-dire la valeur observée à la valeur critique.

Les tests de Student Intervalles de confiance Test de Fisher partiel Règle de décision Nous décidons de rejeter l hypothèse nulle H 0 et d accepter l hypothèse alternative H 1, au seuil α = 5%, si t obs t n p;1 α/2. Nous décidons de ne pas rejeter l hypothèse nulle H 0 et donc de l accepter si t obs < t n p;1 α/2.

Les tests de Student Intervalles de confiance Test de Fisher partiel Cas particulier Tester l hypothèse nulle H 0 : β j = 0 pour j = 0,..., p 1 contre l hypothèse alternative H 1 : β j 0 pour un certain j entre 0 et p 1.

Les tests de Student Intervalles de confiance Test de Fisher partiel Méthode 1 Calculer la statistique t obs = ˆβ j s( ˆβ j ) 2 Lire la valeur critique t n p;1 α/2 où t n p;1 α/2 est le (1 α/2)-quantile d une loi de Student avec (n p) degrés de liberté, car si l hypothèse nulle H 0 est vraie, alors t obs suit une loi de Student avec (n p) degrés de liberté. 3 Comparer la valeur observée et la valeur critique.

Les tests de Student Intervalles de confiance Test de Fisher partiel Règle de décision Nous décidons de rejeter l hypothèse nulle H 0 et d accepter l hypothèse alternative H 1, au seuil α = 5%, si t obs t n p;1 α/2. Nous décidons de ne pas rejeter l hypothèse nulle H 0 et donc de l accepter si t obs < t n p;1 α/2.

Les tests de Student Intervalles de confiance Test de Fisher partiel IC pour β j Un intervalle de confiance au niveau (1 α) où α est la probabilité d erreur pour β j est défini par ] βj t n p;1 α/2 s( β j ); β j + t n p;1 α/2 s( β j )[. Remarque Cet intervalle de confiance est construit de telle sorte qu il contienne le paramètre inconnu β j avec une probabilité de (1 α).

Les tests de Student Intervalles de confiance Test de Fisher partiel Test de Fisher partiel La nullité d un certain nombre r de paramètres dans un modèle de p paramètres. l hypothèse nulle H 0 : modèle réduit avec (p r) paramètres contre l hypothèse alternative H 1 : modèle complet avec p paramètres.

Les tests de Student Intervalles de confiance Test de Fisher partiel Exemples Tester la nullité d un paramètre, par exemple : β 1. H 0 : Y i = β 0 + β 2 x i2 + + β p x ip + ε i contre H 1 : Y i = β 0 + β 1 x i1 + β 2 x i2 + + β p x ip + ε i. Tester la nullité de plusieurs paramètres, par exemple les pairs : β 2j. H 0 : Y i = β 1 x i1 + β 3 x i3 + + β p 1 x ip 1 + ε i contre H 1 : Y i = β 0 + β 1 x i1 + β 2 x i2 + + β p x ip + ε i avec p pair.

Les tests de Student Intervalles de confiance Test de Fisher partiel Méthode 1 Calculer les valeurs estimées ŷ i en utilisant la méthode des moindres carrés pour chacun des 2 modèles définis par H 0 et H 1, notées : ŷ i (H 0 ) et ŷ i (H 1 ). 2 Calculer ensuite SC res (H 0 ) et SC res (H 1 ). 3 Calculer la statistique F obs = SC res(h 0 ) SC res (H 1 ) SC res (H 1 ) n p r

Les tests de Student Intervalles de confiance Test de Fisher partiel Méthode - Suite et fin 4 Lire la valeur critique F 1 α,r,n p où F 1 α,r,n p est le (1 α)-quantile d une loi de Fisher avec r et (n p) degrés de liberté, car si l hypothèse nulle H 0 est vraie, alors F obs suit une loi de Fisher avec r et (n p) degrés de liberté. 5 Comparer la valeur observée et la valeur critique.

Les tests de Student Intervalles de confiance Test de Fisher partiel Règle de décision Nous décidons de rejeter l hypothèse nulle H 0 et par conséquent d accepter l hypothèse alternative H 1, au seuil α = 5%, si F obs F 1 α,r,n p. Nous décidons de ne pas rejeter l hypothèse nulle H 0 et donc de l accepter si F obs < F 1 α,r,n p.