Statistique de base avec R Partie 2 : Test d hypothèses et régression linéaire



Documents pareils
Etude des propriétés empiriques du lasso par simulations

FORMULAIRE DE STATISTIQUES

STATISTIQUES. UE Modélisation pour la biologie

Analyse de la variance Comparaison de plusieurs moyennes

TABLE DES MATIERES. C Exercices complémentaires 42

Introduction aux Statistiques et à l utilisation du logiciel R

Biostatistiques : Petits effectifs

Analyse en Composantes Principales

Relation entre deux variables : estimation de la corrélation linéaire

Introduction à la statistique non paramétrique

Statistique inférentielle TD 1 : Estimation

Cours de Tests paramétriques

Principe d un test statistique

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Simulation de variables aléatoires

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Chapitre 3. Les distributions à deux variables

Exemples d application

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Logiciel XLSTAT version rue Damrémont PARIS

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

3. Conditionnement P (B)

Séries Statistiques Simples

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Loi binomiale Lois normales

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Introduction à la Statistique Inférentielle

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

L Econométrie des Données de Panel

Modèle GARCH Application à la prévision de la volatilité

Exercice : la frontière des portefeuilles optimaux sans actif certain

Chapitre 2. Matrices

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

La fonction exponentielle

Introduction à l approche bootstrap

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Modèles pour données répétées

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Compter à Babylone. L écriture des nombres

Cours 9 : Plans à plusieurs facteurs

Régression linéaire. Nicolas Turenne INRA

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Chapitre 5 : Flot maximal dans un graphe

PROJET MODELE DE TAUX

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

PROBABILITES ET STATISTIQUE I&II

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Programmation Linéaire - Cours 1

TP de Statistiques: Utilisation du logiciel R

Résumé du Cours de Statistique Descriptive. Yves Tillé

La diffusion des résultats statistiques du recensement de la population

Lois de probabilité. Anita Burgun

Un exemple de régression logistique sous

Le risque Idiosyncrasique

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

TSTI 2D CH X : Exemples de lois à densité 1

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Cours d analyse numérique SMI-S4

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Température corporelle d un castor (une petite introduction aux séries temporelles)

Cours de méthodes de scoring

Statistiques Descriptives à une dimension

Précision d un résultat et calculs d incertitudes

Guidance de Statistique : Epreuve de préparation à l examen

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Problème 1 : applications du plan affine

MÉTHODE DE MONTE CARLO.

PRINCIPES DE LA CONSOLIDATION. CHAPITRE 4 : Méthodes de consolidation. Maître de conférences en Sciences de Gestion Diplômé d expertise comptable

FONCTION DE DEMANDE : REVENU ET PRIX

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Le Modèle Linéaire par l exemple :

1 Définition de la non stationnarité

Programmation linéaire

VI. Tests non paramétriques sur un échantillon

Econométrie et applications

Apprentissage non paramétrique en régression

Méthodes de Simulation

Analyse de corrélation Étude des dépendances - Variables quantitatives

Optimisation des fonctions de plusieurs variables

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Transcription:

Statistique de base avec R Partie 2 : Test d hypothèses et régression linéaire Julien JACQUES Polytech Lille - Université Lille 1 Julien JACQUES (Polytech Lille) Statistiques de base 1 / 48

Plan 1 Tests d hypothèses 2 Régression linéaire Julien JACQUES (Polytech Lille) Statistiques de base 2 / 48

Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 3 / 48

Principe d un test statistique Un exemple 1 Test H 0 : µ = µ 0 contre H 1 : µ µ 0 2 Stat. de test T = X µ 0 S n H0 t n 1 Student à n-1 degrés de liberté 3 α = 5% 4 Zone de rejet W = { x : t = x µ 0 s n > t n 1, α 2 } 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 α 2 α 2 0-4 -3-2 t α -1 0 1 t 2 3 4 1 α 2 2 5 calcul de t puis acceptation de H 0 si t est entre les bornes, rejet sinon Julien JACQUES (Polytech Lille) Statistiques de base 4 / 48

Principe d un test statistique Les étapes 1 Identifier des hypothèses H 0 (hyp. nulle, simple) et H 1 (hyp. alternative, composite) 2 Définir un statistique de test T, dont la loi est différente sous H 0 et H 1 3 Choisir un risque de première espèce α (5%, 10%...) 4 Définir la zone de rejet W de H 0, en fonction de H 1 (test uni- ou bilatéral) et de α 5 Calculer la valeur t de la statistique de test T 6 Conclure au rejet de H 0 si t W où à son acceptation dans le cas contraire Julien JACQUES (Polytech Lille) Statistiques de base 5 / 48

Principe d un test statistique Les risques antagonistes Vérité Décision H 0 H 1 H 0 conclusion correcte erreur de deuxième espèce H 1 erreur de première espèce conclusion correcte Table : Erreurs associés à un test Vérité Décision H 0 H 1 H 0 niveau de confiance 1 α risque β H 1 risque α 1 β Table : Risques associés à un test Julien JACQUES (Polytech Lille) Statistiques de base 6 / 48

Principe d un test statistique La p-value p plus petite valeur de α conduisant à rejeter H 0 probabilité sous H 0 d observer une statistique de test aussi extrême (au sens de H 1 ) que le t observé probabilité de se tromper lorsqu on rejette H 0 Exemple : test unilatéral H 0 : µ = 0 contre H 1 : µ > 0 p = P(T > t) où T stat. de test et t sa valeur sur l échantillon Julien JACQUES (Polytech Lille) Statistiques de base 7 / 48

Principe d un test statistique La p-value p plus petite valeur de α conduisant à rejeter H 0 probabilité sous H 0 d observer une statistique de test aussi extrême (au sens de H 1 ) que le t observé probabilité de se tromper lorsqu on rejette H 0 Exemple : test unilatéral H 0 : µ = 0 contre H 1 : µ > 0 p = P(T > t) où T stat. de test et t sa valeur sur l échantillon Utilisation de la p-value p si α > p : rejet de H 0 si α < p : acceptation de H 0 Julien JACQUES (Polytech Lille) Statistiques de base 7 / 48

Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 8 / 48

Typologie des tests Tests de liaison entre variables Tester la liaison entre deux variables quantitatives : Test de corrélation Tester la liaison entre deux variables qualitatives : Test d indépendance du χ 2 Tester la liaison entre une variable quantitative et une variable qualitative : ANOVA à 1 facteur Tester la liaison entre une variable quantitative et K variables qualitatives : ANOVA à K facteur Tests de comparaison de populations indépendantes Test de comparaisons des variances de Fisher Test de comparaisons des moyennes de Student Julien JACQUES (Polytech Lille) Statistiques de base 9 / 48

Typologie des tests - Logiciel R Tests de liaison entre variables Tester la liaison entre deux variables quantitatives : fonction cor.test Tester la liaison entre deux variables qualitatives : fonction chisq.test Tester la liaison entre une variable quantitative et une variable qualitative : fonctionaov Tester la liaison entre une variable quantitative et K variables qualitatives : fonction aov Tests de comparaison de populations indépendantes Test de comparaisons des variances de Fisher : fonction var.test Test de comparaisons des moyennes de Student : fonction t.test Julien JACQUES (Polytech Lille) Statistiques de base 10 / 48

Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 11 / 48

Test de corrélation Conditions d application : X et Y deux variables aléatoires quantitatives Hypothèses H 0 : ρ X,Y = 0 contre H 1 : ρ X,Y 0 Statistique de test R XY T = n 2 1 R 2 H0 t n 2 où R XY = XY l estimateur du coefficient de corrélation n i=1 (X i X)(Y i Ȳ) n i=1 (X i X) 2 est n i=1 (Yi Ȳ)2 Décision on rejette H 0 si t > t n 2,1 α 2 ou t < t n 2, α 2 Julien JACQUES (Polytech Lille) Statistiques de base 12 / 48

Test d indépendance du χ 2 Conditions d application : X et Y deux variables aléatoires qualitatives à k et r modalités n ij : nombre d observations ayant la modalité i de X et j de Y n i. = r j=1 n ij et n.j = k i=1 n ij n ij 5 Hypothèses H 0 : X et Y indépendantes contre H 1 : X et Y dépendantes Statistique de test d 2 = k i=1 r j=1 Décision on rejette H 0 si d 2 > χ 2 (k 1)(r 1)1 α (n ij n i. n.j n ) 2 n i. n.j n H0 χ 2 (k 1)(r 1) Julien JACQUES (Polytech Lille) Statistiques de base 13 / 48

ANOVA à 1 facteur Conditions d application : X une variable quantitative, A un facteur qualitatif à K modalités échantillons grands (n 30) ou gaussiens (pour chaque modalité) variances homogènes Hypothèses A influe-t-il X? H 0 : µ 1 =... = µ K = µ contre H 1 : 1 i, j K t.q. µ i µ j Statistique de test F = V 2 A K 1 / V 2 R n K où V 2 A = 1 n K n k ( X k X) 2 est la variance expliquée par le facteur A k=1 V 2 R est la variance résiduelle avec variance totale V 2 T = V 2 A + V 2 R Julien JACQUES (Polytech Lille) Statistiques de base 14 / 48

ANOVA à 1 facteur Présentation des résultats Facteur Somme degrés de carré F des carrés liberté moyen A SSA K 1 SSA/(K 1) F = SSA/(K 1) SSR/(n K) Résidu SSR n K SSR/(n K) Total SST n 1 ou SSA = nv 2 A, SSR = nv 2 R et SST = nv 2 T. Décision On conclue à un effet de A (rejet de H 0 ) si F > F K 1,n K,1 α Julien JACQUES (Polytech Lille) Statistiques de base 15 / 48

ANOVA à 2 facteur Conditions d application : X une variable quantitative, A et B deux facteurs qualitatifs à J et K modalités échantillons grands (n 30) ou gaussiens (pour chaque croisement de modalités) variances homogènes Hypothèses Le facteur A a-t-il une influence sur X? Le facteur B? Et l interaction entre les deux facteurs? Julien JACQUES (Polytech Lille) Statistiques de base 16 / 48

ANOVA à 2 facteur Décomposition de la variance totale avec SST = SSA+SSB + SSAB+SSR SST = où J X.jk = 1 n jk n K jk (X ijk X...) 2, SSA = j=1 k=1 i=1 SSAB = n jk i=1 J j=1 k=1 J n j. ( X.j. X K...) 2, SSB = n.k ( X..k X...) 2, j=1 K n jk ( X.jk X.j. X..k + X...) 2, et SSR = X ijk, X..k = 1 n.k J j=1 X.jk, X.j. = 1 n j. J k=1 n K jk (X ijk X.jk ) 2 j=1 k=1 i=1 K X.jk et X... = 1 n J K jk X ijk. n k=1 j=1 k=1 i=1 Julien JACQUES (Polytech Lille) Statistiques de base 17 / 48

ANOVA à 2 facteur Présentation des résultats Décision Facteur Somme degrés de carré F des carrés liberté moyen A SSA J 1 SSA/(J 1) F A = SSA/(J 1) SSR/(n JK) B SSB K 1 SSB/(K 1) F B = SSB/(K 1) SSR/(n JK) Interaction AB SSAB (J 1)(K 1) SSAB/(K 1)(J 1) F AB = SSAB/(K 1)(J 1) SSR/(n JK) Résidu SSR n JK SSR/(n JK) Total SST n 1 On conclue à un effet de A si F A > F J 1,n JK,1 α On conclue à un effet de B si F B > F K 1,n JK,1 α On conclue à un effet de l interaction entre A et B si F AB > F (K 1)(J 1),n JK,1 α Julien JACQUES (Polytech Lille) Statistiques de base 18 / 48

Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 19 / 48

Test de comparaisons des variances de Fisher Conditions d application : échantillons gaussiens Hypothèses H 0 : σ 1 = σ 2 contre H 1 : σ 1 σ 2 Statistique de test F = n 1 V 2 1 n 1 1 n 2 V 2 2 n 2 1 Décision = S2 1 S 2 2 H0 F n1 1,n 2 1 avec S 2 1 > S 2 2 on rejette H 0 si S1 2 S2 2 > f n1 1,n 2 1,1 α Julien JACQUES (Polytech Lille) Statistiques de base 20 / 48

Test de comparaisons des moyennes de Student Conditions d application : échantillons grands (n 30) ou gaussiens variances égales : σ 2 1 = σ2 2 Hypothèses H 0 : µ 1 = µ 2 contre H 1 : µ 1 µ 2 Statistique de test T = X 1 X 2 (µ 1 µ 2 ) n 1 V 2 1 +n 2 V2 2 n 1 +n 2 2 Décision on rejette H 0 si x 1 x 2 > t n1 +n 2 2, α 2 ( 1 n 1 + 1 n 2 ) H 0 t n1 +n 2 2 ( n 1 v1 2+n 2v2 2 1 n 1 +n 2 2 + 1 n1 n2). Julien JACQUES (Polytech Lille) Statistiques de base 21 / 48

Test de comparaisons des moyennes de Student Conditions d application : échantillons grands (n 30) ou gaussien variances différentes : σ1 2 σ2 2 Hypothèses H 0 : µ 1 = µ 2 contre H 1 : µ 1 µ 2 Correction d Aspin Welch il faut remplacer le nombre de degrés de liberté de la loi de Student (n 1 + n 2 2 lorsque les variances sont égales) par l entier le plus proche de : n = 1 c 2 n 1 1 + (1 c)2 n 2 1 où c = v 2 1 n 1 1 v 2 1 n 1 1 + v2 2 n 2 1 Julien JACQUES (Polytech Lille) Statistiques de base 22 / 48

Test de comparaisons des moyennes de Student - cas apparié Conditions d application : échantillons grands (n 30) ou gaussiens échantillons dépendants (appariés) : chaque échantillon correspond à des mesures différentes des mêmes individus Test on travaille sur la différence D i = X 1i X 2i entre les 2 échantillons, et on test la nullité de la moyenne des D i : H 0 : µ = 0 contre H 1 : µ 0 Julien JACQUES (Polytech Lille) Statistiques de base 23 / 48

Test de comparaisons des moyennes de Student - cas unilatéral Conditions d application : échantillons grands (n 30) ou gaussiens variances égales : σ1 2 = σ2 2 (sinon correction Aspin-Welch) Hypothèses H 0 : µ 1 = µ 2 contre H 1 : µ 1 > µ 2 Statistique de test T = X 1 X 2 (µ 1 µ 2 ) Décision n 1 V 2 1 +n 2 V2 2 n 1 +n 2 2 ( 1 n 1 + 1 n 2 ) H 0 t n1 +n 2 2 on rejette H 0 si x 1 > x 2 t n1 +n 2 2, α 2 ( n 1 v1 2+n 2v2 2 1 n 1 +n 2 2 + 1 n1 n2). Julien JACQUES (Polytech Lille) Statistiques de base 24 / 48

Plan 1 Tests d hypothèses 2 Régression linéaire Julien JACQUES (Polytech Lille) Statistiques de base 25 / 48

Modélisation statistique Les différents types de modélisation Objectifs Variable à expliquer Variables explicatives Nom de l analyse 1 quanti. 1 quanti. régression simple 1 quanti. plusieurs quanti. régression multiple 1 quanti. plusieurs quali. analyse de variance 1 quanti. plusieurs quali. et quanti. analyse de covariance prédictifs descriptifs : sélection des variables pertinentes, forme du modèle Les étapes identifier le problème choix du modèle statistique estimer les paramètres évaluer la qualité de la modélisation obtenue utiliser le modèle pour répondre à la question posée Julien JACQUES (Polytech Lille) Statistiques de base 26 / 48

Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 27 / 48

Le modèle de régression linéaire simple Les données Un échantillon (X i Y i ) i=1,n variable à prédire : Y variable explicative : X si la liaison entre X et Y n est pas linéaire, tester des transformations (log, puissance...) Le modèle Y i = β 0 +β 1 X i +ǫ i où ǫ i N(0,σ 2 ) i.i.d Écriture matricielle : Y 1 1 X 1.. =.... Y n 1 X n Y = Xβ +ǫ ] + β 1 [ β0 ǫ 1.. ǫ n Julien JACQUES (Polytech Lille) Statistiques de base 28 / 48

Le modèle de régression linéaire simple Estimation des paramètres On cherche β = (β 0,β 1 ) minimisant l écart entre les valeurs prédites Ŷ i = β 0 + X i β 1 et les valeurs observées Y i : Les solutions sont min n (Y i β 0 X i β 1 ) 2 i=1 ˆβ 0 = Ȳ ˆβ 1 X, ˆβ1 = S XY S 2 X. où S XY = 1 n n 1 i=1 (X i X)(Y i Ȳ) est l estimateur de la covariance de X et Y. Julien JACQUES (Polytech Lille) Statistiques de base 29 / 48

Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 30 / 48

Le modèle de régression linéaire multiple Les données Un échantillon (X i1,...,x ip, Y i ) i=1,n variable à prédire : Y p variables explicatives : X 1,...,X p Le modèle où ǫ i N(0,σ 2 ) i.i.d Y 1. = Y n Y i = β 0 + p β j X ij +ǫ i j=1 1 X 11... X 1p... 1 X n1... X np Y = Xβ +ǫ β 0 β 1. β p + ǫ 1.. ǫ n (1) (2) Julien JACQUES (Polytech Lille) Statistiques de base 31 / 48

Le modèle de régression linéaire multiple Estimation des paramètres On cherche β = (β 0,β 1,...,β p ) minimisant l écart entre les valeurs prédites Ŷi = β 0 + p j=1 β jx ij et les valeurs observées Y i : La solution est min n (Y i β 0 i=1 p β j X ij ) 2 j=1 ˆβ = (X X) 1 X Y. Julien JACQUES (Polytech Lille) Statistiques de base 32 / 48

Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 33 / 48

Normalité des résidus Dans le but de faire des tests sur le modèle de régression obtenus, nous avons fait l hypothèse de normalité des résidus ǫ i = ŷ i y i. Test de normalité Il existe des tests statistiques permettant de tester l adéquation d une série de données (ici les résidus) à une loi normale : test de Shapiro-Wilk: fonctionshapiro.test Julien JACQUES (Polytech Lille) Statistiques de base 34 / 48

Homoscédasticité des résidus La technique d estimation utilisée suppose que résidus ǫ i = ŷ i y i ont une variance σ 2 constante (ne dépendant pas de i). Homoscédasticité des résidus Pour vérifier cette hypothèse, on représente généralement les résidus en fonction des variables explicatives (ou des valeurs prédites), et on vérifie visuellement que la variance est homogène sur l ensemble de variation de chaque variable explicative représentation graphique Julien JACQUES (Polytech Lille) Statistiques de base 35 / 48

Test de non corrélation des résidus La technique d estimation utilisée suppose que les résidus sont non corrélés. Test de Durbin-Watson Le test de Durbin-Watson permet de vérifier que les ǫ i ne sont pas corrélés. Statistique de test : n i=2 d = (ǫ i ǫ i 1 ) 2 n i=1 ǫ2 i qui doit être proche de 2. Julien JACQUES (Polytech Lille) Statistiques de base 36 / 48

Analyse de variance de la régression On teste l apport du modèle de régression Hypothèses H 0 : β 1 =... = β p = 0 contre H 1 : j : β j 0 Statistique de test On décompose la variance de Y en Y Ȳ 2 2 = } {{ } 2 } {{ } 2 } {{ } SST SSReg SSR Source Somme degrés de carré F des carrés liberté moyen Régression SSReg p MSReg = SSReg/p Erreur SSR n p 1 MSR = SSR/(n p 1) F = MSReg MSR Total SST n 1 Décision on rejette H 0 (la régression est valide) si F > f p,n p 1,1 α Julien JACQUES (Polytech Lille) Statistiques de base 37 / 48

Analyse de variance de la régression SST SSReg SSR variance variance variance totale expliquée résiduelle Julien JACQUES (Polytech Lille) Statistiques de base 38 / 48

Coefficient de détermination Coefficient de détermination Le coefficient de détermination R 2 : R 2 = SSReg SST est un indicateur de la qualité du modèle de régression. Propriétés : R 2 [0, 1] dans le cas de la régression simple : R 2 = ρ 2 XY plus le nombre de variables est grand, plus R 2 est grand Julien JACQUES (Polytech Lille) Statistiques de base 39 / 48

Coefficient de détermination ajusté Coefficient de détermination ajusté Le coefficient de détermination ajusté R 2 adj : R 2 adj = (n 1)R2 d n d 1 est un indicateur de la qualité du modèle de régression, prenant en compte la complexité du modèle (nombre de variables). Propriétés : R 2 adj [0, 1] plus R 2 adj est grand, meilleure est la régression Julien JACQUES (Polytech Lille) Statistiques de base 40 / 48

Tests de la nullité des paramètres du modèle On peut également tester l apport de chaque variable dans le modèle Hypothèses H 0 : β j = 0 contre H 1 : β j 0 Statistique de test T = ˆβ j β j σˆβ j H0 t n p 1 Décision on rejette H 0 (et donc on enlève la variable du modèle) si t > t n 1,1 α 2. Julien JACQUES (Polytech Lille) Statistiques de base 41 / 48

Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 42 / 48

Prédiction Pour une valeur x = (1, x 1,...,x p ) de X, la prévision de Y sera donnée par ŷ = x ˆβ. (3) Un intervalle de confiance de niveau 1 α pour la valeur y sera construit à partir de cette prévision ponctuelle : x ˆβ ± tn p 1,1 α/2ˆσ 1+x (X X) 1 x. (4) Julien JACQUES (Polytech Lille) Statistiques de base 43 / 48

Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 44 / 48

Détection d observations atypiques Effet levier L effet levier h i mesure l impact de Y i dans l estimation Ŷi h i = 1 n + (X i X) 2 n j=1 (X j X) 2. Cet impact est directement lié à l éloignement de l observation X i à la moyenne des observations X. effet levier h i grand observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 45 / 48

Détection d observations atypiques Résidus ǫ i = Ŷi Y i Résidus normalisés/studentisés r i = ǫ i S ǫ(i) 1 hi où S ǫ(i) = n 2 n 3 S ǫ 1 ǫ 2 i n 3 1 h i r i > 2 observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 46 / 48

Détection d observations atypiques effet levier éloignement d une observation à la moyenne résidus normalisés éloignement observation / prédiction La distance de Cook synthétisant ces deux informations. Distance de Cook D i = n j=1 (Ŷj(i) Ŷj) 2 2S 2 ǫ = h i 2(1 h i ) r i 2 où Ŷj(i) : estimation de Y j obtenue sans utiliser (X i, Y i ). D i > 1 observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 47 / 48

Régression linéaire avec R L analyse 1 charger les données : >data=read.table( filename.dat,header=true) 2 estimer le modèle : >modele=lm(y.,data=data) 3 tester la normalité des résidus : >shapiro.test(modele$residuals) 4 vérifier graphiquement l homoscédasticité et la normalité des résidus, la présence d individus atypiques... : plot(modele) 5 tester l auto-corrélation des résidus (package lmtest) : >dwtest(modele) 6 analyser la qualité du modèle et l apport de chaque variable : >summary(modele) Julien JACQUES (Polytech Lille) Statistiques de base 48 / 48