Statistique de base avec R Partie 2 : Test d hypothèses et régression linéaire Julien JACQUES Polytech Lille - Université Lille 1 Julien JACQUES (Polytech Lille) Statistiques de base 1 / 48
Plan 1 Tests d hypothèses 2 Régression linéaire Julien JACQUES (Polytech Lille) Statistiques de base 2 / 48
Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 3 / 48
Principe d un test statistique Un exemple 1 Test H 0 : µ = µ 0 contre H 1 : µ µ 0 2 Stat. de test T = X µ 0 S n H0 t n 1 Student à n-1 degrés de liberté 3 α = 5% 4 Zone de rejet W = { x : t = x µ 0 s n > t n 1, α 2 } 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 α 2 α 2 0-4 -3-2 t α -1 0 1 t 2 3 4 1 α 2 2 5 calcul de t puis acceptation de H 0 si t est entre les bornes, rejet sinon Julien JACQUES (Polytech Lille) Statistiques de base 4 / 48
Principe d un test statistique Les étapes 1 Identifier des hypothèses H 0 (hyp. nulle, simple) et H 1 (hyp. alternative, composite) 2 Définir un statistique de test T, dont la loi est différente sous H 0 et H 1 3 Choisir un risque de première espèce α (5%, 10%...) 4 Définir la zone de rejet W de H 0, en fonction de H 1 (test uni- ou bilatéral) et de α 5 Calculer la valeur t de la statistique de test T 6 Conclure au rejet de H 0 si t W où à son acceptation dans le cas contraire Julien JACQUES (Polytech Lille) Statistiques de base 5 / 48
Principe d un test statistique Les risques antagonistes Vérité Décision H 0 H 1 H 0 conclusion correcte erreur de deuxième espèce H 1 erreur de première espèce conclusion correcte Table : Erreurs associés à un test Vérité Décision H 0 H 1 H 0 niveau de confiance 1 α risque β H 1 risque α 1 β Table : Risques associés à un test Julien JACQUES (Polytech Lille) Statistiques de base 6 / 48
Principe d un test statistique La p-value p plus petite valeur de α conduisant à rejeter H 0 probabilité sous H 0 d observer une statistique de test aussi extrême (au sens de H 1 ) que le t observé probabilité de se tromper lorsqu on rejette H 0 Exemple : test unilatéral H 0 : µ = 0 contre H 1 : µ > 0 p = P(T > t) où T stat. de test et t sa valeur sur l échantillon Julien JACQUES (Polytech Lille) Statistiques de base 7 / 48
Principe d un test statistique La p-value p plus petite valeur de α conduisant à rejeter H 0 probabilité sous H 0 d observer une statistique de test aussi extrême (au sens de H 1 ) que le t observé probabilité de se tromper lorsqu on rejette H 0 Exemple : test unilatéral H 0 : µ = 0 contre H 1 : µ > 0 p = P(T > t) où T stat. de test et t sa valeur sur l échantillon Utilisation de la p-value p si α > p : rejet de H 0 si α < p : acceptation de H 0 Julien JACQUES (Polytech Lille) Statistiques de base 7 / 48
Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 8 / 48
Typologie des tests Tests de liaison entre variables Tester la liaison entre deux variables quantitatives : Test de corrélation Tester la liaison entre deux variables qualitatives : Test d indépendance du χ 2 Tester la liaison entre une variable quantitative et une variable qualitative : ANOVA à 1 facteur Tester la liaison entre une variable quantitative et K variables qualitatives : ANOVA à K facteur Tests de comparaison de populations indépendantes Test de comparaisons des variances de Fisher Test de comparaisons des moyennes de Student Julien JACQUES (Polytech Lille) Statistiques de base 9 / 48
Typologie des tests - Logiciel R Tests de liaison entre variables Tester la liaison entre deux variables quantitatives : fonction cor.test Tester la liaison entre deux variables qualitatives : fonction chisq.test Tester la liaison entre une variable quantitative et une variable qualitative : fonctionaov Tester la liaison entre une variable quantitative et K variables qualitatives : fonction aov Tests de comparaison de populations indépendantes Test de comparaisons des variances de Fisher : fonction var.test Test de comparaisons des moyennes de Student : fonction t.test Julien JACQUES (Polytech Lille) Statistiques de base 10 / 48
Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 11 / 48
Test de corrélation Conditions d application : X et Y deux variables aléatoires quantitatives Hypothèses H 0 : ρ X,Y = 0 contre H 1 : ρ X,Y 0 Statistique de test R XY T = n 2 1 R 2 H0 t n 2 où R XY = XY l estimateur du coefficient de corrélation n i=1 (X i X)(Y i Ȳ) n i=1 (X i X) 2 est n i=1 (Yi Ȳ)2 Décision on rejette H 0 si t > t n 2,1 α 2 ou t < t n 2, α 2 Julien JACQUES (Polytech Lille) Statistiques de base 12 / 48
Test d indépendance du χ 2 Conditions d application : X et Y deux variables aléatoires qualitatives à k et r modalités n ij : nombre d observations ayant la modalité i de X et j de Y n i. = r j=1 n ij et n.j = k i=1 n ij n ij 5 Hypothèses H 0 : X et Y indépendantes contre H 1 : X et Y dépendantes Statistique de test d 2 = k i=1 r j=1 Décision on rejette H 0 si d 2 > χ 2 (k 1)(r 1)1 α (n ij n i. n.j n ) 2 n i. n.j n H0 χ 2 (k 1)(r 1) Julien JACQUES (Polytech Lille) Statistiques de base 13 / 48
ANOVA à 1 facteur Conditions d application : X une variable quantitative, A un facteur qualitatif à K modalités échantillons grands (n 30) ou gaussiens (pour chaque modalité) variances homogènes Hypothèses A influe-t-il X? H 0 : µ 1 =... = µ K = µ contre H 1 : 1 i, j K t.q. µ i µ j Statistique de test F = V 2 A K 1 / V 2 R n K où V 2 A = 1 n K n k ( X k X) 2 est la variance expliquée par le facteur A k=1 V 2 R est la variance résiduelle avec variance totale V 2 T = V 2 A + V 2 R Julien JACQUES (Polytech Lille) Statistiques de base 14 / 48
ANOVA à 1 facteur Présentation des résultats Facteur Somme degrés de carré F des carrés liberté moyen A SSA K 1 SSA/(K 1) F = SSA/(K 1) SSR/(n K) Résidu SSR n K SSR/(n K) Total SST n 1 ou SSA = nv 2 A, SSR = nv 2 R et SST = nv 2 T. Décision On conclue à un effet de A (rejet de H 0 ) si F > F K 1,n K,1 α Julien JACQUES (Polytech Lille) Statistiques de base 15 / 48
ANOVA à 2 facteur Conditions d application : X une variable quantitative, A et B deux facteurs qualitatifs à J et K modalités échantillons grands (n 30) ou gaussiens (pour chaque croisement de modalités) variances homogènes Hypothèses Le facteur A a-t-il une influence sur X? Le facteur B? Et l interaction entre les deux facteurs? Julien JACQUES (Polytech Lille) Statistiques de base 16 / 48
ANOVA à 2 facteur Décomposition de la variance totale avec SST = SSA+SSB + SSAB+SSR SST = où J X.jk = 1 n jk n K jk (X ijk X...) 2, SSA = j=1 k=1 i=1 SSAB = n jk i=1 J j=1 k=1 J n j. ( X.j. X K...) 2, SSB = n.k ( X..k X...) 2, j=1 K n jk ( X.jk X.j. X..k + X...) 2, et SSR = X ijk, X..k = 1 n.k J j=1 X.jk, X.j. = 1 n j. J k=1 n K jk (X ijk X.jk ) 2 j=1 k=1 i=1 K X.jk et X... = 1 n J K jk X ijk. n k=1 j=1 k=1 i=1 Julien JACQUES (Polytech Lille) Statistiques de base 17 / 48
ANOVA à 2 facteur Présentation des résultats Décision Facteur Somme degrés de carré F des carrés liberté moyen A SSA J 1 SSA/(J 1) F A = SSA/(J 1) SSR/(n JK) B SSB K 1 SSB/(K 1) F B = SSB/(K 1) SSR/(n JK) Interaction AB SSAB (J 1)(K 1) SSAB/(K 1)(J 1) F AB = SSAB/(K 1)(J 1) SSR/(n JK) Résidu SSR n JK SSR/(n JK) Total SST n 1 On conclue à un effet de A si F A > F J 1,n JK,1 α On conclue à un effet de B si F B > F K 1,n JK,1 α On conclue à un effet de l interaction entre A et B si F AB > F (K 1)(J 1),n JK,1 α Julien JACQUES (Polytech Lille) Statistiques de base 18 / 48
Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 19 / 48
Test de comparaisons des variances de Fisher Conditions d application : échantillons gaussiens Hypothèses H 0 : σ 1 = σ 2 contre H 1 : σ 1 σ 2 Statistique de test F = n 1 V 2 1 n 1 1 n 2 V 2 2 n 2 1 Décision = S2 1 S 2 2 H0 F n1 1,n 2 1 avec S 2 1 > S 2 2 on rejette H 0 si S1 2 S2 2 > f n1 1,n 2 1,1 α Julien JACQUES (Polytech Lille) Statistiques de base 20 / 48
Test de comparaisons des moyennes de Student Conditions d application : échantillons grands (n 30) ou gaussiens variances égales : σ 2 1 = σ2 2 Hypothèses H 0 : µ 1 = µ 2 contre H 1 : µ 1 µ 2 Statistique de test T = X 1 X 2 (µ 1 µ 2 ) n 1 V 2 1 +n 2 V2 2 n 1 +n 2 2 Décision on rejette H 0 si x 1 x 2 > t n1 +n 2 2, α 2 ( 1 n 1 + 1 n 2 ) H 0 t n1 +n 2 2 ( n 1 v1 2+n 2v2 2 1 n 1 +n 2 2 + 1 n1 n2). Julien JACQUES (Polytech Lille) Statistiques de base 21 / 48
Test de comparaisons des moyennes de Student Conditions d application : échantillons grands (n 30) ou gaussien variances différentes : σ1 2 σ2 2 Hypothèses H 0 : µ 1 = µ 2 contre H 1 : µ 1 µ 2 Correction d Aspin Welch il faut remplacer le nombre de degrés de liberté de la loi de Student (n 1 + n 2 2 lorsque les variances sont égales) par l entier le plus proche de : n = 1 c 2 n 1 1 + (1 c)2 n 2 1 où c = v 2 1 n 1 1 v 2 1 n 1 1 + v2 2 n 2 1 Julien JACQUES (Polytech Lille) Statistiques de base 22 / 48
Test de comparaisons des moyennes de Student - cas apparié Conditions d application : échantillons grands (n 30) ou gaussiens échantillons dépendants (appariés) : chaque échantillon correspond à des mesures différentes des mêmes individus Test on travaille sur la différence D i = X 1i X 2i entre les 2 échantillons, et on test la nullité de la moyenne des D i : H 0 : µ = 0 contre H 1 : µ 0 Julien JACQUES (Polytech Lille) Statistiques de base 23 / 48
Test de comparaisons des moyennes de Student - cas unilatéral Conditions d application : échantillons grands (n 30) ou gaussiens variances égales : σ1 2 = σ2 2 (sinon correction Aspin-Welch) Hypothèses H 0 : µ 1 = µ 2 contre H 1 : µ 1 > µ 2 Statistique de test T = X 1 X 2 (µ 1 µ 2 ) Décision n 1 V 2 1 +n 2 V2 2 n 1 +n 2 2 ( 1 n 1 + 1 n 2 ) H 0 t n1 +n 2 2 on rejette H 0 si x 1 > x 2 t n1 +n 2 2, α 2 ( n 1 v1 2+n 2v2 2 1 n 1 +n 2 2 + 1 n1 n2). Julien JACQUES (Polytech Lille) Statistiques de base 24 / 48
Plan 1 Tests d hypothèses 2 Régression linéaire Julien JACQUES (Polytech Lille) Statistiques de base 25 / 48
Modélisation statistique Les différents types de modélisation Objectifs Variable à expliquer Variables explicatives Nom de l analyse 1 quanti. 1 quanti. régression simple 1 quanti. plusieurs quanti. régression multiple 1 quanti. plusieurs quali. analyse de variance 1 quanti. plusieurs quali. et quanti. analyse de covariance prédictifs descriptifs : sélection des variables pertinentes, forme du modèle Les étapes identifier le problème choix du modèle statistique estimer les paramètres évaluer la qualité de la modélisation obtenue utiliser le modèle pour répondre à la question posée Julien JACQUES (Polytech Lille) Statistiques de base 26 / 48
Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 27 / 48
Le modèle de régression linéaire simple Les données Un échantillon (X i Y i ) i=1,n variable à prédire : Y variable explicative : X si la liaison entre X et Y n est pas linéaire, tester des transformations (log, puissance...) Le modèle Y i = β 0 +β 1 X i +ǫ i où ǫ i N(0,σ 2 ) i.i.d Écriture matricielle : Y 1 1 X 1.. =.... Y n 1 X n Y = Xβ +ǫ ] + β 1 [ β0 ǫ 1.. ǫ n Julien JACQUES (Polytech Lille) Statistiques de base 28 / 48
Le modèle de régression linéaire simple Estimation des paramètres On cherche β = (β 0,β 1 ) minimisant l écart entre les valeurs prédites Ŷ i = β 0 + X i β 1 et les valeurs observées Y i : Les solutions sont min n (Y i β 0 X i β 1 ) 2 i=1 ˆβ 0 = Ȳ ˆβ 1 X, ˆβ1 = S XY S 2 X. où S XY = 1 n n 1 i=1 (X i X)(Y i Ȳ) est l estimateur de la covariance de X et Y. Julien JACQUES (Polytech Lille) Statistiques de base 29 / 48
Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 30 / 48
Le modèle de régression linéaire multiple Les données Un échantillon (X i1,...,x ip, Y i ) i=1,n variable à prédire : Y p variables explicatives : X 1,...,X p Le modèle où ǫ i N(0,σ 2 ) i.i.d Y 1. = Y n Y i = β 0 + p β j X ij +ǫ i j=1 1 X 11... X 1p... 1 X n1... X np Y = Xβ +ǫ β 0 β 1. β p + ǫ 1.. ǫ n (1) (2) Julien JACQUES (Polytech Lille) Statistiques de base 31 / 48
Le modèle de régression linéaire multiple Estimation des paramètres On cherche β = (β 0,β 1,...,β p ) minimisant l écart entre les valeurs prédites Ŷi = β 0 + p j=1 β jx ij et les valeurs observées Y i : La solution est min n (Y i β 0 i=1 p β j X ij ) 2 j=1 ˆβ = (X X) 1 X Y. Julien JACQUES (Polytech Lille) Statistiques de base 32 / 48
Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 33 / 48
Normalité des résidus Dans le but de faire des tests sur le modèle de régression obtenus, nous avons fait l hypothèse de normalité des résidus ǫ i = ŷ i y i. Test de normalité Il existe des tests statistiques permettant de tester l adéquation d une série de données (ici les résidus) à une loi normale : test de Shapiro-Wilk: fonctionshapiro.test Julien JACQUES (Polytech Lille) Statistiques de base 34 / 48
Homoscédasticité des résidus La technique d estimation utilisée suppose que résidus ǫ i = ŷ i y i ont une variance σ 2 constante (ne dépendant pas de i). Homoscédasticité des résidus Pour vérifier cette hypothèse, on représente généralement les résidus en fonction des variables explicatives (ou des valeurs prédites), et on vérifie visuellement que la variance est homogène sur l ensemble de variation de chaque variable explicative représentation graphique Julien JACQUES (Polytech Lille) Statistiques de base 35 / 48
Test de non corrélation des résidus La technique d estimation utilisée suppose que les résidus sont non corrélés. Test de Durbin-Watson Le test de Durbin-Watson permet de vérifier que les ǫ i ne sont pas corrélés. Statistique de test : n i=2 d = (ǫ i ǫ i 1 ) 2 n i=1 ǫ2 i qui doit être proche de 2. Julien JACQUES (Polytech Lille) Statistiques de base 36 / 48
Analyse de variance de la régression On teste l apport du modèle de régression Hypothèses H 0 : β 1 =... = β p = 0 contre H 1 : j : β j 0 Statistique de test On décompose la variance de Y en Y Ȳ 2 2 = } {{ } 2 } {{ } 2 } {{ } SST SSReg SSR Source Somme degrés de carré F des carrés liberté moyen Régression SSReg p MSReg = SSReg/p Erreur SSR n p 1 MSR = SSR/(n p 1) F = MSReg MSR Total SST n 1 Décision on rejette H 0 (la régression est valide) si F > f p,n p 1,1 α Julien JACQUES (Polytech Lille) Statistiques de base 37 / 48
Analyse de variance de la régression SST SSReg SSR variance variance variance totale expliquée résiduelle Julien JACQUES (Polytech Lille) Statistiques de base 38 / 48
Coefficient de détermination Coefficient de détermination Le coefficient de détermination R 2 : R 2 = SSReg SST est un indicateur de la qualité du modèle de régression. Propriétés : R 2 [0, 1] dans le cas de la régression simple : R 2 = ρ 2 XY plus le nombre de variables est grand, plus R 2 est grand Julien JACQUES (Polytech Lille) Statistiques de base 39 / 48
Coefficient de détermination ajusté Coefficient de détermination ajusté Le coefficient de détermination ajusté R 2 adj : R 2 adj = (n 1)R2 d n d 1 est un indicateur de la qualité du modèle de régression, prenant en compte la complexité du modèle (nombre de variables). Propriétés : R 2 adj [0, 1] plus R 2 adj est grand, meilleure est la régression Julien JACQUES (Polytech Lille) Statistiques de base 40 / 48
Tests de la nullité des paramètres du modèle On peut également tester l apport de chaque variable dans le modèle Hypothèses H 0 : β j = 0 contre H 1 : β j 0 Statistique de test T = ˆβ j β j σˆβ j H0 t n p 1 Décision on rejette H 0 (et donc on enlève la variable du modèle) si t > t n 1,1 α 2. Julien JACQUES (Polytech Lille) Statistiques de base 41 / 48
Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 42 / 48
Prédiction Pour une valeur x = (1, x 1,...,x p ) de X, la prévision de Y sera donnée par ŷ = x ˆβ. (3) Un intervalle de confiance de niveau 1 α pour la valeur y sera construit à partir de cette prévision ponctuelle : x ˆβ ± tn p 1,1 α/2ˆσ 1+x (X X) 1 x. (4) Julien JACQUES (Polytech Lille) Statistiques de base 43 / 48
Plan 1 Tests d hypothèses Principe d un test statistique Typologie des tests statistiques Tests de liaison entre variables Tests de comparaison de populations indépendantes 2 Régression linéaire La régression linéaire simple La régression linéaire multiple Tests sur le modèle de régression linéaire Prédiction Détection d observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 44 / 48
Détection d observations atypiques Effet levier L effet levier h i mesure l impact de Y i dans l estimation Ŷi h i = 1 n + (X i X) 2 n j=1 (X j X) 2. Cet impact est directement lié à l éloignement de l observation X i à la moyenne des observations X. effet levier h i grand observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 45 / 48
Détection d observations atypiques Résidus ǫ i = Ŷi Y i Résidus normalisés/studentisés r i = ǫ i S ǫ(i) 1 hi où S ǫ(i) = n 2 n 3 S ǫ 1 ǫ 2 i n 3 1 h i r i > 2 observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 46 / 48
Détection d observations atypiques effet levier éloignement d une observation à la moyenne résidus normalisés éloignement observation / prédiction La distance de Cook synthétisant ces deux informations. Distance de Cook D i = n j=1 (Ŷj(i) Ŷj) 2 2S 2 ǫ = h i 2(1 h i ) r i 2 où Ŷj(i) : estimation de Y j obtenue sans utiliser (X i, Y i ). D i > 1 observations atypiques Julien JACQUES (Polytech Lille) Statistiques de base 47 / 48
Régression linéaire avec R L analyse 1 charger les données : >data=read.table( filename.dat,header=true) 2 estimer le modèle : >modele=lm(y.,data=data) 3 tester la normalité des résidus : >shapiro.test(modele$residuals) 4 vérifier graphiquement l homoscédasticité et la normalité des résidus, la présence d individus atypiques... : plot(modele) 5 tester l auto-corrélation des résidus (package lmtest) : >dwtest(modele) 6 analyser la qualité du modèle et l apport de chaque variable : >summary(modele) Julien JACQUES (Polytech Lille) Statistiques de base 48 / 48