Cours 7 : Rappels de cours et exemples sous R. I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

Documents pareils
Analyse de la variance Comparaison de plusieurs moyennes

Introduction aux Statistiques et à l utilisation du logiciel R

Lire ; Compter ; Tester... avec R

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Introduction à la statistique non paramétrique

Exemples d application

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Biostatistiques : Petits effectifs

Logiciel XLSTAT version rue Damrémont PARIS

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 3. Les distributions à deux variables

Un exemple de régression logistique sous

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

Données longitudinales et modèles de survie

Étude des flux d individus et des modalités de recrutement chez Formica rufa

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

Relation entre deux variables : estimation de la corrélation linéaire

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Principe d un test statistique

Exemple PLS avec SAS

STATISTIQUES. UE Modélisation pour la biologie

Cours de méthodes de scoring

FORMULAIRE DE STATISTIQUES

Modèles pour données répétées

Régression linéaire. Nicolas Turenne INRA

La classification automatique de données quantitatives

Théorie des sondages : cours 5

Statistiques descriptives

Cours 9 : Plans à plusieurs facteurs

Aide-mémoire de statistique appliquée à la biologie

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Évaluation de la régression bornée

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Imputation du salaire d ego dans TeO

Introduction à l approche bootstrap

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Probabilités III Introduction à l évaluation d options

TABLE DES MATIERES. C Exercices complémentaires 42

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

1 Définition de la non stationnarité

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

PRIME D UNE OPTION D ACHAT OU DE VENTE

données en connaissance et en actions?

L Econométrie des Données de Panel

Le risque Idiosyncrasique

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Chapitre 5 : Flot maximal dans un graphe

VI. Tests non paramétriques sur un échantillon

Cours de Tests paramétriques

23. Interprétation clinique des mesures de l effet traitement

Econométrie et applications

Leçon N 4 : Statistiques à deux variables

TRACER LE GRAPHE D'UNE FONCTION

INTRODUCTION À L'ENVIRONNEMENT DE PROGRAMMATION STATISTIQUE R

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011

Température corporelle d un castor (une petite introduction aux séries temporelles)

Exemples d Analyses de Variance avec R

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Application sur le Dispositif en Blocs Complètement Randomisés

Programmation linéaire

FIMA, 7 juillet 2005

Cours 7 : Utilisation de modules sous python

Chapitre 4 : Régression linéaire

Etude des propriétés empiriques du lasso par simulations

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

MATHS FINANCIERES. Projet OMEGA

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Annexe commune aux séries ES, L et S : boîtes et quantiles

Faire un semi variograme et une carte krigée avec surfer

De la mesure à l analyse des risques

Utilisation du Logiciel de statistique SPSS 8.0

Principe de symétrisation pour la construction d un test adaptatif

INTRODUCTION AU LOGICIEL R

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Validation probabiliste d un Système de Prévision d Ensemble

Chapitre 2/ La fonction de consommation et la fonction d épargne

Le Modèle Linéaire par l exemple :

L IMPACT DE LA MUTUALISATION SUR LES RESSOURCES HUMAINES

Analyse des durées de vie avec le logiciel R

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Analyse de données linguistiques

La représentativité d un échantillon et son test par le Khi-deux Testing the representativeness of a sample

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Transcription:

Cours 7 : Rappels de cours et exemples sous R I- Régression linéaire simple II- Analyse de variance à 1 facteur III- Tests statistiques

I- Le modèle de régression linéaire simple: théorie Rappels On cherche à expliquer ou à prévoir les variations d une variable Y (variable dépendante) par celles d une fonction linéaire de X (variable explicative), i.e., à valider le modèle de RLS ε Y = ax + b + ε où est une variable aléatoire gaussienne de moyenne nulle et de variance σ ² Pour cela on observe un n-échantillon de réalisations de X et de Y, sur lesquelles on va chercher à voir si le lien est plausible, i.e. si il existe a, b et ² σ y = ax + b + ε, i = 1,..., n. (validation) i i i Avec ε i.i.d. Gaussiennes et pas trop grand, i σ ² et à approcher les valeurs des paramètres a, b, et ² (estimation) σ

I- Le modèle de régression linéaire simple: théorie Estimation des paramètres : Estimation de a et b : On commence par chercher le «meilleur» ajustement linéaire sur nos données, au sens des moindres carrés : ŷy ˆ ax b=i valeur estimée i = i + ei = yi yˆ i = i résidu n n 2 et sont tels que ˆ ˆb e ˆ i = ( yi axi b)² est minimal. Ce sont les i= 1 i= 1 coefficients de la régression (ou estimateurs des moindres carrés). â

I- Le modèle de régression linéaire simple: théorie On montre que : n ( x x)( y y) i i i= 1 aˆ =, bˆ = y ax ˆ n i= 1 ( x x)² i y = ax ˆ + b ˆ La droite d ajustement s appelle droite de régression ou des moindres carrés. ŷ i La valeur estime la valeur moyenne de Y lorsque X=xi (E(Y/X=xi)). C est aussi la prévision de Y pour une observation telle que X=xi. σ Estimation de ² : La variance de l erreur s estime par s² n 2 ei = i= 1 = SSR n 2 n 2

I- Le modèle de régression linéaire simple: théorie Validation du modèle sur les données : il faut que le modèle soit de bonne qualité (bon pouvoir explicatif et prédictif) Analyse de la qualité du modèle : Décomposition de la variabilité SST = ( y y)² = ns SSM = ( yˆ y)² = s SSR = e = ( n 2) s i i 2 2 i 2 Y 2 Yˆ =somme des carrés des variations de y =somme des carrés des variations expliquées par le modèle =somme des carrés des variations résiduelles On montre que : SST=SSR+SSM Au plus SSM est grand (ou SSR faible), au meilleur est l ajustement.

I- Le modèle de régression linéaire simple: théorie Les indicateurs de variabilité sont résumés dans le tableau d analyse de la variance ci-dessous : source Degrés de Somme des carrés Somme des carrés moyens Stat de Fisher liberté modèle 1 SSM SSM F=SSM/s² erreur n-2 SSR s²=ssr/(n-2) total n-1 SST s²(y)=sst/(n-1)

I- Le modèle de régression linéaire simple: théorie Indicateur principal de qualité du modèle: le coefficient de détermination (% de variation expliqué par le modèle, carré du coefficient de corrélation linéaire): R² SSM 1 SSR = = SST SST doit être proche de 1. Autres indicateurs : SSM - Le F de Fisher F = doit être le plus grand possible s² - Le s² doit être le plus faible possible pour garantir de bonnes prévisions. - Les coefficients doivent être stables pour garantir de bonnes prévisions, i.e. leurs écarts type s( aˆ ) et s( bˆ ) doivent être faibles. On montre que 2 avec ˆ s ˆ 1 x² s²( a) = n ; s²( b) = s² + ci = xi x n c ² n c ² i 1 i i 1 i = =

I- Le modèle de régression linéaire simple: théorie Vérification des hypothèses sur les aléas : il faut que les aléas soient i.i.d. et gaussiens ε i Tests graphiques : Le graphe des résidus versus les valeurs prédites ne doit pas présenter de structure (indépendance, homoscedasticité, normalité). Le corrélogramme (ACF) ne doit pas présenter de structure (indépendance) Le QQ-plot suit la première bissectrice

I- Le modèle de régression linéaire simple: théorie

I- Le modèle de régression linéaire simple: théorie Conséquences de la non-normalité : Les estimateurs ne sont pas optimaux Les tests et intervalles de confiances sont invalides. En réalité seulement les distribution à queue très longue posent problème et une légère non-normalité peut être ignorée, d autant plus que l échantillon est grand. d une variance non constante : Les estimations ne sont pas bonnes il faut utiliser les moindres carrés pondérés.

I- Le modèle de régression linéaire simple: théorie Solutions Essayer de transformer les données en se rappelant que - quoiqu on fasse, certaines données ne peuvent être analysées par régression - la bonne transformation est parfois difficile à trouver. Utiliser une régression non-linéaire.

I- Le modèle de régression linéaire simple: théorie Repérage des points aberrants: Résidu réduit ou studentisé : re i ei = s ( e i ) 1 c ² i s²( ei ) = s² 1 = s²(1 hii )² n n ci ² i= 1 Tests graphiques Le graphe des résidus réduits versus les valeurs prédites doit normalement être compris entre 2 et 2 pour au moins 95% des observations dès lors que la normalité est vérifiée.

I- Le modèle de régression linéaire simple: théorie Des observations dont le résidu réduit est >2 en v.a. sont des points contribuant fortement à la valeur de s². Ils peuvent constituer des points aberrants. Il faut les analyser plus avant. - Analyse du «leverage» de ces points (hii) : Le leverage mesure l influence potentielle d un point sur la valeur des coefficients de la régression. Une valeur hii>4/n traduit un point trop influent sur la détermination des coefficients. - Analyse de la distance de Cook : La distance de Cook mesure le leverage et la contribution au s², c est-à-dire l influence réelle d un point. Une valeur >1 traduit un point aberrant.

I- Le modèle de régression linéaire simple: théorie Solutions Enlever les observations aberrantes et recalculer la régression. Comparer les résultats. Y-a-t-il des différences significatives entre les coefficients?

I- Le modèle de régression linéaire simple: théorie Validation du modèle sur la population Une fois la gaussianité vérifiée, on peut effectuer des tests afin d asseoir la pertinence du modèle sur la population étudiée. Ces tests testent l hypothèse : H : a = 0 contre H : a 0 0 1 (a=0 signifie absence de lien linéaire entre X et Y) Test de student. Basé sur la statistique aˆ T = T s( aˆ ) T(n-2) sous H 0 Test de Fisher. Basé sur la statistique : F SSM = F F(1,n-2) sous H 0 s²

I- Le modèle de régression linéaire simple: exemple Exemple 1 : On cherche à expliquer les variations de y par celles d une fonction linéaire de x à partir de 30 observations de chacune des variables, i.e. à ajuster le modèle ε i y = ax + b + ε, i = 1,...,30. i i i où est une suite de variables aléatoires i.i.d.gaussiennes de moyenne nulle et de variance >x=1:100; X=sample(x,30,replace=TRUE) >Y=3+7*X+rnorm(30,0,100) >regression=lm(y~x); regression Call: lm(formula = Y ~ X) σ ² Coefficients: (Intercept) X -30.26 7.42

Le modèle de régression linéaire simple: exemple Dessin du nuage de points : > plot(x,y) >text(40,600, substitute(y==a*x+b, list(a=regression$coef[2], b=regression$coef[1]))) > lines(x,regression$fitted.values) #ou abline(regression) > M=locator(); v=locator() > segments(0,m$y,m$x,m$y) > arrows(m$x,m$y,m$x,v$y,angle=30, code=3) > segments(m$x,v$y,0,v$y,lty=2) > text(0,350, "yi",col="red") > text(0,200, "^yi",col="red") > text(25,250, "ei",col="red") > title("nuage de points et droite de regression")

Le modèle de régression linéaire simple: exemple

Le modèle de régression linéaire simple: exemple Explication des sorties R > names(regression) [1] "coefficients" "residuals" "effects" "rank" [5] "fitted.values" "assign" "qr" "df.residual" [9] "xlevels" "call" "terms" "model«coefficients (ou coef) : estimations des paramètres fitted.values (ou fitted): valeurs estimées Residuals (ou res) : résidus e = y yˆ i i i df.residual : nombre de ddl des résidus (n-2) y ˆi ˆ et a bˆ

Le modèle de régression linéaire simple: exemple > anova(regression) Analysis of Variance Table Response: Y SSM SSR Df Sum Sq Mean Sq F value Pr(>F) F=MSM/MSR X 1 1485466 1485466 159.83 4.312e-13 *** Residuals 28 260238 9294 --- n-2 Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 MSM=SSM/dl=SSM MSR=SSR/dl=SSR/n-2

Le modèle de régression linéaire simple: exemple >summary(regression) Call: lm(formula = Y ~ X) Residuals: Min 1Q Median 3Q Max s(^b) -206.89-76.47 12.28 61.42 192.04 s(â) Coefficients: tb=^b/s(^b) Estimate Std. Error t value Pr(> t ) (Intercept) -30.2553 34.3536-0.881 0.386 X 7.4199 0.5869 12.642 4.31e-13 *** ta=â/s(â) --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 S=sqrt(MSR) â ^b Residual standard error: 96.41 on 28 degrees of freedom Multiple R-Squared: 0.8509, Adjusted R-squared: 0.8456 F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e-13 R²=SSM/(SSM +SSR)

Le modèle de régression linéaire simple: exemple Pertinence du modèle sur les données : >summary(regression) Call: lm(formula = Y ~ X) De petites valeurs sont un gage de stabilité du modèle donc du pouvoir prédictif: valeur de b pas très stable ici Residuals: Min 1Q Median 3Q Max -206.89-76.47 12.28 61.42 192.04 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -30.2553 34.3536-0.881 0.386 X 7.4199 0.5869 12.642 4.31e-13 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 96.41 on 28 degrees of freedom Multiple R-Squared: 0.8509, Adjusted R-squared: 0.8456 F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e-13 % de variations expliquées par le modèle R² doit être proche de 1 pour bon pouvoir explicatif: ok ici Écart-type résiduel doit être faible pour bon pouvoir prédictif

Le modèle de régression linéaire simple: exemple Conclusion 1 : le modèle a un bon pouvoir explicatif sur les données, mais le pouvoir prédictif risque d être entaché par l instabilité du coefficient b et une variance résiduelle importante.

Le modèle de régression linéaire simple: exemple Analyse des résidus Fonctions R utiles: - influence(): étude des points contribuant à l instabilité du modèle (prédiction). - residuals() - rstudent() : résidus réduits - acf() : graphe d autocorrelation des résidus - plot() - qqnorm()

Le modèle de régression linéaire simple: exemple - Repérage des points aberrants et des points contribuant fortement à la détermination du modèle : Est suspect un point tel que le résidu réduit est supérieur à 2 en valeur absolue : si sa distance de Cook s est >1, le point suspect contribue trop fortement à la détermination du modèle - Vérifier les hypothèse sur les aléas : iid et normalité (préalable à l interprétation des tests) Le graphe des résidus (ou des résidus réduits) ne doit pas présenter de structure (variance constante sur la verticale et symetrie par rapport aux abscisses).. Le graphe des résidus réduits doit être compris entre 2 et 2 et ne doit pas présenter de structure. D autres graphiques tels que le qqnorm() ou acf() peuvent aider.

Le modèle de régression linéaire simple: exemple

Le modèle de régression linéaire simple: exemple > regression$res 1 2 3 4 5 6-124.555774 192.039037-206.889677 66.405930 134.778691 84.971904 7 8 9 10 11 12 62.303811 49.992064 58.754097-59.526887-122.429844 164.829565 13 14 15 16 17 18-32.171872 66.230754 14.259927-85.047904-10.456005-85.910834 19 20 21 22 23 24-25.642668-90.246235 50.526061 40.156580-54.350556 10.292678 25 26 27 28 29 30 1.090471 94.392800 29.988159 20.679500-162.341983-82.121786

Le modèle de régression linéaire simple: exemple > rstudent(regression) 1 2 3 4 5 6-1.33891051 2.18030419-2.35658586 0.69563804 1.44970973 0.90378230 7 8 9 10 11 12 0.67206553 0.54684103 0.61362322-0.63902844-1.37190197 1.80811221 13 14 15 16 17 18-0.33693306 0.72519680 0.14970613-0.92811721-0.11319206-0.91236104 19 20 21 22 23 24-0.27792699-0.96174524 0.53172811 0.43253471-0.58014349 0.10726922 25 26 27 28 29 30 0.01142126 1.03392757 0.31123595 0.21446494-1.79851278-0.86589500

Le modèle de régression linéaire simple: exemple >par(mfrow=c(2,2)); plot(regression) Graphe1 : doit être sans structure réparti de part et d autre de l axe des x Graphe 2 : doit suivre la bissectrice Graphe 3 : doit être sans structure Graphe 4 : distances de Cook ou courbe de niveaux de leverage de distances de Cook s égales

Le modèle de régression linéaire simple: exemple >plot(regression$fitted,rstudent(regression),xlabel="fitted values", ylabel="standardized residuals"); >abline(h=2,col="red");abline(h=-2,col="red")

Le modèle de régression linéaire simple: exemple > par(mfrow=c(1,2)) > plot(regression$residuals) > acf(regression$res)

Le modèle de régression linéaire simple: exemple Conclusion 2 : Les résidus semblent approximativement gaussiens (qqnorm) et i.i.d. (pas de structure, de part et d autre de 0 sur les plots et le corrélogramme).deux points devraient être éventuellement enlevés du modèle : les points 2 et 3.

Le modèle de régression linéaire simple: exemple

Le modèle de régression linéaire simple: exemple Validité du modèle sur la population >summary(regression) Call: lm(formula = Y ~ X) Residuals: Min 1Q Median 3Q Max -206.89-76.47 12.28 61.42 192.04 La variable X a une influence significative sur Y à 5%: le coefficient est significativement différent de zero: le modèle est pertinent par student Coefficients: Estimate Std. Error t value Pr(> t ) Le terme constant n est pas significativement (Intercept) -30.2553 34.3536-0.881 0.386 different de zero: on peut X 7.4199 0.5869 12.642 4.31e-13 *** decider de refaire tourner --- le modèle sans lui Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 96.41 on 28 degrees of freedom Multiple R-Squared: 0.8509, Adjusted R-squared: 0.8456 F-statistic: 159.8 on 1 and 28 DF, p-value: 4.312e-13 Le modèle est pertinent à 5% par Fisher

Le modèle de régression linéaire simple: exemple Conclusion 3: le modèle linéaire est pertinent pour expliquer variations de Y sur la population. Conclusion : L ajustement linéaire est pertinent ici. Pour obtenir un meilleur pouvoir prédictif, il faudrait éventuellement retirer les points 2 et 3 de l analyse et utiliser un modèle sans terme constant.

II- Analyse de variance : théorie Soit X une variable qualitative (facteur) à p modalités (niveaux) et Y une variable quantitative. On veut mettre en évidence une différence de valeur moyenne de la variable Y selon le niveau du facteur. On suppose alors que X discrimine bien Y: E(Y/X=x j) Y µ α j ε = µ + α j ou de façon équivalente = + +, = 1 j j j,...p. avec ε j de moyenne nulle. On veut pouvoir rejeter l hypothèse : H0 : α1=...= α j=...= αp Pour cela, on observe ces deux variables sur un ensemble de n individus, on suppose p y = µ + α i 1... n, j 1,...p. ij j + ε = = ij j avec n j = n j= 1 et on veut valider l hypothèse précédente. On fait généralement l hypothèse implicite que les sont iid gaussiens. ε ij

1 p y = n y n j= 1 j j II- Analyse de variance : théorie E ( ). 1 X = x1 j E ( X = x j ) E p ( X = x p ) y11,... y y,... n 1 1 j yn j j y,... 1 p y p 1 n p y 1 y j n j = i = 1 y ij y p

II- Analyse de variance : théorie Un moyen simple pour se rendre compte :

II- Analyse de variance : théorie Lorsque n =... = n 1 p on dit qu on a un plan équilibré.

II- Analyse de variance : théorie Estimation des paramètres Moyennes On a p+1 inconnues du modèle ( µ, α,..., α 1 p ) et uniquement p groupes donc on doit imposer une contrainte. On impose : p n 0 j 1 j α j = = (ce qu un groupe perd l autre le gagne) On cherche les valeurs des paramètres minimisant la fontion des moindres carrés: ( y ) 2 i j ij α j µ

II- Analyse de variance : théorie On trouve : ˆ µ = y et ˆ j α = y j y yˆ j = ˆ α ˆ j µ e ˆ ij = y y j ij = est la moyenne estimée ou prédite dans le niveau j du facteur est le i résidu du niveau j du facteur Estimation de la variance des erreurs : s² = i j e n p ij ²

II- Analyse de variance : théorie Validation du modèle : on doit d abord vérifier que le facteur X discrimine bien Y, c est à dire que la majeure partie de la variabilité est bien expliquée par le modèle. Décomposition de la variabilité D j = ( y ij y j ) 2 i E j SSint ra = D j = ( n p) s² j SS = 2 int er n j ( y j y) j SST = ( y ij y) 2 j i Ej = Somme des carrés des variations dans le niveau j = Somme des carrés des variations intra-niveaux = Somme des carrés des variations inter-niveaux = somme des carrés des variations totales On a : SST = SS + SS int er int ra Le modèle est d autant meilleur que SSinter est grand (que SSintra est faible)

II- Analyse de variance : théorie Indice de qualité du modèle : le rapport de corrélation (% de variations expliquée par X) 2 η = SS SST INTER = 1 SS SST INTRA Autre indice : le F de Fisher : F V = V INTER INTRA V INTER = SS p 1 INTER V INTER = SS n p INTRA

II- Analyse de variance : théorie Les indicateurs de variabilité sont résumés dans le tableau d analyse de la variance ci-dessous : source Intergroupes Intragroupes Degrés de liberté Somme des carrés Somme des carrés moyens Stat de Fisher p-1 SSinter Vinter=SSinter/p-1 F=Vinter/ s² n-p SSintra Vintra=s² =SSintra/(n-p) total n-1 SST s²(y)=sst/(n-1)

II- Analyse de variance : théorie Validation des hypothèses sur les aléas Voir régression

II- Analyse de variance : théorie Test d égalité des moyennes Dès lors qu on a vérifié que les erreurs sont i.i.d. gaussiennes, on peut tester H0 : α1=...= α j=...= αp En utilisant le test de Fisher. On utilise la statistique de test VINTER F = sous H 0, F F( p 1, n p) V INTRA

II- Analyse de variance :exemple Six (k) insecticides (spray) ont été testés chacun sur 12 cultures. La réponse observée (count) est le nombre d'insectes. Les données sont contenues dans le data.frame «InsectSprays». On veut savoir si il existe un effet significatif du facteur insecticide, i.e. on veut valider le modèle d analyse de variance : ε i Count ij = µ + α j + ε ij, i = 1,... 12 ; j = 1,... 6 où est une suite de variables aléatoires i.i.d. de moyenne nulle et de variance σ ². >anov=aov(sqrt(count) ~ spray, data = InsectSprays)

II- Analyse de variance > summary(anov) Df Sum Sq Mean Sq F value Pr(>F) spray 5 88.438 17.688 44.799 < 2.2e-16 *** Residuals 66 26.058 0.395 --- SSInter SSIntra V Inter P(F>Fvalue) F suit F(k-1,n-k) Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 k-1 n-k V intra V inter/v intra

II- Analyse de variance > names(anov) [1] "coefficients" "residuals" "effects" "rank" [5] "fitted.values" "assign" "qr" "df.residual" [9] "contrasts" "xlevels" "call" "terms" [13] "model" coefficients : moyennes dans les niveaux residuals : résidus estimes du modèle fitted.values : valeurs estimées y ˆ = ˆ µ + ˆ α ij α e = y yˆ ij ij ij j ˆ j

>boxplot(sqrt(insectspray$count))~insectspray$spray

II- Analyse de variance Le Boxplot montre : - les points aberrants - l asymétrie de la distribution - une inégalité dans les variances. Cependant, comme souvent il y a peu de données dans chaque niveau du facteur on peu s attendre à une grande variabilité même si les variances des souspopulations sont en réalité égales.

II- Analyse de variance Analyse des résidus (cf régression) >par(mfrow=c(2,2)); plot(anov)

>plot(rstudent(anov)) II- Analyse de variance

II- Analyse de variance >par(mfrow=c(2,1)) > acf(anov$res) >plot(anov$res)

II- Analyse de variance La distribution des résidus semble gaussienne Les résidus sont i.i.d. Il existe des points aberrants 39, 27, 25 dont les distances de Cook s montrent qu ils influencent trop les coefficients.

II- Analyse de variance >summary(anov) Df Sum Sq Mean Sq F value Pr(>F) spray 5 88.438 17.688 44.799 < 2.2e-16 *** Residuals 66 26.058 0.395 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Le test de Fisher montre que l on rejette fortement l hypothèse nulle (avec un risque de se tromper presque nul): le modèle est significatif :il existe un fort effet du facteur spray sur le nombre d insectes : les moyennes sont differentes

>boxplot(sqrt(insectspray$count))~insectspray$spray

II- Analyse de variance >anov$coeff (Intercept) sprayb sprayc sprayd spraye sprayf 3.7606784 0.1159530-2.5158217-1.5963245-1.9512174 0.2579388 Le groupe A est le groupe de référence avec une moyenne de 3.76. Le groupe B a une moyenne de 3.76+0.11,. Les écarts les plus significatifs sont entre les groupes A B et F et les groupes C D et E, qui sont plus efficaces que les premiers.

III- Test de comparaison de moyenne Soient (X1,..., Xn) un echantillon issu d une population iid N(1, 1) et (Y1,..., Ym) un échantillon issu d une population iid E(1). On veut tester: H : E( X ) = E( Y ) contre H : E( X ) E( Y ) 0 1 Lorsque les variances théoriques des deux variables sont égales : Test de student X Y 2 2 ( n1 1) s1 + ( n2 1) s2 t = ; s² = t T ( n1 + n2 2) sous H0 1 1 n1 + n2 2 s + n1 n2 Lorsque les variances théoriques des deux variables sont inégales : Correction de Welch

III- Test de comparaison de moyenne Test de student à la main (à α=5%) : >x = rnorm(100,1,1); y = rexp(200,1) >p=abs(mean(x)-mean(y)) > s=sqrt((99*var(x)+199*var(y))/298) >t=p/(s*sqrt(1/100+1/200)) >t [1] 0.7274531 On compare t le fractile d ordre 1-α/2 de la loi de student à 298 ddl. Si t supérieur, on rejette H0, sinon en accepte.

III- Test de comparaison de moyenne Avec la fonction t-test : Cas où on suppose les variances égales : >x = rnorm(100,1,1); y = rexp(200,1) >t.test(x,y, var.equal=t) Two Sample t-test data: x and y t = -0.7275, df = 298, p-value = 0.4675 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: -0.3460831 0.1592772 sample estimates: mean of x mean of y 0.9584589 1.0518618 X Valeur de t P( T >t) Où T suit T(298) Rejet de H0 si <5% Nombre de ddl = 298

III- Test de comparaison de moyenne Avec la fonction t-test : Cas où on suppose les variances inégales >x = rnorm(100,1,2); y = rexp(200,1) >st=t.test(x,y) Welch Two Sample t-test Généralisation du test de Student au cas de variances inégales data: x and y t = 0.8249, df = 118.758, p-value = 0.4111 alternative hypothesis: true difference in means is not equal to 0 95 percent confidence interval: Rejet de H0 si <5% -0.2472865 0.6004484 sample estimates: mean of x mean of y 1.182571 1.005990 Nombre de ddl corrigé=178,46 X Y Valeur de la Statistique de Welch

III- Test de comparaison de moyenne > names(st) [1] "statistic" "parameter" "p.value" "conf.int" "estimate" [6] "null.value" "alternative" "method" "data.name" statistic : valeur de t alternative : type d alternative two-sided, one-sided. estimate : moyennes empiriques des echantillons null.value : hypothese nulle conf.int: intervalles de confiances parameter :ddl Conclusion : pour les deux exemples, on ne peut pas rejeter l hypothèse nulle au seuil 5% : les moyennes ne sont pas significativement différentes.

IV Test du chi2 On veut tester à partir d un tableau de contingence de n individus s il y a une relation entre deux caractères X et Y H : les deux critères sont indépendants contre H =! H 0 1 0 Statistique de test : χn ² χ²(( l 1)( c 1)) sous H 1 0 Où Oi sont les éléments du tableau de contingence, Ei sont les éléments du tableau attendu sous l hypothèse d indépendance (voir un cours et l exemple ci-après)

IV Test du chi2 Test du chi2 à la main >O=matrix(c(442,514,38,6),nrow=2,byrow=TRUE) >colnames(o)=c("homme","femme"); rownames(o)=c("voyant","aveugle") >O #tableau observé Oi #tableau théorique Ei homme femme homme femme voyant 442 514 voyant 458.88 497.12 aveugle 38 6 aveugle 21.12 22.88 #Création du tableau théorique : >ni=apply(o,1,sum); nj= apply(o,2,sum) voyant aveugle homme femme 956 44 480 520 >E=matrix(c(ni[1]*nj[1]/1000,ni[2]*nj[1]/1000,ni[1]*nj[2]/1000, ni[2]*nj[2]/1000),2,2) >chi2=sum((o-e)^2/e) [1] 27.13874

IV Test du chi2 > X2=chisq.test(O, correct=f) Pearson's Chi-squared test data: tab Valeur de la statistique de test du chi2 X-squared = 27.1387, df = 1, p-value = 1.894e-07 P(X>X-squared ) X v.a. de loi X²(1) On rejette H0 si la p-value est <5%. Ici, c est le cas, les caractères sexe et cecite ne sont pas indépendants.