STATISTIQUES UE Modélisation pour la biologie 2011
Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres ε = (ε 1,..., ε n ) i.i.d., E(ε i ) = 0, V(ε i ) = σ 2. Objet Estimer θ, σ 2 Evaluer la qualité du modèle Comparer les modèles
Régression (U 1, U 2,..., U p ) variables explicatives, u i = (u 1 i, u2 i,..., up i ) Rp X = 1 u 1 1... u p 1...... 1 u 1 n... u p n θ = a b 1. b p y i = a + b 1 u 1 i +... + b p u p i + ε i i = 1,..., n Y = a + b 1 U 1 + b 2 U 2 +... + b p U p + ε
Estimation Paramètres θ Par les Moindres Carrés Ordinaire (MCO): minimisation de Y Xθ 2 θ vérifie X X θ = X Y Système d équations normales θ = (X X) 1 X Y Valeurs prédites Ŷ = X θ Résidus (erreurs) ε i = y i ŷ i
Estimation Propriétés des estimateurs θ est sans biais E( θ) = θ la variance de θ est donnée par V( θ) = (X X) 1 σ 2 si ε i N (0, σ) alors θ N (θ, V( θ))
Estimation Variance résiduelle σ 2 ε = Y Ŷ, résidus E( ε ε) = (n p 1)σ 2. Estimateur de σ 2 σ 2 = 1 n p 1 ε ε Loi de l estimateur (n p 1) σ 2 χ 2 n p 1 σ 2
Tests sur les paramètres Test sur un paramètre H 0 : θ i = 0 contre H 1 : θ i 0 On rejette H 0 si θ i σ θi > t 1 α/2;n p 1 θi 2 =V ( θ)ii t 1 α/2;n p 1 quantile 1 α/2 de la loi de Student à n p 1 degrés de liberté.
Qualité du modèle Analyse des résidus moyenne nulle variance constante non corrélés normalité Qualité de l ajustement part de variabilité expliquée vraisemblance maximale Parcimonie
Critères de qualité Coefficient de détermination (y i ȳ) 2 = (y i ŷ i ) 2 i i } {{ } } {{ } SCT SCR + i R 2 = SCM SCT = 1 SCR SCT Coefficient de détermination ajusté R 2 adj = 1 SCR/(n p 1) SCT/(n 1) Akaike Information Criterion (AIC) AIC = 2 log(l) + 2p (ŷ i ȳ) 2 } {{ } SCM
Tests: modèles emboités M 1 gros modèle (beaucoup de paramètres) M 0 cas particulier de M 1 (moins de paramètres) H 0 : M 0 = M 1 H 1 : M 0 M 1 SCR k = i (y i ŷ k i )2, degrés de liberté : ν k k = 0, 1 F = (SCR 0 SCR 1 )/(ν 1 ν 0 ) SCR 1 /ν 1 F(ν 1 ν 0, ν 1 ) On rejette H 0 si Sous H 0, F 1 ; sous H 1, F > 1 f obs > f 1 α;ν1 ν 0 ;ν 1 ou P (F > f obs ) < α
Tests pour une régression M 0 modèle à q < p + 1 paramètres M 1 modèle à p + 1 paramètres H 0 : θ q+1 = θ q+2 =... = θ p+1 = 0 contre H 1 : i > q θ i 0 Choix des régresseurs à l aide du test des modèles emboités ou d un critère de qualité (R 2, AIC, C p,...) C p de Mallows C p = SCR 0 SCR 1 + 2q n Régression pas à pas (stepwise): procédure itérative ascendante ajout du meilleur régresseur parmi les absents descendante suppression du moins bon parmi les présents
Analyse de la variance à 1 facteur Analyse de la variance à 1 facteur La variable explicative n est pas continue numérique discrète finie qualitative X = I n1 I n1 0 0 I n2 0 I n2 0.... I ni 0 0 I ni θ = µ α 1 α 2. α I µ : facteur y ij = µ + α i + ε ij i = 1,..., I j = 1,... n i
Analyse de la variance à 1 facteur X X n est pas inversible, il faut ajouter une contrainte Gθ = 0 Exemples: i α i = 0 α 1 = 0 (R) α I = 0 (SAS) Estimation θ = ( X X) 1 X Y X = ( X G ) si α i = 0 E( θ) = θ µ = y = y α i = y i y V( θ) = (G G) 1 X X(G G) 1 σ 2
Analyse de la variance à 1 facteur Variance résiduelle σ 2 ε = Y Ŷ, résidus E( ε ε) = (n I)σ 2. Estimateur de σ 2 σ 2 = 1 n I ε ε Loi de l estimateur (n I) σ 2 χ 2 n I σ 2
Tests : analyse de la variance à un facteur Analyse de la variance M 0 modèle à 1 paramètre E(Y i ) = µ M 1 modèle à I (I + 1) paramètres E(Y i ) = µ i (µ + α i ) contre H 0 : µ 1 = µ 2 =... = µ I ou α 1 = α 2 =... = α I = 0 H 1 : (i 1, i 2 ) µ i1 µ i2 ou i α i 0 SCR 1 = ij (y ij ȳ i ) 2, degrés de liberté :n I SCR 0 = ij (y ij ȳ) 2, degrés de liberté :n 1 F = (SCR 0 SCR 1 )/(I 1) SCR 1 /(n I) F(I 1, n I)
Tests de comparaison Test sur une combinaison linéaire θ = (c 1, c 2,..., c I+1 ), si i c i = 0, c est un contraste. On rejette H 0 si H 0 : cθ = 0 contre H 1 : cθ 0 c θ cv( θ)c > t 1 α/2;n I Comparaisons 2 à 2 Statistique de test H 0 : µ i = µ j H 1 : µ i µ j T = µ i µ j σ 1 + 1 ni nj T (n I)
Tests de comparaison Comparaisons multiples H 0 : µ 1 = µ 2 =... = µ k H 1 : (i, j), i, j k, µ i µ j Erreur d Ensemble α = probabilité de commettre au moins une erreur de première espèce parmi toutes les comparaisons. Si α erreur de première espèce pour une comparaison Inégalité de Bonferroni :α kα Test de Bonferroni α = α k = α(ee) < α Conservateur : rejette trop souvent H 1
Types de facteurs Modèle croisé à deux facteurs A = (A 1,... A I ), B = (B 1,..., B J ): B 1 B 2 B 3 A 1 * * ** A 2 * ** Complet : si le nombre de répétitions n ij 1 est non nul pour tout couple (i, j) Avec répétitions : si n ij > 1 pour au moins un couple (i, j). Orthogonal : si n ij = n +jn i+ n ++. Equirépété : les n ij > 1 sont tous égaux = orthogonal.
Analyse de la variance : interaction Profils avec et sans interaction Profils: avec interaction Profils: sans interaction Y 4 6 8 10 12 14 B1 B2 B3 Y 6 8 10 12 14 B1 B2 B3 A1 A2 A3 A4 A1 A2 A3 A4 facteurs A facteurs A
Analyse de la variance : modèle Décomposition de la moyenne E(Y ij ) = µ + α i + β j + γ ij Contraintes : αi = β j = 0 Estimation i, j γ ij = i j γ ij = 0 µ = y α i = y i y β j = y j y γ ij = y ij y j y i + y
Analyse de la variance : sous-modèles M 3 : E(Y ij ) = µ + α i + β j + γ ij M 2 : E(Y ij ) = µ + α i + β j M 1 : E(Y ij ) = µ + α i M 1 : E(Y ij) = µ + β j M 0 : E(Y ij ) = µ
Analyse de la variance : somme des carrés Cas équilibré Décomposition de la somme des carrés SCT = SCR + SCM = SCR + SCA + SCB + SCI avec Somme des Carrés Expression Degré de liberté SCA i n i++(y i y ) 2 I 1 SCB j n +j+(y j y ) 2 J 1 SCI ij n ij(y ij y ) 2 (I 1)(J 1)
Analyse de la variance : tests Tests sur les effets H 0 : E(Y ij ) = H 1 : E(Y ij ) = statistique de test Loi sous H 0 µ + α i + β j µ + α i + β j + γ ij SCI/(I 1)(J 1) SCR/n IJ µ + β i + γ ij µ + α i + β j + γ ij SCA/(I 1) SCR/n IJ µ + α i + γ ij µ + α i + β j + γ ij SCB/(J 1) SCR/n IJ µ + β i µ + α i + β j SCA/(I 1) (SCR+SCI)/(n I J+1) µ + α i µ + α i + β j SCB/(J 1) (SCR+SCI)/(n I J+1) F (I 1)(J 1),n IJ F (I 1),n IJ F (J 1),n IJ F (I 1),(n I J+1) F (J 1),(n I J+1)
Analyse de la variance : réduction Si les expériences ne sont pas équirépétées ( données manquantes, dispositif expérimental trop lourd...) Il n y a plus additivité des sommes de carrés Réduction R(c/µ, a, b): diminution de la somme de carrés résiduelle lorsque l on passe du modèle comportant les effets a et b au modèle comportant a,b,c. Sommes de type I, II, III Type I Type II Type III facteur 1 α R(α/µ) R(α/µ, β) R(α/µ, β, γ) facteur 2 β R(β/µ, α) R(β/µ, α) R(β/µ, α, γ) interaction γ R(γ/µ, α, β) R(γ/µ, α, β) R(γ/µ, α, β)
Analyse de la variance : moyennes ajustées Dans le cas non équirépété les moyennes des effets ne sont pas comparables parce que calculées sur des bases différentes. Moyennes ajustées : µ i = 1 E(Y ijk ) = µ + α i + 1 β j + 1 J J J j µi = µ + α i + 1 β j + 1 J J j j j γ ij j γ ij
Analyse de la Covariance Modèle linéaire avec au moins un facteur qualitatif A une variable quantitative X Dispositif orthogonal la variable quantitative prend les mêmes valeurs pour chaque niveau de la variable qualitative Intérêt pour le facteur A: la covariable permet de décrire des hétérogénéités individuelles et de réduire la variance résiduelle. le facteur et la covariable simultanément.
Analyse de la Covariance : modèle Modèle général (avec interaction) Y ij = a i + b i x ij + ε ij décomposition des effets Y ij = µ + α i + (β + γ i )x ij + ε ij Modèle sans interaction Y ij = a i + bx ij + ε ij ou Y ij = µ + α i + βx ij + ε ij
Analyse de la Covariance : estimation Modèle général régulier bi = (y ij y i )(x ij x i ) j (x ij x i ) 2 i â i = y i b i x i σ 2 = 1 n 2I ij (y ij y i ) 2 i bi (x ij x i ) 2 j
Analyse de la Covariance : tests M 3 : E(Y ij ) = µ + α i + (β + γ i )x ij M 2 : E(Y ij ) = µ + α i + βx ij M 1 : E(Y ij ) = µ + α i M 1 : E(Y ij) = µ + βx ij M 0 : E(Y ij ) = µ
Analyse de la Covariance : tests Somme de carrés de type I SCM = R(α, β, γ/µ) = R(α/µ) + R(β/µ, α) + R(γ/µ, α, β) Test absence d interaction: F = R(γ/µ, α, β)/(i 1) σ 2 M 3 Test sur l effet du facteur F = R(α/µ)/(I 1) σ 2 M 2 Test sur la covariable F = R(β/µ, α) σ 2 M 2
Analyse de la Covariance : comparaison des traitements Moyennes classiques Moyennes ajustées µ i = µ + α i + ( β + γ i )x i µi = µ + α i + ( β + γ i )x Compare l effet du facteur à conditions égales