STATISTIQUES. UE Modélisation pour la biologie



Documents pareils
Exemples d application

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Le Modèle Linéaire par l exemple :

Chapitre 3. Les distributions à deux variables

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Introduction à l approche bootstrap

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

IBM SPSS Regression 21

Évaluation de la régression bornée

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

FORMULAIRE DE STATISTIQUES

TABLE DES MATIERES. C Exercices complémentaires 42

Analyse de la variance Comparaison de plusieurs moyennes

MODELE A CORRECTION D ERREUR ET APPLICATIONS

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Le modèle de régression linéaire

L Econométrie des Données de Panel

Arbres binaires de décision

Etude des propriétés empiriques du lasso par simulations

Cours 9 : Plans à plusieurs facteurs

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyse en Composantes Principales

Statistiques à deux variables

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Data mining II. Modélisation Statistique & Apprentissage

VI. Tests non paramétriques sur un échantillon

Programmation linéaire

Méthodes de Simulation

Statistiques descriptives

Modèles et Méthodes de Réservation

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Régression linéaire. Nicolas Turenne INRA

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Programmes des classes préparatoires aux Grandes Ecoles

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Température corporelle d un castor (une petite introduction aux séries temporelles)

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

2 TABLE DES MATIÈRES. I.8.2 Exemple... 38

PROBABILITES ET STATISTIQUE I&II

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

1 Complément sur la projection du nuage des individus

Apprentissage non paramétrique en régression

Enjeux mathématiques et Statistiques du Big Data

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Evaluation des modèles non-linéaires à effets mixtes

La (les) mesure(s) GPS

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Programmation linéaire et Optimisation. Didier Smets

Le risque Idiosyncrasique

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

FIMA, 7 juillet 2005

Logiciel XLSTAT version rue Damrémont PARIS

Exercices Corrigés Premières notions sur les espaces vectoriels

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Cours d analyse numérique SMI-S4

Modélisation des carrières salariales. dans Destinie

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

NOTATIONS PRÉLIMINAIRES

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Programmation Linéaire - Cours 1

Capital économique en assurance vie : utilisation des «replicating portfolios»

Modèles pour données répétées

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Extraction d informations stratégiques par Analyse en Composantes Principales

1 Définition de la non stationnarité

4.2 Unités d enseignement du M1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Aide-mémoire de statistique appliquée à la biologie

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Coup de Projecteur sur les Réseaux de Neurones

Optimisation des ressources des produits automobile première

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Chapitre 2. Matrices

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales

Econométrie et applications

Exercice : la frontière des portefeuilles optimaux sans actif certain

Modèles Estimés sur Données de Panel

Introduction au Data-Mining

MASTER ECONOMETRIE ET STATISTIQUE APPLIQUEE (ESA) Econométrie pour la Finance

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Données longitudinales et modèles de survie

Econométrie La régression linéaire simple et multiple

Leçon N 4 : Statistiques à deux variables

Résolution de systèmes linéaires par des méthodes directes

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Chapitre 4 : Régression linéaire

Analyse de la relation entre primes de terme et prime de change dans un cadre d équilibre international

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Transcription:

STATISTIQUES UE Modélisation pour la biologie 2011

Cadre Général n individus: 1, 2,..., n Y variable à expliquer : Y = (y 1, y 2,..., y n ), y i R Modèle: Y = Xθ + ε X matrice du plan d expériences θ paramètres ε = (ε 1,..., ε n ) i.i.d., E(ε i ) = 0, V(ε i ) = σ 2. Objet Estimer θ, σ 2 Evaluer la qualité du modèle Comparer les modèles

Régression (U 1, U 2,..., U p ) variables explicatives, u i = (u 1 i, u2 i,..., up i ) Rp X = 1 u 1 1... u p 1...... 1 u 1 n... u p n θ = a b 1. b p y i = a + b 1 u 1 i +... + b p u p i + ε i i = 1,..., n Y = a + b 1 U 1 + b 2 U 2 +... + b p U p + ε

Estimation Paramètres θ Par les Moindres Carrés Ordinaire (MCO): minimisation de Y Xθ 2 θ vérifie X X θ = X Y Système d équations normales θ = (X X) 1 X Y Valeurs prédites Ŷ = X θ Résidus (erreurs) ε i = y i ŷ i

Estimation Propriétés des estimateurs θ est sans biais E( θ) = θ la variance de θ est donnée par V( θ) = (X X) 1 σ 2 si ε i N (0, σ) alors θ N (θ, V( θ))

Estimation Variance résiduelle σ 2 ε = Y Ŷ, résidus E( ε ε) = (n p 1)σ 2. Estimateur de σ 2 σ 2 = 1 n p 1 ε ε Loi de l estimateur (n p 1) σ 2 χ 2 n p 1 σ 2

Tests sur les paramètres Test sur un paramètre H 0 : θ i = 0 contre H 1 : θ i 0 On rejette H 0 si θ i σ θi > t 1 α/2;n p 1 θi 2 =V ( θ)ii t 1 α/2;n p 1 quantile 1 α/2 de la loi de Student à n p 1 degrés de liberté.

Qualité du modèle Analyse des résidus moyenne nulle variance constante non corrélés normalité Qualité de l ajustement part de variabilité expliquée vraisemblance maximale Parcimonie

Critères de qualité Coefficient de détermination (y i ȳ) 2 = (y i ŷ i ) 2 i i } {{ } } {{ } SCT SCR + i R 2 = SCM SCT = 1 SCR SCT Coefficient de détermination ajusté R 2 adj = 1 SCR/(n p 1) SCT/(n 1) Akaike Information Criterion (AIC) AIC = 2 log(l) + 2p (ŷ i ȳ) 2 } {{ } SCM

Tests: modèles emboités M 1 gros modèle (beaucoup de paramètres) M 0 cas particulier de M 1 (moins de paramètres) H 0 : M 0 = M 1 H 1 : M 0 M 1 SCR k = i (y i ŷ k i )2, degrés de liberté : ν k k = 0, 1 F = (SCR 0 SCR 1 )/(ν 1 ν 0 ) SCR 1 /ν 1 F(ν 1 ν 0, ν 1 ) On rejette H 0 si Sous H 0, F 1 ; sous H 1, F > 1 f obs > f 1 α;ν1 ν 0 ;ν 1 ou P (F > f obs ) < α

Tests pour une régression M 0 modèle à q < p + 1 paramètres M 1 modèle à p + 1 paramètres H 0 : θ q+1 = θ q+2 =... = θ p+1 = 0 contre H 1 : i > q θ i 0 Choix des régresseurs à l aide du test des modèles emboités ou d un critère de qualité (R 2, AIC, C p,...) C p de Mallows C p = SCR 0 SCR 1 + 2q n Régression pas à pas (stepwise): procédure itérative ascendante ajout du meilleur régresseur parmi les absents descendante suppression du moins bon parmi les présents

Analyse de la variance à 1 facteur Analyse de la variance à 1 facteur La variable explicative n est pas continue numérique discrète finie qualitative X = I n1 I n1 0 0 I n2 0 I n2 0.... I ni 0 0 I ni θ = µ α 1 α 2. α I µ : facteur y ij = µ + α i + ε ij i = 1,..., I j = 1,... n i

Analyse de la variance à 1 facteur X X n est pas inversible, il faut ajouter une contrainte Gθ = 0 Exemples: i α i = 0 α 1 = 0 (R) α I = 0 (SAS) Estimation θ = ( X X) 1 X Y X = ( X G ) si α i = 0 E( θ) = θ µ = y = y α i = y i y V( θ) = (G G) 1 X X(G G) 1 σ 2

Analyse de la variance à 1 facteur Variance résiduelle σ 2 ε = Y Ŷ, résidus E( ε ε) = (n I)σ 2. Estimateur de σ 2 σ 2 = 1 n I ε ε Loi de l estimateur (n I) σ 2 χ 2 n I σ 2

Tests : analyse de la variance à un facteur Analyse de la variance M 0 modèle à 1 paramètre E(Y i ) = µ M 1 modèle à I (I + 1) paramètres E(Y i ) = µ i (µ + α i ) contre H 0 : µ 1 = µ 2 =... = µ I ou α 1 = α 2 =... = α I = 0 H 1 : (i 1, i 2 ) µ i1 µ i2 ou i α i 0 SCR 1 = ij (y ij ȳ i ) 2, degrés de liberté :n I SCR 0 = ij (y ij ȳ) 2, degrés de liberté :n 1 F = (SCR 0 SCR 1 )/(I 1) SCR 1 /(n I) F(I 1, n I)

Tests de comparaison Test sur une combinaison linéaire θ = (c 1, c 2,..., c I+1 ), si i c i = 0, c est un contraste. On rejette H 0 si H 0 : cθ = 0 contre H 1 : cθ 0 c θ cv( θ)c > t 1 α/2;n I Comparaisons 2 à 2 Statistique de test H 0 : µ i = µ j H 1 : µ i µ j T = µ i µ j σ 1 + 1 ni nj T (n I)

Tests de comparaison Comparaisons multiples H 0 : µ 1 = µ 2 =... = µ k H 1 : (i, j), i, j k, µ i µ j Erreur d Ensemble α = probabilité de commettre au moins une erreur de première espèce parmi toutes les comparaisons. Si α erreur de première espèce pour une comparaison Inégalité de Bonferroni :α kα Test de Bonferroni α = α k = α(ee) < α Conservateur : rejette trop souvent H 1

Types de facteurs Modèle croisé à deux facteurs A = (A 1,... A I ), B = (B 1,..., B J ): B 1 B 2 B 3 A 1 * * ** A 2 * ** Complet : si le nombre de répétitions n ij 1 est non nul pour tout couple (i, j) Avec répétitions : si n ij > 1 pour au moins un couple (i, j). Orthogonal : si n ij = n +jn i+ n ++. Equirépété : les n ij > 1 sont tous égaux = orthogonal.

Analyse de la variance : interaction Profils avec et sans interaction Profils: avec interaction Profils: sans interaction Y 4 6 8 10 12 14 B1 B2 B3 Y 6 8 10 12 14 B1 B2 B3 A1 A2 A3 A4 A1 A2 A3 A4 facteurs A facteurs A

Analyse de la variance : modèle Décomposition de la moyenne E(Y ij ) = µ + α i + β j + γ ij Contraintes : αi = β j = 0 Estimation i, j γ ij = i j γ ij = 0 µ = y α i = y i y β j = y j y γ ij = y ij y j y i + y

Analyse de la variance : sous-modèles M 3 : E(Y ij ) = µ + α i + β j + γ ij M 2 : E(Y ij ) = µ + α i + β j M 1 : E(Y ij ) = µ + α i M 1 : E(Y ij) = µ + β j M 0 : E(Y ij ) = µ

Analyse de la variance : somme des carrés Cas équilibré Décomposition de la somme des carrés SCT = SCR + SCM = SCR + SCA + SCB + SCI avec Somme des Carrés Expression Degré de liberté SCA i n i++(y i y ) 2 I 1 SCB j n +j+(y j y ) 2 J 1 SCI ij n ij(y ij y ) 2 (I 1)(J 1)

Analyse de la variance : tests Tests sur les effets H 0 : E(Y ij ) = H 1 : E(Y ij ) = statistique de test Loi sous H 0 µ + α i + β j µ + α i + β j + γ ij SCI/(I 1)(J 1) SCR/n IJ µ + β i + γ ij µ + α i + β j + γ ij SCA/(I 1) SCR/n IJ µ + α i + γ ij µ + α i + β j + γ ij SCB/(J 1) SCR/n IJ µ + β i µ + α i + β j SCA/(I 1) (SCR+SCI)/(n I J+1) µ + α i µ + α i + β j SCB/(J 1) (SCR+SCI)/(n I J+1) F (I 1)(J 1),n IJ F (I 1),n IJ F (J 1),n IJ F (I 1),(n I J+1) F (J 1),(n I J+1)

Analyse de la variance : réduction Si les expériences ne sont pas équirépétées ( données manquantes, dispositif expérimental trop lourd...) Il n y a plus additivité des sommes de carrés Réduction R(c/µ, a, b): diminution de la somme de carrés résiduelle lorsque l on passe du modèle comportant les effets a et b au modèle comportant a,b,c. Sommes de type I, II, III Type I Type II Type III facteur 1 α R(α/µ) R(α/µ, β) R(α/µ, β, γ) facteur 2 β R(β/µ, α) R(β/µ, α) R(β/µ, α, γ) interaction γ R(γ/µ, α, β) R(γ/µ, α, β) R(γ/µ, α, β)

Analyse de la variance : moyennes ajustées Dans le cas non équirépété les moyennes des effets ne sont pas comparables parce que calculées sur des bases différentes. Moyennes ajustées : µ i = 1 E(Y ijk ) = µ + α i + 1 β j + 1 J J J j µi = µ + α i + 1 β j + 1 J J j j j γ ij j γ ij

Analyse de la Covariance Modèle linéaire avec au moins un facteur qualitatif A une variable quantitative X Dispositif orthogonal la variable quantitative prend les mêmes valeurs pour chaque niveau de la variable qualitative Intérêt pour le facteur A: la covariable permet de décrire des hétérogénéités individuelles et de réduire la variance résiduelle. le facteur et la covariable simultanément.

Analyse de la Covariance : modèle Modèle général (avec interaction) Y ij = a i + b i x ij + ε ij décomposition des effets Y ij = µ + α i + (β + γ i )x ij + ε ij Modèle sans interaction Y ij = a i + bx ij + ε ij ou Y ij = µ + α i + βx ij + ε ij

Analyse de la Covariance : estimation Modèle général régulier bi = (y ij y i )(x ij x i ) j (x ij x i ) 2 i â i = y i b i x i σ 2 = 1 n 2I ij (y ij y i ) 2 i bi (x ij x i ) 2 j

Analyse de la Covariance : tests M 3 : E(Y ij ) = µ + α i + (β + γ i )x ij M 2 : E(Y ij ) = µ + α i + βx ij M 1 : E(Y ij ) = µ + α i M 1 : E(Y ij) = µ + βx ij M 0 : E(Y ij ) = µ

Analyse de la Covariance : tests Somme de carrés de type I SCM = R(α, β, γ/µ) = R(α/µ) + R(β/µ, α) + R(γ/µ, α, β) Test absence d interaction: F = R(γ/µ, α, β)/(i 1) σ 2 M 3 Test sur l effet du facteur F = R(α/µ)/(I 1) σ 2 M 2 Test sur la covariable F = R(β/µ, α) σ 2 M 2

Analyse de la Covariance : comparaison des traitements Moyennes classiques Moyennes ajustées µ i = µ + α i + ( β + γ i )x i µi = µ + α i + ( β + γ i )x Compare l effet du facteur à conditions égales