Notion de covariable: exemple

Documents pareils
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Analyse de la variance Comparaison de plusieurs moyennes

Introduction aux Statistiques et à l utilisation du logiciel R

Étude des flux d individus et des modalités de recrutement chez Formica rufa

Un exemple de régression logistique sous

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Données longitudinales et modèles de survie

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Exemples d application

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Lire ; Compter ; Tester... avec R

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Modèles pour données répétées

données en connaissance et en actions?

Exemple PLS avec SAS

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIERES. C Exercices complémentaires 42

Imputation du salaire d ego dans TeO

INTRODUCTION À L'ENVIRONNEMENT DE PROGRAMMATION STATISTIQUE R

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Quelques rappels concernant la méthode expérimentale

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Régression linéaire. Nicolas Turenne INRA

Annexe commune aux séries ES, L et S : boîtes et quantiles

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Chapitre 3. Les distributions à deux variables

Principe d un test statistique

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Fonctions de plusieurs variables

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

FONCTION DE DEMANDE : REVENU ET PRIX

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Équations non linéaires

Relation entre deux variables : estimation de la corrélation linéaire

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Chapitre 5 : Flot maximal dans un graphe

SUIVI CINETIQUE PAR SPECTROPHOTOMETRIE (CORRECTION)

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Statistique Descriptive Élémentaire

Méthode : On raisonnera tjs graphiquement avec 2 biens.

L exclusion mutuelle distribuée

Les salariés du secteur privé face à la généralisation de la complémentaire santé collective

Aide-mémoire de statistique appliquée à la biologie

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Exemples d Analyses de Variance avec R

Calcul élémentaire des probabilités

Validation probabiliste d un Système de Prévision d Ensemble

Le choix professionnel pour les applications analytiques!

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Introduction à l approche bootstrap

FICHE N 8 Photodiversité, d une banque d images à un portail d activités en ligne Anne-Marie Michaud, académie de Versailles

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Bien choisir sa variété de maïs ensilage

Analyse des durées de vie avec le logiciel R

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

ANALYSE DU RISQUE DE CRÉDIT

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Probabilités sur un univers fini

Pilotage de la masse salariale Déploiement de l outil de budgétisation

Biostatistiques : Petits effectifs

Leçon N 4 : Statistiques à deux variables

Liste des notes techniques... xxi Liste des encadrés... xxiii Préface à l édition internationale... xxv Préface à l édition francophone...

Séries Statistiques Simples

Chapitre 4 : Régression linéaire

UNIVERSITE DE SFAX Ecole Supérieure de Commerce

1. Vocabulaire : Introduction au tableau élémentaire

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Extraction d informations stratégiques par Analyse en Composantes Principales

Chapitre 1: Facteurs d'échelle

La prévention des intoxications dans les silos à fourrage

Un laboratoire d auto-immunité paperless : mythe ou réalité? L.Lutteri Laboratoire d auto-immunité Service de Chimie Clinique CHU Liège

Statistique de l assurance

L analyse de la gestion de la clientèle

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Ressources pour l école élémentaire

Modèle GARCH Application à la prévision de la volatilité

Petit conservatoire dans un jardin des Collines du Paradis

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Représentation d une distribution

Introduction à la statistique non paramétrique

Probabilités III Introduction à l évaluation d options

Le modèle de Black et Scholes

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Théorie des sondages : cours 5

Notion de fonction. Résolution graphique. Fonction affine.

Bureau N301 (Nautile)

Microsoft Excel : tables de données

Chapitre 6 : coloniser de nouveaux milieux

La production de Semences potagères

4. Résultats et discussion

TESTS D'HYPOTHESES Etude d'un exemple

Transcription:

INTRODUCTION AUX MODELES LINEAIRES GENERAUX (GLM: General Linear Model) ANCOVA et REGRESSION MULTIPLE Vincent FOURCASSIE fourcass@cict.fr Centre de Recherches sur la Cognition Animale Université Paul Sabatier Notion de covariable: exemple On s intéresse à l effet de la température ambiante (VI) sur la vitesse de déplacement (VD) d individus appartenant à une certaine espèce d insecte. Chez beaucoup d insectes la taille des individus varie au sein de la même espèce et donc, indépendamment de l effet de la température, leur vitesse de déplacement va dépendre de la taille de leurs pattes. Si on veut étudier strictement l effet de la température sur la vitesse, il faudrait donc tenir compte de la longueur des pattes des individus dont on mesure la vitesse. Comme il est plus facile de peser les insectes que de mesurer la longueur de leurs pattes et comme l on sait que la longueur des pattes est liée au poids de l insecte, on peut introduire le poids des individus comme VI supplémentaire. Cette variable est appellée covariable (ou variable contrôle) car il s agit d une variable confondante qu il est important de considérer mais qui ne nous intéresse pas directement dans notre étude. La prise en compte du poids des individus va permettre d expliquer une partie de la variabilité observée dans la vitesse de déplacement des insectes et de mieux apprécier ainsi l effet de la température sur celle-ci. 1

Notion de covariable: définition On appelle covariable une variable indépendante qui n a pas d intérêt direct en tant que telle mais dont dépend une autre variable indépendante d intérêt. La prise en compte d une ou plusieurs covariables va permettre de contrôler une partie de la variation de la variable indépendante d intérêt. Notion de corrélation partielle Le calcul d un coefficient de corrélation partielle va permettre de mesurer l effet d une VI d intérêt sur une VD donnée tout en tenant compte des effets confondants d une ou plusieurs autres covariables (=VI). Exemple: dans l étude sur la relation entre la vitesse d un insecte (VD) et la température ambiante (VI), on peut calculer un coefficient de corrélation partielle entre la vitesse et la température ambiante qui tient compte aussi de l effet du poids de l insecte sur sa vitesse. Ce coefficient exprimera la relation entre la vitesse des individus et la température ambiante, à poids d individu constant. 2

Notion de corrélation partielle Pour étudier l effet de la température ambiante et du poids des insectes sur leur vitesse de déplacement on peut utiliser une régression multiple. Le modèle de régression s écrira: V = b 0 + b 1 T + b 2 P où V= vitesse de déplacement, T= température et P= poids de l individu b 1 et b 2 sont des coefficients de corrélation partielle. b 1 exprime l effet de la température sur la vitesse de déplacement, à poids d individu constant, et b 2 exprime l effet du poids de l individu sur la vitesse de déplacement, à température ambiante constante. De la régression simple à la régression multiple Une régression multiple est une régression où la VD est expliquée non plus par une seule VI comme dans la régression simple mais par plusieurs VI (dont certaines peuvent être des covariables) Par extension de la régression simple, un modèle de régression multiple s exprime sous la forme d une équation: VD= b 0 + b 1 VI 1 + b 2 VI 2 +. + b n VI n pour n VI. Les coefficients b 1, b 2, b n sont des coefficients de corrélation partielle. Ils expriment l effet de chaque VI sur la VD tout en contrôlant l effet des autres VI. 3

Régression multiple et modèle linéaire général Une régression multiple peut mélanger des variables catégorielles et des variables continues. Les différents niveaux des variables catégorielles sont simplement codés sous forme numérique. Ex: 2 niveaux (-1,+1), 3 niveaux (-1,0,+1) La régression multiple est un modèle linéaire général (GLM: General Linear Model). Un modèle linéaire général s exprime sous la forme: VD= b 0 + b 1 VI 1 + b 2 VI 2 +. + b n VI n + ξ où ξ est l erreur (= résidus) attachée à la détermination de la VD. Dans le modèle linéaire général l erreur est distribuée suivant une loi normale. Dans le modèle linéaire généralisée l erreur peut être distribuée suivant une loi normale ou une autre loi (binomiale, Poisson ). GLM avec plusieurs VI: notion d interaction VD VI catégorielle à 2 niveaux VI continue PAS D INTERACTION INTERACTION Il y a interaction lorsque l effet de la VI continue sur la VD varie de façon différente en fonction du niveau de la VI catégorielle 4

Modèle linéaire général (GLM) Un grand nombre de tests statistiques usuels correspondent à des modèles linéaires généraux. Exemples: t-test pour comparaison de la moyenne d un échantillon à une valeur théorique: Y= b 0 t-test pour comparaison entre 2 échantillons: Y= b 0 + b 1 X 1 où X 1 est une VI catégorielle à deux niveaux Régression simple: Y= b 0 + b 1 X 1 où X 1 est une VI continue ANOVA sans interaction: Y= b 0 + b 1 X 1 + b 2 X 2 où X 1, X 2 sont toutes deux des VI catégorielles à plusieurs niveaux. ANOVA avec interaction: Y= b 0 + b 1 X 1 + b 2 X 2 + b3 (X 1 * X 2 ) où X 1, X 2 sont toutes deux des VI catégorielles à plusieurs niveaux et (X 1 * X 2 ) est le terme d interaction entre les deux VI. ANCOVA: Y= b 0 + b 1 X 1 + b 2 X 2 où X 1 est une VI continue et X 2 est une VI catégorielle à plusieurs niveaux. ANCOVA (ANalyse de COVAriance): définition ANCOVA: Y= b 0 + b 1 X 1 + b 2 X 2 où X 1 est une VI continue et X 2 est une VI catégorielle à plusieurs niveaux. NB: l ANCOVA est un cas particulier de régression multiple avec une VI continue et une VI catégorielle et où il n y a pas d interaction entre la VI continue et la VI catégorielle. 5

ANCOVA (ANalyse de COVAriance): définition Modèle Linéaire Généralisé Modèle Linéaire Général Régression Multiple ANCOVA ANOVA ANCOVA (ANalyse de COVAriance): exemple Effet de l (VI continue) et du (VI catégorielle à deux niveaux) sur le poids d un échantillon de personnes (VD). Modèle complet: = b 0 + b 1 Age + b 2 Sexe + b 3 (Age * Sexe) + ξ Modèle pour chaque (si Mâle= +1 et Femelle= -1) : mâle = b 0 + b 1 Age + b 2 + b 3 Age = (b 0 + b 2 ) + (b 1 + b 3 ) Age = b 0mâle + b 1mâle Age femelle = b 0 + b 1 Age - b 2 - b 3 Age = (b 0 - b 2 ) + (b 1 - b 3 ) Age = b 0femelle + b 1femelle Age b 0mâle b 0femelle mâle femelle b 1mâle b 1femelle 6

ANCOVA (ANalyse de COVAriance): exemple 6 CAS POSSIBLES = b0 + b1 Age + b2 Sexe + b3 (Age * Sexe) + ξ = b0 + b1 Age + b2 Sexe + ξ = b0 + b1 Age + b2 Sexe + b3 (Age * Sexe) + ξ = b0 + b2 Sexe + ξ ANCOVA = b0 + b1 Age + ξ = b0 + ξ ANCOVA: application 1. Ouvrir fichier compensation.txt Données > Importer des données > depuis un fichier texte 2. Visualiser les données sous forme de tableau 7

ANCOVA: application On souhaite mesurer la capacité d une espèce de graminée à repousser et à produire des graines après broutage. 2 champs: 1 champ contrôle (non brouté= Ungrazed) et 1 champ expérimental (brouté= Grazed) Un échantillon de plantes dans chaque champ. Pour chaque plante: mesure du diamètre au collet de la racine avant expérimentation (Root) mesure du poids total de graines produites par chaque plante après expérimentation (Fruit) ANCOVA: application VD= mesure du poids total de graines produites par chaque plante après expérimentation VI continue = mesure du diamètre au collet de la racine avant expérimentation VI catégorielle à 2 niveaux = broutée / non broutée H0: les plantes les plus grosses produisent plus de graines que les plus petites pour une même taille de plante, les plantes broutées produisent moins de graines que les plantes non broutées 8

ANCOVA: application 1. Représenter la distribution du poids des graines pour chaque champ: Graphes > Boîte de dispersion 2. Représenter le nuage de points: Graphes > Nuage de points ANCOVA: application Test du modèle complet: Fruit = b 0 + b 1 Root + b 2 Grazing + b 3 (Root * Grazing) + ξ Statistiques > Ajustement de modèles > Modèle linéaire => Fruit ~ Grazing * Root > summary(linearmodel.1) Call: lm(formula = Fruit ~ Grazing * Root, data = Compensation) Residuals: Min 1Q Median 3Q Max -17.3177-2.8320 0.1247 3.8511 17.1313 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -125.173 12.811-9.771 1.15e-11 *** Grazing[T.Ungrazed] 30.806 16.842 1.829 0.0757. Root 23.240 1.531 15.182 < 2e-16 *** Grazing[T.Ungrazed]:Root 0.756 2.354 0.321 0.7500 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 6.831 on 36 degrees of freedom Multiple R-squared: 0.9293, Adjusted R-squared: 0.9234 F-statistic: 157.6 on 3 and 36 DF, p-value: < 2.2e-16 Distribution des résidus du modèle Estimation des coefficients du modèle Erreur standard des résidus Coefficient de détermination (voir dia suivante) F total (voir dia suivante) 9

ANCOVA: application Obtention de la table de l ANOVA Modèles > Tests d hypothèses > Table de l ANOVA (Type I séquentiel) > anova(linearmodel.1) Analysis of Variance Table Response: Fruit Df SumSq MeanSq F value Pr(>F) Grazing 1 2910.4 2910.4 62.3795 2.262e-09 *** Root 1 19148.9 19148.9 410.4201 < 2.2e-16 *** Grazing:Root 1 4.8 4.8 0.1031 0.75 Residuals 36 1679.6 46.7 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 F total= variance expliquée par le modèle / variance des résidus ((2910.4 + 19148.9 + 4.8) /3)/46.7 = 157.49 R 2 = variance expliquée par le modèle / variance totale (2910.4 + 19148.9 + 4.8) / ((2910.4 + 19148.9 + 4.8) + 1679.6) = 0.9293 NB: R 2 ajusté= (n-1) R 2 k / (n-k-1) où n= nombre d obs et k= nombre de prédicteurs ANCOVA: application Simplification du modèle : on retire le terme d interaction Fruit = b 0 + b 1 Root + b 2 Grazing + ξ Statistiques > Ajustement de modèles > Modèle linéaire => Fruit ~ Grazing + Root Call: lm(formula = Fruit ~ Grazing + Root, data = Compensation) Residuals: Min 1Q Median 3Q Max -17.1920-2.8224 0.3223 3.9144 17.3290 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) -127.829 9.664-13.23 1.35e-15 *** Grazing[T.Ungrazed] 36.103 3.357 10.75 6.11e-13 *** Root 23.560 1.149 20.51 < 2e-16 *** --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 Residual standard error: 6.747 on 37 degrees of freedom Multiple R-squared: 0.9291, Adjusted R-squared: 0.9252 F-statistic: 242.3 on 2 and 37 DF, p-value: < 2.2e-16 Intercept pour le 1er niveau (Ordre alphabétique) de la VI catégorielle Différence entre les Intercept des deux niveaux de la VI catégorielle Pente de la régression Pour le champ brouté (Grazed): Fruit = -127.83 + 23.56 Root Pour le champ non brouté (Ungrazed): Fruit = (-127.83 + 36.103) + 23.56 Root = -91.726 + 23.56 Root 10

ANCOVA: application Obtention de la table de l ANOVA Modèles > Tests d hypothèses > Table de l ANOVA (Type I séquentiel) > anova(linearmodel.2) Analysis of Variance Table Response: Fruit Df Sum Sq Mean Sq F value Pr(>F) Grazing 1 2910.4 2910.4 63.929 1.397e-09 *** Root 1 19148.9 19148.9 420.616 < 2.2e-16 *** Residuals 37 1684.5 45.5 --- Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1 ANCOVA: application Comparaison des deux modèles Modèles > Tests d hypothèses >Comparer deux modèles > anova(linearmodel.1, LinearModel.2) Analysis of Variance Table Model 1: Fruit ~ Grazing * Root Model 2: Fruit ~ Grazing + Root Res.Df RSS Df Sum of Sq F Pr(>F) 1 36 1679.65 2 37 1684.46-1 -4.81 0.1031 0.75 Les deux modèles ne sont pas significativement différents entre eux. Entre les deux modèles on choisit donc le modèle le plus simple, cad celui qui a le moins de paramètres, soit le Modèle 2 (où on a retiré le terme d interaction Grazing x Root) 11