Le modèle linéaire généralisé avec R : fonction glm()



Documents pareils
Un exemple de régression logistique sous

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Données longitudinales et modèles de survie

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

TABLE DES MATIERES. C Exercices complémentaires 42

«Cours Statistique et logiciel R»

Exemples d application

Modèles pour données répétées

STATISTIQUES. UE Modélisation pour la biologie

Analyse de la variance Comparaison de plusieurs moyennes

SAS ENTERPRISE MINER POUR L'ACTUAIRE

FORMULAIRE DE STATISTIQUES

Arbres binaires de décision

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Exercice : la frontière des portefeuilles optimaux sans actif certain

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Régression linéaire. Nicolas Turenne INRA

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Calcul élémentaire des probabilités

Introduction à l approche bootstrap

Introduction aux Statistiques et à l utilisation du logiciel R

Évaluation de la régression bornée

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

IBM SPSS Regression 21

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Statistique de l assurance

Programmes des classes préparatoires aux Grandes Ecoles

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Probabilités III Introduction à l évaluation d options

PROBABILITES ET STATISTIQUE I&II

Risque et assurance. Arthur Charpentier. Université Rennes 1. http ://freakonometrics.blog.free.

CAPTEURS - CHAINES DE MESURES

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Modèle GARCH Application à la prévision de la volatilité

Température corporelle d un castor (une petite introduction aux séries temporelles)

Chapitre 3. Les distributions à deux variables

Introduction à la statistique non paramétrique

Coup de Projecteur sur les Réseaux de Neurones

Les modèles de choix binaire

Moments des variables aléatoires réelles

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

PROGRAMME (Susceptible de modifications)

1 Définition de la non stationnarité

Principe d un test statistique

Les indices à surplus constant

Étude des flux d individus et des modalités de recrutement chez Formica rufa

Analyse des durées de vie avec le logiciel R

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Lois de probabilité. Anita Burgun

Estimation et tests statistiques, TD 5. Solutions

Simulation de variables aléatoires

Texte Agrégation limitée par diffusion interne

Exemple PLS avec SAS

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Couples de variables aléatoires discrètes

MCMC et approximations en champ moyen pour les modèles de Markov

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Variables Aléatoires. Chapitre 2

Cours de méthodes de scoring

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

MODELES DE DUREE DE VIE

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

INTRODUCTION À L'ENVIRONNEMENT DE PROGRAMMATION STATISTIQUE R

NON-LINEARITE ET RESEAUX NEURONAUX

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

Relation entre deux variables : estimation de la corrélation linéaire

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Loi binomiale Lois normales

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Chaînes de Markov au lycée

Modélisation aléatoire en fiabilité des logiciels

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Table des matières. I Mise à niveau 11. Préface

Aide-mémoire de statistique appliquée à la biologie

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Principe de symétrisation pour la construction d un test adaptatif

Programmation linéaire

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

Biostatistiques : Petits effectifs

LES MODELES DE SCORE

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Le modèle de Black et Scholes

FIMA, 7 juillet 2005

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

BIOSTATISTIQUES AVANCEES PLAN. Quelques références. Master Biologie Intégrative 1 ère année

Processus de comptage, Poisson mélange, fonction de perte exponentielle, système bonus-malus.

Évaluation du risque cardiovasculaire dans le contexte de l hypertension artérielle et de son traitement

Transcription:

SEMIN- Le modèle linéaire généralisé avec R : fonction glm() Sébastien BALLESTEROS UMR 7625 Ecologie Evolution Ecole Normale Supérieure 46 rue d'ulm F-75230 Paris Cedex 05 sebastien.ballesteros@biologie.ens.fr SEMIN-R du MNHN 10 Juin 2008

1) Approche

Le modèle linéaire avec R régression linéaire, ANOVA sont des cas particuliers d'un même modèle statistique, le modèle linéaire que l'on peut écrire : y tj = m t + e tj partie fixe, linéaire partie aléatoire, normale quantitative qualitative quantitative et qualitative égression linéaire ANOVA ANCOVA erreurs indépendantes entres elles, suivant chacune une loi normale d espérance nulle et de même variance. t est l'indice d'un traitement. Les differents facteurs pouvant intervenir dans sa définition sont contôlés, ils sont donc fixes, non aléatoires. j est un indice de répétition (pouvant ne pas exister explicitement) m t est l'espérance de y tj y tj ~ N(m t,σ 2 ), {y tj } indépendants Sous R : lm(variable à expliquer ~ variable(s) explicative(s),...)

Non application du modèle linéaire Influence de la dose d'un poison (disulfide de carbone) sur la mortalité de cafards. Données >cafards<-read.table("cafards.dat", header=true) > cafards ldose total morts 1 1.691 59 6 2 1.724 60 13 3 1.755 62 18 4 1.784 56 28 5 1.811 63 52 6 1.837 59 53 7 1.861 62 61 8 1.884 60 60 On note : i = 1...8 groupes n i = taille du i ème groupe N i = nombre de morts dans le groupe i x i = dose de poison Avec modèle linéaire, on peut étudier : Y i = N i n i Y i =ab x i E i Problèmes : Les valeurs prédites peuvent sortir de la zone [0,1] homoscédasticité

Homoscédascticité Rappel, on note : i = 1...8 groupes n i = taille du i ème groupe N i = nombre de morts dans le groupe i x i = dose de poison N i ~Bn i, i Y i = N i n i = i E Y i = i ; V Y i = i1 i n i On est dans une situation hétéroscedastique par construction Longtemps, on a utilisé une transformation pour stabiliser la variance Z i =arcsin Y i Marche bien quand n i cst Modèle linéaire généralisé

Modèle linéaire généralisé Modèle i = 1...8 groupes n i = taille du i ème groupe Y i = nombre de morts dans le groupe i x i = dose de poison π i = proba de mourir dans le groupe i Y i ~B n i, i On veut garder la simplicité d'interprétation du modèle linéaire i =ab x i Problème, π i doit rester entre 0 et 1 On ne modélise pas directement π i mais g(π i ) g : fonction de lien g i =ab x i g :[0,1]R π est astreint entre 0 et 1 mais on laisse a et b faire ce qu'ils veulent monotone croissante Fonction de lien logit (logistique) g =log 1

Modèle linéaire généralisé sous R Modèle Y i ~B n i, i g i =ab x i i = 1...8 groupes n i = taille du i ème groupe Y i = nombre de morts dans le groupe i x i = dose de poison π i = proba de mourir dans le groupe i Sous R : glm(variable à expliquer ~ variable(s) explicative(s), type de loi (fonction de liens),...) >cafards<-read.table("cafards.dat", header=true) >attach(cafards) > cafards ldose total morts 1 1.691 59 6 2 1.724 60 13 [...] > y<-cbind(morts,total-morts) > model<-glm(y~ldose, family=binomial(link="logit")) > y.prop<-morts/total > model.prop<-glm(y.prop~ldose, weights=total, family=binomial(link="logit"))

Summary > summary(model) Call: glm(formula = y ~ ldose, family = binomial(link = "logit")) Deviance Residuals: Min 1Q Median 3Q Max -1.5878-0.4085 0.8442 1.2455 1.5860 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -60.740 5.182-11.72 <2e-16 *** ldose 34.286 2.913 11.77 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 284.202 on 7 degrees of freedom Residual deviance: 11.116 on 6 degrees of freedom AIC: 41.314 Number of Fisher Scoring iterations: 4

Estimation des paramètres et test sur les paramètres Y i ~B n i, i Estimation des paramètres par maximum de vraisemblance y 1, y 2,..., y I = i=1 log = i I n i i y i n i i y y i1 i i n y i i y i log i 1 i n i log 1 i log i Si est linéaire, pas très dure a maximiser 1 i g i =ab x i logit: fonction de lien canonique, ca va bien se passer avec elle Les estimateurs du max de vraisemblance sont asymptotiquement gaussien On a la loi des estimateur, on peut faire des tests

Estimation des paramètres et test sur les paramètres Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -60.740 5.182-11.72 <2e-16 *** ldose 34.286 2.913 11.77 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for binomial family taken to be 1) Interprétation des paramètres i g i =log =ab x 1 i i i = expab x i 1expab x i 0=?=0.5 exp a 1exp a x i = a b Proba de décès quand on ne met pas de poison Dose létale à 50% 2 /1 2 =exp b x 2 x 1 1 /1 1 Si x augmente de 1 unité, log(b)=log(odd ratio)

calcul de l'aic = 2LVx + 2p > aicx = -2*LVx + 2*2 [1] 41.31361 Deviance Modèle saturé : la moyenne de la variable à expliquer est défini par l'observation elle même. E(Y i )=y i Y i ~B n i, i E Y i =n i i i = y i / n i La probabilité d'observer l'observation vaut vraisemblance du modèle saturé sat n i i y y i n i y i y i i 1 y n i n i. On a donc la > LVsat <- sum(log(dbinom(morts,total,morts/total))) [1] -13.09902 Modèle nul : E(Y i )=cst estimé comme la moyenne p0 par max de vraisemblance > p0<-sum(morts)/sum(total) > LV0 <- sum(log(dbinom(morts,total,p0))) [1] -155.2002 Deviance nul = 2 log restr / sat > dev0 = 2*(LVsat-LV0) [1] 284.2024 Modèle x : estimé par max de vraisemblance > LVx <- sum(log(dbinom(morts,total,predict(model,type="response")))) [1] -18.65681 Deviance residuelle = 2 log restr / sat > devx = 2*(LVsat-LVx) [1] 11.11558 Null deviance: 284.202 on 7 degrees of freedom Residual deviance: 11.116 on 6 degrees of freedom AIC: 41.314

Deviance : test de modèles emboîtés Une stratégie intuitive consiste à comparer deux modèles emboîtés sur la base d'une mesure de la qualité de leur ajustement aux données. 2 2log complet log restr r r0 Test du rapport de vraisemblance Test du modèle restreint contre le modèle complet Le test de rapport de vraisemblance est correcte seulement asymptotiquement pour de grands jeux de données. Deviance = 2 log restr / sat LV0 = -155.2002 LVx = -18.65681 LVsat = -13.09902 2*(LVsat-LV0) = 284.2024 2*(LVsat-LVx) = 11.11558 2*(LVx-LV0) = 273.0869 > anova(model,test="chisq") Analysis of Deviance Table Model: binomial, link: logit Response: y Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev P(> Chi ) NULL 7 284.202 ldose 1 273.087 6 11.116 2.411e-61 Test du modèle constant contre le modèle complet

Bilan cafards > y<-cbind(morts,total-morts) > model<-glm(y~ldose, family=binomial(link="logit")) > summary(model) [...] Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) -60.740 5.182-11.72 <2e-16 *** ldose 34.286 2.913 11.77 <2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 284.202 on 7 degrees of freedom Residual deviance: 11.116 on 6 degrees of freedom AIC: 41.314 Number of Fisher Scoring iterations: 4 > anova(model,test="chisq") [...] Analysis of Deviance Table Model: binomial, link: logit Response: y Terms added sequentially (first to last) predict(model,type="response") Df Deviance Resid. Df Resid. Dev P(> Chi ) NULL 7 284.202 ldose 1 273.087 6 11.116 2.411e-61

2) généralisation du modèle linéaire généralisé

généralisation Type d'erreur Binomial (Bernoulli) Poisson Fonction de lien logit, probit,... log,... Prédicteur linéaire g i =x i x i : vecteur des covariables θ : vecteur des paramètres

Fonction de lien probit Ce modèle est particulièrement naturel lorsque la variable binaire Y dont on peut observer les réalisations n est que l expression simplifiée d une autre variable continue Y* impossible à observer, parfois seulement conceptuelle. Par exemple, dans un contexte médical, une problématique classique est le classement d un patient dans le système de catégories (malade et sain). Modèle de seuil, en fonction du seuil succès ou échec. La fonction de lien est la réciproque de la fonction de répartition d'une loi normale. g = 1 1 =ab x i i =PHI ab x i i =P Z ab x i

Y est une variable de comptage On peut faire des transformation de variable pour tenter d'appliquer le modèle linéaire mais dans le cadre du glm, on prend une loi de poisson Y i ~P i i 0 ; E Y i =V Y i = i g :RR monotone croissante Vraisemblance P Y i = y=exp y i y! y 1,..., y n = i log = i i i y i exp i i y i! y i log i i log y i! On maximise la vraisemblance, ca serait bien si log(λ) linéaire et donc on prend : g =log g i =x i Modèle saturé i = y i

Modèle linéaire généralisé sous R Sous R : glm(variable à expliquer ~ variable(s) explicative(s), type de loi (fonction de liens),...) >?family [...] binomial(link = "logit") gaussian(link = "identity") Gamma(link = "inverse") inverse.gaussian(link = "1/mu^2") poisson(link = "log") quasi(link = "identity", variance = "constant") quasibinomial(link = "logit") quasipoisson(link = "log") [...] > model<-glm(y~ldose, family=binomial(link="logit"))

3) Exemples

Données binaires : nidification d'une espèce d'oiseau Îles de taille et de distance au continent variable (area et isolation) On regarde sur chacune des îles si l'espèce d'oiseau est présente (1) ou absente (0) > island<-read.table("isolation.dat", header=true) > attach(island) > names(island) [1] "incidence" "area" "isolation" Y i ~B i Loi de Bernoulli g i =ab x 1i c x 2i d x 1i x 2i > model1<-glm(incidence~area*isolation,family=binomial(link="logit"))

nidification d'une espèce d'oiseau > model1<-glm(incidence~area*isolation,family=binomial(link="logit")) > model2<-glm(incidence~area+isolation,family=binomial(link="logit")) > anova(model2,model1,test="chisq") Analysis of Deviance Table Model 1: incidence ~ area + isolation Model 2: incidence ~ area * isolation Resid. Df Resid. Dev Df Deviance P(> Chi ) 1 47 28.4022 2 46 28.2517 1 0.1504 0.6981 > anova(model1,test="chisq") Analysis of Deviance Table Model: binomial, link: logit Response: incidence Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev P(> Chi ) NULL 49 68.029 area 1 17.857 48 50.172 2.382e-05 isolation 1 21.770 47 28.402 3.073e-06 area:isolation 1 0.150 46 28.252 0.698

nidification d'une espèce d'oiseau > summary(model2) Call: glm(formula = incidence ~ area + isolation, family = binomial(link = "logit")) [...] Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 6.6417 2.9218 2.273 0.02302 * area 0.5807 0.2478 2.344 0.01909 * isolation -1.3719 0.4769-2.877 0.00401 ** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for binomial family taken to be 1) [...] Number of Fisher Scoring iterations: 6

comptage de diversité spécifique > species<-read.table("species.txt", header=true) > attach(species) > names(species) [1] "ph" "Biomass" "Species" La pente de la relation entre le nombre d'espèces et la biomasse dépend elle du ph?

comptage de diversité spécifique On pose Y i ~P i log i = i x ij i x ij E Y i = i > model1<-glm(species~biomass*ph,family=poisson(link="log")) > anova(model1,test="chisq") Analysis of Deviance Table Model: poisson, link: log Response: Species Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev P(> Chi ) NULL 89 452.35 Biomass 1 44.67 88 407.67 2.328e-11 ph 2 308.43 86 99.24 1.059e-67 Biomass:pH 2 16.04 84 83.20 3.288e-04 On retient le modèle le plus complexe

comptage de diversité spécifique > summary(model1) Call: glm(formula = Species ~ Biomass * ph, family = poisson(link = "log")) [...] Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 3.76812 0.06153 61.240 < 2e-16 *** Biomass -0.10713 0.01249-8.577 < 2e-16 *** phlow -0.81557 0.10284-7.931 2.18e-15 *** phmid -0.33146 0.09217-3.596 0.000323 *** Biomass:pHlow -0.15503 0.04003-3.873 0.000108 *** Biomass:pHmid -0.03189 0.02308-1.382 0.166954 --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 452.346 on 89 degrees of freedom Residual deviance: 83.201 on 84 degrees of freedom AIC: 514.39 Number of Fisher Scoring iterations: 4

References : Modern Applied Statistics with S Fourth edition ; W. N. Venables and B. D. Ripley The R book ; Michael J. Crawley Introductory Statistics With R ; Peter Dalgaard Le modèle linéaire ; Camille Duby Statistique inférentielle ; JJ. Daudin, S.Robin http://www.bio.ic.ac.uk/research/mjcraw/therbook/index.htm