Validation des modèles statistiques dans l analyse de données longitudinales



Documents pareils
Modèles pour données répétées

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Modèle GARCH Application à la prévision de la volatilité

Produire avec de l'herbe Du sol à l'animal

Analyse de la variance Comparaison de plusieurs moyennes

CAPRINS LAITIERS + BOVINS VIANDE ENSILAGE DE MAÏS

NON-LINEARITE ET RESEAUX NEURONAUX

STATISTIQUES. UE Modélisation pour la biologie

Trajectoires laitières

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Exemples d application

Données longitudinales et modèles de survie

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Introduction à l approche bootstrap

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Systèmes bovins laitiers en Poitou-Charentes

POURQUOI VISIOLYS? SOMMAIRE VOUS PROPOSE : Un monde qui bouge COMPRENDRE. Analyses et adaptations SE REPÉRER SE PROJETER ET CHOISIR

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

AVEZ-VOUS PENSÉ À L ALIMENTATION À LA DÉROBÉE?

ACTION N 1 Réseau d élevages bovins laitiers en Agrobiologie

En zones herbagères, un système spécialisé lait, tout herbe

La prévention des intoxications dans les silos à fourrage

PROBABILITES ET STATISTIQUE I&II

Accès aux services et structuration des éleveurs laitiers du département de Dagana Asstel Dagana Réflexions phase 2 Comité pilotage du 24 avril 2015

FIMA, 7 juillet 2005

Gestion du niveau de la franchise d un contrat avec bonus-malus. Pierre THEROND & Stéphane BONCHE

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Biostatistiques : Petits effectifs

Le modèle de régression linéaire

Revenu agricole 2013 : une année délicate pour les productions céréalières

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Chapitre 3. Les distributions à deux variables

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

RÉSULTATS DE L OBSERVATOIRE TECHNICO-ÉCONOMIQUE DU RAD Synthèse Exercice comptable 2010

Commission des Recherches Bovines

PROJET MODELE DE TAUX

Régression linéaire. Nicolas Turenne INRA

EPREUVE ECRITE D ADMISSIBILITE

Introduction aux Statistiques et à l utilisation du logiciel R

IBM SPSS Regression 21

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

MONITORING 100% CONNECTÉ : MEDRIA LANCE LE FEEDPHONE

DÉVERSEMENT ÉLASTIQUE D UNE POUTRE À SECTION BI-SYMÉTRIQUE SOUMISE À DES MOMENTS D EXTRÉMITÉ ET UNE CHARGE RÉPARTIE OU CONCENTRÉE

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

INF6304 Interfaces Intelligentes

Génération de scénarios économiques

Lire ; Compter ; Tester... avec R

De la mesure à l analyse des risques

Évaluation de la régression bornée

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

LE TRAVAIL EN ÉLEVAGE BOVIN LAIT, BOVIN VIANDE ET OVIN VIANDE

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

PROGRAMME (Susceptible de modifications)

les cinq étapes pour calculer les jours d avance

TABLE DES MATIERES. C Exercices complémentaires 42

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Exercice : la frontière des portefeuilles optimaux sans actif certain

Analyse en Composantes Principales

Simulation de variables aléatoires

1 Définition de la non stationnarité

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Développement de lois et de structures de réglages destinées à la téléopération avec retour d effort

VI. Tests non paramétriques sur un échantillon

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

TCS, strip-till et semis direct

Le Modèle Linéaire par l exemple :

Méthodologie du calcul de la VaR de marché : revue de l approche basée sur des simulations historiques

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Intégration régionale et croissance:

Projet ANR. Bruno Capra - OXAND. 04/06/2015 CEOS.fr - Journée de restitution (Paris) B. CAPRA

Systèmes de communications numériques 2

Spécimen de formulaire : Plan de préparation aux situations d urgence de La ferme

QUOI DE NEUF DANS LE NOUVEAU NRC?

L évaluation de la performance de la communication media

Imputation du salaire d ego dans TeO

TPG 12 - Spectrophotométrie

VOYAGE D ÉTUDES ET DE FORMATION EN

Ordonnancement sous contraintes de Qualité de Service dans les Clouds

FORMATS DE JEU POUR LA PRATIQUE DU SOCCER AU QUÉBEC FÉDÉRATION DE SOCCER DU QUÉBEC

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Didacticiel - Études de cas. Description de quelques fonctions du logiciel PSPP, comparaison des résultats avec ceux de Tanagra, R et OpenStat.

Evaluation des modèles non-linéaires à effets mixtes

Exercice 3 du cours Management Bancaire : «Risque de crédit et scoring»

Un expérience pluridisciplinaire de l intensification écologique en Agriculture Familiale

Interception des signaux issus de communications MIMO

Cours 9 : Plans à plusieurs facteurs

4. Verdissement, une PAC plus verte

ANALYSE DU RISQUE DE CRÉDIT

4. Résultats et discussion

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

1 Complément sur la projection du nuage des individus

Analyse de la relation entre primes de terme et prime de change dans un cadre d équilibre international

Calcul de la marge brute en production laitière

Transcription:

Validation des modèles statistiques dans l analyse de données longitudinales C. Lopez (Institut de l Elevage) Service Biométrie (CL) 1

Quels modèles? Service Biométrie (CL) 2

Les outils diagnostics (modèles à effets fixes) Service Biométrie (CL) 3

( 2 ) Y = X β + ε ε N 0, σ I ( ) ( ) ( ) 2 2 var I H I X X' X X' r r i = = ε ˆ = σ = σ * i 2 i 2 ˆ (1 h ii) σ εˆ i σˆ εˆ Résidus studentisés ti Résidus studentisés externe Résidus de Pearson (résidus de Cholesky) Service Biométrie (CL) 4

Mesure de l influence des observations analyse avec et sans l observation i et on compare Service Biométrie (CL) 5

Influence globale ( ) 2 i ˆ ( i) PRESS = y y Influence sur l estimation de β Cook D = r 2 i i 1 h ii ( ) ( ii) rang X 1 h DFFITS i = t i h ii 1 h ii Autres statistiques Service Biométrie (CL) 6

Influence sur la précision des estimations de β cov ratio ( ) β = ˆ var ˆ var ˆ ( i) β βˆ Service Biométrie (CL) 7

Les outils diagnostics (modèles mixtes) Service Biométrie (CL) 8

Y = Xβ + Zγ + ε Var(γ) = G var(ε) =R Y γ N Xβ + Z γ ; R Y N X β ; ZGZ'+R Deux types de résidus Service Biométrie (CL) 9

rc = Y Xβˆ Zγˆ Résidus conditionnels = βˆ rm Y X Résidus marginaux sorties différentes pour les deux types de résidus Service Biométrie (CL) 10

La structure de variance-covariance influe sur les estimations des effets fixes 1- modélisation de la structure de variance-covariance 2- modélisation des effets fixes Analyse de l influence des observations plus complexe Service Biométrie (CL) 11

Mesure de l influence des observations Dans le cas de l analyse de données longitudinales on s intéresse à l influence des individus clusters plutôt qu à l influence d observations isolées Service Biométrie (CL) 12

Mêmes statistiques d influence que dans le cas du modèle à effets fixes (1) Appliquées aux paramètres β et aux paramètres de variance-covariance G et R (1) + «Likelihood displacement (Cook (1986))» Service Biométrie (CL) 13

ESSAI 'SYSTEME' CRECOM Comparaison de 2 conduites alimentaires en station expérimentale 2 systèmes fourragers : 25% Maïs (Trait=1 ; n=23) vs 50% Maïs (Trait=2 ; n=31) 3 périodes de vêlage : été (sais=1 ; n=19), hiver (sais=2 ; n=24), printemps (sais=3 ; n=11) Rang de lactation : primipares (Parite= P ; n=23), multipares (Parite= M ; n=31) Critère : la production laitière [kg/j] 54 vaches Prim'Holstein 36 productions quotidiennes moyennes/semaine Service Biométrie (CL) 14

Les données Service Biométrie (CL) 15

Année 1995-1996 (Trait 1) 60 50 40 Lait [kg/j] 30 20 10 0 0 3 6 9 12 15 18 21 24 27 30 33 36 semaine Service Biométrie (CL) 16

Année 1995-1996 (Trait 2) 60 50 40 Lait [kg/j] 30 20 10 0 0 3 6 9 12 15 18 21 24 27 30 33 36 semaine Service Biométrie (CL) 17

Année 1995-1996 (saison 1) 60 50 40 Lait [kg/j] 30 20 10 0 0 3 6 9 12 15 18 21 24 27 30 33 36 semaine Service Biométrie (CL) 18

Année 1995-1996 (saison 2) 60 50 40 Lait [kg/j] 30 20 10 0 0 3 6 9 12 15 18 21 24 27 30 33 36 semaine Service Biométrie (CL) 19

Année 1995-1996 (saison 3) 60 50 40 Lait [kg/j] 30 20 10 0 0 3 6 9 12 15 18 21 24 27 30 33 36 semaine Service Biométrie (CL) 20

Année 1995-1996 (primipares) 60 50 40 Lait [kg/j] 30 20 10 0 0 3 6 9 12 15 18 21 24 27 30 33 36 semaine Service Biométrie (CL) 21

Année 1995-1996 (multipares) 60 50 40 Lait [kg/j] 30 20 10 0 0 3 6 9 12 15 18 21 24 27 30 33 36 semaine Service Biométrie (CL) 22

Réponse : profil de mesures hebdomadaires. Analyse sur variables résumées de la lactation Modèle de WOOD (1967) β δ*t yt = α * t * e 0 < α, β, δ < 1 Service Biométrie (CL) 23

Modèle de Wood α Production initiale LB 28 26 24 22 20 18 16 14 12 ( β+ 1) δ chute 10 0 3 6 9 12 15 18 21 24 27 30 33 36 39 t (semaines) β/δ stade du pic Service Biométrie (CL) 24

Le modèle statistique Service Biométrie (CL) 25

z = Log (y ) = α % + β Log (t) δ t t e t * e * Z ijku (t) i : régime alimentaire j : parité (primipares / multipares) k : saison(1, 2, 3)) u : vache (ijk) Modèle à coefficients aléatoires z (t) = α % + β Log (t) δ t Xβ ijku ijk ijk * e ijk * +α % + β Log (t) δ t Zγ u(ijk) u(ijk) * e u(ijk) * +ε (t) ε ijku Service Biométrie (CL) 26

La structure de variance-covariance α δ u(ijk) ( ) γ u(ijk) = βu(ijk) u(ijk) i.i.d. N 0 ; G u(ijk) G : type = UN ε(1) ijku (2) ijku ε ε ijku =... i.i.d. N(0 ; R) u(ijk) ε(36) ijku R : type = AR(1) Service Biométrie (CL) 27

1- Modélisation de la structure de variance-covariance (modèle saturé en Xβ) 2- Modélisation de la partie fixe du modèle Service Biométrie (CL) 28

1- Modélisation de la structure de variance-covariance (modèle saturé en Xβ) Test de différentes structures de matrices R 2LL_RES Khi-Deux ν p ARH(1) 4364,5 AR(1) 4148,4 216,1 35 5,8583E-28 VC 3177,5 970,9 1 3,7988E-213 Service Biométrie (CL) 29

variances résiduelles(t) 0,035 0,030 0,025 0,020 0,015 0,014 0,010 0,005 0 3 6 9 12 15 18 21 24 27 30 33 36 var_arh(1) var_ar Service Biométrie (CL) 30

Estimation de la matrice G (modèle saturé en Xβ) paramètres estimés variance-covariance Erreur Parm cov Estimation type Valeur Z Pr Z UN(1,1) σ2(α) 0.01408 0.005883 2.39 0.0084 UN(2,1) σ(αβ) -0.00460 0.002805-1.64 0.1012 UN(2,2) σ2(β) 0.003026 0.001910 1.58 0.0566 UN(3,1) σ(αδ) 0.000659 0.000281 2.35 0.0189 UN(3,2) σ(βδ) -0.00035 0.000192-1.83 0.0677 UN(3,3) σ2(δ) 0.000041 0.000021 1.90 0.0290 AR(1) ρ 0.7558 0.02360 32.03 <.0001 Residual ε 0.01359 0.001311 10.37 <.0001 Service Biométrie (CL) 31

Test de différentes structures de matrices G (simplification du modèle) Modélisation de la structure de variance-covariance 2LL_RES Khi-Deux ν p UN(α,β,δ) 4131,4 UN(α,δ) 4122,9 8,5 3 0,037 UN(α,β) 4116,2 15,2 3 0,002 Service Biométrie (CL) 32

2. Tests des effets fixes Service Biométrie (CL) 33

α β δ Type 3 Tests des effets fixes Effet Num DF Den DDL F Value Pr > F t 1 44 447.72 <.0001 L_t 1 44 381.03 <.0001 TRAIT 1 44 0.58 0.4511 parite 1 44 43.53 <.0001 SAIS 2 44 6.05 0.0048 TRAIT*parite 1 44 1.45 0.2344 TRAIT*SAIS 2 44 1.29 0.2850 parite*sais 2 44 6.47 0.0034 L_t*TRAIT 1 44 3.76 0.0591 L_t*parite 1 44 0.49 0.4857 L_t*SAIS 2 44 6.26 0.0040 L_t*TRAIT*parite 1 44 0.19 0.6691 L_t*TRAIT*SAIS 2 44 1.05 0.3583 L_t*parite*SAIS 2 44 3.16 0.0521 t*trait 1 44 0.43 0.5167 t*parite 1 44 12.58 0.0009 t*sais 2 44 10.65 0.0002 t*trait*parite 1 44 0.78 0.3822 t*trait*sais 2 44 0.06 0.9423 t*parite*sais 2 44 1.59 0.2160 Service Biométrie (CL) 34

Statistiques sur les paramètres-résumés des courbes TRAIT 1 TRAIT 2 est S est S α_est [kg/j] 22,4 0,8 23,5 0,6 stade_pic [sem] 8,8 0,6 8,0 0,5 chute 1,3% 2,7% 1,4% 2,7% Service Biométrie (CL) 35

Lactations observées et prédites(traitement) 40,0 35,0 30,0 Lait [kg/j] 25,0 20,0 15,0 10,0 0 3 6 9 12 15 18 21 24 27 30 33 36 semaine Service Biométrie (CL) 36

Lactations observées et prédites(saisons) 40,0 35,0 30,0 Lait [kg/j] 25,0 20,0 15,0 10,0 0 3 6 9 12 15 18 21 24 27 30 33 36 semaine Service Biométrie (CL) 37

Lactations observées et prédites(parité) 40,0 35,0 30,0 Lait [kg/j] 25,0 20,0 15,0 10,0 0 3 6 9 12 15 18 21 24 27 30 33 36 semaine Service Biométrie (CL) 38

Validation du modèle Service Biométrie (CL) 39

16 367 351 13 316 390 402 16 322 351 7 402 Service Biométrie (CL) 40

Quelques courbes «influentes» Service Biométrie (CL) 41

vache 402(1, P, été ; n=5) 45,0 40,0 35,0 30,0 25,0 20,0 15,0 10,0 0 3 6 9 12 15 18 21 24 27 30 33 36 402 : Distance REML = 4,192 ; D Cook = 0,073 ; COVRATIO = 0,283 (min) Service Biométrie (CL) 42

vache 7(2, P, été ; n=7) 45,0 40,0 35,0 30,0 25,0 20,0 15,0 10,0 0 3 6 9 12 15 18 21 24 27 30 33 36 7 : Distance REML = 2,227 ;PRESS = 2,282 ; COVRATIO = 0,383 Service Biométrie (CL) 43

vache 351(1, M, été ; n=3) 45,0 40,0 35,0 30,0 25,0 20,0 15,0 10,0 0 3 6 9 12 15 18 21 24 27 30 33 36 351 : Distance REML = 6,025 ; D Cook = 0,124 ; COVRATIO = 0,426 Service Biométrie (CL) 44

vache 16(1, P, hiver ; n=1) 45,0 40,0 35,0 30,0 25,0 20,0 15,0 10,0 0 3 6 9 12 15 18 21 24 27 30 33 36 16 : Distance REML = 8,687 (max) ; PRESS = 2,147 ; D Cook = 0,248 (max) Service Biométrie (CL) 45

vache 367, 365 et 316 (1, M, hiver ; n=9) 55,0 50,0 45,0 40,0 35,0 30,0 25,0 20,0 15,0 10,0 0 3 6 9 12 15 18 21 24 27 30 33 36 316 : PRESS = 3,204 ; COVRATIO = 0,551 367 : PRESS = 4,685 (max) ; COVRATIO = 0,449 365 : Distance REML = 0,068 ; PRESS = 0,234 ; D Cook = 0,000 ; COVRATIO =2,914 Service Biométrie (CL) 46

vaches 11 et 13 (1, P, printemps ; 4) 45,0 40,0 35,0 30,0 25,0 20,0 15,0 10,0 0 3 6 9 12 15 18 21 24 27 30 33 36 13 : PRESS = 3,342 11 : Distance REML = 3,163 ; D Cook = 0,078 ; COVRATIO = 0,554 Service Biométrie (CL) 47

L influence sur les paramètres des effets fixes Service Biométrie (CL) 48

Service Biométrie (CL) 49

Éléments de bibliographie - Cook, R.D. (1986) : Assessement of local influence, Journal of the Royal Statistical Society, Series B, 48, 133-169 -Verbeke, G. et Molenberghs, G. (2000) : Linear mixed models for Longitudinal data. New-York: Springer - Fitzmaurice, G. M., Laird, N. M., Ware, J.H., (2004) : Applied longitudinal analysis. John Wiley & Sons. New-York Service Biométrie (CL) 50