Analyse des données individuelles groupées

Documents pareils

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Modèles pour données répétées

Introduction à l approche bootstrap

Données longitudinales et modèles de survie

TABLE DES MATIERES. C Exercices complémentaires 42

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Un exemple de régression logistique sous

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

La classification automatique de données quantitatives

PROBABILITES ET STATISTIQUE I&II

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

MCMC et approximations en champ moyen pour les modèles de Markov

Méthodes de Simulation

Exemples d application

Exercice : la frontière des portefeuilles optimaux sans actif certain

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Apprentissage Automatique

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

NON-LINEARITE ET RESEAUX NEURONAUX

Analyse de la variance Comparaison de plusieurs moyennes

Arbres binaires de décision

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

MODELE A CORRECTION D ERREUR ET APPLICATIONS

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Évaluation de la régression bornée

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

STATISTIQUES. UE Modélisation pour la biologie

Introduction aux Statistiques et à l utilisation du logiciel R

FORMULAIRE DE STATISTIQUES

IBM SPSS Regression 21

1 Complément sur la projection du nuage des individus

Programmes des classes préparatoires aux Grandes Ecoles

Modèle GARCH Application à la prévision de la volatilité

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Le modèle de régression linéaire

Introduction au Data-Mining

PROGRAMME (Susceptible de modifications)

Cours de méthodes de scoring

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Imputation du salaire d ego dans TeO

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Introduction au Data-Mining

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

Principe d un test statistique

De la mesure à l analyse des risques

Chapitre 3. Les distributions à deux variables

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Le Modèle Linéaire par l exemple :

Théorie des sondages : cours 5

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Interception des signaux issus de communications MIMO

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Soutenance de stage Laboratoire des Signaux et Systèmes

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Modélisation aléatoire en fiabilité des logiciels

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Evaluation des modèles non-linéaires à effets mixtes

INF6304 Interfaces Intelligentes

Classification non supervisée

Enjeux mathématiques et Statistiques du Big Data

Biostatistiques : Petits effectifs

Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales

VI. Tests non paramétriques sur un échantillon

Simulation de variables aléatoires

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Analyse des durées de vie avec le logiciel R

Exemple PLS avec SAS

Introduction au datamining

Théorie de l estimation et de la décision statistique

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Estimation et tests statistiques, TD 5. Solutions

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

MÉTHODE DE MONTE CARLO.

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

L Econométrie des Données de Panel

Température corporelle d un castor (une petite introduction aux séries temporelles)

Théorie des probabilités

données en connaissance et en actions?

Contributions à l apprentissage statistique en grande dimension, adaptatif et sur données atypiques

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Quantification Scalaire et Prédictive

Aide-mémoire de statistique appliquée à la biologie

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Mesure et gestion des risques d assurance

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Transcription:

Analyse des données individuelles groupées

Analyse des Temps de Réponse Le modèle mixte linéaire (L2M) Y ij, j-ième observation continue de l individu i (i = 1,, N ; j =1,, n) et le vecteur des réponses : Y = X + Z b + 1 N 1 i i i i i b i i N(0, D), N(0, Σ ), les b,..., b,,..., sont indépendants. N i, Y = ( Y,..., Y )' i i1 in Vecteur β des p effets fixes et matrice de plan X i (dim = n p). Vecteur b i des q effets aléatoires et matrice de plan Z i (dim = n q). Matrice de variance covariance D des effets aléatoires (dim = q q). Matrice de variance covariance Σ i des résidus (dim = n n). Paramètres du modèle : effets fixes et écarts-types des effets aléatoires et des résidus.

Analyse des Temps de Réponse Le modèle mixte linéaire (L2M) Y b N( X + Z b, Σ ). i i i i i i Conditionnellement aux effets aléatoires b i : - les Y ij sont indépendantes, - le vecteur des réponses Y i suit une loi normale multivariée de moyennes et de matrice de variance covariance des résidus 2 i = σ In. X i + Z b i i Estimation - ML ou ML restreint (REML: estimateur sans biais des composantes de la variance).

Analyse des Temps de Réponse

Analyse des Temps de Réponse

Analyse des Temps de Réponse L2M : lmer Comparaison des modèles suivants : log(tr_br) ~ 1 + (1 id) log(tr_br) ~ 1 + ci + (1 id) log(tr_br) ~ 1 + ral + (1 id) log(tr_br) ~ 1 + ci + ral + (1 id) log(tr_br) ~ 1 + ci + (1 + ci id) log(tr_br) ~ 1 + ral + (1 + ral id) log(tr_br) ~ 1 + ci + ral + ci:ral + (1 id) log(tr_br) ~ 1 + ci + ral + (1 + ci id) log(tr_br) ~ 1 + ci + ral + (1 + ral id) log(tr_br) ~ 1 + ci * ral + (1 + ci id) log(tr_br) ~ 1 + ci * ral + (1 + ral id) log(tr_br) ~ 1 + ci + ral + (1 + ci + ral id) log(tr_br) ~ 1 + ci * ral + (1 + ci + ral id) log(tr_br) ~ 1 + ci * ral + (1+ ci * ral id) BIC 12006 10664 11911 10579 10520 11883 10346 10433 10546 10194 10310 10409 10165 10146

Analyse des Temps de Réponse Modèle retenu : log(tr_br) ~ 1+ci+ral+ci:ral+(1+ci+ral+ci:ral id) AIC BIC loglik deviance df.resid (maximum de vraisemblance) 10033.453 10145.827-5001.726 10003.453 13233 Scaled residuals: Min 1Q Median 3Q Max -6.4878-0.6739-0.1310 0.6028 4.4646 Random effects: Groups Name Variance Std.Dev. Bootstrap : IC 95% corr id (Intercept) 0.07783 0.2790 [0.2303,0.2830,0.3404] cii 0.01759 0.1326 [0.1036,0.1360,0.1681] -0.19 ralal 0.01181 0.1087 [0.0659,0.0964,0.1273] -0.10 0.39 cii:ralal 0.02045 0.1430 [0.0434,0.0756,0.1041] 0.06-0.65-0.73 Residual 0.11920 0.3453 [0.3556,0.3607,0.3658] Number of obs: 13248, (92.31% de bonnes réponses), groups: id, 69 Fixed effects: Estimate Std. Error t value (Intercept) 6.60171 0.03400 194.17 cii 0.30125 0.01765 17.07 ralal 0.16760 0.01589 10.55 cii:ralal -0.20679 0.02139-9.67 Correlation of Fixed Effects: (Intr) cii ralal cii -0.220 ralal -0.129 0.380 cii:ralal 0.083-0.613-0.725 Introduction de l âge dans le modèle - Pas d effet d interaction age ci, age ral, age ral ci. - Amélioration de l ajustement (BIC: 10134 vs 10145) : effet positif de l âge mais corrélation de -.995 entre l âge et l intercept.

Analyse des Temps de Réponse Effets aléatoires: prédictions bayésiennes empiriques (BLUP) Intercept

Analyse des Temps de Réponse Effets aléatoires: prédictions bayésiennes empiriques (BLUP) Incongruent - Congruent

Analyse des Temps de Réponse Effets aléatoires: prédictions bayésiennes empiriques (BLUP) Alterné - Répété

Analyse des Temps de Réponse Effets aléatoires: prédictions bayésiennes empiriques (BLUP) Interaction C/I R/AL

Analyse de la Précision Modèle de régression logistique à effets aléatoires (GL2M) y ij, j-ième observation de l individu i, suit une loi de Bernouilli avec une probabilité de succès π ij : y = B(1, π ). i i 1 i i N X i + Zi i y b (logit ( b )). Moyenne conditionnée par les effets aléatoires : exp( Xi Zi i ) E( yij i ) = P( yij Xi, Zi,, i ) = + b b b. 1 + exp( X + Z b ) On suppose que les effets aléatoires b i sont gaussiens, centrés et ont une structure D de variance covariance : bi N(0, D). Vecteur β des p effets fixes et matrice de plan X i (dim = n p) Vecteur b i des q effets aléatoires et matrice de plan Z i (dim = n q). Matrice de variance covariance D des effets aléatoires (dim = q q). L estimation des β dépend des effets aléatoires b i. i i i

Analyse de la Précision

Analyse de la Précision GL2M : glmer (lien logit) Comparaison des modèles suivants : pr ~ 1 + (1 id) pr ~ 1 + ci + (1 id) pr ~ 1 + ral + (1 id) pr ~ 1 + ci + ral + (1 id) pr ~ 1 + ci + (ci id) pr ~ 1 + ral + (ral id) pr ~ 1 + ci + ral + ci:ral + (1 id) pr ~ 1 + ci + ral + (ci id) pr ~ 1 + ci + ral + (ral id) pr ~ 1 + ci + ral + ci:ral + (ci id) pr ~ 1 + ci + ral + ci:ral + (ral id) pr ~ 1 + ci + ral + (ci + ral id) pr ~ 1 + ci + ral + ci:ral + (ci + ral id) pr ~ 1 + ci + ral + ci:ral + (ci + ral + ci:ral id) BIC 6600 6588 6579 6567 6207 6560 6545 6182 6548 6149 6525 6169 6148 6165

Analyse de la Précision Modèle retenu : pr ~ 1+ci+ral+ci:ral+(1+ci id) Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmermod'] Family: binomial ( logit ) AIC BIC loglik deviance df.resid 6096.4 6149.4-3041.2 6082.4 14345 Scaled residuals: Min 1Q Median 3Q Max -9.6523 0.1199 0.1779 0.2600 4.8250 Random effects: Groups Name Variance Std.Dev. Corr id (Intercept) 1.915 1.384 cii 1.889 1.375-0.56 Number of obs: 14352, groups: id, 69 Fixed effects: Estimate Std. Error z value Pr(> z ) (Intercept) 3.8013 0.1930 19.698 < 2e-16 *** cii -0.8130 0.2069-3.930 8.49e-05 *** ralal -1.0054 0.1121-8.969 < 2e-16 *** cii:ralal 0.9804 0.1468 6.679 2.40e-11 *** --- Correlation of Fixed Effects: (Intr) cii ralal cii -0.620 ralal -0.313 0.292 cii:ralal 0.239-0.325-0.764 Introduction de l âge dans le modèle - Pas d effet d interaction age ci, age ral, age ral ci. - Amélioration de l ajustement (BIC: 6142 vs 6149) : effet positif de l âge mais corrélation de -.991 entre l âge et l intercept.

Analyse de la Précision Effets aléatoires: prédictions bayésiennes empiriques (BLUP) Intercept

Analyse de la Précision Effets aléatoires: prédictions bayésiennes empiriques (BLUP) Incongruent - Congruent

Classification des individus sur la base des effets aléatoires Modèle de classification par les classes latentes Variables observées continues: données y 1,, y n dans. La densité du mélange gaussien multidimensionnel s écrit : θ : vecteur des paramètres K : nombre de clusters, π k : proportions du mélange, ϕ : densité de la loi normale multivariée, K f ( y ) = π ϕ( y, Σ ), k= 1 d k k k ( π,..., π, µ,..., µ, Σ,..., Σ ) 1 K 1 K 1 K des densités, Restrictions sur les Σ k (par ex., hypothèse d indépendance locale = matrices Σ k diagonales).

Classification des individus sur la base des effets aléatoires Modèle de classification par les classes latentes Estimation : ML avec l algorithme itératif EM - Espérance : calcul des probabilités a posteriori d appartenance des y i aux classes conditionnellement au paramètre courant. - Maximisation de la vraisemblance conditionnellement aux : calcul des proportions, des moyennes et des matrices Σ. - A la convergence, affectation de chaque individu par la méthode du maximum a posteriori : chaque individu est rangé dans la classe qui maximise la probabilité a posteriori d appartenance à la classe k calculée à partir des estimations de θ. ( c) p ik ( c 1) π + ( c 1) k µ + ( c + 1) k k p ik ( c) p ik

Classification des individus sur la base des effets aléatoires Résultats (LPA, Mplus) Variables continues: TR_intercept TR_pente_ci TR_pente_ral TR_pente_interaction PR_intercept PR_pente_ci Estimateur MLR Restrictions #par H0 AIC BIC SSBIC Effectifs Lo-Mendell-Rubin LRT M1 1 classe Indépendance conditionnelle 12-63,975 151,91 178,76 140,971 M2 1 classe +TR.ral with TR.ci.ral 14-24,357 76,715 107,99 63,899 +TR.ci with TR.ci.ral M3 1 classe +PR.int with PR.ci 15-13,034 56,068 89,579 42,337 M4 2 classes Variances = 22 7,048 29,903 79,053 9,765 N1=2, N2=67 38,854 (p=0,094) - L hypothèse d homogénéité (N=69) ne peut être rejetée. Deux participants ont un très faible niveau de précision par rapport à la moyenne du groupe : participants 29 (79 ans, mmse=27) et 68 (80 ans, mmse=27). - Ces deux participants exclus (N=67) : test de M 4 (N 1 =31, N 2 =36, entropie =.824). - Test de l hypothèse d homogénéité : Lo-Mendell-Rubin LRT=29,397, p=0.078 ; LRT bootstrappé = 30,396, p <.005.

Classification des individus sur la base des effets aléatoires Résultats (LPA avec Mplus) Sur N = 67 participants, modèles à 2 classes : M 5 : restrictions de M 4 + - invariance de TR_intercept (contrôle du ralentissement lié à l âge), - invariance de PR_intercept (comparaison à niveau de précision égal), - moyenne de l âge libérée dans chaque groupe. M 6 : restrictions de M 4 + - invariance de TR_intercept (contrôle du ralentissement lié à l âge), - invariance de PR_intercept (comparaison à niveau de précision égal), - moyennes de l âge contrainte à l égalité dans les deux groupes. Meilleur modèle: M 5 (M 5 : #par=23, BIC=464.39 ; M 6 : #par=22, BIC=476.16; χ 2 =24,56, ddl=1, p<.000).

Comparaison des deux classes Classe 1 (N=30) Classe 2 (N=37) Estimation S.E. Est./S.E. p Estimation S.E. Est./S.E. p Corrélations Corrélations TR_RAL WITH TR_RAL WITH TR_CXR -0.650 0.066-9.917 0.000 TR_CXR -0.650 0.066-9.917 0.000 TR_CI WITH TR_CI WITH TR_CXR -0.397 0.100-3.994 0.000 TR_CXR -0.397 0.100-3.994 0.000 PR_MU WITH PR_MU WITH PR_CI -0.255 0.101-2.529 0.011 PR_CI -0.255 0.101-2.529 0.011 Moyennes Moyennes TR_MU -0.006 0.035-0.184 0.854 TR_MU -0.006 0.035-0.184 0.854 TR_CI -0.047 0.018-2.560 0.010 TR_CI 0.044 0.023 1.893 0.058 TR_RAL -0.025 0.016-1.511 0.131 TR_RAL 0.020 0.016 1.313 0.189 TR_CI X RAL 0.053 0.018 2.964 0.003 TR_CI X RAL -0.046 0.020-2.352 0.019 PR_MU 0.038 0.107 0.355 0.723 PR_MU 0.038 0.107 0.355 0.723 PR_CI 0.446 0.112 3.997 0.000 PR_CI -0.522 0.152-3.444 0.001 AGE 63.780 0.701 91.008 0.000 AGE 74.723 0.760 98.262 0.000 Variances Variances TR_MU 0.080 0.014 5.670 0.000 TR_MU 0.080 0.014 5.670 0.000 TR_CI 0.014 0.003 4.697 0.000 TR_CI 0.014 0.003 4.697 0.000 TR_RAL 0.007 0.001 6.703 0.000 TR_RAL 0.007 0.001 6.703 0.000 TR_CXR 0.009 0.001 6.355 0.000 TR_CXR 0.009 0.001 6.355 0.000 PR_MU 0.772 0.163 4.725 0.000 PR_MU 0.772 0.163 4.725 0.000 PR_CI 0.620 0.119 5.205 0.000 PR_CI 0.620 0.119 5.205 0.000 AGE 12.835 2.644 4.853 0.000 AGE 12.835 2.644 4.853 0.000 M5_blup67_2cl

Comparaison des deux classes Conclusion A tempo de réponse et niveau de précision contraints à l égalité dans les deux classes : 1) Individus du SG_1 en moyenne plus jeunes que ceux du SG_2. 2) Chez les individus du SG_1 en comparaison à ceux du SG_2 : - l écart des TR entre conditions I et C est plus faible, - les erreurs sont plus fréquentes aux essais C qu aux essais I. Interprétation : biais d attente (des stimuli I) pouvant s expliquer par l engagement préférentiel d un mode de contrôle proactif chez les individus du SG_1 en comparaison à ceux du SG_2. 3) L effet d alternance (coût local) varie selon les individus mais n augmente pas avec l âge.