Quantité d information et sélection de modèles

Quantté d nformaton et sélecton de modèles Delphne Maucort-Boulch 5 févrer 2010 Sémnare Marselle, LERTIM 1

Modélsaton et nférence statstque Pourquo modélser? Comprendre un phénomène Explquer un phénomène Prédre un événement présent ou futur Inférence statstque A partr d observatons fates sur un échantllon, dédure des nformatons, des connassances, sur l ensemble de la populaton d où l échantllon état ssu Prédre pour un nouveau patent 2

Prédcton Prédcton valdté externe, robustesse Précson Foncton du nombre de sujets, d événements «Justesse» Calbraton bas Dscrmnaton séparaton des ndvdus 3

Constructon de modèle Jeu de données pour construre le modèle (Jeu de traval, jeu d apprentssage) Utlsaton du modèle sur d autres ndvdus que ceux du jeu de traval (jeu test, jeu de valdaton) 4

Démarche de modélsaton Varable à explquer, dépendante Y Varables explcatves X Populaton cble populaton source échantllon= jeu de traval Spécfcaton du modèle Estmaton des paramètres Sélecton du modèle Évaluaton du modèle 5

Problème Jeu de traval sert A estmer les paramètres A sélectonner le modèle A évaluer le modèle Utlsaton multple du jeu de traval 6

Conséquences Modèle dagnostque ou pronostque Surestmaton de l apttude du modèle à prédre Excès de confance dans les performances du modèle Optmsme, défaut de «justesse» Valdté nterne / valdté externe 7

Adéquaton Estmaton des paramètres pour mnmser les erreurs de «prédcton» sur le jeu de traval Méthode des mondres carrés ( ˆ ) 2 y y Vrasemblance du modèle = vrasemblance des estmatons du maxmum de vrasemblance de ses paramètres 8

Adéquaton = + SCE ( y y ) = ( y yˆ ) + ( yˆ y ) T 2 = SCE R 2 + SCE E 2 9

2 Adéquaton ( y ) = ( ) + ( ) y y yˆ yˆ y 2 2 Varance de Y Bas Varance explquée par le modèle Var(Y): varance à explquer Var(E(Y X)): varance explquée par le modèle, sgnal à maxmser E(var(Y X)): varablté ntra-groupe, brut à mnmser 10

Adéquaton Estmaton des paramètres β 0 et β 1 Mnmsaton des écarts entre observatons et prédctons ( ) 2 y yˆ = ( y β β x ) 2 Mondres carrés pondérés 0 1 11

Estmaton des paramètres Emprquement varables erreurs ( ˆ ) 2 y y Au maxmum, (n-1) varables et n ndvdus Emprquement, modèle complexe (overfttng) grande varance, fable bas Paramètres estmés par optmsaton de fonctons 12

Perte d nformaton Écart entre y et ŷ = perte d nformaton lée à l utlsaton du modèle Mnmsaton de foncton de perte (mondres carrés, vrasemblance) L erreur de prédcton emprque, la perte d nformaton décroît avec la complexté du modèle 13

Comproms bas-varance Erreur de prédcton Varance Bas Vértable erreur Varablté underfttng Complexté overfttng 14

Optmsme traval ( ) 2 y < ( ) yˆ y yˆ valdaton 2 Proporton vrae d erreurs = proporton apparente d erreurs + bas Dssocaton sgnfcatvté (adéquaton) et prédcton surestmaton jusqu'à la sgnfcatvté 15

Y Valdaton = f Effet de l optmsme ( Yˆ ) = cy ˆ ˆ = Valdaton Valdaton cˆ βˆ X Valdaton 16

Effet de l optmsme Van Houwelngen JC, Le Cesse S. Predctve value of statstcal models. Stat Med. 1990;9:1303-1325 17

Optmsme Influence de la talle de l'échantllon, nombre d'événements Importance de la pré-spécfcaton (`fshng') Parcmone des modèles 18

L'nformaton et ses mesures Pour prédre, quelle nformaton apporte X pour dscrmner les ndvdus? R.A.Fsher the statstc chosen should summarze the whole of the relevant nformaton suppled by the sample a suffcent statstc contans all the nformaton n only the techncal sense of nformaton as measured by varance Théore de l'nformaton Mesure d'ncerttude, entrope 19

Quantté d nformaton, exemple A place un objet dans une des n boîtes rouges C sat que la boîte contenant l objet est rouge (nformaton I) B dot trouver la boîte Sot en posant queston ou/non à A Sot en achetant l nformaton de C 20

Quantté d nformaton, exemple Chaque queston a un coût (e.g. 1 euro) Achat de l nformaton de C s prx coût moyen des questons àa Le prx de l nformaton «la boîte est rouge»= mn(coût des questons à A) 21

Quantté d nformaton, exemple ~B(N,1/2) Sans I: log 2 N questons Avec I: log 2 n questons 22

Quantté d nformaton, exemple Informaton Pr("la = E(Informaton) log = 2 N boîte est rouge") n N log log = 2 2 n N n N n = p log 2 1 p 23

Entrope Mesure d ncerttude k = 1 p log 2 1 p Entrope, entrope d une varable aléatore (Shannon) H ( X ) H ( X Y ) Défnton = = Défnton X Pr( X X, Y = Pr( X x) log = x, Y { Pr( X = x) } = y) log { Pr( X = x Y = y) } 24

Entrope relatve Réducton de l ncerttude Informaton de Kullback Lebler de H 1 par rapport à H 0 f0( x) (0 :1) 0( )log ( ) 1( ) I = f x dλ x f x Asymétre, dstance 25

Entrope et vrasemblance f ( x) = f ( x, θ ) f ( x) = f ( x, θ + θ ) 0 1 Développement de Taylor à l ordre 3 I(0:1) foncton de l nformaton de Fsher Utlser le rapport de vrasemblance comme mesure d nformaton 26

Évaluaton des modèles Calbraton Fablté des estmatons +/- Précson Dscrmnaton Apttude du modèle à séparer les ndvdus Nouveaux ndvdus, jeu test, jeu de valdaton 27

Nouveaux ndvdus Nouvel ndvdu= ndvdu qu n a pas serv à construre le modèle Deux possbltés Sot génératon de nouveaux ndvdus à partr des données de traval= valdaton nterne Sot consttuton d un jeu de données ssu de la même populaton, jeu de valdaton= valdaton externe 28

Nouveaux ndvdus Valdaton nterne Valdaton Crosée Bootstrap Valdaton Externe Data splttng 29

Akake Informaton Crteron Exhaustvté du rapport de vrasemblance f1( x) f ( x) 0 Mesure optmale: KLI Mnmser la foncton de perte pour chosr le modèle optmal 30

Akake Informaton Crteron Mnmser la foncton de perte N k λl = 2 log f ( x k ˆ) θ + 2k = 1 Pénalsaton de la vrasemblance par le nombre de paramètres AIC = l ( ˆ θ ) l ( ˆ θ ) + 2( k { } ) 2 1 1 0 0 1 k0 Modèles plus parcmoneux NB: k 1 =k 0? 31

Vrasemblance cross valdée Cross valdaton Stone (1973): vrasemblance et cross valdaton A = L ( ˆ) θ + trace 1 ( L L 2 2 1 ) Asymptotquement équvalent à l AIC 32

33 Vrasemblance cross valdée Verwej, Van Houwelngen, en surve Vrasemblance pénalsée Heurstque pour facteur de rétrécssement recalbraton du modèle = = = + = n l l l l l l l 1 ) ˆ ( CVL ) ( ) ( ) ( ) ( ) ( ) ( β β β β β β β

34 Bayesan Informaton Crteron Informaton X=x pour dscrmner H 0 /H 1 : P(H ) : probablté a pror P(H x): probablté a posteror dfférence de logarthme des odds en faveur de H 0 respectvement après et avant l'observaton de x = 1 0 1 0 1 0 log ) ( ) ( log ) ( ) ( log H H x H P x H P x H f x H f ) ( ) ( log 1 0 x f x f

Bayesan Informaton Crteron Facteur de Bayes B 01 Approxmaton de Laplace pour ntégrer BIC { l ( ˆ θ ) l ( ˆ )} + ( k k )log( ) = θ 2 1 1 0 0 1 0 n Surve, n nombre d événements 35

Vrasemblance pénalsée Pénalsaton de la vrasemblance «Informaton» augmente avec le nombre de varables ntrodutes dans le modèle Optmsme Brut et p 36

Entrope et varance explquée Part de varance explquée du modèle lnéare R 2 = σ XY σ σ X Y = ˆ σ x β σ y Informaton dans βˆx 37

Entrope et varance explquée Sous hypothèse de normalté 1 I( 0 :1) = log(1 ρ²) 2 Kent étend cette formule à la surve Gan d'nformaton dans la part de varance explquée (Kent & O Qugley) 2 ρ = 1 exp( (0 :1)) IG I Dstrbuton des événements ++ 38

Informaton et classement Score ou proporton d'accords prédts/observés Score de Brer, τ de Kendall, D de Somers Observés Prédts Malades San Test + VP FP Test - FN VN 39

Surve, nformaton et rangs Observés Prédts (P 1 -P 2 ) + (P 1 -P 2 ) - (O 1 -O 2 ) + VP FP (O 1 -O 2 ) - FN VN D de Somers D de Harrell D=2(c-0.5) Censures, pares non nformatves Bootstrap 40

Sélecton de modèles Objectf: prédre le pronostc pour de nouveaux ndvdus Sélecton de modèle avec optmsme mnmal Foncton de perte Concordance des rangs Quelle nfluence des caractérstques des échantlllons? 41

Smulatons ρ 2 IG Objectf: comparer les comportements du, D de Somers, CVL et BIC Fluctuatons d échantllonnage Censure, hazard rato, dstrbuton de la varable explcatve 42

Smulatons Varable bnare X Dstrbuton de X: 75, 50, 25% Surve exponentelle de paramètre λ= 1/10 τ βє{log(2), log(4), log(8), log(16)} Censure sur [5, ], 0, 10, 50, 90% à 10 ans Nb événements 150 Modèles de Cox 43

Résultats N en X=0 75% 50% 25% 44

Résultats 45

Concluson Mesures au comportement dfférent mas sélecton dentque L optmsme peut condure à la surestmaton des paramètres jusqu à la sgnfcatvté Dssocer la sgnfcatvté de la valeur prédctve Importance de la pré-spécfcaton ( fshng ) Parcmone des modèles (<1 varable par 20 événements) cf Peduzz, 1995,1996, Fensten 1996 46

Concluson Influence de la talle de l échantllon, nombre d événements Correcton de l optmsme Correcton a pror Correcton des paramètres (Rdge regresson, LASSO, LARS..) Correcton a posteror Correcton globale du prédcteur (Shrnkage factor) 47

Bblographe Maucort-Boulch D, Djerdane M, Roy P, Rche B, Colonna P, Andreu JM. Predctve and dscrmnatng three-rsk-group prognostc scorng system for stagng Hodgkn s Lymphomas. Cancer 2007;109: 256-64 Maucort-Boulch D, Rche B, O Qugley J, Roy P. Susceptblty to censorshp of predctve accuracy measures. Internatonal Socety for Clncal Bostatstcs, Genève, Susse, 2006 Harrell F. Regresson Modelng Strateges wth applcatons n lnear models, logstc regresson and survval analyss. Sprnger.2002 Haste T, Tbshran R, Fredman F. The elements of statstcal learnng: data mnng, nference, and predcton. Sprnger.2009 Kent JT, O Qugley J. Measures of dependence for censored survval data. Bometrka.1988;75:525-534. Harrell FEJ, Lee KL, Mark DB. Multvarable prognostc models: ssues n developng models, evaluatng assumptons and adequacy, and measurng and reducng errors. Stat Med.1996;15:361-387. van Houwelngen JC, Le Cesse S. Predctve value of statstcal models. Stat Med.1990;9:1303-1325. 48