Quantité d information et sélection de modèles

Documents pareils
Pratique de la statistique avec SPSS

COMPARAISON DE MÉTHODES POUR LA CORRECTION

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

STATISTIQUE AVEC EXCEL

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

1. Les enjeux de la prévision du risque de défaut de paiement

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

Mesure avec une règle

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

Remboursement d un emprunt par annuités constantes

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

TD 1. Statistiques à une variable.

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

Performances de la classification par les Séparateurs à Vaste Marge (SVM): application au diagnostic vibratoire automatisé

Montage émetteur commun

hal , version 1-14 Aug 2009

Analyse des Performances et Modélisation d un Serveur Web

Exercices d Électrocinétique

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P Préférences temporelles et recherche d emploi

Stéganographie Adaptative par Oracle (ASO)

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

Prise en compte des politiques de transport dans le choix des fournisseurs

La Quantification du Risque Opérationnel des Institutions Bancaires

Les jeunes économistes

LA SURVIE DES ENTREPRISES DÉPEND-ELLE DU TERRITOIRE D'IMPLANTATION?

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

Thermodynamique statistique Master Chimie Université d Aix-Marseille. Bogdan Kuchta

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

Pauvreté et fécondité au Congo

Page 5 TABLE DES MATIÈRES

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

Séparation de Sources par lissage cepstral des masques binaires

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

DOIT-ON UTILISER LA STANDARDISATION DIRECTE OU INDIRECTE DANS L ANALYSE DE

PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)

Editions ENI. Project Collection Référence Bureautique. Extrait

Analyse de sensibilité des modèles de simulation. Samuel Buis UMR 1114 EMMAH Avignon

II - Notions de probabilité. 19/10/2007 PHYS-F-301 G. Wilquet 1

APPROXIMATION PAR RÉSEAUX À FONCTIONS RADIALES DE BASE APPLICATION À LA DÉTERMINATION DU PRIX D ACHAT D UNE

santé Les arrêts de travail des séniors en emploi

MINISTERE DE L ECONOMIE ET DES FINANCES

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

Documents de travail. «La taxe Tobin : une synthèse des travaux basés sur la théorie des jeux et l économétrie» Auteurs

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Surveillance temps-réel des systèmes Homme-Machine. Application à l assistance à la conduite automobile

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

Projet de fin d études

Système solaire combiné Estimation des besoins énergétiques

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

Calcul de tableaux d amortissement

Prêt de groupe et sanction sociale Group lending and social fine

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

MEMOIRE. Présenté au département des sciences de la matière Faculté des sciences

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

- Acquisition de signaux en sismologie large bande. - Acquisition de signaux lents, magnétisme, MT.

Paquets. Paquets nationaux 1. Paquets internationaux 11

Qualité de service 7. Ordonnanceurs de paquets. Contexte. Intégration de services. Plan. Multiplexage. FIFO/DropTail. Priorités

Evaluation de performances d'ethernet commuté pour des applications temps réel

Intégration financière et croissance économique : évidence empirique dans. la région MENA

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

Une analyse économique et expérimentale de la fraude à l assurance et de l audit

Afflux de capitaux, taux de change réel et développement financier : évidence empirique pour les pays du Maghreb

Grandeur physique, chiffres significatifs

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

Version provisoire Ne pas citer sans l accord des auteurs

THESE. Khalid LEKOUCH

Professionnel de santé équipé de Médiclick!

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

ESTIMATION DES TITRES VIRAUX : UNE PROGRAMMATION PRATIQUE ET FIABLE SUR CALCULATRICE DE POCHE, ET ACCESSIBLE PAR l INTERNET

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

TRAVAUX PRATIQUES SPECTRO- COLORIMETRIE

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

AVERTISSEMENT. Contact SCD INPL: LIENS

L automatisme de portail sans fils

Be inspired. Numéro Vert. Via Caracciolo Milano tel fax

Notre catalogue E- forma8ons Management E- LEARNING CENTRE DE FORMATION INFORMATIQUE ET MANAGEMENT. Plateforme E- learning :

METHODE AUTOMATIQUE POUR CORRIGER LA VARIATION LINGUISTIQUE LORS DE L INTERROGATION DE DOCUMENTS XML DE STRUCTURES HETEROGENES

ErP : éco-conception et étiquetage énergétique. Les solutions Vaillant. Pour dépasser la performance. La satisfaction de faire le bon choix.

Pour plus d'informations, veuillez nous contacter au ou à

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

17th Annual Conference on Global Economic Analysis/GTAP Commerce intra CEMAC et consommation des ménages au Cameroun : analyse par un MEGC

Terminal numérique TM 13 raccordé aux installations Integral 33

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

CHAPITRE 1 : Distribution statistique à une dimension

Calculs des convertisseurs en l'electronique de Puissance

Table des Matières RÉSUMÉ ANALYTIQUE... 1 I. CONTEXTE La dette publique du Gouvernement Contexte institutionnel de gestion de la

Transcription:

Quantté d nformaton et sélecton de modèles Delphne Maucort-Boulch 5 févrer 2010 Sémnare Marselle, LERTIM 1

Modélsaton et nférence statstque Pourquo modélser? Comprendre un phénomène Explquer un phénomène Prédre un événement présent ou futur Inférence statstque A partr d observatons fates sur un échantllon, dédure des nformatons, des connassances, sur l ensemble de la populaton d où l échantllon état ssu Prédre pour un nouveau patent 2

Prédcton Prédcton valdté externe, robustesse Précson Foncton du nombre de sujets, d événements «Justesse» Calbraton bas Dscrmnaton séparaton des ndvdus 3

Constructon de modèle Jeu de données pour construre le modèle (Jeu de traval, jeu d apprentssage) Utlsaton du modèle sur d autres ndvdus que ceux du jeu de traval (jeu test, jeu de valdaton) 4

Démarche de modélsaton Varable à explquer, dépendante Y Varables explcatves X Populaton cble populaton source échantllon= jeu de traval Spécfcaton du modèle Estmaton des paramètres Sélecton du modèle Évaluaton du modèle 5

Problème Jeu de traval sert A estmer les paramètres A sélectonner le modèle A évaluer le modèle Utlsaton multple du jeu de traval 6

Conséquences Modèle dagnostque ou pronostque Surestmaton de l apttude du modèle à prédre Excès de confance dans les performances du modèle Optmsme, défaut de «justesse» Valdté nterne / valdté externe 7

Adéquaton Estmaton des paramètres pour mnmser les erreurs de «prédcton» sur le jeu de traval Méthode des mondres carrés ( ˆ ) 2 y y Vrasemblance du modèle = vrasemblance des estmatons du maxmum de vrasemblance de ses paramètres 8

Adéquaton = + SCE ( y y ) = ( y yˆ ) + ( yˆ y ) T 2 = SCE R 2 + SCE E 2 9

2 Adéquaton ( y ) = ( ) + ( ) y y yˆ yˆ y 2 2 Varance de Y Bas Varance explquée par le modèle Var(Y): varance à explquer Var(E(Y X)): varance explquée par le modèle, sgnal à maxmser E(var(Y X)): varablté ntra-groupe, brut à mnmser 10

Adéquaton Estmaton des paramètres β 0 et β 1 Mnmsaton des écarts entre observatons et prédctons ( ) 2 y yˆ = ( y β β x ) 2 Mondres carrés pondérés 0 1 11

Estmaton des paramètres Emprquement varables erreurs ( ˆ ) 2 y y Au maxmum, (n-1) varables et n ndvdus Emprquement, modèle complexe (overfttng) grande varance, fable bas Paramètres estmés par optmsaton de fonctons 12

Perte d nformaton Écart entre y et ŷ = perte d nformaton lée à l utlsaton du modèle Mnmsaton de foncton de perte (mondres carrés, vrasemblance) L erreur de prédcton emprque, la perte d nformaton décroît avec la complexté du modèle 13

Comproms bas-varance Erreur de prédcton Varance Bas Vértable erreur Varablté underfttng Complexté overfttng 14

Optmsme traval ( ) 2 y < ( ) yˆ y yˆ valdaton 2 Proporton vrae d erreurs = proporton apparente d erreurs + bas Dssocaton sgnfcatvté (adéquaton) et prédcton surestmaton jusqu'à la sgnfcatvté 15

Y Valdaton = f Effet de l optmsme ( Yˆ ) = cy ˆ ˆ = Valdaton Valdaton cˆ βˆ X Valdaton 16

Effet de l optmsme Van Houwelngen JC, Le Cesse S. Predctve value of statstcal models. Stat Med. 1990;9:1303-1325 17

Optmsme Influence de la talle de l'échantllon, nombre d'événements Importance de la pré-spécfcaton (`fshng') Parcmone des modèles 18

L'nformaton et ses mesures Pour prédre, quelle nformaton apporte X pour dscrmner les ndvdus? R.A.Fsher the statstc chosen should summarze the whole of the relevant nformaton suppled by the sample a suffcent statstc contans all the nformaton n only the techncal sense of nformaton as measured by varance Théore de l'nformaton Mesure d'ncerttude, entrope 19

Quantté d nformaton, exemple A place un objet dans une des n boîtes rouges C sat que la boîte contenant l objet est rouge (nformaton I) B dot trouver la boîte Sot en posant queston ou/non à A Sot en achetant l nformaton de C 20

Quantté d nformaton, exemple Chaque queston a un coût (e.g. 1 euro) Achat de l nformaton de C s prx coût moyen des questons àa Le prx de l nformaton «la boîte est rouge»= mn(coût des questons à A) 21

Quantté d nformaton, exemple ~B(N,1/2) Sans I: log 2 N questons Avec I: log 2 n questons 22

Quantté d nformaton, exemple Informaton Pr("la = E(Informaton) log = 2 N boîte est rouge") n N log log = 2 2 n N n N n = p log 2 1 p 23

Entrope Mesure d ncerttude k = 1 p log 2 1 p Entrope, entrope d une varable aléatore (Shannon) H ( X ) H ( X Y ) Défnton = = Défnton X Pr( X X, Y = Pr( X x) log = x, Y { Pr( X = x) } = y) log { Pr( X = x Y = y) } 24

Entrope relatve Réducton de l ncerttude Informaton de Kullback Lebler de H 1 par rapport à H 0 f0( x) (0 :1) 0( )log ( ) 1( ) I = f x dλ x f x Asymétre, dstance 25

Entrope et vrasemblance f ( x) = f ( x, θ ) f ( x) = f ( x, θ + θ ) 0 1 Développement de Taylor à l ordre 3 I(0:1) foncton de l nformaton de Fsher Utlser le rapport de vrasemblance comme mesure d nformaton 26

Évaluaton des modèles Calbraton Fablté des estmatons +/- Précson Dscrmnaton Apttude du modèle à séparer les ndvdus Nouveaux ndvdus, jeu test, jeu de valdaton 27

Nouveaux ndvdus Nouvel ndvdu= ndvdu qu n a pas serv à construre le modèle Deux possbltés Sot génératon de nouveaux ndvdus à partr des données de traval= valdaton nterne Sot consttuton d un jeu de données ssu de la même populaton, jeu de valdaton= valdaton externe 28

Nouveaux ndvdus Valdaton nterne Valdaton Crosée Bootstrap Valdaton Externe Data splttng 29

Akake Informaton Crteron Exhaustvté du rapport de vrasemblance f1( x) f ( x) 0 Mesure optmale: KLI Mnmser la foncton de perte pour chosr le modèle optmal 30

Akake Informaton Crteron Mnmser la foncton de perte N k λl = 2 log f ( x k ˆ) θ + 2k = 1 Pénalsaton de la vrasemblance par le nombre de paramètres AIC = l ( ˆ θ ) l ( ˆ θ ) + 2( k { } ) 2 1 1 0 0 1 k0 Modèles plus parcmoneux NB: k 1 =k 0? 31

Vrasemblance cross valdée Cross valdaton Stone (1973): vrasemblance et cross valdaton A = L ( ˆ) θ + trace 1 ( L L 2 2 1 ) Asymptotquement équvalent à l AIC 32

33 Vrasemblance cross valdée Verwej, Van Houwelngen, en surve Vrasemblance pénalsée Heurstque pour facteur de rétrécssement recalbraton du modèle = = = + = n l l l l l l l 1 ) ˆ ( CVL ) ( ) ( ) ( ) ( ) ( ) ( β β β β β β β

34 Bayesan Informaton Crteron Informaton X=x pour dscrmner H 0 /H 1 : P(H ) : probablté a pror P(H x): probablté a posteror dfférence de logarthme des odds en faveur de H 0 respectvement après et avant l'observaton de x = 1 0 1 0 1 0 log ) ( ) ( log ) ( ) ( log H H x H P x H P x H f x H f ) ( ) ( log 1 0 x f x f

Bayesan Informaton Crteron Facteur de Bayes B 01 Approxmaton de Laplace pour ntégrer BIC { l ( ˆ θ ) l ( ˆ )} + ( k k )log( ) = θ 2 1 1 0 0 1 0 n Surve, n nombre d événements 35

Vrasemblance pénalsée Pénalsaton de la vrasemblance «Informaton» augmente avec le nombre de varables ntrodutes dans le modèle Optmsme Brut et p 36

Entrope et varance explquée Part de varance explquée du modèle lnéare R 2 = σ XY σ σ X Y = ˆ σ x β σ y Informaton dans βˆx 37

Entrope et varance explquée Sous hypothèse de normalté 1 I( 0 :1) = log(1 ρ²) 2 Kent étend cette formule à la surve Gan d'nformaton dans la part de varance explquée (Kent & O Qugley) 2 ρ = 1 exp( (0 :1)) IG I Dstrbuton des événements ++ 38

Informaton et classement Score ou proporton d'accords prédts/observés Score de Brer, τ de Kendall, D de Somers Observés Prédts Malades San Test + VP FP Test - FN VN 39

Surve, nformaton et rangs Observés Prédts (P 1 -P 2 ) + (P 1 -P 2 ) - (O 1 -O 2 ) + VP FP (O 1 -O 2 ) - FN VN D de Somers D de Harrell D=2(c-0.5) Censures, pares non nformatves Bootstrap 40

Sélecton de modèles Objectf: prédre le pronostc pour de nouveaux ndvdus Sélecton de modèle avec optmsme mnmal Foncton de perte Concordance des rangs Quelle nfluence des caractérstques des échantlllons? 41

Smulatons ρ 2 IG Objectf: comparer les comportements du, D de Somers, CVL et BIC Fluctuatons d échantllonnage Censure, hazard rato, dstrbuton de la varable explcatve 42

Smulatons Varable bnare X Dstrbuton de X: 75, 50, 25% Surve exponentelle de paramètre λ= 1/10 τ βє{log(2), log(4), log(8), log(16)} Censure sur [5, ], 0, 10, 50, 90% à 10 ans Nb événements 150 Modèles de Cox 43

Résultats N en X=0 75% 50% 25% 44

Résultats 45

Concluson Mesures au comportement dfférent mas sélecton dentque L optmsme peut condure à la surestmaton des paramètres jusqu à la sgnfcatvté Dssocer la sgnfcatvté de la valeur prédctve Importance de la pré-spécfcaton ( fshng ) Parcmone des modèles (<1 varable par 20 événements) cf Peduzz, 1995,1996, Fensten 1996 46

Concluson Influence de la talle de l échantllon, nombre d événements Correcton de l optmsme Correcton a pror Correcton des paramètres (Rdge regresson, LASSO, LARS..) Correcton a posteror Correcton globale du prédcteur (Shrnkage factor) 47

Bblographe Maucort-Boulch D, Djerdane M, Roy P, Rche B, Colonna P, Andreu JM. Predctve and dscrmnatng three-rsk-group prognostc scorng system for stagng Hodgkn s Lymphomas. Cancer 2007;109: 256-64 Maucort-Boulch D, Rche B, O Qugley J, Roy P. Susceptblty to censorshp of predctve accuracy measures. Internatonal Socety for Clncal Bostatstcs, Genève, Susse, 2006 Harrell F. Regresson Modelng Strateges wth applcatons n lnear models, logstc regresson and survval analyss. Sprnger.2002 Haste T, Tbshran R, Fredman F. The elements of statstcal learnng: data mnng, nference, and predcton. Sprnger.2009 Kent JT, O Qugley J. Measures of dependence for censored survval data. Bometrka.1988;75:525-534. Harrell FEJ, Lee KL, Mark DB. Multvarable prognostc models: ssues n developng models, evaluatng assumptons and adequacy, and measurng and reducng errors. Stat Med.1996;15:361-387. van Houwelngen JC, Le Cesse S. Predctve value of statstcal models. Stat Med.1990;9:1303-1325. 48