Plans d expérience bayésiens: Que nous proposent Chaloner et Verdinelli?



Documents pareils
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

TABLE DES MATIERES. C Exercices complémentaires 42

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Soutenance de stage Laboratoire des Signaux et Systèmes

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Principe de symétrisation pour la construction d un test adaptatif

Introduction au datamining

Introduction à l approche bootstrap

Économetrie non paramétrique I. Estimation d une densité

Modélisation aléatoire en fiabilité des logiciels

Méthodes de Simulation

Économétrie, causalité et analyse des politiques

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Principe d un test statistique

De la mesure à l analyse des risques

Essais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire

Résumé des communications des Intervenants

MCMC et approximations en champ moyen pour les modèles de Markov

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Essais cliniques de phase 0 : état de la littérature

CHAPITRE 5. Stratégies Mixtes

FIMA, 7 juillet 2005

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger.

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

NON-LINEARITE ET RESEAUX NEURONAUX

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Jeux sous forme extensive (Jeux dynamiques)

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Arbres binaires de décision

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Estimation et tests statistiques, TD 5. Solutions

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Econométrie et applications

MAP 553 Apprentissage statistique

Algorithmes d'apprentissage

1 Complément sur la projection du nuage des individus

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Évaluation de la régression bornée

Laboratoire 4 Développement d un système intelligent

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Théorèmes de Point Fixe et Applications 1

Annexe commune aux séries ES, L et S : boîtes et quantiles

CAPTEURS - CHAINES DE MESURES

Table des matières. I Mise à niveau 11. Préface

Chapitre XIV BASES PHYSIQUES QUANTITATIVES DES LOIS DE COMPORTEMENT MÉCANIQUE. par S. CANTOURNET 1 ELASTICITÉ

Programmes des classes préparatoires aux Grandes Ecoles

Théorie de l estimation et de la décision statistique

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Gestion obligataire passive

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS

Introduction au Data-Mining

Ordonnancement robuste et décision dans l'incertain

Interception des signaux issus de communications MIMO

Cours de méthodes de scoring

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Chapitre 3 : INFERENCE

Le Modèle Linéaire par l exemple :

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Cours d introduction à la théorie de la détection

INF6304 Interfaces Intelligentes

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

PROBABILITES ET STATISTIQUE I&II

Probabilités III Introduction à l évaluation d options

TSTI 2D CH X : Exemples de lois à densité 1

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Analyse de la variance Comparaison de plusieurs moyennes

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Etude des propriétés empiriques du lasso par simulations

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Contrôle stochastique d allocation de ressources dans le «cloud computing»

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

CNAM léments de cours Bonus-malus et Crédibilité

!-.!#- $'( 1&) &) (,' &*- %,!

23. Interprétation clinique des mesures de l effet traitement

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

3 Approximation de solutions d équations


Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Rupture et plasticité

Application de la méthode de surface de réponse stochastique à l analyse de stabilité d un tunnel pressurisé

Exercice : la frontière des portefeuilles optimaux sans actif certain

Transcription:

Plans d expérience bayésiens: Que nous proposent Chaloner et Verdinelli? Bayesian Experimental Design: A Review Statistical Science, Vol. 10, No. 3 Sophie Ancelet 1, 2 1 UMR 518 AgroParisTech/INRA, Département MIA, Equipe MORSE 2 EDF R&D, Département MRI, Groupe T56 AppliBUGS, 17 Juin 2011 1 / 37

Outline 1 Introduction 2 Cadre décisionnel bayésien 3 Cas linéaire 4 Cas non linéaire : Que faire? 5 Applications : des embûches... 2 / 37

1 Introduction 2 Cadre décisionnel bayésien 3 Cas linéaire 4 Cas non linéaire : Que faire? 5 Applications : des embûches... 3 / 37

Qui est Kathryn Chaloner? 2002- : Professor and Head, Department of Biostatistics, University of Iowa (US) 1978-1982 : Ph.D in Statistics : Optimal Bayesian design for linear models, Carnegie-Mellon University (Pittsburgh, US) Ses thèmes de recherche biostatistique, essais cliniques, HIV, maladies infectieuses, méthodes bayésiennes, plans d expérience, statistique 4 / 37

Qui est Isabella Verdinelli? 2000- : Professor, Carnegie-Mellon University (Pittsburgh, US), Department of Statistics Professor, Sapiena University of Rome, Department of Statistical Sciences 1996 : Ph.D in Statistics : Bayesian Procedures for Breast Cancer Clinical Trials, Carnegie-Mellon University Ses thèmes de recherche biostatistique, essais cliniques, méthodes non-paramétrique, plans d expérience, statistique bayésienne 5 / 37

Contexte (1) Soit Y une grandeur aléatoire d intérêt (ou réponse) mesurée par l expérimentateur sur n essais indépendants (n supposé fixé) : avec Y 1, Y 2,..., Y n i.i.d f θ (x k ) x k : variables de contrôle (ou facteurs) (k=1,2,...,k) f θ : un modèle statistique paramétré par θ X : Matrice de design (Dim = n K) x T i χ (compact) : Points du design (i = 1, 2,..., n) 6 / 37

Contexte (2) Hypothèse : Un choix approprié des variables de contrôle peut améliorer l inférence statistique de certains paramètres (ou fonctions de paramètres). Problème décisionnel Comment choisir les valeurs des variables de contrôle i.e., xi T pour optimiser l estimation de grandeurs inconnues d intérêt (sous de possibles contraintes de coût)? Plans d expérience physiques 7 / 37

Exemple 1 : Essais cliniques (1) Objectif Définir le plan d expérience qui permette d estimer au mieux l efficacité d un médicament, mesurée par le LD50 a a. LD50 : dose injectée pour laquelle un individu donné à une probabilité de mourir de 0.5. 1 médicament d intérêt n=60 souris Grandeur observée : nombre Y j de souris qui ont survécu entre 7 et 10 jours après avoir recu la dose d j (j=1,2,...,j) Variable de contrôle : dose injectée (K=1) 8 / 37

Exemple 1 : Essais cliniques (2) Problème décisionnel Comment choisir les valeurs des doses d j pour optimiser l estimation du LD50? Combien de doses d exposition testées, noté J? Quelles valeurs d j? Quelle proportion de souris η j est exposée à chaque dose d j avec la contrainte J j=1 η j = 1? 9 / 37

Exemple 1 : Essais cliniques (3) Deux jeux de données issus d essais cliniques pour estimer l efficacité de différentes concentrations d Albumine Plan d expérience pratiqué : 6 doses équiréparties avec 10 souris exposées par dose 10 / 37

Exemple 2 : Fiabilité industrielle (1) Objectif Définir le plan d expérience qui permette d estimer au mieux la ténacité minimale a de l acier de cuve REP en fonction de la température et sous une contrainte de coût. a. ténacité d un acier de cuve : résistance à la rupture brutale s initiant sur un défaut existant Pourquoi la ténacité minimale? Paramètre de position difficile à estimer Calculs de tenue de la cuve nucléaire Guide les courbes de valeurs minimales de ténacité obtenues empiriquement à partir de tests destructifs sur des éprouvettes 11 / 37

Exemple 2 : Fiabilité industrielle (2) Une fonction croissante de la température Basse température ténacité faible (acier cassant) : zone de rupture fragile Haute température ténacité augmente (acier souple) : zone de rupture ductile Entre les deux, zone de transition avec variabilité de la ténacité à température fixée n=30 mesures sur éprouvettes-tests Grandeur observée : Yj i la i-ème mesure de ténacité (en MPa/m 1/2 ) parmi n j mesures réalisées à température T j (j = 1, 2,..., J) Variable de contrôle : Température (K=1) 12 / 37

1 Introduction 2 Cadre décisionnel bayésien 3 Cas linéaire 4 Cas non linéaire : Que faire? 5 Applications : des embûches... 13 / 37

Objectif Rappel Fournir une décision i.e., un plan d expérience optimal ɛ permettant d estimer au mieux un (des) paramètres inconnus (tout en intégrant des préoccupations d ordre économique) Besoin de spécifier un critère d évaluation des différents plans d expérience possibles prise en compte des conséquences de chaque décision fonction des paramètres inconnus θ 14 / 37

Pourquoi le choix bayésien? 1 Permet de construire une règle de décision, i.e., un ordre total sur l ensemble des plans d expérience possibles, tenant compte de critères économiques potentiellement dépendant du paramètre inconnu θ. 2 Permet d intégrer avant l acquisition des données, des connaissances externes préalables (études antérieures, littérature, avis d experts...) à travers la spécification de lois a priori Plans d expérience possiblement moins coûteux (par rapport au cadre classique) 15 / 37

Les ingrédients de base à la recherche d un plan d expérience optimal 1 L ensemble des plans d expérience possibles, E, associés à une procédure de collecte d informations en univers uncertain 2 Un modèle probabiliste [y θ, ɛ] associé à des observations y issues du plan d expérience ɛ E et dont les réalisations vont renseigner sur θ 3 La loi a priori sur θ Θ 4 Une fonction d utilité u(ɛ, θ, y) qui, à chaque réalisation d observations y issues du plan d expérience ɛ, associe un niveau d utilité, encore appelé gain, quand les paramètres prennent la valeur θ. 16 / 37

Du risque classique au risque bayésien... Le risque classique U C (ɛ, θ) = y u(ɛ, θ, y)[y θ, ɛ] Optimalité locale Le bayésien intègre l incertitude sur θ! Le risque bayésien (ou utilité espérée) U(ɛ) = U(ɛ) = θ y ɛ y θ,ɛ θ y,ɛ u(ɛ, θ, y)[y θ, ɛ][θ]dydθ u(ɛ, θ, y)[θ y, ɛ][y ɛ]dθdy Ordre total 17 / 37

Un problème d optimisation Que cherche-t-on? ɛ = argmax ɛ E U(ɛ) 18 / 37

Deux utilités espérées classiques pour l estimation Selecting a utility function that appropriately describes the goals of a given experiment is very important (Chaloner & Verdinelli) 2- Information de Shannon espérée U 1 (ɛ) = log[θ y, ɛ][y, θ ɛ]dθdy 2- Opposée de la variance a posteriori espérée U 2 (ɛ) = (θ θ) T A(θ θ)[y, θ ɛ]dθdy avec A une matrice symmétrique définie positive 19 / 37

1 Introduction 2 Cadre décisionnel bayésien 3 Cas linéaire 4 Cas non linéaire : Que faire? 5 Applications : des embûches... 20 / 37

Contexte Modèle de regression linéaire normal à σ 2 fixé y θ, σ 2, ɛ N n (X θ, σ 2 I ) avec θ de dimension l, I la matrice identité n n Loi a priori sur θ θ N l (θ 0, σ 2 R 1 ) avec σ 2 R 1 la matrice l l de variance-covariance a priori est connue θ y, ɛ N l (θ, Σ(θ, ɛ)) (par conjugaison) 21 / 37

Les critères d optimalité alphabétiques bayésiens (1) 1- Information de Shannon espérée U 1 (ɛ) = l 2 log(2π) l 2 + 1 2 logdet(σ 1 (θ, ɛ)) avec Σ(θ, ɛ) = σ 2 (X T X + R) 1. Critère bayésien de D-optimalité Remarques : φ 1 (ɛ) = det{x T X + R} + petite variance possible sur l ensemble des θ= termes diagonaux de X T X + R les plus petits possibles Analogue bayésien du critère de D-optimalité classique 22 / 37

Les critères d optimalité alphabétiques bayésiens (2) 2- Opposée de la variance a posteriori espérée U 2 (ɛ) = traσ(θ, ɛ) avec A une matrice symmétrique définie positive et Σ(θ, ɛ) = σ 2 (X T X + R) 1. Critère bayésien de A-optimalité φ 2 (ɛ) = tra(x T X + R) 1 Remarques : + petite somme des variances des θ Analogue bayésien du critère de A-optimalité classique 23 / 37

Oui mais en pratique... [y θ, ɛ] n est pas un modèle de regression linéaire normal u(θ, ɛ, y) a une forme quelconque E et Θ sont des espaces de grande dimension Calcul exact de U(ɛ) et recherche de ɛ = Challenge numérique très difficile! 24 / 37

1 Introduction 2 Cadre décisionnel bayésien 3 Cas linéaire 4 Cas non linéaire : Que faire? 5 Applications : des embûches... 25 / 37

Que nous proposent Chaloner et Verdinelli (1)? Principe : Se rapprocher du cadre linéaire via deux approximations asymptotiques successives Approximation asymptotique 1 Hypothèse : la matrice d information de Fisher n est pas singulière θ y, ɛ N l ( θ, [ni ( θ, ɛ) + R] 1 ) où θ : Mode de la loi de probabilité jointe a posteriori de θ (EMV généralisé ) I ( θ, ɛ) : Matrice d information de Fisher observée normalisée R : Matrice de précision a priori 26 / 37

Que nous proposent Chaloner et Verdinelli (2) Approximation asymptotique 2 Contexte : L utilité bayésienne prédictive ne dépend des données y qu à travers θ Comme θ est un estimateur consistent de θ : θ = T (y) p.s. θ = θ = T (y) Loi θ Dans le contexte prédictif, [θ] porte toute l information nécessaire pour générer des observations y! 27 / 37

Quels critères peut-on optimiser (1)? 1- Approximation de l information de Shannon espérée Ũ 1 (ɛ) = l 2 log(2π) l 2 + 1 2 logdet{ni (θ, ɛ) + R}[θ]dθ avec I (θ, ɛ) la matrice d information de Fisher attendue normalisée Critère bayésien de D-optimalité approché φ 1 (ɛ) = E θ (logdet{ni (θ, ɛ) + R}) 28 / 37

Quels critères peut-on optimiser (2)? 2- Approximation de l opposée de la variance a posteriori espérée Ũ 2 (ɛ) = tr ( A{nI (θ, ɛ) + R} 1) [θ]dθ avec A une matrice symmétrique définie positive et I (θ, ɛ) la matrice d information de Fisher attendue normalisée Critère bayésien de A-optimalité approché φ 2 (ɛ) = E θ ( tr ( A{nI (θ, ɛ) + R} 1 )) 29 / 37

1 Introduction 2 Cadre décisionnel bayésien 3 Cas linéaire 4 Cas non linéaire : Que faire? 5 Applications : des embûches... 30 / 37

Exemple 2 : Essais cliniques souris (1) Plan d expérience ɛ ɛ = (J, d 1, d 2,..., d J, η 1, η 2,..., η J ) Modèle d observations Y j Binomial(n j, p j ) logit(p j ) = β(d j γ) j = 1, 2,..., J avec p j la probabilité d avoir survécu entre 7 et 10 jours après avoir eu la dose d exposition d j. Remarque : γ = LD50 31 / 37

Exemple 2 : Essais cliniques souris (2) Vraisemblance [Y 1,..., Y J β, γ, ɛ] = J [Y j β, γ, d j, n j ] = j=1 avec n j = η j n et p j = logit 1 (β(d j γ)). Lois a priori Beta Pert J j=1 C y j n j p y j j (1 p j ) n j y j γ = 3.2 + Z 1 β = 4 + 2.5Z 2 avec Z 1 et Z 2 deux lois beta(4,4). γ [3.2, 4.2] et β [ 4, 1.5]. 32 / 37

Exemple 2 : Essais cliniques souris (3) Implémentation d un algorithme de recuit simulé avec espérance a priori approchée par simulations Monte-Carlo (10000 valeurs) 33 / 37

Exemple 2 : Essais cliniques souris (4) Plan d expérience global optimal, valeur du critère bayésien de A-optimalité, obtenus pour les 2 meilleurs runs. Lois a priori beta Pert, et de support [3.2,4.2] pour le LD50. Chaloner & Verdinelli : J = 4, d = (3.07, 3.47, 3.73, 4.13), η = (0.3, 0.2, 0.2, 0.3) et φ 2 (ɛ) = 0.8320 34 / 37

Exemple 2 : Essais cliniques souris (5) Résultats très instables... Recuit simulé inefficace? Surface d utilité plate au voisinage de son maximum? Support multidimensionnel? Transformer le problème d optimisation en un problème de simulation (Peter Muller (1999), Amzal et al. (2006) Spécification de nouvelles fonctions d utilité permettant d utiliser les idées de Muller (En cours) Implémentation d un algorithme particulaire avec recuit simulé par apprentissage séquentiel (Amzal et al., 2006) 35 / 37

Exemple 3 : Fiabilité industrielle Plan d expérience ɛ ɛ = (J, T 1, T 2,..., T J, η 1, η 2,..., η J ) Loi de Weibull à 3 paramètres Y i j K min (T j ) T j i.i.d W (µ(t j ), β) Problème : Matrice d information de Fisher non définie... Des pistes possibles? 36 / 37

Amzal, B. and Bois, F.Y. and Parent, E. and Robert, C.P. (2006). Bayesian-Optimal Design via Interacting Particle Systems. Journal of the American Statistical Association, Vol. 101, No. 474. Berger, J.O. (1985). Statistical Decision Theory and Bayesian Analysis., Berlin : Springer-Verlag Chaloner,K. and Verdinelli, I. (1995). Bayesian Experimental Design : a Review. Statistical Science, Vol. 10, No. 3 pp 273-304. Muller, P. (1999). Simulation-Based Optimal Design. Bayesian statistics 6, pp 459-474 Robert, C.P. (2006). Le choix bayésien. Principes et pratique., Springer Rubin, D.B. (1988). Using the SIR algorithm to Simulate Posterior Distributions. Pages 395-402 of :Bayesian Statistics 3, vol. 3. Oxford University Press. 37 / 37