Estimation de la probabilité de détection dans les mesures par contrôle non destructif

Documents pareils
Méthodes de Simulation

Soutenance de stage Laboratoire des Signaux et Systèmes

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Introduction à la statistique non paramétrique

MCMC et approximations en champ moyen pour les modèles de Markov

Modélisation aléatoire en fiabilité des logiciels

IFT3245. Simulation et modèles

Simulation de variables aléatoires

Modélisation et simulation

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

LES GENERATEURS DE NOMBRES ALEATOIRES

Raisonnement probabiliste

Sommaire Chapitre 1 Chapitre 2 Chapitre 3 Chapitre 4 Chapitre 5 Chapitre 6 Chapitre 7. ARC EPS Eco-microbiologie Prévisionnelle Statistique

Quantification Scalaire et Prédictive

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Echantillonnage Non uniforme

Modélisation du comportement habituel de la personne en smarthome

Processus de validation des coûts à l appui de l attestation par l DPF

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Filtrage stochastique non linéaire par la théorie de représentation des martingales

1 Définition de la non stationnarité

Econométrie et applications

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

MATHS FINANCIERES. Projet OMEGA

Statistique Bayésienne

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Modélisation prédictive et incertitudes. P. Pernot. Laboratoire de Chimie Physique, CNRS/U-PSUD, Orsay

Probabilités III Introduction à l évaluation d options

3. Caractéristiques et fonctions d une v.a.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Quantification des Risques

Formation des enseignants. Le tensiomètre. Objet technique modélisable issu de l environnement des élèves

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Texte Agrégation limitée par diffusion interne

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Estimation des charges. «Le travail se dilate jusqu à remplir le temps disponible»

Espérance conditionnelle

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Précision d un résultat et calculs d incertitudes

Théorie de l estimation et de la décision statistique

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

MÉTHODE DE MONTE CARLO.

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Programmes des classes préparatoires aux Grandes Ecoles

Amphi 3: Espaces complets - Applications linéaires continues

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

4. Martingales à temps discret

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Détection en environnement non-gaussien Cas du fouillis de mer et extension aux milieux

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Chp. 4. Minimisation d une fonction d une variable

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Économetrie non paramétrique I. Estimation d une densité

Chapitre 2. Eléments pour comprendre un énoncé

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

NON-LINEARITE ET RESEAUX NEURONAUX

Température corporelle d un castor (une petite introduction aux séries temporelles)

Applications en imagerie cérébrale (MEG/EEG)

Intelligence artificielle et les défis en robotique mobile et autonome

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Correction du baccalauréat ES/L Métropole 20 juin 2014

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Cours d introduction à la théorie de la détection

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Une approche non paramétrique Bayesienne pour l estimation de densité conditionnelle sur les rangs

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Inférence d un réseau bayésien augmenté visant à confronter :

choisir H 1 quand H 0 est vraie - fausse alarme

MODELES DE DUREE DE VIE

Principe de symétrisation pour la construction d un test adaptatif

Application 1- VBA : Test de comportements d'investissements

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Image d un intervalle par une fonction continue

Simulation : application au système bonus-malus en responsabilité civile automobile

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Analyse de la variance Comparaison de plusieurs moyennes

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Epargne, Retraite, Prévoyance et Santé

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

L E Ç O N. Marches aléatoires. Niveau : Terminale S Prérequis : aucun

Equation LIDAR : exp 2 Equation RADAR :

Bio-Rad Laboratories CONTRÔLE DE QUALITÉ. Le logiciel de Bio-Rad pour une gestion experte du contrôle de qualité

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

VARIABLES LATENTES ET MODÉLISATION STATISTIQUE EN ASSURANCE

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

CAPTEURS - CHAINES DE MESURES

1. Structure d un programme C. 2. Commentaire: /*..texte */ On utilise aussi le commentaire du C++ qui est valable pour C: 3.

ANALYSE QUANTITATIVE DE RISQUE MICROBIOLOGIQUE EN ALIMENTATION

Transcription:

Estimation de la probabilité de détection dans les mesures par contrôle non destructif Merlin KELLER, Nicolas BOUSQUET Rochebrune 2012 1 / 38

Contexte But : Estimer la distribution de la taille des défauts d un composant industriel Deux sources de données : données d expertise : mesures en laboratoire, supposées parfaites données d IS : mesures lors d inspections en service (IS), caractérisées par la probabilité de détection (POD) d un défaut, étant donnée sa taille Hypothèses basées sur l expertise : Egalité en loi des hauteurs de défauts d expertise et d IS Connaissance préalable du modèle de bruit et de la probabilité de détection des données d IS Question : comment estimer la distribution voulue sur la base des données disponibles? 2 / 38

Plan 1 Loi de la taille des défauts Approche classique Résultats sur données simulées 2 Estimation classique de la POD Résultats sur données simulées 3 Approche bayésienne Echantillonnage a posteriori Résultats sur données simulées 3 / 38

1 Loi de la taille des défauts 2 Estimation classique de la POD 3 Approche bayésienne 4 / 38

1 Loi de la taille des défauts Approche classique Résultats sur données simulées 2 Estimation classique de la POD Résultats sur données simulées 3 Approche bayésienne Echantillonnage a posteriori Résultats sur données simulées 5 / 38

Estimation à partir des données d expertise 0.35 0.30 True density MLE Data histogram 0.25 0.20 0.15 0.10 0.05 0.00 0 2 4 6 8 10 x (mm) Données d expertise x = (x 1,..., x ne ) vues comme un échantillon de la loi de la taille des défauts, décrite par f (x θ) θ estimable par maximum de vraisemblance : ˆθ = arg max θ n i=1 f (x i θ) 6 / 38

Probabilité de détection (POD) 1.0 0.8 0.6 Pod(x) 0.4 0.2 0.0 0 2 4 6 8 10 x (mm) On suppose que chaque défaut X détecté lors d une IS l est avec une certaine probabilité, dépendant de sa taille. On note : D {0, 1} la variable indiquant si X est détectée ou non ; G(x) = P(D = 1 X = x) la probabilité de détection, supposée connue (liée aux caractéristiques des instruments de mesure) 7 / 38

Densité d un défaut détecté avec bruit multiplicatif Densité d un défaut sachant qu il est détecté (cf. Bayes) : p(x = x θ, D = 1) = G(x)f (x θ) ; P d (θ) P d (θ) = G(x)f (x θ)dx taux de détection Hypothèse : on observe Y = X E, E bruit multiplicatif de densité f ɛ, supposée connue (liée aux instruments de mesure) Densité de Y p(y = y θ) = G(x)f (x θ)fɛ (y/x)dx/x ; P d (θ) Loi de Y simulable par acceptation-rejet Intégrales définissant la densité calculables par quadrature 8 / 38

MLE avec données tronquées et bruitées 0.35 0.30 0.25 MLE MLE (expertise) Data histogram 0.20 0.15 0.10 0.05 0.00 0 2 4 6 8 10 12 Parametric model data 0.25 MLE MLE (expertise) 0.20 Data histogram 0.15 0.10 0.05 0.00 0 2 4 6 8 10 12 Smooth truncation model data Si l on dispose en plus de x d un échantillon y = (y 1,..., y nis ) de réalisations de Y, on peut aussi estimer θ en maximisant : l(x, y θ) = n E i=1 n IS f (x i θ) p(y = y j θ) j=1 9 / 38

1 Loi de la taille des défauts Approche classique Résultats sur données simulées 2 Estimation classique de la POD Résultats sur données simulées 3 Approche bayésienne Echantillonnage a posteriori Résultats sur données simulées 10 / 38

Modélisation de la taille des défauts 1.0 0.8 β = 1, η = 1 β = 2, η = 1 β = 2, η = 3 β = 4, η = 3 0.6 0.4 0.2 0.0 0 1 2 3 4 5 On choisit pour décrire la distribution de la taille X d un défaut la loi de Weibull, de densité f (x η, β) = β/η (x/η) β 1 exp( (x/η) β )1 {x>0} On note θ = (η, β) IR 2 + le vecteur de paramètres à estimer 11 / 38

Principe Simulation des données x : n E = 198 réalisations de la loi de Weibull (β = 1.8, η = 3.1) y : n IS = 341 réalisations bruitées, et détectées selon la POD : G(x) = Φ (q(log(x/x 0 ))), x 0 = 6, q = 20 Bruit Gamma de moyenne 1, d écart-type 20% Quantités d intérêt Estimation de θ = (β, η), P d (θ), F (t θ) = P(X t θ) Calcul d intervalles de confiance à 95% Comparaison des estimations MLE : Basée sur les données complètes (x, y) Basée sur le seul échantillon x de la loi de Weibull 12 / 38

Estimation de θ, P d (θ) 7 IC 95 % Vraie Estimation Complete data 7 IC 95 % Vraie Estimation Parametric model sample 6 6 5 5 4 4 3 3 2 2 1 β η P f(θ) 100 1 β η P f(θ) 100 Gauche : Estimation sur données complètes (x, y) Droite : Estimation sur échantillon Weibull x seulement Optimisation numérique par algorithme du simplexe, intervalles de confiance par bootstrap et Delta-méthode 13 / 38

Estimation de la fonction de répartition F (t θ) 1.0 True CDF Estimated CDF 95 % bounds Complete data 1.0 Parametric model sample True CDF Estimated CDF 95 % bounds 0.8 0.8 0.6 0.6 0.4 0.4 0.2 0.2 0.0 0 2 4 6 8 10 0.0 0 2 4 6 8 10 Gauche : Estimation sur données complètes Droite : Estimation sur échantillon Weibull seulement 14 / 38

Premières conclusions Bonne estimation de θ, grâce au grand nombre de données disponibles Les données tronquées bruitées n améliorent pas significativement l estimation... Mais permettent de valider les hypothèses du modèle (via un test d adéquation) : Choix d une POD Modèle de bruit f ɛ Loi paramétrique (Weibull) 15 / 38

Conclusions sur les données réelles Bonne adéquation de Weibull aux données d expertise Inadéquation du modèle aux données d IS. Explications possibles : 1 Mauvaise connaissance de la POD et du bruit d observation 2 Non prise en compte de l arrondi dans les données 16 / 38

1 Loi de la taille des défauts 2 Estimation classique de la POD 3 Approche bayésienne 17 / 38

Principe Les données d expertise suffisent à estimer la loi de la taille des défauts On peut alors estimer la POD à partir des données d IS, en supposant une forme paramétrique G(x) = G(x η), par plug-in : ˆη = arg max η n IS G(x η)f (x ˆθ)f ɛ (y j /x)dx/x j=1 P d (η, ˆθ) Permet de confirmer l égalité en loi entre données d expertise et d IS, d estimer le nombre moyen de défauts non détectés, leur loi,... 18 / 38

Mise à jour des hypothèses Données d IS arrondies à l entier le plus proche (censure par intervalle), bruit gaussien additif La log-vraisemblance (conditionelle à ˆθ) des données d IS s écrit alors : L(y η) = n IS log P d (η, ˆθ) + { z=k+ 1 2 n k log k y n k = {y j = k} z=k 1 2 x G(x η)f (x ˆθ)f ɛ (z x)dxdz On se limite dans la suite à une POD log-normal : η = (x 0, q) } 19 / 38

1 Loi de la taille des défauts Approche classique Résultats sur données simulées 2 Estimation classique de la POD Résultats sur données simulées 3 Approche bayésienne Echantillonnage a posteriori Résultats sur données simulées 20 / 38

Données simulées 0.30 0.25 0.20 0.15 0.10 0.05 0.00 0 2 4 6 8 10 12 Parametric model data 0.40 0.35 0.30 0.25 Density Data histogram Density Data histogram 0.20 0.15 0.10 0.05 0.00 0 2 4 6 8 Smooth truncation model data 10 12 21 / 38

Estimation de x 0, q, P d (η, θ) 25 20 IC 95 % Vraie Estimation 15 10 5 0 100/q x 0 Pf (θ) 100 θ estimé sur échantillon Weibull x seulement puis, POD log-normale (η = (x 0, q)) estimée sur y (filtrées, bruitées, arrondies) Optimisation numérique par algorithme du simplexe, intervalles de confiance par bootstrap et Delta-méthode 22 / 38

Estimation de la fonction POD 1.0 0.8 True POD Estimated POD 95 % bounds 0.6 0.4 0.2 0.0 0 1 2 3 4 5 6 7 8 9 Estimation peu-précise, due à l incertitude sur l étalement q Intervalles de confiance erronés : approche fréquentiste peut-être non adaptée 23 / 38

Estimation de la CDF 1.0 0.8 Empirical CDF True CDF Estimated CDF 95 % bounds 0.6 0.4 0.2 0.0 2 4 6 8 10 12 14 Bon encadrement des CDF réelle et empirique, malgré la mauvaise estimation de la POD : Peut indiquer le caractère peu identifiable du modèle 24 / 38

Vraisemblance de q 12000 14000 16000 log(y θ) 18000 20000 22000 24000 26000 0 5 10 15 20 25 30 35 40 1/q Vraisemblance de q, conditionnellement à la vraie valeur de x 0 Explique l incertitude sur ce paramètre... 25 / 38

Bilan sur les données réelles Grande incertitude sur la POD (en particulier, sur q) : approche par maximum de vraisemblance peu adaptée Évaluation erronée des incertitudes par les intervalles de confiance bootstrap... Et si on essayait le bayésien??? [1] : Estimation bayésienne du modèle à POD fixée, introduction des défauts non détectés comme variables latentes 26 / 38

1 Loi de la taille des défauts 2 Estimation classique de la POD 3 Approche bayésienne 27 / 38

1 Loi de la taille des défauts Approche classique Résultats sur données simulées 2 Estimation classique de la POD Résultats sur données simulées 3 Approche bayésienne Echantillonnage a posteriori Résultats sur données simulées 28 / 38

Algorithme de Metropolis-Hastings On redéfinit η = (x 0, q) comme η = (log x 0, q 2 ) := (µ, τ) But : Simuler π(η y) π(η)l(y η) À l étape t, η t = (µ t, τ t ). Mise à-jour alternée de µ puis τ : (marche aléatoire) µ t+1 = µ c := µ t + σz, Z N (0; 1) avec proba { min 1; π(µc, τ t )L(y µ c }, τ t ) π(η t )L(y η t ) sinon µ t+1 = µ t (loi uniforme) τ t+1 = τ c := τ t U, U U[1 ɛ; 1 + ɛ] avec proba { min 1; π(µ t+1, τ c )L(y µ t+1, τ c } )τ t π(µ t+1, τ t )L(y µ t+1, τ t )τ c sinon τ t+1 = τ t 29 / 38

Calibration adaptative But : Eviter un taux d acceptation trop fort (pas d exploration) ou trop faible (blocage de la chaîne) Idée : toutes les K = 30 itérations, mettre à jour σ et ɛ en fonction des taux d acceptations A µ et A τ si A µ (resp. A τ ) >.8, on multiplie σ (resp. ɛ) par 1.1 si A µ (resp. A τ ) <.2, on multiplie σ (resp. ɛ) par 0.9 sinon on conserve les valeurs courantes taux d acceptations calculés sur toutes les itérations : stabilisation asymptotique Nécessite une calibration fine, sans doute dépendante des données 30 / 38

1 Loi de la taille des défauts Approche classique Résultats sur données simulées 2 Estimation classique de la POD Résultats sur données simulées 3 Approche bayésienne Echantillonnage a posteriori Résultats sur données simulées 31 / 38

Choix des lois a priori On utilise pour π(µ, τ) une loi informative (Gamma-Gaussienne), pour compenser le manque d information apporté par les données : π(µ τ) = N (µ µ ; 1/(10τ)) π(τ) = G(τ 1; τ ) On utilise ici les vraies valeurs (µ, τ ) à remplacer ultérieurement (e.g. par le MLE). 32 / 38

Convergence de la chaîne 6.3 6.2 6.1 6.0 5.9 5.8 5.7 0 1000 2000 3000 4000 5000 x 0 26 24 22 20 18 16 14 12 10 0 1000 2000 3000 4000 5000 1/q Bon comportement global des deux chaînes Distribution sur τ non centrée sur τ 33 / 38

Densités marginales a posteriori 10 8 prior posterior true 0.20 0.15 prior posterior true 6 0.10 4 2 0.05 0 5.4 5.6 5.8 6.0 6.2 6.4 6.6 x 0 0.00 10 15 20 25 30 1/q Apport visible d information par les données Distribution sur τ non centrée sur τ 34 / 38

Estimation de x 0, q, P d (η, θ) 25 20 cred. int. 98 % True Posterior mean 15 10 5 0 x 0 q P d 100 35 / 38

Estimation de la fonction POD 1.0 0.8 True POD Estimated POD 98 % bounds 0.6 0.4 0.2 0.0 4.5 5.0 5.5 6.0 6.5 7.0 7.5 Estimation bien plus précise que par le MLE la vraie POD est bien encadrée par les intervalles de crédibilité 36 / 38

Estimation de la CDF 1.0 True CDF Estimated CDF 98 % bounds 0.8 0.6 0.4 0.2 0.0 4 5 6 7 8 9 10 11 12 13 Estimation bien plus précise que par le MLE la vraie CDF est bien encadrée par les intervalles de crédibilité 37 / 38

Discussion Résultats L approche bayésienne est bien adaptée pour le modèle POD Premiers résultats encourageants sur données simulées... mais tout reste à faire! Perspectives Construction d une vraie loi a priori Initialisation de l algo ailleurs qu en les vraies données (e.g. le MLE) Résultats sur données réelles Estimation conjointe de (θ, η) sur la base des données totales Modélisation non paramétrique de la POD 38 / 38

G. Celeux, M. Persoz, J.N. Wandji, F. Perrot Using Markov Chain Monte Carlo methods to solve full Bayesian modeling of PWR vessel flaw distributions. Reliability Engineering and System Safety, 66 :243 252, 1999. 38 / 38