Une modélisation de durée de vie à risques de défaillance concurrents

Documents pareils
Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

MODELES DE DUREE DE VIE

Gestion du niveau de la franchise d un contrat avec bonus-malus. Pierre THEROND & Stéphane BONCHE

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Modélisation aléatoire en fiabilité des logiciels

MCMC et approximations en champ moyen pour les modèles de Markov

Méthodes de Simulation

Latitude N Longitude E Altitude 376 m RÉSUMÉ MENSUEL DU TEMPS DE JANVIER 2014

Simulation de variables aléatoires

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Soutenance de stage Laboratoire des Signaux et Systèmes

Modélisation géostatistique des débits le long des cours d eau.

Modélisation et simulation

Health Monitoring pour la Maintenance Prévisionnelle, Modélisation de la Dégradation

Quantification des Risques

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

FIMA, 7 juillet 2005

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

NON-LINEARITE ET RESEAUX NEURONAUX

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Probabilités III Introduction à l évaluation d options

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Hedging delta et gamma neutre d un option digitale

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Modélisation prédictive et incertitudes. P. Pernot. Laboratoire de Chimie Physique, CNRS/U-PSUD, Orsay

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Inférence d un réseau bayésien augmenté visant à confronter :

Texte Agrégation limitée par diffusion interne

Théorie de l estimation et de la décision statistique

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Évaluation de la régression bornée

Equation LIDAR : exp 2 Equation RADAR :

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Principe d un test statistique

Principe de symétrisation pour la construction d un test adaptatif

TSTI 2D CH X : Exemples de lois à densité 1

Intérêt du découpage en sous-bandes pour l analyse spectrale

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Echantillonnage Non uniforme

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

PRIME D UNE OPTION D ACHAT OU DE VENTE

Projet de Traitement du Signal Segmentation d images SAR

Processus de comptage, Poisson mélange, fonction de perte exponentielle, système bonus-malus.

Quantification Scalaire et Prédictive

Processus aléatoires avec application en finance

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

MATHS FINANCIERES. Projet OMEGA

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Précision d un résultat et calculs d incertitudes

MATHÉMATIQUES ET APPLICATIONS

Mesure et gestion des risques d assurance

Relever les défis des véhicules autonomes

Résumé des communications des Intervenants

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

MÉTHODE DE MONTE CARLO.

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Modélisation du comportement habituel de la personne en smarthome

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Les risques liés à l activité de l entreprise : quels outils pour les identifier?

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Rapport de projet Risque de Crédit, Risque de Défaut : Étude de l influence du taux de recouvrement sur le prix de CDOs.

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Compléments de documentation Scilab : affichage de texte et formatage de nombres

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

PROGRAMME (Susceptible de modifications)

Moments des variables aléatoires réelles

Aggregation of expert opinions and uncertainty theories

TABLE DES MATIERES. C Exercices complémentaires 42

intelligence artificielle et cognitique"

IFT3245. Simulation et modèles

MODÈLE DE TRANSFORMATION ORGANISATIONNELLE CONDUISANT À L AUGMENTATION DES VENTES PAR UNE MEILLEURE PRODUCTIVITÉ

Équation de Langevin avec petites perturbations browniennes ou

Construction bayésienne de prévisions probabilistes à partir des sorties d'un modèle déterministe pluie-débit

Bourses d excellence pour les masters orientés vers la recherche

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

Docteur José LABARERE

Sommaire Chapitre 1 Chapitre 2 Chapitre 3 Chapitre 4 Chapitre 5 Chapitre 6 Chapitre 7. ARC EPS Eco-microbiologie Prévisionnelle Statistique

Détection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air.

Ressources pour le lycée général et technologique

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Fiabilité des Systèmes et des Logiciels

Transcription:

Une modélisation de durée de vie à risques de défaillance concurrents Henri Bertholon 1, Nicolas Bousquet 2 & Gilles Celeux 3 INRIA U.R. Futurs, Département de Mathématiques, Bât.425,Université Paris-Sud 91405 Orsay cedex Abstract A simple competing risk distribution as a possible alternative to the Weibull distribution in lifetimes analysis is proposed. This distribution is the minimum between an exponential and a Weibull distributions. First, its main characteristics are presented. Then the estimation of its parameters are considered through maximum likelihood and Bayesian inference. Statistical tests to choose between a Weibull distribution and this competing risk distribution are presented. Finally numerical experiments on simulated data sets are presented. Keywords: failure time distribution; aging; Weibull distribution; exponential distribution; accidental failure; competing risk model; EM algorithm; Bayesian inference; importance sampling; likelihood ratio test Résumé Un modèle de durée de vie à risques de défaillance concurrents est proposé, comme alternative au modèle classique de Weibull d un matériel vieillissant. Ce modèle met en compétition les risques de défaillance par vieillesse et par accident, sa distribution correspondant au minimum entre des distributions exponentielle et de Weibull. L intérêt et les caractéristiques principales de ce modèle sont présentées. On propose ensuite des procédures d estimation fréquentielles et bayésiennes du modèle. Une stratégie de tests de choix de modèles simples ou concurrents est également présentée, ainsi que des analyses comparatives sur des exemples de données simulées. Mots-clés : temps de défaillance ; vieillisement ; modèle de weibull ; modèle exponentiel ; défaillance accidentelle ; modèle à risques concurrents ; algorithme EM ; inférence bayésienne ; échantillonnage pondéré ; test de rapport de vraisemblances 1 henri.bertholon@inria.fr 2 nicolas.bousquet@math.u-psud.fr 3 gilles.celeux@inria.fr 1

1 Introduction Dans le cadre d une étude de fiabilité, les modèles de durée de vie les plus usités sont les modèles exponentiel et de Weibull (Meeker et Escobar, 2000). Le modèle exponentiel E(η) dont la fonction de survie est R E (t) = exp( t ), (1) η le paramètre d échelle η étant l inverse du taux constant de défaillance, permet de modéliser le comportement d un matériel non vieillissant soumis à des instants de défaillance accidentels. D un autre côté, le modèle de Weibull W(η, β), de fonction de survie R W (t) = exp[ ( t η )β ] (2) et au taux de défaillance h W (t) = β η ( t η )β 1 permet de modéliser les instants de défaillance de jeunesse d un système si le paramètre de forme β < 1 ou de vieillesse si β > 1. Remarquons que si β = 1 le modèle de Weibull se réduit à un modèle exponentiel de paramètre d échelle η. Le comportement des données issues de retours d expérience est souvent modélisé par une distribution de Weibull et une question fondamentale est de décider si β = 1 ou β < 1 si l on suppose modéliser un comportement de jeunesse pour le système, ou si β = 1 ou β > 1 lorsqu on suppose un vieillissement du système. Les tests de rapport de vraisemblance permettent d apporter une réponse à cette question (d Agostino et Stephens, 1986). On considérera dans la suite de ce travail l intérêt de modéliser un possible vieillissement d un matériel également soumis à des défaillances accidentelles. Si la vieillesse est effectivement décelée, on pourrait considérer que les temps de défaillance observés peuvent suivre une loi de Weibull dont les paramètres seront à estimer. Cette modélisation implique que les occurrences d éventuelles défaillances accidentelles peuvent être considérées comme négligeables par rapport aux défaillances dues au vieillissement des matériels. En beaucoup de circonstances cette démarche se révèle raisonnable, mais il existe bon nombre de situations où négliger ces défaillances accidentelles introduit un biais important dans l analyse statistique des durées de vie. Ainsi une manière plus réaliste de modéliser les temps de défaillances d un système est de prendre en compte les deux risques de défaillance entrant en compétition, par accident ou par vieillissement. Un tel modèle a été proposé par Henri Bertholon (2001). Un temps de défaillance est la réalisation d une variable aléatoire B = min(e, W ) où E E( ) et W W(, β) avec β > 1. Le modèle B est ainsi défini par les trois paramètres, et β et sera noté B(,, β). 2

2 Caractéristiques de la distribution B(,, β) Nous indiquons ci-dessous les principales caractéristiques de cette distribution. Son taux de défaillance s écrit h B (x) = 1 + β ( x ) (β 1), sa fonction de survie S B (x) = exp[ 1 x ( x ) β ] ( ( ) ) β 1 1 et sa densité de probabilité f B (x) = + β x exp[ 1 x ( x ) β ]. Dans le but d analyser les rôles des paramètres d échelle et dans l occurrence des temps de défaillance, il est intéressant de calculer les probabilités qu un temps de défaillance provienne de E (défaillance accidentelle), soit la probabilité que B = E. On a P (B = E) = P (E W ). Si l on suppose par exemple que le paramètre de forme β = 2 P (B = E) = π 2 erfcx( 2 ) avec erfcx(x) = e x2 2 π + x e u2 du. Le tableau 1 présente l évolution de cette probabilité comme fonction du rapport. / 0.1 0.2 0.5 1 1.5 2 5 10 P (X = E) = P (E W ) 0.98 0.93 0.75 0.54 0.42 0.34 0.15 0.08 Table 1: Probabilités d une défaillance accidentelle en fonction du pour β = 2. De manière prévisible, B(,, β) W(, β) quand >> et B(,, β) E( ) quand >>. Parce que nous présumons tomber sur des situations où la vieillesse des systèmes est ressentie, il est raisonnable de fixer dans la suite de ce travail, car > implique une fréquence prédominante des défaillances accidentelles. À partir de l expression de la fonction génératrice (voir Bertholon, 2001), on trouve la moyenne et la variance du modèle B quand β = 2 : η 2 1 4η E(X) = e 0 2 π erfc( 2 2 ) avec erfc(x) = 2 + π e u2 du, et x V (X) = 2 [η ( 1 e ( ) 2η 2 0 η2 1 π erfc( 2 2 2 ) + 1η η1 ( ) 2η 2 1e 2)] [ 0 e Il est utile de donner les valeurs limites de ces statistiques E(X) + π 2 car erfc(x) x 0 1, et V (X) η 2 1 ( 1 η 2 1 4η 2 0 ( π π 2 erfc( 2 )] 2. 2 ) 2 ). Comme on pouvait s y attendre, la moyenne et la variance de la distribution B tendent vers la moyenne et la variance de la distribution W sous-jacente. E(X) + car π x + ( erfc(x) e x2 1 ) 1 2 2x 4x, et V (X) η 2 3 0, c est-à-dire la moyenne et la variance de la distribution E sous-jacente. 3

3 Estimation des paramètres Nous présentons succinctement deux types de méthodes d estimation dans le contexte de données censurées à droite. En effet, la distribution B peut être considérée comme un modèle à données manquantes. On peut ainsi utiliser des algorithmes tirant parti de ces données manquantes, du type EM pour l estimation du maximum de vraisemblance (Dempster, Laird et Rubin, 1977) ou bayésiens en augmentant les données par simulation (Tanner et Wong, 1987). Soit y = (y 1,..., y n ) un échantillon suivant la distribution B pouvant contenir des censures { à droite. Chaque y i peut s écrire y i = (t i, δ i ), où 0 si ti est un temps de censure, δ i = 1 si t i est un réel temps de défaillance. La vraisemblance des données observées s écrit L(,, β y) = n f B (i i ) δ i S B (t i ) 1 δ i = n h B (t i ) δ i S B (t i ), [ ( n ( ) ) ] β 1 δi [ 1 soit L(,, β y) = + β t i n exp 1 t i n ( t i ) β ]. Les données manquantes du modèle sont les indicateurs binaires de provenance des temps de défaillance. Si t i est un temps de défaillance, on définit z i = (zi E, zw i ) où z E i = 1 et z W i = 0 si t i provient d une distribution exponentielle z W i = 1 et z E i = 0 si t i provient d une distribution de Weibull. Par convention, si t i est censuré (δ i = 0), on pose z E i = 0 et z W i = 0. Ainsi, l ensemble complet de données est x = (x i = (y i, z i ), i = 1,..., n) = (y, z). La densité d une observation complète x i s écrit f(x i ) = (f E (t i )) ze i S E (t i ) 1 ze i (f W (t i )) zw i S W (x i ) 1 zw i = h ze i E (t i) h zw i W (t i) S E (t i ) S W (t i ). La log-vraisemblance des données complètes s écrit alors n [ l(θ x) = z E i ln (h E (t i )) + zi W ln (h W (t i )) + ln (S E (t i )) + ln (S W (t i )) ]. (3) L algorithme EM consiste à maximiser la vraisemblance complète des données conditionnellement à une valeur courante des paramètres (,, β) (Dempster, Laird et Rubin, 1977, McLachlan et Krishnam, 1997). L estimation fréquentielle présentant des limitations importantes dans le cas d échantillons fortement censurés, une approche bayésienne utilisant des algorithmes d échantillonnage 4

pondéré, décrits dans Robert (1996), peut s avérer utile pour approximer la loi a posteriori. On propose des lois a priori pour chaque paramètre et on reconstitue des échantillons de travail à partir des données manquantes. On simule ensuite des valeurs a posteriori pour les paramètres, que l on pondère avec des poids calculés d après nos choix de simulations (exponentiels ou Weibull). Les algorithmes ainsi définis peuvent être dits préférentiels, tels que décrits, par exemple, dans Guillin, Marin et Robert (2004). Parce qu ils permettent d agrandir l échantillon de travail de manière adaptative et d utiliser la structure manquante des échantillons, ils constituent une bonne alternative aux méthodes MCMC qui peuvent s avérer trop lentes (cf Guillin et al., 2004). 4 Stratégie de Tests de Vraisemblance Les tests de rapport de vraisemblance permettent de choisir entre deux modèles dont on a évalué les paramètres par maximisation de la vraisemblance. Il s agit de tests asymptotiques. L hypothèse H 0 correspond au choix d un modèle particulier et l hypothèse H 1 au choix d un modèle plus général. Si l on note L 0 (ˆθ 0 ) et L 1 (ˆθ 1 ) les deux vraisemblances calculées, alors sous H 0 ( ) L 1 (ˆθ 1 ) 2 log χ 2 k (4) L 0 (ˆθ 0 ) où k représente le nombre de contraintes permettant la spécification de H 0 par rapport à H 1 (voir par exemple Saporta, 1996). Soit les tests T1 : H 0 = E( ˆ ) contre H 1 = W( ˆ, ˆβ) T2 : H 0 = W( ˆ, ˆβ) contre H 1 = B(,, β) Dans les deux cas k = 1. T1 est un test β = 1 contre β > 1, donc on fixe β par rapport au modèle de Weibull. Nous nous plaçons dans des conditions de vieillissement, donc on fixe dans T2. Une stratégie proposée est d aller du simple au particulier : On fait le test T1. Si le modèle E n est pas validé, on fait le test T2. Si le modèle W n est alors pas validé, on peut supposer que le vieillissement n est pas la seule cause de défaillance. La loi de Bertholon B peut alors se révéler être un modèle pertinent. 5

5 Analyses de données simulées Nous simulons un échantillon de taille 100 censuré à 20% selon la distribution B(2, 1, 2). L application de l algorithme EM fournit les estimations présentés dans le tableau cidessous. Le test T1 refuse l hypothèse exponentielle à 95%. Weibull Exponentiel Bertholon ˆη = 0.69 ˆη = 0.76 ˆ = 2.86 ˆβ = 2.23 ˆ = 1.02 ˆβ = 2.05 Table 2: Estimation des paramètres par EM Le Test T2 accepte H 0 = W(1.27, 2.11) à 85% mais la refuse à 95%, ce qui indique que le comportement général est bien celui d un matériel qui vieillit, mais qui est soumis à des défaillances accidentelles que quantifie le terme de la loi de Bertholon. Bibliographie [1] Bertholon, H. (2001) Une modélisation du vieillissement. Thèse de doctorat, Université Joseph Fourier, Grenoble. [2] Meeker, W. Q. et Escobar, L. A. (1998) Statistical Methods for Reliability Data, Wiley. [3] d Agostino, R. B. et Stephens, M. A. (1986) Goodness-of-Fit Techniques, Marcel Dekker. [4] Dempster, A. P., Laird, N. M. et Rubin, D. B. (1977) Maximum likelihood from incomplete data via the EM algorithm (with discussion), Journal. Roy. Statist. Soc. (Ser. B), 39, 1-38. [5] Tanner, M. et Wong, W. (1987) The calculation of posterior distributions by data augmentation (with discussion), Journal Amer. Statis. Assoc., 82, 528-550. [6] Machlan, G. J. ann Krishnam, T. (1997) The EM algorithm and Extensions, Wiley. [7] Robert, C. P. (1996) Méthodes de Monte-Carlo par chaînes de Markov, Economica. [8] Saporta, G. (1996) Analyse des données et Statistique, Paris Technip. [9] Guillin, A., Marin, J.-M. et Robert, C. P. (2004) Estimation bayésienne approximative par échantillonnage préférentiel, Revue de Statistique Appliquée (à paraître) 6