Weighted CART algorithm for censored data

Documents pareils
Application des courbes ROC à l analyse des facteurs pronostiques binaires

Méthodes d apprentissage statistique «Machine Learning»

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

Modélisation aléatoire en fiabilité des logiciels

Arbres binaires de décision

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

MODELES DE DUREE DE VIE

Peut-on réduire l incidence de la gastroentérite et ses conséquences dans les écoles primaires à l aide de solution hydro-alcoolique?

Mesure et gestion des risques d assurance

Introduction à l approche bootstrap

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Christian BONTEMPS né le 08 juillet 1969

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Gestion du niveau de la franchise d un contrat avec bonus-malus. Pierre THEROND & Stéphane BONCHE

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

La nouvelle planification de l échantillonnage

Programmation Linéaire - Cours 1

Analyse de la variance Comparaison de plusieurs moyennes

Christian BONTEMPS né le 08 juillet 1969

De la mesure à l analyse des risques


Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

Polytech Montpellier IG PROJET C Réseaux sociaux : recherche de composantes fortement connexes

Principe de symétrisation pour la construction d un test adaptatif

La méthode de régression par discontinuité et l évaluation des politiques de l emploi

Cours de méthodes de scoring

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Des solutions de data mining pour résoudre des problèmes d estimation du risque 12 juin 2009 Association des Statisticiennes et Statisticiens du

Cent quinzième session. Rome, septembre 2006

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Résumé des communications des Intervenants

CNAM léments de cours Bonus-malus et Crédibilité

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Solvabilité II & IFRS 4

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Le succès du multicanal intégré en assurance auto Séminaire innovation CHEA 5 mai 2011

INF6304 Interfaces Intelligentes

Introduction à l'actuariat

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

des compagnies d assurance : évolutions récentes

Production des Services d Assurance non-vie selon le SCN 2008

Stratégie intelligente de reprise d activité pour les postes de travail : postes de travail sous forme de service (DaaS) LIVRE BLANC

Problèmes d ordonnancement dans les systèmes de production. Journée Automatique et Optimisation Université de Paris Mars 2003

ENQUETE SUR LA SITUATION DES GRANDES VILLES ET AGGLOMERATIONS EN MATIERE D ASSURANCES DOMMAGES

Assurance collective des prêts hypothécaires SSQ

EVOLUTION DE L'ÂGE DE LA RETRAITE : IMPACT SUR LES RÉGIMES PRÉVOYANCE (Régimes collectifs de salariés)

GEIDE MSS /IGSS. The electronic document management system shared by the Luxembourg

METHODES D EVALUATION

Agrégation des portefeuilles de contrats d assurance vie

E-monitoring : intégrer l émotionnel dans votre «balanced scorecard»

Soutenance de stage Laboratoire des Signaux et Systèmes

FIMA, 7 juillet 2005

Philippe BESSE*, Hélène MILHEM*, Olivier MESTRE*,**, Anne DUFOUR***, Vincent-Henri PEUCH*** Résumé

Conception et contrôle des SMA tolérants aux fautes

Estimation des charges. «Le travail se dilate jusqu à remplir le temps disponible»

Calcul d une provision technique en assurance vie dans le cadre de Solvabilité 2. Le cas des contrats d épargne : les approches «markedto model»

Le métier d actuaire IARD

Représentation des Nombres

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

Solution logicielle pour le pilotage et l ERM. Journées d études IARD 26 mars mars 2010

Chapitre 2/ La fonction de consommation et la fonction d épargne

ANALYSE STATISTIQUE PRÉDICTIVE

Réglementation prudentielle. en assurance. Plan. - I - Les principes de la comptabilité générale et leur application à l assurance

Agathe Guilloux LSTA - Université Pierre et Marie Curie (UPMC) Boîte courrier place Jussieu, Paris cedex 05

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Annex 1: OD Initiative Update

Fondements de Finance

Dossier de Presse 2014

L assurance des moules, gabarits, modèles, archives,

Essais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire

SEO Campus 2009 : Pagerank et optimisation

Epargne, Retraite, Prévoyance et Santé

Projet de thèse. Intitulé de la thèse. Spécialité du doctorat. Problématique scientifique générale

Introduction : Essais de phase I

Anthropologue, ethnologue, géographe, historien de l'art, ingénieur, informaticiens, mathématicien, pédagogue, sociologue, Étudiants en tourisme

Transplantation pulmonaire et mucoviscidose. Optimiser la prise en charge médicale

Mesures d influence individuelle pour modèles de régression en épidémiologie clinique

FONCTION DE DEMANDE : REVENU ET PRIX

Modèle GARCH Application à la prévision de la volatilité

Le Mécénat de Compétence : un dispositif de reclassement solidaire. Bénéfices socio-économiques du Mécénat de Compétence

Echantillonnage Non uniforme

VTP. LAN Switching and Wireless Chapitre 4

Le Focus Group. - Bases de données, personnes ayant déjà participé à des expériences et acceptant de participer à des études ultérieures.

PRÉSENTATION DE LA CADENCE DE RÈGLEMENT DES SINISTRES SUR LE MARCHÉ DU BÉNIN

Coûts, avantages et inconvénients des différents moyens de paiement

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

Chapitre 10. Risque et assurance. Arthur Charpentier La problématique du provisionnment en assurance

Chapitre 5. Équilibre concurrentiel et bien-être

TARIFICATION EN ASSURANCE COMPLEMENTAIRE SANTE: il était une fois, un statisticien, un actuaire, un économiste de la santé

Mesures de performances Perspectives, prospective

Annexe 6. Notions d ordonnancement.

Le quizz des stats. Xavier Paoletti. Sce de biostatistiques / Inserm U900 Institut Curie

Détection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air.

SOA, 2 ans après où en est-on?

Les risques liés à l activité de l entreprise : quels outils pour les identifier?

Transcription:

Weighted CART algorithm for censored data Résultats et mise en oeuvre pour le provisionnement Xavier Milhaud α Pierre Thérond α,β Joint Work with Olivier Lopez (UPMC) α β

Contents 1 Deux logiques de provisionnement 2 3 4

Deux logiques générales pour le provisionnement Modèle collectif : vision agrégée (ex : Chain-Ladder) Raisonnement sur les charges cumulées de sinistres C i,j (montant cumulé des règlements jusque la période i + j des sinistres survenus en i) hypothèse de stabilité des cadences de règlement Modèle individuel : vision dossier sinistre Utilisation des informations relatives au sinistre (et au contrat) Intégration d avis d expert (gestionnaire sinistre / guide de gestion) Nécessité d estimer les tardifs (IBNYR)

Deux logiques générales pour le provisionnement Avantages et inconvénients

Nouvelle technique proposée Proposer une méthode qui soit adaptée à : l hétérogénéité des sinistres considérés, l influence du temps de développement, la richesse des données disponibles. Nous nous sommes tournés vers des techniques issues du machine learning : arbres de décision, forêts aléatoires. Fondement théorique : Lopez, O., Milhaud, X., Thérond, P.E. (2016) Tree based censored regression with applications to insurance, Electronic Journal of Statistics, Vol. 10, 2685-2716, DOI : 10.1214/16-EJS1189

Idée de la méthode La problématique est celle de la gestion des sinistres non-clos (que la garantie fasse intervenir la durée de règlement ou pas!). Une solution naïve consisterait à ne retenir que les observations correspondantes à des sinistres clos. Une telle approche conduit à biaiser fortement l estimateur en surpondérant les sinistres à délai de règlement court! Les sinistres non-clos (ou censurés) sont porteurs d information Méthode retenue : Arbre de régression intégrant une pondération spéciale des observations. Donner davantage de poids aux sinistres à temps de développement plus long pour compenser leur faible nombre Utiliser les sinistres non-clos et l information disponible pour calculer ce poids Question de recherche : quels poids pour quelles bonnes propriétés statistiques de l estimateur?

Idée de la méthode de fixation des poids

Choix des poids et propriétés statistiques Choix retenu pour pondérer les observations dans la mise en oeuvre de l arbre de régression : poids issus de l estimateur de Kaplan-Meier des délais de réglement. Propriétés statistiques de l estimateur obtenu : bornes de l erreur d estimation, cohérence des paramètres de régression relatifs à chaque feuille de l arbre, cohérence de la régression globale.

Arbre optimal au début de l indemnisation

Comparaison avec le modèle de Cox Durées de maintien prédites, vues de la date de début d indemnisation. Commentaires : hypothèse de risque (hazard) proportionnel non-vérifiée poids de la fonction de risque de base sur l ensemble des classes

Qualité intrinsèque du modèle (ROC dynamique)

Provisionnement : description de l algorithme Pour chaque ancienneté atteinte k : 1 sélection des observations avec une durée d observation (éventuellement censurée à droite)> k 2 estimation des poids Kaplan-Meier (issus de l estimateur de la fonction de survie de (T k), T > k) 3 arbre de régression (T k) X, T > k avec les données pondérées 4 élagage de l arbre de régression (pruning) 5 estimation de la durée résiduelle E[T k T > k, X] L algorithme peut être gourmant en puissance de calcul en fonction de la taille de la base (et de la part des données incomplètes) : le calcul parallèle permet de réduire très significativement le temps de calcul.

Provisionnement : illustration Back-testing et comparaison à l ultime Figure Evolution de l estimation de la charge ultime

Provisionnement : illustration Confrontation avec Chain-Ladder Figure Evolution de l estimation de la charge ultime (Chain-Ladder)

Provisionnement : illustration Figure Erreurs d estimation commises Sur cette illustration : Les deux méthodes sous-estiment la charge ultime. La méthode CART weighted améliore significativement l estimation pour les arrêts les plus récents

Work in progress... affiner la mesure statistique de l erreur (forêts aléatoires d arbres de survie), mise en oeuvre dans le cas où la garantie n est pas liée à la durée de la période d ouverture du sinistre, comparaison, en situation de provisionnement, avec des méthodes issues des modèles de durée (Kaplan-Meier, Cox, Aalen, etc.), mise en oeuvre pour estimer les tardifs.

Principales références Bou-Hamad, I., Larocque, D., and Ben-Ameur, H. (2011). A review of survival trees. Statistics Surveys, 5 :44 71. Breiman, L., Friedman, J., Olshen, R. A., and Stone, C. J. (1984). Classification and Regression Trees. Chapman and Hall. Heagerty, P., Lumley, T., and Pepe, M. (2000). Time-dependent roc curves for censored survivaldata and a diagnostic marker. Biometrics, 56(2) :337 344. Heagerty, P. and Zheng, Y. (2005). Survival model predictive accuracy and roc curves. Biometrics, 61(1) :92 105. Lopez, O., Milhaud, X., and Therond, P.-E. (2016). Tree-based censored regression with applications in insurance. Electronic Journal of Statistics, 10 :2685 2716. Molinaro, A. M., Dudoit, S., and van der Laan, M. J. (2004). Tree-based multivariate regression and density estimation with right-censored data. JMVA, 90(1) :154 177. Olbricht, W. (2012). Tree-based methods : a useful tool for life insurance. European Actuarial Journal, 2(1) :129 147. van der Laan, M. J. and Robins, J. M. (2003). Unified methods for censored longitudinal data and causality. Springer Series in Statistics. Springer-Verlag, New York.