Weighted CART algorithm for censored data Résultats et mise en oeuvre pour le provisionnement Xavier Milhaud α Pierre Thérond α,β Joint Work with Olivier Lopez (UPMC) α β
Contents 1 Deux logiques de provisionnement 2 3 4
Deux logiques générales pour le provisionnement Modèle collectif : vision agrégée (ex : Chain-Ladder) Raisonnement sur les charges cumulées de sinistres C i,j (montant cumulé des règlements jusque la période i + j des sinistres survenus en i) hypothèse de stabilité des cadences de règlement Modèle individuel : vision dossier sinistre Utilisation des informations relatives au sinistre (et au contrat) Intégration d avis d expert (gestionnaire sinistre / guide de gestion) Nécessité d estimer les tardifs (IBNYR)
Deux logiques générales pour le provisionnement Avantages et inconvénients
Nouvelle technique proposée Proposer une méthode qui soit adaptée à : l hétérogénéité des sinistres considérés, l influence du temps de développement, la richesse des données disponibles. Nous nous sommes tournés vers des techniques issues du machine learning : arbres de décision, forêts aléatoires. Fondement théorique : Lopez, O., Milhaud, X., Thérond, P.E. (2016) Tree based censored regression with applications to insurance, Electronic Journal of Statistics, Vol. 10, 2685-2716, DOI : 10.1214/16-EJS1189
Idée de la méthode La problématique est celle de la gestion des sinistres non-clos (que la garantie fasse intervenir la durée de règlement ou pas!). Une solution naïve consisterait à ne retenir que les observations correspondantes à des sinistres clos. Une telle approche conduit à biaiser fortement l estimateur en surpondérant les sinistres à délai de règlement court! Les sinistres non-clos (ou censurés) sont porteurs d information Méthode retenue : Arbre de régression intégrant une pondération spéciale des observations. Donner davantage de poids aux sinistres à temps de développement plus long pour compenser leur faible nombre Utiliser les sinistres non-clos et l information disponible pour calculer ce poids Question de recherche : quels poids pour quelles bonnes propriétés statistiques de l estimateur?
Idée de la méthode de fixation des poids
Choix des poids et propriétés statistiques Choix retenu pour pondérer les observations dans la mise en oeuvre de l arbre de régression : poids issus de l estimateur de Kaplan-Meier des délais de réglement. Propriétés statistiques de l estimateur obtenu : bornes de l erreur d estimation, cohérence des paramètres de régression relatifs à chaque feuille de l arbre, cohérence de la régression globale.
Arbre optimal au début de l indemnisation
Comparaison avec le modèle de Cox Durées de maintien prédites, vues de la date de début d indemnisation. Commentaires : hypothèse de risque (hazard) proportionnel non-vérifiée poids de la fonction de risque de base sur l ensemble des classes
Qualité intrinsèque du modèle (ROC dynamique)
Provisionnement : description de l algorithme Pour chaque ancienneté atteinte k : 1 sélection des observations avec une durée d observation (éventuellement censurée à droite)> k 2 estimation des poids Kaplan-Meier (issus de l estimateur de la fonction de survie de (T k), T > k) 3 arbre de régression (T k) X, T > k avec les données pondérées 4 élagage de l arbre de régression (pruning) 5 estimation de la durée résiduelle E[T k T > k, X] L algorithme peut être gourmant en puissance de calcul en fonction de la taille de la base (et de la part des données incomplètes) : le calcul parallèle permet de réduire très significativement le temps de calcul.
Provisionnement : illustration Back-testing et comparaison à l ultime Figure Evolution de l estimation de la charge ultime
Provisionnement : illustration Confrontation avec Chain-Ladder Figure Evolution de l estimation de la charge ultime (Chain-Ladder)
Provisionnement : illustration Figure Erreurs d estimation commises Sur cette illustration : Les deux méthodes sous-estiment la charge ultime. La méthode CART weighted améliore significativement l estimation pour les arrêts les plus récents
Work in progress... affiner la mesure statistique de l erreur (forêts aléatoires d arbres de survie), mise en oeuvre dans le cas où la garantie n est pas liée à la durée de la période d ouverture du sinistre, comparaison, en situation de provisionnement, avec des méthodes issues des modèles de durée (Kaplan-Meier, Cox, Aalen, etc.), mise en oeuvre pour estimer les tardifs.
Principales références Bou-Hamad, I., Larocque, D., and Ben-Ameur, H. (2011). A review of survival trees. Statistics Surveys, 5 :44 71. Breiman, L., Friedman, J., Olshen, R. A., and Stone, C. J. (1984). Classification and Regression Trees. Chapman and Hall. Heagerty, P., Lumley, T., and Pepe, M. (2000). Time-dependent roc curves for censored survivaldata and a diagnostic marker. Biometrics, 56(2) :337 344. Heagerty, P. and Zheng, Y. (2005). Survival model predictive accuracy and roc curves. Biometrics, 61(1) :92 105. Lopez, O., Milhaud, X., and Therond, P.-E. (2016). Tree-based censored regression with applications in insurance. Electronic Journal of Statistics, 10 :2685 2716. Molinaro, A. M., Dudoit, S., and van der Laan, M. J. (2004). Tree-based multivariate regression and density estimation with right-censored data. JMVA, 90(1) :154 177. Olbricht, W. (2012). Tree-based methods : a useful tool for life insurance. European Actuarial Journal, 2(1) :129 147. van der Laan, M. J. and Robins, J. M. (2003). Unified methods for censored longitudinal data and causality. Springer Series in Statistics. Springer-Verlag, New York.