Chapitre 1. Risque et assurance. Arthur Charpentier. 1.1 Prise en compte de la dynamique en assurance



Documents pareils
Chapitre 10. Risque et assurance. Arthur Charpentier La problématique du provisionnment en assurance

Risque et assurance. Arthur Charpentier. Université Rennes 1. http ://freakonometrics.blog.free.

Estimation de l erreur de prédiction dans le cas de l utilisation d une combinaison de méthodes pour le calcul de provisions en assurance IARD

Le métier d actuaire IARD

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Données longitudinales et modèles de survie

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Le modèle de Black et Scholes

Probabilités III Introduction à l évaluation d options

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Modèles et Méthodes de Réservation

La fonction exponentielle

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Production des Services d Assurance non-vie selon le SCN 2008

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Un exemple de régression logistique sous

Introduction à l approche bootstrap

Chapitre 3. Les distributions à deux variables

TARIFICATION EN ASSURANCE COMPLEMENTAIRE SANTE: il était une fois, un statisticien, un actuaire, un économiste de la santé

Les indices à surplus constant

Résumé des communications des Intervenants

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Mathématiques financières

Modélisation aléatoire en fiabilité des logiciels

Chaînes de Markov au lycée

CNAM léments de cours Bonus-malus et Crédibilité

Introduction à l'actuariat

Moments des variables aléatoires réelles

Texte Agrégation limitée par diffusion interne

1 Complément sur la projection du nuage des individus

Chapitre 2 Le problème de l unicité des solutions

Évaluation de la régression bornée

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Analyse de la variance Comparaison de plusieurs moyennes

Simulation de variables aléatoires

Correction du Baccalauréat S Amérique du Nord mai 2007

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Résolution de systèmes linéaires par des méthodes directes

Principe de symétrisation pour la construction d un test adaptatif

PRIME D UNE OPTION D ACHAT OU DE VENTE

TABLE DES MATIERES. C Exercices complémentaires 42

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Compte rendu de l examen par le BSIF des coefficients du risque d assurance

Annexe commune aux séries ES, L et S : boîtes et quantiles

M2 IAD UE MODE Notes de cours (3)

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Programmes des classes préparatoires aux Grandes Ecoles

Modèle GARCH Application à la prévision de la volatilité

TSTI 2D CH X : Exemples de lois à densité 1

Complément d information concernant la fiche de concordance

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Table des matières. I Mise à niveau 11. Préface

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

3 Approximation de solutions d équations

FONCTION DE DEMANDE : REVENU ET PRIX

Le modèle de régression linéaire

Correction du baccalauréat STMG Polynésie 17 juin 2014

MATHÉMATIQUES FINANCIÈRES

Baccalauréat ES Amérique du Nord 4 juin 2008

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

INF6304 Interfaces Intelligentes

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

CAPTEURS - CHAINES DE MESURES

Statistique de l assurance

Table des matières: Guidelines Fonds de Pensions

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Précision d un résultat et calculs d incertitudes

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Régression linéaire. Nicolas Turenne INRA

Chapitre 3 Les régimes de fonctionnement de quelques circuits linéaires

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

NON-LINEARITE ET RESEAUX NEURONAUX

Le Modèle Linéaire par l exemple :

Relation entre deux variables : estimation de la corrélation linéaire

Norme comptable relative aux provisions techniques dans les entreprises d assurance et/ou de réassurance NC 29

aux différences est appelé équation aux différences d ordre n en forme normale.

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

CORRIGES DES CAS TRANSVERSAUX. Corrigés des cas : Emprunts

rv de septembre - 09/09/ XC

Comment évaluer une banque?

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Chapitre 1 Régime transitoire dans les systèmes physiques

Chapitre 0 Introduction à la cinématique

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Mesure et gestion des risques d assurance

Correction du baccalauréat ES/L Métropole 20 juin 2014

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Couples de variables aléatoires discrètes

Transcription:

Chapitre 1 Risque et assurance Arthur Charpentier Dans ce chapitre, nous allons présenter quelques modèles utilisés par les assureurs afin de quantifier les risques pris. Nous insisterons sur deux risques (parmi beaucoup d autres). Le premier sera la modélisation des provisions pour sinistres à payer, et plus particulièrement, la présentation de méthodes permettant de quantifier la marge d erreur associée à ce calcul de provisions. Le second sera le risque démographique présent dans les contrats d assurance en cas de décès, ou surtout en cas de vie. 1.1 Prise en compte de la dynamique en assurance 1.1.1 La problématique du provisionnment en assurance Comme le définit (26), les provisions techniques sont les provisions destinées à permettre le règlement intégral des engagements pris envers les assurés et bénéficiaires de contrats. Elles sont liées à la technique même de l assurance, et imposées par la règlementation. D un point de vue plus formel, à la date t, la compagnie d assurance est tenue de constituer une provision pour les sinistres survenus avant la date t qu elle sera tenu d indemniser. Elle doit donc estimer le coût des sinistres survenus, et retrancher les montants déjà versés. Il s agit donc fondamentalement d un problème de prévision. En effet, contrairement à l hypothèse faite dans la plupart des modèles actuariels, les coûts de sinistres ne sont pas connus le jour de la survenance du sinistre. Il y a tout d abord un délai avant que le sinistre ne soit déclaré à la compagnie d assurance par l assuré, puis un temps (plus ou moins long) de gestion du sinistre, d expertises, de paiements, avant de le clôturer plusieurs

2 Chapitre 1 mois, ou plusieurs années plus tard. La Figure 1.1 illustre la problématique du provisionnement, avec un diagramme de Lexis de la vie des sinistres. Années de développement 0 2 4 6 8 10 2006 2008 2010 2012 2014 Temps calendaire Figure 1.1 Évolution de la vie des sinistres, sur un diagramme de Lexis, avec en abscisse le temps calendaire, et en ordonnée l âge des sinistres. Les sinistres surviennent à la date, sont déclarrés à l assureur à la date + et clôturés à la date. L exercice de provisionnement consiste à estimer à une date donnée (ici fin 2010, correspondant au trait plein vertica), le montant des paiements restant à faire pour l ensemble des sinistres survenus (déclarés ou pas). En pratique, le jour de la déclaration du sinistre à l assureur (+), le gestion de sinistre est tenu d estimer un montant pour le sinistre (à l aide de facture à sa disposition, ou de coûts moyens de sinistres similaires). Le montant réel du sinistre ne sera connu que le jour de la clôture ( ). Entre ces deux dates, le gestionnaire de sinistre peut réviser ses estimations de coûts, mais aussi effectuer des paiements. Toutefois, au lieu de travailler sur des données individuelles, les données sont ici aggrégées par années (comme indiquée sur la Figure 1.1) : on s intéresse à l année de survenance du sinistre (notée i) et l année du paiement (par rapport à l année de la survenance, notée j). Parmi les méthodes reconnues par les autorités de contrôles, les plus classiques sont basées sur les cadences de paiements. On raisonne pour cela par année de survenance de sinistre, et on suppose une certaine régularité dans la cadence de paiement. Le déroulement dépend fortement du type de risque considéré. Ainsi, le tableau suivant donne une idée des cadences de règlement pour différentes

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 3 Réglements en n n + 1 n + 2 n + 3 n + 4 Multirisque habitation 55% 90% 94% 95% 96% Automobile 55% 79% 84% 99% 90% dont corporel 13% 38% 50% 65% 72% Responsabilité civile 10% 25% 35% 40% 45% Table 1.1 Cadences de paiements, pour quelques branches d activité (source (9)). branches : On constate donc que pour les branches RC, automobile (partie corporelle) et générale, moins de 15% des sinistres sont réglés après 1 an et il faut attendre 2 à 5 ans pour que la moitié des sinistres soient réglés. Pendant tout ce temps, le bilan doit refléter le coût probable de ces sinistres. 1.1.2 Quelques définitions et notations, aspects règlementaires et comptables La plupart des méthodes présentées ici sont détaillées dans (9), ou (28). Classiquement, on notera i (en ligne) l année de survenance, i = 1,, n, j (en colonne) l année de développement, j = 0,, n 1, Y i,j les incréments de paiments, pour l année de développement j, pour les sinistres survenus l année i, tableau 1.2 C i,j les paiments cumulés, au sens où C i,j = Y i,0 + Y i,1 + + Y i,j, pour l année de survenance j, tableau 1.3 P i la prime acquise pour l année i, tableau 1.4 N i,j le nombre cumulé de sinistres pour l année de survenance i vu au bout de j années, tableau 1.5 0 1 2 3 4 5 1 3209 1163 39 17 7 21 2 3367 1292 37 24 10 3 3871 1474 53 22 4 4239 1678 103 5 4929 1865 6 5217 Table 1.2 Triangle des incréments de paiements, Y = (Y i,j ).

4 Chapitre 1 0 1 2 3 4 5 1 3209 4372 4411 4428 4435 4456 2 3367 4659 4696 4720 4730 3 3871 5345 5398 5420 4 4239 5917 6020 5 4929 6794 6 5217 Table 1.3 Triangle des paiements cumulés, C = (C i,j ). Year i 1 2 3 4 5 6 P i 4591 4672 4863 5175 5673 6431 Table 1.4 Vecteur des primes acquises, P = (P i ). 1.1.3 Formalisation du problème du provisionnement Le provisionnement est un problème de prédiction, conditionelle à l information dont on dispose à la date n. On notera H n l information disponible à la date n, soit formellement H n = {(Y i,j ), i + j n} = {(C i,j ), i + j n} On cherche à étudier, par année de survenance, la loi conditionnelle de C i, sachant H n, ou plutôt, si l on suppose les sinistres clos au bout de n années la loi de C i, (voire C i,n si l on souhaite se laisser la possibilté d incorporer un tail factor) sachant H n. Si l on se focalise sur une année de survenance particulière, osn pourra noter F i,n i = {(Y i,j ), j = 0,, n i)} = {(C i,j ), j = 0,, n i)} Cette notation permet de prendre en compte que l information disponible change d une ligne à l autre (cf Figure 1.2). H n F i,n i Figure 1.2 Les informations disponibles pour faire de la prédiction.

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 5 0 1 2 3 4 5 1 1043.4 1045.5 1047.5 1047.7 1047.7 1047.7 2 1043.0 1027.1 1028.7 1028.9 1028.7 3 965.1 967.9 967.8 970.1 4 977.0 984.7 986.8 5 1099.0 1118.5 6 1076.3 Table 1.5 Triangle des nombres de sinistres, cumulés, en milliers, N = (N i,j ). On cherchera par la suite à prédire le montant des sinistres à payer pour l année i, i.e. Ĉ (n i) i,n = E[C i,n F i,n i ] et la différence entre ce montant et le montant déjà payé constituera la provision pour sinistres à payer, R i = Ĉ(n i) i,n C i,n i On essayera ensuite de quantifier l incertitude associée à cette prédiction. Comme on le verra les méthodes usuelles visaient à calculer mse[c i,n F i,n i ] ou mse[ĉ(n i) i,n ] ce que l on appelera incertitude à horizon ultime. Mais ce n est pas ce que propose Solvabilité II, demandant plutôt de mesurer une incertitude dite à un an. Pour cela, on va s intéresser à la prédiction qui sera faite dans un an, Ĉ (n i+1) i,n = E[C i,n F i,n i+1 ] et plus particulièrement le changement dans l estimation de la charge ultime n i = Ĉ(n i+1) i,n Ĉ(n i) i,n. Si cette différence est positive, on parle de mali (il faudra gonfler la provision afin de pouvoir payer les sinistres), et si elle est négative, on parle de boni. On peut montrer que E[ n i F i,n i ] = 0, autrement dit, on ne peut espérer faire ni boni, ni mali, en moyenne. Les contraintes règlementaires imposéeés par Solvabilité II demandent de calculer mse[ n i F i,n i ]. La Figure 1.3 montre les estimations de montant de provisions deux années consécutives.

6 Chapitre 1 Montant (paiements et réserves) 3500 4000 4500 5000 5500 6000 6500 0 1 2 3 4 Figure 1.3 Estimation de la charge ultime Ĉi,n deux années consécutives ( et n), avec en gris le montant total de paiements déjà effectués, C i,n i et en noir le montant de provisions R i. 1.1.4 Lecture transversale et longitudiligne des tables de mortalité Classiquement en démographie et en assurance-vie, la probabilité qu une personne en vie à l âge x soit en vie à l âge x + h est calculé par P(T > x + h T > x) = L x+h L x où L j désigne le nombre de survivants d âge j, dans une table de mortalité. Formellement, il faudrait toutefois prendre en compte la date à laquelle le calcul de la probabilité se fait. Si on se place l année t, la probabilité précédante devrait s écrire P t (T > x + h T > x) = P t (T > x + 1 T > x) P t+1 (T > x + 2 T > x + 1) P t+h 1 (T > x + h T > x + h 1) soit, si L t,j désigne le nombre de survivants d âge j, observés l année t, P t (T > x + h T > x) = L t,x+1 L t,x Lt+1,x+2 L t+h 1,x+h. L t+1,x+1 L t+h 1,x+h 1 Il convient alors de pouvoir extrapoler ces données, car les L t,i pour des dates futures sont aujourd hui inconnnus. Et pourtant, ils interviennent dans les cal-

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 7 culs des pensions, des retraites, des assurances en cas de décès, etc, comme le montre la Figure 1.4, correspondant au diagramme de Lexis Un des modèles les plus utilisés pour modéliser la mortalité d un point de vue dynamique est celui introduit par (17), appelé communément modèle de Lee & Carter. On suppose pour cela que le taux de décès, à la date t pour une personne d âge x dépend de trois facteurs, µ x,t = exp[α x + β x κ t ], où α = (α x ) désigne l évolution moyenne de la mortalité en fonction de l âge, et où κ = (κ t ) permet de modéliser l évolution de la mortalité dans le temps (traduisant une globale amélioration des conditions de vie). Toutefois, en multipliant par β = (β x ), on peut prendre en compte le fait que les gains ne sont pas identiques pour tous les âges. En fait, la modélisation des durée de vie n est pas très éloignée de la modélisation de la dynamique de la gestion des sinistres. Pour garder les mêmes notations, soit L i,j le nombre de survivants d âge j qui sont nés l année i. L i,j pourrait être vu comme l analogue de C i,j, même si C était croissant (en j) alors qu ici L sera décroissant en j. Dans le premier cas, on parlait de cadence de paiement, ici on parlera de loi de survie. L analogue de Y i,j, les incréments de paiements, seront ici D i,j, le nombre de décès âge à l âge j pour les personnes nées l année i. 1.1.5 Plan du chapitre La section 1.2 posera les bases de la méthode la plus populaire, à savoir la méthode dite Chain Ladder. L idée est que l on passe d une année de développement à une autre un multipliant par une constante (reflétant la cadence de paiements), soit formellement C i,j+1 = λ j C i,j. Cette approche a été formalisée d un point de vue stochastique par (19). On supposera alors que E(C i,j+1 F i,j ) = λ j C i,j, soit Ĉi,j+1 = λ j C i,j. En rajoutant quelques hypothèses, il sera possible de calculer E(C i,n H n ), ainsi que mse(c i,n H n ). (21) ont poursuivit les calculs sous ces hypothèses afin d étudier non plus l incertitude à ultime (comme le faisait Mack), mais l incertitude à un an. Ils ont ainsi obtenu une formule fermée pour un estimateur de mse[ n i F i,n i]. La section 1.4 présentera une alternative à la modélisation proposée par (19) ou (21), basée sur des approches par facteurs, utilisées dans les années 70, et remise au goût du jour à l aide des modèles GLM. En particulier, dans la régression log-poisson, on supposera que Y i,j P(A i B j ), c est à dire que le montant de paiements effectuée l année i + j pour les sinistres survenus l année i suivent une loi de Poisson, avec un impact multiplicatif des facteurs, Ŷi,j = Âi B j. Nous verrons comment les méthodes de simulation permettent d estimer mse(c i,n H n ). Enfin, la section 1.5 se penchera sur la modélisation dynamique de la mortalité. En particulier, nous insisterons sur les parrallèles naturels qui existent entre les modèles log-poisson basés sur l approche de Lee & Carter, et la régression

8 Chapitre 1 log-poisson appliquée à la problématique du calcul des provisions pour sinistres à payer. 1.2 Les cadences de paiements et la méthode Chain Ladder L utilisation des cadences de paiements pour estimer la charge future date des années 30. On suppose qu il existe une relation de récurrence de la forme C i,j+1 = λ j C i,j pour tout i, j = 1,, n. Un estimateur naturel pour λ j, basé sur l expérience passée est alors λ j = n j i=1 C i,j+1 n j i=1 C i,j pour tout j = 1,, n 1. Il s agit tout simplement du ratio moyen entre les années de développement j et j + 1. De telle sorte que l on peut alors prédire la charge pour la partie non-observée dans le triangle, ] Ĉ i,j = [ λn i... λ j 1 C i,n+1 i. 1.2.1 Des réécritudes du modèle Notons qu au lieu de calculer les facteurs de développement, on peut aussi des taux de développement, cumulés ou non. Autrement dit, au lieu d écrire C i,j+1 = λ j C i,j pour tout i, j = 1,, n, on suppose que On notera que γ j = C i,j = γ j C i,n ou Y i,j = ϕ j C i,n. n k=j+1 { 1 γ1 si j = 1 et ϕ j = λ k γ j γ j 1 si j > 1 Ces valeurs ont été calculées dans le Tableau 1.6. Enfin, un peu de réecriture montre qu il est possible de voir l estimateur Chain-Ladder comme une moyenne pondérée des facteurs de transition individuels, i.e. n j C i,j λ j = ω i,j λ i,j où ω i,j = n j i=1 C i,j i=1 et λ i,j = C i,j+1 C i,j.

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 9 0 1 2 3 4 5 λ j 1,38093 1,01143 1,00434 1,00186 1,00474 1,0000 γ j 70,819% 97,796% 98,914% 99,344% 99,529% 100,000% ϕ j 70,819% 26,977% 1,118% 0,430% 0,185% 0,000% Table 1.6 Facteurs de développement, λ = ( λ i ), exprimés en cadence de paiements par rapport à la charge utlime, en cumulé (i.e. γ), puis en incréments (i.e. ϕ). Aussi, on peut obtenir ces coefficients à l aide de régressions linéaires pondérées sans constantes, en régressant les C,j+1 sur les C,j, ou encore λ j = argmin λ R λ j = argmin λ R { n j i=1 { n j i=1 [ C i,j λ C ] } 2 i,j+1, C i,j } 1 [λc i,j C i,j+1 ] 2. C i,j A partir du calcul des facteurs de transition λ = ( λ i ), on complète alors le triangle, en remontant d année de survenance en année de survenance, en commençant par j = 1, puis j = 2, etc (d échelon en échelon, d où le nom de cette méthode). Le triangle complété est présenté dans le Tableau 1.2.1. 0 1 2 3 4 5 1 3209 4372 4411 4428 4435 4456 2 3367 4659 4696 4720 4730 4752.4 3 3871 5345 5398 5420 5430.1 5455.8 4 4239 5917 6020 6046.15 6057.4 6086.1 5 4929 6794 6871.7 6901.5 6914.3 6947.1 6 5217 7204.3 7286.7 7318.3 7331.9 7366.7 Table 1.7 Triangle des paiements cumulés, C = (C i,j ) i+j n avec leur projection future Ĉ = (Ĉi,j) i+j>n. 1.2.2 Une approche par sommes marginales Au delà de l approche Markovienne du problème de provisionnement que l on vient de voir (et qui sera reprise dans la section 1.3), il existe une caractérisation particulièment intéressante, que l on retrouvera dans la section 1.4.

10 Chapitre 1 En fait, si l on cherche des vecteurs A = (A 0,, A n ) et B = (B 0,, B n ), avec B 0 + + B n = 1, tels que n j n j A i B j = Y i,j pour tout j, et i=1 i=1 n i n i A i B j = Y i,j pour tout i, j=0 j=0 (on ne somme que sur la partie observée du triangle) les montants prédits dans la partie inférieure du triangles, i.e. (A i B j ) i+j>n, coïncident avec les quantités prédites par la méthode Chain Ladder ((24)). Proposition 1.1 S il existe A = (A 0,, A n ) et B = (B 0,, B n ), avec B 0 + + B n = 1, tels que n j n j A i B j = Y i,j pour tout j, et i=1 i=1 n i n i A i B j = Y i,j pour tout i, j=0 j=0 alors où B k = j=k Ĉ i,n = A i = C i,n i 1 λ j j=k 1 k=n i λ k 1 1, avec B 0 =. λ j λ j j=k Autrement dit, le montant de provision coïncide avec l estimateur obtenu par la méthode Chain Ladder. Preuve 1.1 La démonstration se fait de manière récursive. Commençons par réécrire les conditions, n j n j n j Y i,j = A i B j = B j A i, et i=1 i=1 i=1 n i n i n i Y i,j = A i B j =, A i B j. j=0 j=0 j=0 Pour i = 1 dans la dernière somme, on en déduit que A 0 = j=0 Y i,j j=0 B j = Y i,j = C 0,n. Supposon que la relation sur les A i soit vérifiée pour 0, 1, 2,, n k 1, et que i j=0 B j = j=i λ 1 j aux étapes n, n 1,, k. Alors à l étape n k, n k A i = i=1 n k 1 i=1 A i + A n k = n k 1 i=1 j=0 C i,k k=n i λ k + k j=0 Y n k,j k j=0 B j

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 11 qui peut se réécrire soit encore n k 1 i=1 C i,k De plus, en réécrire n k 1 k=n i i=1 C i,k k=n i λ k + C n k,k k k+1 B j = B j B k+1 = j=0 j=0 Pour le terme de droite, en notant que n k 1 j=0 on obtient que Y j,k = k j=0 n k 1 j=0 λ k + k=n i j=k [S j,k+1 S j,k ] = B j = ( 1 1 + λ 1 ) n k C n k,k k j=0 B j n k λ k = λ 1 j j=n k+1 n k 1 j=0 i=1 C i,k k=n i n k 1 j=0 Y j,k n k 1 j=0 A j n k 1 S j,k+1 λ 1 j = j=n k j=0 λ 1 j. En soustrayant à chacune des étapes, on obtient le résultat annoncé. Nous reviendrons sur ce modèle dans la sectionn 1.4, car la régression de Poisson (dont les paramètres sont estimés par maximum de vraisemblance) coïncide avec la méthode des marges ((2)). Remarque 1.1 L idée de cette méthode remonte aux années 30. Comme le note (1), décrivant la méthode Chain-Ladder, son apparente rigueur mathématique et sa simplicité semblent résoudre sans effort toutes les difficultés. Il n en est malheureusement rien. [...] La cadence de règlements ne peut être constante que si l assureur prend en charge un nombre de sinistres suffisant pour que la loi des grands nombres puisse jouer. Les changements de jurisprudence qui aggravent la responsabilité des assurés et les dépréciations monétaires aboutissement à une augmentation des indemnités allouées, et ralentissent la cadence des règlements des exercices antérieurs dont les sinistres non encore réglés se trouvent majorés. Et plus précisément, (13) remarquait que la méthode de la cadence numérique appliquée aux éléments statistiques que nous possédons nous paraît donc devoir donner des résultats empreints d une assez grande incertitude. λ k. S j,k

12 Chapitre 1 1.3 De Mack à Merz & Wüthrich La méthode dite Chain Ladder, que nous venons de voir, est une méthode dite déterministe, au sens où l on ne construit pas de modèle probabiliste permettant de mesurer l incertitude associée à la prédiction du montant des réserves. Différents modèles ont été proposés à partir des années 90, à partir du modèles de Mack, jusqu à l approche proposée par Merz & Wüthrich qui introduira la notion d incertitude à un an. 1.3.1 Quantifier l incertitude dans une prédiction Nous avons obtenu, par la méthode Chain Ladder un estimateur du montant de provision, R. Classiquement, pour quantifier l erreur associée à un estimateur θ d un paramètre θ, on calcul la mean squared error - mse - associée, E([ θ θ] 2 ). Or on cherche ici à quantifier l incertitude de l estimateur R associé à une variable aléatoire R. Le mse s écrit alors en comparant θ à E(R), msep( R) = E([ R E(R)] 2 ) = E([biais( R, R)] 2 ). Si l on souhaite comparer à R (qui est ici une variable aléatoire) on ne parle pas de mse, mais de mse de prédiction, notée msep (on ne prédit pas sur les données passées, mais on utilisera les donnéees pour calibrer un modèle qui servira ensuite à faire de la prédiction pour les années futures). Aussi msep( R) = E([ R R] 2 ). Ce terme peut se décomposer en deux (en faisant une approximation au premier ordre), au sens où E([ R R] 2 ) E([ R E(R)] 2 ) + E([R E(R)] 2 ) } {{ } } {{ } Var(R) mse( R) où le terme de gauche est l erreur d estimation, compte tenu du fait que nous avons dû estimer le montant de provisions à partir de la partie supérieure du triangle, et le terme de droite est l erreur classique de modèle (tout modèle comportant une partie résiduelle orthogonale aux observations, et donc imprévisible). En fait, en toute rigueur (et nous en aurons besoin par la suite), on cherche plutôt à calculer un msep conditionnel à l information dont on dispose au bout de n années, msep n ( R) = E([ R R] 2 H n ). 1.3.2 Le formalisme de Mack (19) a proposé un cadre probabiliste afin de justifier l utilisation de la méthode Chain-Ladder. Pour cela, on suppose que (C i,j ) j 0 est un processus

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 13 Markovien, et qu il existe λ = (λ j ) et σ = (σj 2 ) tels que { E(Ci,j+1 H i+j ) = E(C i,j+1 C i,j ) = λ j C i,j Var(C i,j+1 H i+j ) = Var(C i,j+1 C i,j ) = σ 2 j C i,j On note que sous ces hypothèses, E(C i,j+k H i+j ) = E(C i,j+k C i,j ) = λ j λ j+1 λ j+k 1 C i,j (19) rajoute une hypothèse supplémentaire d indépendance entre les années de survenance, autrement dit (C i,j ) j=1,...,n et (C i,j) j=1,...,n sont indépendant pour tout i i. Une réécriture du modèle est alors de supposer que C i,j+1 = λ j C i,j + σ j Ci,j ε i,j où les résidus (ε i,j ) sont i.i.d., centrés et de variance unitaire. A partir de cette écriture, il peut paraître légitime d utiliser les méthodes des moindres carrés pondérés pour estimer ces coefficients, en notant que les poids doivent être inversement proportionnels à la variance, autrement dit aux C i,j, i.e. à j donné, on cherche à résoudre min { n j i=1 } 1 (C i,j+1 λ j C i,j ) 2 C i,j Pour tester ces deux premières hypothèses, on commence par représenter les C,j+1 en fonction des C,j à j donné. Si la première hypothèse est vérifiée, les points doivent être alignés suivant une droite passant par l origine. La Figure 1.5 montre ainsi les nuages de points pour j = 1 et j = 2. Pour la seconde hypothèse, on peut étudier les résidus standardisés ((19) parle de weighted residuals), ɛ i,j = C i,j+1 λ j C i,j Ci,j. L utilisation des résidus standardisés nous donnent d ailleurs une idée simple pour estimer le paramètre de volatilité. ( n j 1 σ j 2 1 C i,j+1 = λ ) 2 j C i,j n j 1 Ci,j ce qui peut aussi s écrire σ 2 j = 1 n j 1 i=1 n j 1 i=1 ( Ci,j+1 C i,j λ j ) 2 C i,j (ce qui est à rapprocher de l écriture du facteur de transition λ comme moyenne pondérée des facteurs de transitions observés). Cette méthode permet d estimer les différents paramètres intervenants dans le modèle de Mack.

14 Chapitre 1 1.3.3 La notion de tail factor Classiquement on suppose que la première ligne de notre triangle est close : il n y a plus de sinistres ouverts, et donc le montant de provision pour cette année de survenance est nul. Cette ligne servira de base pour tous les développements ultérieurs. Cette hypothèse peut être un peu trop forte pour les branches à déroulement long. (20) a posé les bases des premiers modèles toujours utilisés. On supposera qu il existe alors un λ > 1 tel que C i, = C i,n λ. Une méthode qui a souvent été utilisée a reposé sur l idée que l on pouvait projeter les λ i par une extrapolation exponentielle (ou une extrapolation linéaire des log(λ k 1)), puis on pose λ = k n λ k Mais mieux vaut faire attention, en particulier s il y a des valeurs aberrantes. Exemple 1.1 Sur notre triangle, cette méthode prévoit de rajouter 0.07% de charge par rapport à la prédiction faite par les méthodes classiques (en supposant la première année close), comme le montre la Figure 1.6. 1.3.4 De l incertitude sur R i et R L incertitude est ici quantifiée à l aide du mean squared error, mse( R i ) = mse(ĉi,n C i,n i ) = mse(ĉi,n) = E ( [Ĉi,n C i,n ] 2 Hn ) En utilisant l approximation évoquée auparavant, on peut réécrire le mse sous la forme [ ] 2 mse(ĉi,n) = Var(Ĉi,n H n ) + E(Ĉi,n H n ) Ĉi,n où l on a un terme d erreur de modèle, et un terme d erreur d estimation. soit Pour le premier terme, Var(Ĉi,n H n ) = E(Var(Ĉi,n F i,n i )) + Var(E(Ĉi,n F i,n i )) Var(Ĉi,n H n ) = E(Ĉi, F i,n i ) σ 2 + Var(Ĉi, F i,n i ) λ 2 d où, en itérant sur le dernier terme, [ ] Var(Ĉi,n H n ) = E(Ĉi, F i,n i ) σ+ 2 E(Ĉi,n 2 F i,n i ) σn Z 2 + Var(Ĉi,n 2 F i,n i ) λ 2 n 2 λ 2

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 15 etc. On arrive, en itérant jusqu à n i (car C i,n i est observé), à la relation Var(Ĉi,n H n ) = k=n i en utilisant le fait que pour n i < k < n De l autre côté, [λ n i λ k 1 C i,n i ] σ 2 kλ 2 k+1 λ 2 C i,k = λ n i λ k 1 C i,n i. E(C i,n H n ) = E (E (C i,n F i,n i )) = E (λ C i, F i,n i ) = λ E (C i, F i,n i ) ce qui donne, par itérations successives, E(C i,n H n ) = λ n i λ n i+1 λ C i,n i. Aussi, [ ] 2 E(Ĉi,n H n ) Ĉi,n = C 2 i,n i [λ n i λ λ n i λ ] 2 σ 2 k Pour estimer le premier terme, on remplace simplement λ k par λ k et σk 2 par, de telle sorte que Var(Ĉi,n H n ) = k=n i [ λn i λ k 1 C i,n i ] σ 2 k λ 2 k+1 λ 2 ce qui se réécrit encore, en se basant sur l estimation de la charge ultime (et plus sur la dernière valeur observée) Var(Ĉi,n H n ) = Ĉ2 i,n k=n i σ 2 k / λ 2 k Ĉ i,k. Pour le second terme, ça se complique un peu, car on ne peut pas simplement remplacer λ k par son estimateur. On va alors réécrire [λ n i λ λ n i λ ] sous la forme d une somme, où [λ n i λ λ n i λ ] = k=n i S k = λ n i λ k 1 [λ k λ k ]λ k+1 λ, ce qui permet d écrire le carré de la somme k=n i S 2 k + 2 j<k S j S k. S k

16 Chapitre 1 En notant que on en déduit que E([λ k λ k ] 2 H k ) = Var( λ k H k ) = E(S 2 k H k ) = λ n i λ k 1 σ 2 k σk 2 n k j=1 C, j,k n k j=1 C λ k+1 λ. j,k Et en revanche, pour j < k, E(S j S k H k ) = 0. Aussi, un estimateur pour le second terme peut être λ n i λ k=n i k=n i σ k 2/ λ 2 k n k j=1 C. j,k Proposition 1.2 Le mean squared error du montant de provision mse( R i ), pour une année de survenance i, peut être estimé par ( ) mse( R σ 2 i ) = Ĉ2 k 1 1 i,n + λ 2 k Ĉ n k i,k j=1 C. j,k Toutefois, une compagnie doit au minimum provisionner pour la branche d activité, et par par année. Il faut ensuite calculer le mse pour R = R 1 + + R n. En fait, on notera que [ n ] 2 mse( R) n = E R i R i H n i=2 i=2 i.e. ( n ) [ ( mse( R) n ) ] 2 n = Var C i,n H n + E C i,n H n Ĉ i,n i=2 i=2 i=2 Comme on suppose que les années de survenance sont indépendantes, le premier terme se simplifie, ( n ) n Var C i,n H n = Var (C i,n H n ) i=2 (dont les terms sous le signe sommee ont été calculés auparavant). Pour le second terme, il peut être réécrit [ n ] 2 E (C i,n H n ) Ĉi,n i=2 i=2

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 17 soit n [E (C i,n H n ) Ĉi,n] [E (C j,n H n ) Ĉj,n]. i,j=2 En utilisant les notations précédantes, notons que [E (C i,n H n ) Ĉi,n] [E (C j,n H n ) Ĉj,n] = [C i,n i F i ] [C j,n j F j ] ce qui permet de réécrire le mean squared error pour R. En réutilise alors l astuce de tout à l heure pour estimer F i F j. Proposition 1.3 Le mean squared error du montant de provision mse( R), pour l ensemble des années de survenance, peut être estimé par mse( R) = n mse( R i ) + 2 i=2 2 i<j n Ĉ i,n Ĉ j,n k=n i σ k 2/ λ 2 k n k l=1 C. l,k Cette vision est parfois appelée vision à l ultime de l incertitude relative au montant de provision. Exemple 1.2 Sur le triangle 1.2 mse( R) = 79.30, alors que mse( R n ) = 68.45, mse( R ) = 31.3 ou mse( R n 2 ) = 5.05. 1.3.5 L incertitude à un an de Merz & Wüthrich Pour comprendre la notion d incertitude à un an, plaçons nous un an en arrière. A la fin de l année n 1, nous disposions du triangle sans la dernière diagonale, que l on avait alors complété par la méthode Chain Ladder (Tableau 1.3.5). Si l on ne s intéresse qu aux années antérieures, i = 1,, n 1, à la fin de l année n, nous avions obtenu un triangle avec une diagonale supplémentaire que l on avait alors complété par la méthode Chain Ladder (Tableau 1.3.5). 0 1 2 3 4 1 3209 4372 4411 4428 4435 2 3367 4659 4696 4720 4727.4 3 3871 5345 5398 5422.3 5430.9 4 4239 5917 5970.0 5996.9 6006.4 5 4929 6810.8 6871.9 6902.9 693.9 Table 1.8 Triangle des paiements cumulés sur les années antérieures, C = (C i,j ) i+j,i avec les projection future Ĉ = (Ĉi,j) i+j>. A la fin de l année, le montant de provisions constitué était de 2114, 61, pour ces n 1 premières années. Au final, on pensait payer 27513, 61 (toutes

18 Chapitre 1 0 1 2 3 4 5 1 3209 4372 4411 4428 4435 4456 2 3367 4659 4696 4720 4730 4752.4 3 3871 5345 5398 5420 5430.1 5455.8 4 4239 5917 6020 6046.15 6057.4 6086.1 5 4929 6794 6871.7 6901.5 6914.3 6947.1 Table 1.9 Triangle des paiements cumulés sur les années antérieures, C = (C i,j ) i+j n,i avec les projection future Ĉ = (Ĉi,j) i+j>n. années confondues). A la fin de l année n, la charge totale était revue à la hausse, passant à 27697, 33. Cette augmentation de 183, 72 est appelée mali. C est l incertitude associée à cet quantité qui est aujourd hui demandé dans Solvabilité II. Formellement, il convient d introduire dans les notations la date à laquelle est faite l estimation. Par exemple, on distinguera n i 1 n i λ n i=1 C i,j+1 n+1 i=1 j = n i 1 et λ j = C i,j+1 n i i=1 C i,j i=1 C i,j La section précédante permet de monter que E( λ n j H n ) = λ j et E( λ n+1 j H n+1 ) = λ j. Sauf qu ici, on se place toujours à la date n. Il convient alors de calculer E( λ n+1 j H n ) Notons que si l on pose S n j = C 1,j + C 2,j +, C Cn i, n i λ n+1 i=1 j = C i,j+1 n i i=1 C = i,j soit simplement λ n+1 j n i i=1 C i,j+1 S n+1 = j = Sn j λ n j S n+1 j i i=1 C i,j+1 S n+1 j + C n j,j+1 S n+1. j Lemme 1.1 Sous les hypothèses du modèles de Mack, E( λ n+1 j H n ) = Sn j S n+1 j On en déduit en particulier que E(Ĉn+1 i,j H n ) = C i,n i λ n i λ n j + λ j Cn j,n S n+1. j j 1 k=n i+1 ( λn+1 ) E k H n. + C n j,j+1 S n+1 j

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 19 En reprenant les notations de (21), on peut étudier la variation du boni/mali d une année sur l autre, c est à dire du changement dans la prédiction de la charge totale, entre deux années. Pour cela, on introduit le concept suivant Définition 1.1 Le claims development result CDR i (n + 1), pour l année de survenance i, entre les dates n et n+1, aussi appelé boni ou mali (suivant qu il est positif ou négatif), est CDR i (n + 1) = E(R n i H n ) [ Y i,n i+1 + E(R n+1 i H n+1 ) ], où Y i,n i+1 correspond à l incrément de paiements, Y i,n i+1 = C i,n i+1 C i,n i. On notera que CDR i (n+1) est une martingale H n+1 -mesurable, et que l on peut réécrire De plus, E (CDR i (n + 1) H n ) = C i,n i CDR i (n + 1) = E(C i,n H n ) E(C i,n H n+1 ). j=n i On peut réécrire cette dernière expression E (CDR i (n + 1) H n ) = C i,n i 1 λ n i λ n n i λ n j λ n i j=n i+1 j=n i+1 [ ( S n j S n+1 j 1 + (λ j λ n j ) λ n j + λ j Cn j,j S n+1 j ] C n j,j λ n j. Sn+1 j A l aide de ces relations, on peut calculer, puis estimer, le mse de prédiction conditionel du boni-mali, par année de survenance i pour commencer, puis en aggrégeant toutes les années. Pour l erreur de modélisation, on peut noter que Var(CDR i (n + 1) H n ) = E(C i,n H n ) 2 σ2 n i /λ2 n i C i,n i. Cette dernière grandeur est parfois appelée erreur de prédiction prospective Pour l estimation de ce terme, on considère naturellement Var(CDR i (n + 1) H n ) = (Ĉn i,n) 2 [ σn n i ]2 /[ λ n n i ]2 C i,n i, ). où [ σ n i] n 2 = 1 n j ( ) 2 Ci,j C i,j 1 n j C λ n j 1 i,j 1 i=1

20 Chapitre 1 En revanche pour le second terme, c est un peu plus compliqué. On peut toutefois écrire ( ) Ci,n ie 2 S n λ n j j λ n i S n+1 λ n j + λ j 2 Cn j,j j S n+1 H n. j j=n i j=n i+1 Un peu de calcul permet alors d obtenir l écriture suivante [ ] [ ] σ 2 λ 2 j /λ 2 j j Sj n + 1 + αj 2 σj 2/λ2 j Sj n + 1 2 j=n i j=n i j=n i+1 j=n i+1 [ α j σ 2 j /λ2 j S n j + 1] où α j = Sn j S n+1 j. On arrive finalement à la propriété suivante Lemme 1.2 Sous les hypothèses du modèle de Mack, un estimateur de E(ĈDR i (n+ 1) 2 H n ) mse(ĉdr i (n + 1) H n ) = Ĉ2 i,n ( Γi,n + ) i,n où et Γ i,n = i,n = σ 2 n i+1 λ 2 n i+1 Sn+1 n i+1 + j=n i+2 ( ) σ 2 n i+1 1 + λ 2 n i+1 C i,n i+1 j=n i+2 ( ( 1 + C n j+1,j S n+1 j σ 2 j ) 2 σ 2 j λ 2 j Sn j λ 2 j [Sn+1 j ] C 2 n j+1,j ) 1 Remarque 1.2 On peut noter que Ĉ2 i,n i,n est un estimateur de ) E ([E(ĈDR i (n + 1) H n )] 2 H n. En revanche Ĉ2 i,n Γ i,n est un estimateur de Var(ĈDR i (n + 1) H n ). (21) ont alors approché ce dernier terme terme par σ 2 n i+1 Γ i,n λ 2 n i+1 C + i,n i+1 j=n i+2 ( C n j+1,j S n+1 j ) 2 σ 2 j λ 2 j C n j+1,j

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 21 en faisant tout simplement un développement de la forme (1+u i ) 1+ u i, mais qui n est valide que si u i est petit, soit ici σ j 2 λ 2 j << C n j+1,j. Pour l erreur d estimation, on parle également d erreur de prédiction rétrospective, il convient de calculer, puis d estimer ) E ([CDR i (n + 1) ĈDR i (n + 1)] 2 H n, et pas seulement E(ĈDR i (n + 1) 2 H n ) comme nous venons de le faire. Mais comme nous le rappelerons par la suite, la règlementation ne tient pas compte de ce terme, car il est illégal de supposer ĈDR i (n + 1) 0. Toutefois, pour ce terme, il est possible de montrer la propriété suivante Lemme 1.3 Sous les hypothèses du modèle de Mack, un estimateur de E([ĈDR i (n+ 1) CDR i (n + 1)] 2 H n ) est mse(cdr i (n + 1) H n ) = Ĉ2 i,n ( Φi,n + ) i,n où ( ) σ n i+1 Φ 2 i,n = 1 + λ 2 n i+1 C i,n i+1 j=n i+2 ( 1 + (21) ont alors approché ce dernier terme terme par Φ i,n j=n i+2 [ σ n j ]2 [ λ n j ]2 C n j+1,j ( σ 2 j λ 2 j [Sn+1 j ] C 2 n j+1,j C n j+1,j S n+1 j ) 2, ) 1. en faisant là encore un développement de la forme (1 + u i ) 1 + u i, mais qui n est valide que si u i est petit, soit ici σ j 2 λ 2 j << C n j+1,j. En considérant ces approximations, et en supposant qu il est légalement impossible de prédire autre chose que ĈDR i (n + 1) = 0, on peut finallement réécrire

22 Chapitre 1 Proposition 1.4 Sous les hypothèses du modèle de Mack, mse n (ĈDR i (n+1)) [Ĉn i,n] 2 [ σn n i+1 ]2 [ λ n n i+1 ]2 ( 1 Ĉ i,n i+1 + 1 Ŝ n n i+1 ) + [ σ n j ]2 j=n i+2 [ λ n j ]2 1 Ŝ n j (Ĉn j+1,j Ŝ n+1 j ) 2 Pour rappel, la formule de Mack proposait mse n ( R i ) = [Ĉn i,n] 2 [ σn n i+1 ]2 [ λ n n i+1 ]2 ( 1 Ĉ i,n i+1 + 1 Ŝ n n i+1 ) + [ σ n j ]2 j=n i+2 [ λ n j ]2 ( 1 Ĉ i,j + 1 Ŝ n j Autrement dit, dans le mse du CDR, seulement le première terme de l erreur de modèle de la formule de Mack est considérée, et pour l erreur d estimation, on ne considère que la première diagonale i + j = n + 1 (les termes suivants étant écrasés par le facteur Ĉn j+1,j/ŝn+1 j ). Enfin, si l on regarde finalement ce qui se passe toutes années de survenance confondues, on a une formule qui peut encore se rapprocher de celle proposée par Mack, à savoir ). mse n (CDR(n + 1)) n mse n (CDR i (n + 1)) i=1 + 2 i<l Ĉ n i,nĉn l,n [ σn n i ]2 /[ λ n n i ]2 i 1 k=0 C k,n i + j=n i+1 C n j,j [ σ j n ]2 /[ λ n j n j k=0 C ]2 n j 1. k,j k=0 C k,j Cette approximation n est toutefois valide que si C n j+1,j S n+1 j. Et dans ce cas, on peut s attendre à ce que l incertitude à un an soit inférieure à l incertitude à ultime. Exemple 1.3 Sur le triangle 1.2 mse n (CDR(n+1)) = 72.57, alors que mse n (CDR n (n+ 1)) = 60.83, mse n (CDR (n+1)) = 30.92 ou encore mse n (CDR n 2 (n+1)) = 4.48. La formule approchée donne des résultats semblables. 1.4 Régression Poissonnienne et approches économétriques Dans cette section, nous nous éloignerons des modèles récursifs inspirés de la méthode Chain Ladder, et nous reviendrons sur des classes de modèles très utilisés dans les années 70, appelés modèles à facteurs, remis au goût du jour en proposant une lecture économétrique de ces modèles, permettant ainsi d obtenir des intervalles de confiance des différentes grandeurs.

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 23 1.4.1 Les modèles à facteurs, un introduction historique Avant de présenter l utilisation des modèles de régression, on peut commencer par évoquer des modèles plus anciens. Par exemple (27) supposait que Y i,j = r j µ i+j, pour tout i, j i.e. le paiement effectué l année i + j pour les sinistres survenus l année i est function d un effet colonne (de cadence de paiement) et un effet diagonal, que Taylor interprète comme un facteur d inflation. Ce modèle peut se réécrire, dès lors qu il n y a pas d incrément positif, qui prend alors une forme linéaire. log Y i,j = α i + γ i+j Comme nous l avons noté à la fin de la section 1.2 un modèle de la forme Y i,j = a i b j pourra se rapprocher du modèle Chain Ladder. (29) avait également proposé d utiliser une courbe d Hoerl, c est à dire log Y i,j = α i + β i log(j) + γ i j. Remarque 1.3 Dans cette section, nous travaillerons davantage sur les incréments de paiements Y i,j que sur les montants cumulés C i,j. En effet, conditionnellement aux facteurs (ligne, colonne ou diagonale), il semble plus vraisemblable de supposer les Y i,j comme étant des variables indépendantes, alors que les C i,j ne le seront probablement pas. 1.4.2 Les modèles Gaussiens de de Vylder et de Christophides (8) a été un des premiers modèles économétrique de provisionnement. Pour cela, on suppose que Y i,j N (α i β j, σ 2 ), pour tout i, j On peut estimer les coefficients par moindres carrés, ( α, β) = argmin [Y i,j α i β j ] 2. Les équations normales s écrivent ici j α i = Y β i,j j β et β i j = Y i,j α i, j j 2 i α2 i i,j

24 Chapitre 1 ce qui ne résoud pas explicitement. Pour le résoudre, (5) a suggéré de le réécrire comme un modèle log-linéaire, i.e. log Y i,j N (a i + b j, σ 2 ), pour tout i, j 1.4.3 La régression poissonnienne de Hachemeister & Stanard (12), (15) et enfin (18) ont montré que dans une régression log-poisson sur les incréments, la somme des prédictions des paiments à venir correspond à l estimateur Chain Ladder. On retrouve ici un résultat pouvant être relié à la méthode des marges présentée à la fin de la section 1.2. On suppose ici que E(Y i,j ) = µ i,j = exp[r i + c j ] = a i b j. Il y a ici un 2n paramètres à estimer, a = (a 0,, a n ) et b = (b 0,, b n ), avec une contrainte de la forme b 0 + + b n = 1 (car il nous reste un degré de liberté). Compte tenu du choix des facteurs (ici un facteur ligne r (ou a) et un facteur colonne c (ou b)), une fois estimés ces paramètres, il est possible de prédire la partie inférieure du triangle très simplement, i.e. Ŷ i,j = µ i,j = exp[ r i + ĉ j ] = â i b j. Remarque 1.4 Si les seuls facteurs qui interviennent dans la modélisation sont un facteur ligne et un facteur colonne, on peut aisément prédire toutes les valeurs telles que 0 i, j leqn. On a alors Ŷi,j = â i b j, pour i + j > n. En revanche, si l on intègre un effet calendaire (d inflation comme dans (27)), il sera alors nécessaire de prévoir les valeurs futures du facteur diagonal, Ŷi,j = b j γ i+j, pour i + j > n, où γ i+j désigne une prédiction de l effet diagonale (prédit à partir des γ 0, γ 1,, γ n ). La valeur de référence est la valeur dans le coin supérieur gauche. Compte tenu de la forme logarithmique du modèle, on a une interprétation simple de toutes les valeurs, relativement à cette première valeur E(Y i,j H n ) = E(Y 0,0 H n ) exp[r i + c j ]. Exemple 1.4 Sur le triangle 1.2, on obtient la sortie de régression suivante, en régressant sur un facteur ligne, et un facteur colonne. Call: glm(formula = Y ~ lig + col, family = poisson("log"), data = base) Deviance Residuals: Min 1Q Median 3Q Max -2.343e+00-4.996e-01 9.978e-07 2.770e-01 3.936e+00

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 25 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 8.05697 0.01551 519.426 < 2e-16 *** lig2 0.06440 0.02090 3.081 0.00206 ** lig3 0.20242 0.02025 9.995 < 2e-16 *** lig4 0.31175 0.01980 15.744 < 2e-16 *** lig5 0.44407 0.01933 22.971 < 2e-16 *** lig6 0.50271 0.02079 24.179 < 2e-16 *** col2-0.96513 0.01359-70.994 < 2e-16 *** col3-4.14853 0.06613-62.729 < 2e-16 *** col4-5.10499 0.12632-40.413 < 2e-16 *** col5-5.94962 0.24279-24.505 < 2e-16 *** col6-5.01244 0.21877-22.912 < 2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 46695.269 on 20 degrees of freedom Residual deviance: 30.214 on 10 degrees of freedom (15 observations deleted due to missingness) AIC: 209.52 Number of Fisher Scoring iterations: 4 Les prédictions Ŷi,j sont indiquées dans le tableau 1.4.3. 0 1 2 3 4 5 1 3209 4372 4411 4428 4435 4456 2 3367 4659 4696 4720 4730 4752.4 3 3871 5345 5398 5420 5430.1 5455.8 4 4239 5917 6020 6046.15 6057.4 6086.1 5 4929 6794 6871.7 6901.5 6914.3 6947.1 6 5217 7204.3 7286.7 7318.3 7331.9 7366.7 Table 1.10 Triangle des prédictions d incréments de paiements, Ŷ = (Ŷi,j) 0 i,j n par une régression log-poisson. 1.4.4 Incertitude dans un modèle de régression Nous avions noté auparavant qu obtenir une estimation du montant de sinistres restant à payer ne suffisait pas, et qu il fallait avoir un intervalle de

26 Chapitre 1 confiance, ou - au moins - une mesure de la dispersion du vrai montant autour de cette valeur prédite. Les formules économétriques fermées Les modèles de régressions pourraient paraître très intéressants car il existe des formules fermés pour toutes sortes de prédictions. Par exemple, dans une régression GLM avec un lien logarithmique, rappelons que ou encore E(Y i,j H n ) = µ i,j = exp[η i,j ] Ŷ i,j = µ i,j = exp[ η i,j ]. La delta method nous permet d écrire que Var(Ŷi,j) 2 µ i,j η i,j Var( η i,j ), ce qui se simplifie dans le cas où le lien est logarithmique, i.e. µ i,j η i,j = µ i,j Aussi, pour une loi de Poisson surdispersée (comme dans (22)), ( E [Y i,j Ŷi,j] 2) φ µ i,j + µ 2 i,j Var( η i,j ) pour la partie inférieure du triangle. De plus, car il sera nécessaire de sommer tous les termes de la partie inférieure du triangle pour déterminer le montant total de provisions, Cov(Ŷi,j, Ŷk,l) µ i,j µ k,l Ĉov( η i,j, η k,l ). Le montant de provision que l on cherche à estimer étant la somme des prédictions de paiements à venir, R = i+j>n Ŷi,j, alors ( E [R R] 2) i+j>n φ µ i,j + µ Var( η) µ Remarque 1.5 Cette formule est malheureusement asymptotique, ce qui est rarement le cas en provisionnement où l on dispose de très peu de données. Exemple 1.5 Sur notre triangle, on obtient un mean squared error de l ordre de 131.77.

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 27 Les méthodes de simulations Les méthodes de simulation sont une bonne alternative si on dispose de trop peu de données pour invoquer des théorèmes asymptotiques. Rappelons, comme le notait (19) qu il existe 2 sources d incertitude, l erreur de modèle (on parle de process error) l erreur d estimation (on parle de variance error) Il sera alors nécessaire d utiliser deux algorithmes pour quantifier ces deux erreurs. Afin de quantifier l erreur d estimation, il est naturel de simuler des faux triangles (supérieurs), puis de regarder la distribution des estimateurs de montant de provisions obtenus pour chaque triangles. A l étape b, on génère un pseudo triangle à l aide des résidus de Pearson. Rappelons que pour une régression de Poisson, ε i,j = Y i,j µ i,j µi,j. Les erreurs de Peqrson obtenues peuvent être visualisées dans le Tableau 1.4.4 0 1 2 3 4 5 1 0.948-1.128-1.533-0.489-0.427 0.000 2 0.024 0.277-2.213 0.792 0.414 3 0.116 0.056-1.024-0.297 4-1.082 0.891 4.237 5 0.130-0.211 6 0.000 Table 1.11 Le triangle des résidus de Pearson, ε où ε i,j = µ 1/2 i,j [Y i,j µ i,j ]. On considère les erreurs de Pearson (et non pas les erreurs brutes Y i,j µ i,j ) car les données sont hétérescédastiques. Les erreurs de Pearson ont été définies de manière à normaliser les résidus (que l on pourra alors supposer i.i.d). Remarque 1.6 Les résidus de Pearson ne sont générallement pas Gaussien, ils sont simplement centrés et réduits. La Figure 1.7 montre en particulier que les supposer Gaussien nous ferait probablement sous-estimer la Value-at-Risk pour un niveau élevé. En simulant des erreurs (qui sont supposées indépendantes et identiquement distribuée), ε b = ( ε b i,j ), on pose alors Y b i,j = µ i,j + µ i,j ε b i,j. Pour générer des erreurs, la méthode la plus usuelle est d utiliser une simulation nonparamétrique, c est à dire que l on va bootstrapper les résidus parmi

28 Chapitre 1 les pseudorésidus obtenus. Sinon il est aussi possible d utiliser un modèle paramétrique (par exemple supposer une loi normale, même si rien - théoriquement - ne justifie cette méthode). Le Tableau 1.4.4 présente un triangle simulé Y b = (Y b i,j ). 0 1 2 3 4 5 1 3155.7 1216.4 42.2 18.2 9.0 22.9 2 3381.7 1245.4 84.0 18.2 11.1 3 3726.1 1432.5 61.44 23.44 4 4337.3 1642.8 74.6 5 4929.0 1879.8 6 5186.1 Table 1.12 Triangle de paiements bootstrapé, Y b = (Y b i,j ). 0 1 2 3 4 5 1 0.00 0.414-1.082-0.211 0.0277 0.414 2 0.277-1.024 4.237-0.489 0.792 3-2.213-1.024 0.056 0.000 4 0.414 0.024 0.792 5 0.130 0.130 6-0.427 Table 1.13 Triangle de résidus simulé par bootstrap, ε b = (ε b i,j ). Une fois simulé un pseudo triangle d incréments de paiments, on prédit un montant de provision R b (par exemple via une méthode Chain Ladder, ou en refaisant une modélisation log-poisson si les incréments de paiements sont tous positifs). La variance des R b correspond à l erreur d estimation. Le Tableau 1.14 présente la modélisation du triangle simulé 1.4.4 par un modèle log-poisson Ŷ b = (Ŷ i,j b ). La somme des termes dans la partie inférieure donne une valeur possible pour l estimation du montant de provision R b = 2448.175. Afin de prendre en compte l erreur de modèle, plusieurs méthodes peuvent être utilisées. La première, et la plus simple, consiste à noter qu à partir du pseudo triangle Yi,j b b, peut obtenir des prédictions pour la partie inférieure, Ŷi,j. Compte tenu du modèle Poissonnien, on peut alors simuler une trajectoire possible d incréments de paiements en simulant les Yi,j b à l aide de loi de Poisson de paramètre Ŷ i,j b. Le Tableau 1.4.4 une simulation de paiements futurs à partir du triangle simulé 1.4.4 Y b P(Ŷ b ). La somme des termes dans la partie inférieure dans

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 29 0 1 2 3 4 5 1 3157.5 1199.1 56.7 18.4 9.7 22.8 2 3369.9 1279.8 60.5 19.6 10.3 24.4 3 3735.8 1418.7 67.1 21.7 11.5 27.0 4 4331.7 1645.1 77.8 25.2 13.3 31.4 5 4934.6 1874.0 88.6 28.7 15.2 35.7 6 5186.1 1969.5 93.1 30.2 16.0 37.6 Table 1.14 Triangle des prédictions Ŷ b = (Ŷ i,j b ) obtenues sur le triangle simulé, Y b = (Yi,j b ). une valeur possible pour les paiements restant à faire R b. 0 1 2 3 4 5 1 2 29 3 10 24 4 27 11 37 5 94 34 16 40 6 1956 102 26 15 36 Table 1.15 Triangle de paiements simulés, Y b P(Ŷ b ). La seconde méthode est d utiliser une relecture du modèle de (19), proposée par (10). A partir du pseudo triangle, on va utiliser les facteurs de développement λ j et les variances associés σ j 2 obtenus sur le triangle initial. On prolonge alors le triangle dans la partie inférience via le modèle dynamique Ĉ b i,j+1 (Ĉb i,j,, Ĉb i,0) N ( λ j Ĉ b i,j, σ 2 j Ĉb i,j). Exemple 1.6 Sur le triangle 1.2 la variance empirique de R nous permet d avoir un bon estimateur de mse( R). Ici, à l aide de 100 000 simulations, on obtient la distribution pour R donnée sur la Figure 1.8. Sur cet exemple, on obtient un écart-type (empirique) pour les simulations de R b de l ordre de 84.12 (ce qui se rapproche davantage des 79.3 de la méthode de Mack, que des 131.7 obtenus par développements asymptotiques). 1.4.5 Quel modèle de régression? Nous avions justifié l utilisation de la loi de Poisson, car le montant de provisions prédit coïncidait avec l estimateur Chain Ladder. Mais rien ne permet de justifier statistiquement l adéquation de la loi de Poisson a nos données.

30 Chapitre 1 Prise en compte d une éventuelle surdispersion En fait, la régression quasi Poisson peut éventuellement être plus adaptée (comme cela est mentionné par exemple dans (25)). Exemple 1.7 Sur le triangle 1.2 une modélisation par une loi quasipoisson donne la sortie suivante Call: glm(formula = Y ~ lig + col, family = quasipoisson("log"), data = base) Deviance Residuals: Min 1Q Median 3Q Max -2.343e+00-4.996e-01 9.978e-07 2.770e-01 3.936e+00 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 8.05697 0.02769 290.995 < 2e-16 *** lig2 0.06440 0.03731 1.726 0.115054 lig3 0.20242 0.03615 5.599 0.000228 *** lig4 0.31175 0.03535 8.820 4.96e-06 *** lig5 0.44407 0.03451 12.869 1.51e-07 *** lig6 0.50271 0.03711 13.546 9.28e-08 *** col2-0.96513 0.02427-39.772 2.41e-12 *** col3-4.14853 0.11805-35.142 8.26e-12 *** col4-5.10499 0.22548-22.641 6.36e-10 *** col5-5.94962 0.43338-13.728 8.17e-08 *** col6-5.01244 0.39050-12.836 1.55e-07 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for quasipoisson family taken to be 3.18623) Null deviance: 46695.269 on 20 degrees of freedom Residual deviance: 30.214 on 10 degrees of freedom (15 observations deleted due to missingness) AIC: NA Number of Fisher Scoring iterations: 4 Le paramètre de surdispersion φ vaut ici 3.18 (qui est significativement supérieur à 1). Dans l exemple considéré, on obtient φ =, où Var(Y i,j ) = φ E(Y i i, j). L estimation donne les mêmes résulats que la régression de Poisson, toutefois, il faut alors pour simuler une loi quasi Poisson.

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 31 La simulatin de cette quasi loi, se fait généralement suivant une des deux méthodes suivantes. La première idée est d utiliser une approximation par une loi binomiale négative BN(r, p). Rappelons que pour cette loi E(N) = r 1 p p = λ et Var(N) = r 1 p p 2 = φλ, de telle sorte que, si on cherche à simuler une loi quasipoisson de paramètres λ et φ, p = E(N) Var(N) = 1 φ et r = λφ φ 1. La seconde idée est d utiliser une approximation par une loi Gamma (dont on pourra prendre la partie entière) E(N) = αβ = λ et Var(N) = αβ = φλ, soit α = λ/φ et β = φ. La Figure 1.9 permet de comparer la simulation de ces lois. Entre un modèle Poisson et un modèle Gamma Si les modèles GLM sont générallement présentés comme des modèles où une hypothèse de loi est faite (la loi de la variable dépendante Y devant appartenir à la famille exponentielle), rappelons les modèles GLM peuvent être caractérisés par une modélisation des deux premiers moments, E(Y X) = h(xβ) et Var(Y X) = V (E(Y X)) = g((xβ)), où la fonction lien, h, qui lie la prédiction aux facteurs, ici Ŷi,j = E(Y i,j H n ) = exp[ γ + α i + β j ], la loi ou la fonction variance, V, qui donne la forme de la dispersion, ici Var(Y i,j H n ) = φ E(Y i,j H n ). L unique motivation du modèle précédent (loi de Poisson, i.e. fonction variance identité, et lien logarithmique) est qu il permet d obtenir exactement le même montant que la méthode Chain Ladder. Mais aucun critère statistique n a été évoqué, pour l instant, afin de légitimer ce modèle. Les modèles Tweedie sont une famille de sur-modèle, incluant le modèle Poissonnien. On suppose que la fonction lien, est une fonction puissance, ou plutôt une tranformée de Box-Cox, Ŷi,j = g 1 λ [ γ + α i + β j ] où g λ (x) = λ 1 [x λ 1] si λ > 0 avec le cas limite g 0 (x) = log(x). la fonction variance, qui donne la forme de l intervalle de confiance, ici Var(Y i,j H n ) = φ E(Y i,j H n ) κ où les paramètres λ et κ sont inconnus.