Chapitre 10 Risque et assurance Arthur Charpentier Dans ce chapitre, nous allons présenter quelques modèles utilisés par les assureurs afin de quantifier les risques pris. Dans les premiers chapitres, il était mentionné qu un risque était une variable aléatoire X (ou un ensemble de variables aléatoires X), et que la gestion des risques se résumait à calculer R(X) (ou R[h(X)] si h désigne une fonction d agrégation). Mais nous n avions pas encore introduit d aspect temporel, sous entendant dans les sections traitant de l inférence statistique qu au moment de quantifier le risque, des observations X i (ou X i ) étaient disponibles. C est bien entendu très simplificateur. A la fin de l année, un assureur ne connait pas les coûts des sinistres survenus pendant l année. On peut parler des accidents corporels en assurance automobile, ou de la responsabilité civile des hôpitaux, ou de l expérience du sang contaminé dans les centres de transfusion. On pourra aussi penser à l assurance décès : les engagements pris ne seront parfois honnorés que d ici plusieurs dizaines d années. Dans ce chapitre, nous insisterons sur deux risques (parmi beaucoup d autres). Le premier sera la modélisation des «provisions pour sinistres à payer», et plus particulièrement, la présentation de méthodes permettant de quantifier la marge d erreur associée à ce calcul de provisions. Le second sera le risque démographique présent dans les contrats d assurance en cas de décès, ou surtout en cas de vie, en essayant de calculer la probabilité qu un assuré décède dans 30 ou 40 ans. 10.1 La problématique du provisionnment en assurance Comme le définit (19), «les provisions techniques sont les provisions destinées à permettre le règlement intégral des engagements pris envers les assurés
2 Chapitre 10 et bénéficiaires de contrats. Elles sont liées à la technique même de l assurance, et imposées par la règlementation». D un point de vue plus formel, à la date t, la compagnie d assurance est tenue de constituer une provision pour les sinistres survenus avant la date t qu elle sera tenu d indemniser (et de tenir ainsi la promesse qu elle a vendue). Elle doit donc estimer le coût des sinistres survenus, et retrancher les montants déjà versés. Il s agit donc fondamentalement d un problème de prévision. En effet, contrairement à l hypothèse faite dans la plupart des modèles actuariels, les coûts de sinistres ne sont pas connus le jour de la survenance du sinistre. Il y a tout d abord un délai avant que le sinistre ne soit déclaré à la compagnie d assurance par l assuré, puis un temps (plus ou moins long) de gestion du sinistre, d expertises, de paiements, avant de le clôturer plusieurs mois, ou plusieurs années plus tard. La Figure 10.1 illustre la problématique du provisionnement, avec un diagramme de Lexis de la vie des sinistres. Années de développement 0 2 4 6 8 10 2006 2008 2010 2012 2014 Temps calendaire Figure 10.1 Évolution de la vie des sinistres, sur un diagramme de Lexis, avec en abscisse le temps calendaire (la date à laquelle un opération est effectuée : déclaration, paiement, etc), et en ordonnée l âge des sinistres. Les sinistres surviennent à la date, sont déclarrés à l assureur à la date + et clôturés à la date. L exercice de provisionnement consiste à estimer à une date donnée (ici fin 2010, correspondant au trait plein vertical), le montant des paiements restant à faire pour l ensemble des sinistres survenus (déclarés ou pas). En pratique, le jour de la déclaration du sinistre à l assureur (+), le gestionnaire de sinistres est tenu d estimer un montant du sinistre dont il vient
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 3 d avoir connaissance (à l aide de factures à sa disposition, ou de coûts moyens de sinistres similaires). Le montant réel du sinistre ne sera connu que le jour de la clôture ( ). Entre ces deux dates, le gestionnaire de sinistre peut réviser ses estimations de coûts, mais aussi effectuer des paiements. En pratique, au lieu de travailler sur des données individuelles, les données sont ici aggrégées par années (comme indiquée sur la Figure 10.1) : on s intéresse à l année de survenance du sinistre (i, en abscisse) et l année du paiement (par rapport à l année de la survenance, j, en ordonnées). Parmi les méthodes reconnues par les autorités de contrôles, les plus classiques sont basées sur les cadences de paiements. On raisonne pour cela par année de survenance de sinistre, et on suppose une certaine régularité dans la cadence de paiement. 10.1.1 Quelques définitions et notations La plupart des méthodes présentées ici sont détaillées dans (5), ou (21). L idée est d agréger les informations sur les sinistres dans des triangles, avec : l année de survenance en ligne i, l année de développement en colonne j = 0, 1, 2,, l année calendaire en diagonale i + j, Parmi les informations que l on trouvera résumée : Y i,j les incréments de paiments, pour les sinistres survenus l année i, et pour l année de développement j (autrement dit payé l année i+j), comme indiqués dans la Table 10.1 C i,j les paiments cumulés, au sens où C i,j = Y i,0 + Y i,1 + + Y i,j, pour l année de survenance i, correspondant à l ensemble des paiements effectués pour les sinistres survenus l année i, entre l année i et l année i + j, comme dans la Table 10.2 N i,j le nombre cumulé de sinistres pour l année de survenance i, vu au bout de j années, dans la Table 10.3 (en milliers) Les données sont celles utilisées dans (16), et les calculs numériques sont détaillés dans (2). Enfin, une information non aléatoire (les primes étant payées en début de période de couverture) peut aussi être utilisée P i la prime acquise pour l année i (répartie prorata temporis pour les contrats chevauchant une année calendaire), dans la Table 10.4 On parle de triangle car au delà de la dernière diagonale, les montants (et les nombres) ne sont pas connus. La difficulté est donc de prévoir les montants qui seront payés par le futur : comme rappelé en introduction, les compagnies d assurance sont tenues de constituer des provisions pour garantir que ces paiements pourront être faits. Comme le notait (1), «it is hoped that more casualty actuaries will involve themselves in this important area. IBNR reserves deserve more than just a clerical or cursory treatment and we believe, as did Mr. Tarbell Chat the problem of incurred but not reported claim reserves is essentially actuarial or statistical. Perhaps in today s environment the quotation would
4 Chapitre 10 Table 10.1 Triangle des incréments de paiements, Y = (Y i,j ). 0 1 2 3 4 5 0 3209 1163 39 17 7 21 1 3367 1292 37 24 10 2 3871 1474 53 22 3 4239 1678 103 4 4929 1865 5 5217 Table 10.2 Triangle des paiements cumulés, C = (C i,j ). 0 1 2 3 4 5 0 3209 4372 4411 4428 4435 4456 1 3367 4659 4696 4720 4730 2 3871 5345 5398 5420 3 4239 5917 6020 4 4929 6794 5 5217 be even more relevant if it stated that the problem...is more actuarial than statistical.». 10.1.2 Formalisation du problème du provisionnement Comme évoqué dans le paragraphe précédant, le provisionnement est fondamentalement un problème de prédiction, conditionnelle à l information dont on dispose à la date n. En particulier, on a besoin de prévoir la charge ultime des sinistres, pour une année de survenance donnée, C i,. On notera F n l information disponible à la date n, soit formellement : H n = {(Y i,j ), i + j n} = {(C i,j ), i + j n}. On cherche à étudier, par année de survenance, la loi conditionnelle de C i, sachant H n, ou encore, si l on suppose les sinistres clos au bout de n années la loi de C i,n sachant H n. Si l on se focalise sur une année de survenance particulière, on pourra noter : F i,n i = {(Y i,j ), j = 0,, n i)} = {(C i,j ), j = 0,, n i)}. Cette notation permet de prendre en compte que l information disponible change d une ligne à l autre.
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 5 Table 10.3 Triangle des nombres de sinistres, cumulés, en milliers, N = (N i,j ). 0 1 2 3 4 5 0 1043.4 1045.5 1047.5 1047.7 1047.7 1047.7 1 1043.0 1027.1 1028.7 1028.9 1028.7 2 965.1 967.9 967.8 970.1 3 977.0 984.7 986.8 4 1099.0 1118.5 5 1076.3 Table 10.4 Vecteur des primes acquises, P = (P i ). 0 1 2 3 4 5 4591 4672 4863 5175 5673 6431 H n F i,n i On cherchera par la suite à prédire le coût final des sinistres à payer survenus l année i : Ĉ (n i) i, = E[C i, F i,n i ]. Classiquement, on commencera par supposera que les sinistres sont clôturés au bout de n années, au plus (on reviendra sur cette hypothèse par la suite). Aussi, C i, = C i,n, et on cherche alors à prédire : Ĉ (n i) i,n = E[C i,n F i,n i ], et la différence entre ce montant et le montant déjà payé constituera la provision pour sinistres à payer, R i = Ĉ(n i) i,n C i,n i. On essayera ensuite de quantifier l incertitude associée à cette prédiction. Comme on le verra les méthodes usuelles visaient à calculer Var[C i,n F i,n i ] ou Var[Ĉ(n i) i,n ], ce que l on appelera incertitude à horizon ultime. Mais ce n est pas ce qui est demandé d un point de vue comptable et réglementaire, Solvabilité II demandant
6 Chapitre 10 plutôt de mesurer une incertitude dite «à un an». Pour cela, on va s intéresser à la prédiction qui sera faite dans un an, Ĉ (n i+1) i,n = E[C i,n F i,n i+1 ] et plus particulièrement le changement dans l estimation de la charge ultime n i = Ĉ(n i+1) i,n Ĉ(n i) i,n. Si cette différence est positive, on parle de «mali» (il faudra gonfler la provision afin de pouvoir payer les sinistres), et si elle est négative, on parle de «boni» (l assureur avait trop provisionné, et sur-estimé la charge ultime des sinistres). On peut montrer que E[ n i F i,n i ] = 0, autrement dit, on ne peut espérer faire ni boni, ni mali, en moyenne. On a alors une propriété de martingale. Les contraintes règlementaires imposées par Solvabilité II demandent de calculer Var[ n i F i,n i ]. La Figure 10.2 montre les estimations de montant de provisions deux années consécutives. On note ici que la variation est faible, mais sur des branches d assurance à forte variabilité (en particulier pour les dommages corporels, ou la responsabilité civile), la variation peut ètre beaucoup plus importante. 10.2 Les cadences de paiements et la méthode Chain Ladder L idée d utiliser des cadences de paiements pour estimer la charge future date du début du XXème siècle. On suppose qu il existe une certaine proportionnalité, avec une relation de récurrence de la forme : C i,j+1 = λ j C i,j pour tout i, j = 1,, n. Un estimateur naturel pour λ j, basé sur l expérience passée est alors : λ j = n j i=1 C i,j+1 n j i=1 C i,j pour tout j = 1,, n 1. De telle sorte que l on peut alors prédire la charge pour la partie non-observée dans le triangle : ] Ĉ i,j = [ λn+1 i... λ j 1 C i,n+1 i.
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 7 Montant (paiements et réserves) 3500 4000 4500 5000 5500 6000 6500 0 1 2 3 4 Figure 10.2 Estimation de la charge ultime Ĉi,n deux années consécutives (n 1 et n), avec en gris le montant total de paiements déjà effectués, C i,n i et en noir le montant de provisions R i. Notons qu au lieu de calculer les facteurs de développement, on peut aussi des taux de développement, cumulés ou non. Autrement dit, au lieu d écrire C i,j+1 = λ j C i,j pour tout i, j = 1,, n, on suppose que : On notera que : γ j = C i,j = γ j C i,n ou Y i,j = ϕ j C i,n. n k=j+1 { 1 γ1 si j = 1 et ϕ j = λ k γ j γ j 1 si j > 1 Table 10.5 Facteurs de développement, λ = ( λ i ), exprimés en cadence de paiements par rapport à la charge ultime, en cumulé (noté γ), puis en incréments (noté ϕ). 0 1 2 3 4 n λ j 1,38093 1,01143 1,00434 1,00186 1,00474 1,0000 γ j 70,819% 97,796% 98,914% 99,344% 99,529% 100,000% ϕ j 70,819% 26,977% 1,118% 0,430% 0,185% 0,000%
8 Chapitre 10 On notera qu il est possible de voir l estimateur Chain-Ladder comme une moyenne pondérée des facteurs de transition individuels : n j C i,j λ j = ω i,j λ i,j où ω i,j = n j i=1 C i,j i=1 i=1 et λ i,j = C i,j+1 C i,j. Aussi, on peut obtenir ces coefficients à l aide de régressions linéaires pondérées sans constantes, en régressant les C,j+1 sur les C,j, { n j [ λ j = argmin C i,j λ C ] } 2 i,j+1, λ R C i,j soit : λ j = argmin λ R { n j i=1 } 1 [λc i,j C i,j+1 ] 2. (10.1) C i,j Table 10.6 Triangle des paiements cumulés, C = (C i,j ) i+j n avec leur projection future Ĉ = (Ĉi,j) i+j>n. 0 1 2 3 4 5 0 3209 4372 4411 4428 4435 4456 1 3367 4659 4696 4720 4730 4752.4 2 3871 5345 5398 5420 5430.1 5455.8 3 4239 5917 6020 6046.15 6057.4 6086.1 4 4929 6794 6871.7 6901.5 6914.3 6947.1 5 5217 7204.3 7286.7 7318.3 7331.9 7366.7 10.3 Modèle multiplicatif et méthode des marges Avec l écriture C i,j = γ j C i,n, on voit que la méthode Chain Ladder repose sur l utilisation d un facteur ligne (les C i,n ) et d un facteur colonne (les γ j ). On peut ainsi réécrire le modèle sous la forme C i,j = A i B j. Afin d identifier les paramètres, des contraintes doivent être imposer. Par exemple, il peut être légitime de demander une égalité de la somme par ligne, mais aussi par colonnes, des C i,j, mais aussi des A i B j. Autrement dit, on cherche des vecteurs A = (A 0,, A n ) et B = (B 0,, B n ), avec B 0 + + B n = 1, tels que : n j n j n i n i A i B j = Y i,j pour tout j, et A i B j = Y i,j pour tout i, i=0 i=0 (on ne somme que sur la partie observée du triangle) les montants prédits dans la partie inférieure du triangles. Alors les termes (A i B j ) i+j>n (correspondant j=0 j=0
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 9 aux prédictions pour les paiements futurs), coïncident avec les quantités prédites par la méthode Chain Ladder ((18)). Proposition 10.1 S il existe A = (A 0,, A n ) et B = (B 0,, B n ), avec B 0 + + B n = 1 (car il faut rajouter une contrainte d identifiabilité), tels que alors et n j n j n i n i A i B j = Y i,j pour tout j, et A i B j = Y i,j pour tout i, i=0 i=0 B k = j=k j=0 Ĉ i,n = A i = C i,n i 1 λ j j=k 1 k=n i λ k j=0 1 1, avec B 0 =. λ j j=k λ j Autrement dit, le montant de provision coïncide avec l estimateur obtenu par la méthode Chain Ladder. Preuve 10.1 La démonstration se fait de manière récursive. Commençons par réécrire les conditions, n j n j n j n i n i n i Y i,j = A i B j = B j A i, et Y i,j = A i B j =, A i B j. i=0 i=0 i=0 j=0 j=0 Pour i = 0 dans la dernière somme, on en déduit que n j=0 A 0 = Y i,j n n j=0 B = Y i,j = C 0,n. j Supposons que la relation sur les A i soit vérifiée pour 0, 1, 2,, n k 1, et que i j=0 B j = 1 λ j aux étapes n, n 1,, k. Alors à l étape n k, n k A i = i=0 qui peut se réécrire soit encore n k 1 i=0 n k 1 i=0 C i,k j=i A i + A n k = n k 1 k=n i i=0 C i,k n k 1 i=0 k=n i λ k + C n k,k j=0 C i,k λ k + k=n i k=n i C n k,k k j=0 B j n k λ k = i=0 λ k + C i,k j=0 k j=0 Y n k,j k j=0 B j k=n i λ k.
10 Chapitre 10 De plus, en réécrire k k+1 B j = B j B k+1 = j=0 j=0 Pour le terme de droite, en notant que n k 1 j=0 on obtient que Y j,k = k B j = j=0 n k 1 j=0 j=k [S j,k+1 S j,k ] = λ 1 j n k 1 j=0 ( ) 1 1 1 + λ n k λ 1 j = j=n k+1 n k 1 j=0 Y j,k n k 1 j=0 A j n k 1 S j,k+1 j=n k j=0 λ 1 j. En soustrayant à chacune des étapes, on obtient le résultat annoncé. Nous reviendrons sur ce modèle dans la sectionn 10.5, car la régression de Poisson avec un lien logarithmique (dont les paramètres sont estimés par maximum de vraisemblance) coïncide avec la méthode des marges. S j,k 10.4 De Mack à Merz & Wüthrich La méthode dite Chain Ladder, que nous venons de voir, est une méthode dite déterministe, au sens où l on ne construit pas de modèle probabiliste permettant de mesurer l incertitude associée à la prédiction du montant des réserves. Différents modèles ont été proposés à partir des années 90, à partir du modèles de Mack, jusqu à l approche proposée par Merz & Wüthrich qui introduira la notion de «incertitude à un an». 10.4.1 Quantifier l incertitude dans une prédiction Nous avons obtenu, par la méthode Chain Ladder un estimateur du montant de provision, R (même si nous n avons pas, pour l instant, de modèle stochastique sous-jacent). Classiquement, pour quantifier l erreur associée à un estimateur, on calcule l erreur quadratique moyenne - ou «mean squared error» mse - associée : E([ R R] 2 ). Formellement, comme R est ici une variable aléatoire, on ne parle pas d erreur d estimation, mais d erreur de prévision : on va alors calculer un erreur quadratique moyenne de prediction - ou «mean squared error of prediction» - notée msep (on ne prédit pas sur les données passées, mais on utilisera les donnéees
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 11 pour calibrer un modèle qui servira ensuite à faire de la prédiction pour les années futures). Aussi msep( R) = E([ R R] 2 ). Ce terme peut se décomposer en deux (en faisant une approximation au premier ordre), au sens où E([ R R] 2 ) E([ R E(R)] 2 ) + E([R E(R)] 2 ) } {{ } } {{ } Var(R) mse( R) où le terme de gauche est l erreur d estimation, compte tenu du fait que nous avons dû estimer le montant de provisions à partir de la partie supérieure du triangle, et le terme de droite est l erreur classique de modèle (tout modèle comportant une partie résiduelle orthogonale aux observations, et donc imprévisible). En fait, en toute rigueur (et nous en aurons besoin par la suite), on cherche plutôt à calculer un msep conditionnel à l information dont on dispose au bout de n années, msep n ( R) = E([ R R] 2 H n ). 10.4.2 Le formalisme de Mack (13) a proposé un cadre probabiliste afin de justifier l utilisation de la méthode Chain-Ladder. Pour cela, on suppose que (C i,j ) j 0 est un processus Markovien, et qu il existe λ = (λ j ) et σ = (σj 2 ) tels que { E(Ci,j+1 H i+j ) = E(C i,j+1 C i,j ) = λ j C i,j Var(C i,j+1 H i+j ) = Var(C i,j+1 C i,j ) = σ 2 j C i,j On note que sous ces hypothèses, E(C i,j+k H i+j ) = E(C i,j+k C i,j ) = λ j λ j+1 λ j+k 1 C i,j. (13) rajoute une hypothèse supplémentaire d indépendance entre les années de survenance, autrement dit (C i,j ) j=1,...,n et (C i,j) j=1,...,n sont indépendant pour tout i i. Une réécriture du modèle est alors de supposer que C i,j+1 = λ j C i,j + σ j Ci,j + ε i,j+1, où les résidus (ε i,j ) sont i.i.d. et centrés. A partir de cette écriture, il peut paraître légitime d utiliser les méthodes des moindres carrés pondérés pour estimer ces coefficients, en notant que les poids doivent être inversement proportionnels à la variance, autrement dit aux C i,j, i.e. à j donné, on cherche à résoudre min { n j i=1 } 1 (C i,j+1 λ j C i,j ) 2 C i,j
12 Chapitre 10 qui correspond à l équation 10.1 : on va donc retrouver le même montant de provisions qu avec la méthode Chain Ladder. Pour tester ces deux premières hypothèses, on commence par représenter les C,j+1 en fonction des C,j à j donné. Si la première hypothèse est vérifiée, les points doivent être alignés suivant une droite passant par l origine. La Figure 10.3 montre ainsi les nuages de points pour j = 1 et j = 2. PAID[, j + 1] 4500 5000 5500 6000 6500 PAID[, j + 1] 4500 5000 5500 6000 3500 4000 4500 5000 PAID[, j] 4500 5000 5500 6000 6500 PAID[, j] Figure 10.3 Nuage de points C,j+1 en fonction des C,j droite de régression passant par l origine. pour j = 1, 2, et Pour la seconde hypothèse, on peut étudier les résidus standardisés ((13) parle de «weighted residuals»), ε i,j+1 = C i,j+1 λ j C i,j Ci,j. L utilisation des résidus standardisés nous donnent d ailleurs une idée simple pour estimer le paramètre de volatilité. ( n j 1 σ j 2 1 C i,j+1 = λ ) 2 j C i,j n j 1 Ci,j ce qui peut aussi s écrire σ 2 j = 1 n j 1 i=0 n j 1 i=0 ( Ci,j+1 C i,j λ j ) 2 C i,j (ce qui est à rapprocher de l écriture du facteur de transition λ comme moyenne pondérée des facteurs de transitions observés). Cette méthode permet d estimer les différents paramètres intervenant dans le modèle de (13).
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 13 10.4.3 La notion de «tail factor» Comme nous l avions expliqué dans l introduction, jusqu à présent, on a supposé que la première ligne de notre triangle est close : il n y a plus de sinistres ouverts, et donc le montant de provision pour cette année de survenance est nul. Aussi, pour tout i, on suppose que C i, = C i,n. Cette hypothèse peut être un peu trop forte pour les branches à déroulement long. (14) a posé les bases des premiers modèles qui sont toujours utilisés, reposant sur l idée d un «tail factor». On supposera qu il existe alors un λ > 1 tel que C i, = C i,n λ. Une méthode qui a souvent été utilisée a reposé sur l idée que l on pouvait projeter les λ i par une extrapolation exponentielle (ou une extrapolation linéaire des log(λ k 1)), puis on pose λ = k n λ k Mais mieux vaut faire attention, en particulier s il y a des valeurs aberrantes. Ici, cette méthode prévoit de rajouter 0, 07% de charge par rapport à la prédiction faite par les méthodes classiques, en supposant la première année close. 10.4.4 De l incertitude sur R i et R L incertitude est ici quantifiée à l aide de l erreur quadratique moyenne, ( mse( R ] ) 2 i ) = mse(ĉi,n C i,n i ) = mse(ĉi,n) = E [Ĉi,n C i,n H n. En utilisant l expression on peut réécrire le mse sous la forme E([X x] 2 ) = Var(X) + [E(X) x] 2, [ Ĉi,n] 2 mse(ĉi,n) = Var(Ĉi,n H n ) + E(Ĉi,n H n ), où l on a un terme d erreur de modèle, et un terme d erreur d estimation. soit Pour le premier terme, Var(Ĉi,n H n ) = E(Var(Ĉi,n F i,n i )) + Var(E(Ĉi,n F i,n i )) Var(Ĉi,n H n ) = E(Ĉi, F i,n i ) σ 2 + Var(Ĉi, F i,n i ) λ 2
14 Chapitre 10 d où, en itérant sur le dernier terme, Var(Ĉi,n H n ) = E(Ĉi, F i,n i ) σ 2 [ ] + E(Ĉi,n 2 F i,n i ) σn Z 2 + Var(Ĉi,n 2 F i,n i ) λ 2 n 2 λ 2 etc. On arrive, en itérant jusqu à n i (car C i,n i est observé), à la relation Var(Ĉi,n H n ) = k=n i [λ n i λ k 1 C i,n i ] σ 2 kλ 2 k+1 λ 2 en utilisant le fait que pour n i < k < n, C i,k = λ n i λ k 1 C i,n i. Pour le second terme, E(C i,n H n ) = E (E (C i,n F i,n i )) = E (λ C i, F i,n i ) = λ E (C i, F i,n i ), ce qui donne, par itérations successives, E(C i,n H n ) = λ n i λ n i+1 λ C i,n i. Aussi, [ ] 2 [ E(Ĉi,n H n ) Ĉi,n = C 2 i,n i λ n i λ λ n i λ ] 2. σ 2 k Pour estimer le premier terme, on remplace simplement λ k par λ k et σk 2 par, de telle sorte que Var(Ĉi,n H n ) = k=n i [ λn i λ k 1 C i,n i ] σ 2 k λ 2 k+1 λ 2 ce qui se réécrit encore, en se basant sur l estimation de la charge ultime (et plus sur la dernière valeur observée) Var(Ĉi,n H n ) = Ĉ2 i,n k=n i σ 2 k / λ 2 k Ĉ i,k. Pour le second terme, ça se complique un peu, car on ne peut pas simplement remplacer λ k par son estimateur. On va alors réécrire [λ n i λ λ n i λ ] sous la forme d une somme, [λ n i λ λ n i λ ] = k=n i S k
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 15 où S k = λ n i λ k 1 [λ k λ k ]λ k+1 λ, ce qui permet d écrire le carré de la somme En notant que on en déduit que k=n i S 2 k + 2 j<k S j S k. E([λ k λ k ] 2 H k ) = Var( λ k H k ) = E(S 2 k H k ) = λ n i λ k 1 σ 2 k σk 2 n k j=1 C, j,k n k j=1 C λ k+1 λ. j,k Et en revanche, pour j < k, E(S j S k H k ) = 0. Aussi, un estimateur pour le second terme peut être λ n i λ On en déduit le résultat suivant : k=n i k=n i σ k 2/ λ 2 k n k j=1 C. j,k Proposition 10.2 L erreur quadratique moyenne du montant de provision mse( R i ), pour une année de survenance i, peut être estimé par ( ) mse( R σ 2 i ) = Ĉ2 k 1 1 i,n + λ 2 k Ĉ n k i,k j=1 C. j,k Toutefois, une compagnie doit au minimum provisionner pour la branche d activité, et par par année. Il faut ensuite calculer le mse pour R = R 1 + + R n. En fait, on notera que ] 2 mse( R) n n = E R i R i H n i=2 i=2 soit ( n ) [ ( mse( R) n ) ] 2 n = Var C i,n H n + E C i,n H n Ĉ i,n i=2 i=2 i=2 Comme on suppose que les années de survenance sont indépendantes, le premier terme se simplifie, ( n ) n Var C i,n H n = Var (C i,n H n ) i=2 i=2
16 Chapitre 10 (dont les terms sous le signe sommee ont été calculés auparavant). Pour le second terme, il peut être réécrit [ n ] 2 soit i=2 E (C i,n H n ) Ĉi,n n [E (C i,n H n ) Ĉi,n] [E (C j,n H n ) Ĉj,n]. i,j=2 En utilisant les notations précédantes, notons que [E (C i,n H n ) Ĉi,n] [E (C j,n H n ) Ĉj,n] = [C i,n i F i ] [C j,n j F j ] ce qui permet de réécrire l erreur quadratique moyenne pour R. En réutilise alors l astuce précédante pour estimer F i F j. Proposition 10.3 L erreur quadratique moyenne du montant de provision mse( R), pour l ensemble des années de survenance, peut être estimé par mse( R) = n mse( R i ) + 2 i=2 2 i<j n Ĉ i,n Ĉ j,n k=n i σ k 2/ λ 2 k n k l=1 C. l,k Cette vision est parfois appelée «vision à l ultime» de l incertitude relative au montant de provision. Exemple 10.1 Sur le triangle de paiements 10.2, mse( R) = 79.30, alors que mse( R n ) = 68.45, mse( R ) = 31.3 ou mse( R n 2 ) = 5.05. 10.4.5 L incertitude à un an de Merz & Wüthrich Pour comprendre la notion d incertitude à un an, plaçons nous un an en arrière. A la fin de l année n 1, nous disposions du triangle sans la dernière diagonale, que l on avait alors complété par la méthode Chain Ladder (Table 10.4.5). Si l on ne s intéresse qu aux années antérieures, i = 0,, n 1, à la fin de l année n, nous avions obtenu un triangle avec une diagonale supplémentaire que l on avait alors complété par la méthode Chain Ladder (Table 10.4.5). A la fin de l année, le montant de provisions constitué était de 2114, 61, pour ces n 1 premières années. Au final, on pensait payer 27513, 61 (toutes années confondues). A la fin de l année n, la charge totale était revue à la hausse, passant à 27697, 33. Cette augmentation de 183, 72 correspond à un «mali». C est l incertitude associée à cette quantité qui est aujourd hui demandé dans le cadre des changements des normes comptables imposées par Solvabilité II.
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 17 Table 10.7 Triangle des paiements cumulés sur les années antérieures, C = (C i,j ) i+j,i avec les projection future Ĉ = (Ĉi,j) i+j>. 0 1 2 3 4 0 3209 4372 4411 4428 4435 1 3367 4659 4696 4720 4727.4 2 3871 5345 5398 5422.3 5430.9 3 4239 5917 5970.0 5996.9 6006.4 4 4929 6810.8 6871.9 6902.9 693.9 Table 10.8 Triangle des paiements cumulés sur les années antérieures, C = (C i,j ) i+j n,i avec les projection future Ĉ = (Ĉi,j) i+j>n. 0 1 2 3 4 5 0 3209 4372 4411 4428 4435 4456 1 3367 4659 4696 4720 4730 4752.4 2 3871 5345 5398 5420 5430.1 5455.8 3 4239 5917 6020 6046.15 6057.4 6086.1 4 4929 6794 6871.7 6901.5 6914.3 6947.1 Si on souhaite formaliser le calcul que l on vient d effectuer, il convient d introduire dans les notations la date à laquelle est faite l estimation. Par exemple, on distinguera λ n j = n i 1 n i i=0 C i,j+1 n+1 i=0 n i 1 et λ j = C i,j+1 n i i=0 C i,j i=0 C i,j qui sont les facteurs de transitions obtenus l année n et l année n+1. La section précédante permet de monter que E( λ n j H n ) = λ j et E( λ n+1 j H n+1 ) = λ j. Sauf qu ici, on se place toujours à la date n. Il convient alors de calculer H n ). Notons que E( λ n+1 j n i λ n+1 i=0 j = C i,j+1 n i i=0 C = i,j soit simplement n i i=0 C i,j+1 S n+1 = j i i=0 C i,j+1 S n+1 j + C n j,j+1 S n+1 j λ n+1 j = Sn j λ n j S n+1 j + C n j,j+1 S n+1. j
18 Chapitre 10 Lemme 10.1 Sous les hypothèses du modèles de Mack, E( λ n+1 j H n ) = Sn j S n+1 j On en déduit en particulier que E(Ĉn+1 i,j H n ) = C i,n i λ n i λ n C n j,n j + λ j S n+1. j j 1 k=n i+1 ( λn+1 ) E k H n. En reprenant les notations de (15), on peut étudier la variation du boni/mali d une année sur l autre, c est à dire du changement dans la prédiction de la charge totale, entre deux années. Pour cela, on introduit le concept suivant Définition 10.1 Le «claims development result» CDR i (n + 1), pour l année de survenance i, entre les dates n et n + 1 est CDR i (n + 1) = E(R n i H n ) [ Y i,n i+1 + E(R n+1 i H n+1 ) ], où Y i,n i+1 correspond à l incrément de paiements, Y i,n i+1 = C i,n i+1 C i,n i. On notera que CDR i (n+1) est une martingale H n+1 -mesurable, et que l on peut réécrire CDR i (n + 1) = E(C i,n H n ) E(C i,n H n+1 ). De plus, E (CDR i (n + 1) H n ) peut s écrire ou encore C i,n i C i,n i j=n i λ n j λ n i 1 λ n i λ n n i j=n i+1 j=n i+1 [ ( S n j S n+1 j 1 + (λ j λ n j ) λ n j + λ j Cn j,j S n+1 j ] C n j,j λ n j. Sn+1 j ), A l aide de ces relations, on peut calculer, puis estimer, l erreur quadratique moyenne de prédiction conditionnel du boni-mali (ou du CDR avec ces notations), par année de survenance i pour commencer, puis en aggrégeant toutes les années. Pour l erreur de modélisation, on peut noter que Var(CDR i (n + 1) D n ) = E(C i,n D n ) 2 σ2 n i /λ2 n i C i,n i.
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 19 Pour l erreur d estimation, où Pour l estimation de ces deux termes, on considère naturellement Var(CDR i (n + 1) D n ) = (Ĉn i,n) 2 [ σn n i ]2 /[ λ n n i ]2 C i,n i, [ σ n i] n 2 = 1 n j ( ) 2 Ci,j C i,j 1 n j C λ n j 1 i,j 1 j=n i i=0 En revanche pour le second terme, c est un peu plus compliqué. On peut toutefois écrire ( ) Ci,n ie 2 S n λ n j j λ n i S n+1 λ n j + λ j 2 Cn j,j j S n+1 H n. j j=n i+1 Un peu de calcul permet alors d obtenir [ ] [ σ 2 j /λ 2 j + 1 + j=n i λ 2 j j=n i S n j j=n i+1 α 2 j σ 2 j /λ2 j S n j + 1 ] 2 j=n i+1 [ α j σ 2 j /λ2 j S n j + 1] où α j = Sn j S n+1 j. On arrive finalement à la propriété suivante Lemme 10.2 Sous les hypothèses du modèle de Mack, msepc (CDR i (t)) = Ĉ2 i,n ( Γi,n + ) i,n où et Γ i,n = i,n = σ 2 n i+1 λ 2 n i+1 Sn+1 n i+1 + ( ) σ 2 n i+1 1 + λ 2 n i+1 C i,n i+1 j=n i+2 j=n i+2 ( ( 1 + C n j+1,j S n+1 j σ 2 j ) 2 σ 2 j λ 2 j Sn j λ 2 j [Sn+1 j ] C 2 n j+1,j ) 1. (15) ont alors approché ce terme par σ 2 n i+1 Γ i,n λ 2 n i+1 C + i,n i+1 j=n i+2 ( C n j+1,j S n+1 j ) 2 σ 2 j λ 2 j C n j+1,j
20 Chapitre 10 en faisant tout simplement un développement de la forme (1+u i ) 1+ u i, mais qui n est valide que si u i est petit, soit ici σ j 2 λ 2 j << C n j+1,j. Si l on regarde finalement ce qui se passe toutes années de survenance confondues, (15) ont obtenu une formule fermée. Sur le triangle 10.1, on obtient les grandeurs données dans la Table 10.4.5 avec respectivement l incertitude à l ultime, et l incertitude (avec ou sans l approximation discutée dans le paragraphe précédant). Table 10.9 Erreurs quadratiques moyenne de prévision conditionnelles, à l ultime ou sur les boni-mali (CDR), avec la formule exacte, et la forme approchée 0 1 2 3 4 5 cumul Mack 0.0 0.6 2.5 5.0 31.3 68.4 79.3 Merz-Wüthrich (app.) 0.0 1.4 2.5 4.5 30.9 60.8 72.6 Merz-Wüthrich (ex.) 0.0 1.3 2.5 4.5 30.9 60.8 72.6 10.5 Régression et modèles factoriels Dans cette section, nous nous éloignerons des modèles récursifs inspirés de la méthode Chain Ladder, et nous reviendrons sur des classes de modèles très utilisés dans les années 70, appelés «modèles à facteurs», remis au goût du jour en proposant une lecture économétrique de ces modèles, permettant ainsi d obtenir des intervalles de confiance des différentes grandeurs. 10.5.1 Les modèles à facteurs, un introduction historique Avant de présenter l utilisation des modèles de régression, on peut commencer par évoquer des modèles plus anciens. Par exemple (20) supposait que Y i,j = r j µ i+j, pour tout i, j, autrement dit, on suppose qu il existe un effet colonne de cadence de paiement (paramètre r j ), et un effet diagonal, que (20) interprète comme un facteur d inflation (paramètre µ i+j ). Ce modèle peut se réécrire, dès lors qu il n y a pas d incrément négatif, log Y i,j = α i + γ i+j
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 21 qui prend alors une forme linéaire. On montrera par la suite que le cas log Y i,j = a i + b j s apparentent à un modèle de type Chain-Ladder. En effet, cela suppose que Y i,j = α i β j que l on peut rapprocher du modèle de développement Y i,j = C i,n ϕ j. 10.5.2 Les modèles de de Vylder et de Chritophides (4) a été un des premiers modèles économétrique de provisionnement, afin d estimer les paramètres intervenant dans les modèles factoriels. Pour cela, on suppose que Y i,j N (α i β j, σ 2 ), pour tout i, j On peut estimer les coefficients par moindres carrés, Les équations normales s écrivent ici ( α, β) = argmin [Y i,j α i β j ] 2. α i = j Y i,j β j j β 2 j i,j et β i j = Y i,j α i, i α2 i ce qui ne résoud pas explicitement. Pour le résoudre, (3) a suggéré de le réécrire comme un modèle log-linéaire, soit log Y i,j N (a i + b j, σ 2 ), pour tout i, j. Dans ce cas, le modèle admet des estimateurs explicites des paramètres. Les estimations de ces paramètres sont donnés dans la Table 10.10, et la prédiction dans la Table 10.11. Le montant de provisions dans ce cas est la somme des incréments dans la partie inférieure du triangle, corrigé en tenant compte de l écart-type estimé σ (ici 0,1753). En effet, Ŷ i,j = exp ) (â i + b j + σ2 2 On obtient ici on montant total de provisions de l ordre de 2481,857 (très comparable au montant obtenu par la méthode Chain Ladder).
22 Chapitre 10 Table 10.10 Estimation des a i et b j, avec pour la valeur de référence une constante valant 7,9471, dans le modèle log-linéaire de Christophides. 1 2 3 4 5 â i 0,16 0,27 0,59 0,55 0,61 (0,11) (0,12) (0,13) (0,16) (0,21) bj -0,96-4,23-5,05-5,90-4,90 (0,11) (0,12) (0,13) (0,16) (0,21) Table 10.11 Triangle des incréments paiements estimés, Ŷ = (Y i,j ) i+j n avec leur projection future Ŷ = (Ŷi,j) i+j>n dans le modèle log-linéaire de Christophides. 0 1 2 3 4 5 0 2871 1091 41 18 8 21 1 3370 1281 49 21 9 25 2 3767 1432 55 24 10 28 3 5181 1969 75 32 14 38 4 4994 1898 72 32 14 37 5 5297 2013 77 34 14 39 10.5.3 La régression poissonnienne de Hachemeister & Stanard Une alternatuve est de réécrire le modèle proposé par (4) sous la forme d une régression de Poisson, avec : Y i,j P(exp(a i + b j )), pour tout i, j. (7), (9) et enfin (12) ont montré que dans une régression log-poisson sur les incréments, la somme des prédictions des paiments à venir correspond à l estimateur Chain Ladder. On retrouve ici un résultat pouvant être relié à la méthode des marges présentée à la fin de la section 10.3. On suppose ici que E(Y i,j ) = µ i,j = exp[a i + b j ] = α i β j Il y a ici un 2n paramètres à estimer, a = (a 0,, a n ) et b = (b 0,, b n ), avec une contrainte de la forme b 0 + + b n = 1 (car il nous reste un degré de liberté). Compte tenu du choix des facteurs (ici un facteur ligne α (ou a) et un facteur colonne β (ou b)), une fois estimés ces paramètres, il est possible de prédire la partie inférieure du triangle très simplement : Ŷ i,j = µ i,j = exp[ r i + ĉ j ] = â i b j.
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 23 La valeur de référence est la valeur dans le coin supérieur gauche. Compte tenu de la forme logarithmique du modèle, on a une interprétation simple de toutes les valeurs, relativement à cette première valeur E(Y i,j F n ) = E(Y 0,0 F n ) exp[a i + b j ]. Les estimations de ces paramètres sont donnés dans la Table 10.12, et la prédiction dans la Table 10.13. Le montant de provisions dans ce cas est la somme des incréments dans la partie inférieure du triangle, à savoir ici 2426,985, qui correspond (exactement) au montant obtenu avec la méthode Chain Ladder. Table 10.12 Estimation des a i et b j, avec pour la valeur de référence une constante valant 8,057, dans la régression de Poisson. 1 2 3 4 5 â i 0,06 0,20 0,31 0,44 0,50 (0,02) (0,02) (0,02) (0,02) (0,02) bj -0,96-4,14-5,10-5,94-5,01 (0,01) (0,06) (0,13) (0,24) (0,22) Table 10.13 Triangle des incréments paiements estimés, Ŷ = (Y i,j ) i+j n avec leur projection future Ŷ = (Ŷi,j) i+j>n dans le modèle log-linéaire de Christophides. 0 1 2 3 4 5 0 3156 1202 50 19 8 21 1 3366 1282 53 20 9 22 2 3864 1472 61 23 10 26 3 4310 1641 68 26 11 29 4 4920 1874 78 30 13 33 5 5217 1987 83 32 14 35 10.5.4 Incertitude dans un modèle de régression Nous avions noté auparavant qu obtenir une estimation du montant de sinistres restant à payer ne suffisait pas, et qu il fallait avoir un intervalle de confiance, ou au moins une mesure de la dispersion du vrai montant autour de cette valeur prédite.
24 Chapitre 10 Les formules économétriques fermées Les modèles de régressions pourraient paraître très intéressants car il existe des formules fermés pour toutes sortes de prédiction. Par exemple, dans une régression GLM avec un lien logarithmique, rappelons que E(Y i,j F n ) = µ i,j = exp[η i,j ] ou encore Ŷ i,j = µ i,j = exp[ η i,j ]. La delta method nous permet d écrire que Var(Ŷi,j) 2 µ i,j η i,j Var( η i,j ), ce qui se simplifie dans le cas où le lien est logarithmique, à savoir : µ i,j η i,j = µ i,j. Aussi, pour une loi de Poisson surdispersée (on peut introduire un paramètre de surdispersion φ, comme dans (17)), ( E [Y i,j Ŷi,j] 2) φ µ i,j + µ 2 i,j Var( η i,j ) pour la partie inférieure du triangle. De plus, car il sera nécessaire de sommer tous les termes de la partie inférieure du triangle pour déterminer le montant total de provisions, Cov(Ŷi,j, Ŷk,l) µ i,j µ k,l Ĉov( η i,j, η k,l ). Le montant de provision que lêon cherche à estimer étant la somme des prédictions de paiements à venir, R = i+j>n Ŷi,j, alors ( E [R R] 2) i+j>n φ µ i,j + µ Var( η) µ Remarque 10.1 Cette formule est malheureusement asymptotique, ce qui est rarement le cas en provisionnement où l on dispose de très peu de données. La Table 10.5.4 avec respectivement l incertitude à l ultime obtenue par la formule de Mack, avec celle calculée ci-dessus
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 25 Table 10.14 Erreurs quadratiques moyenne de prévision conditionnelles, avec les formules d incertitude asymptotique des modèles linéaires généralisées. 0 1 2 3 4 5 cumul Mack 0.0 0.6 2.5 5.0 31.3 68.4 79.3 GLM 0.0 105.2 29.6 25.9 24.1 60.3 131.8 Les méthodes de simulations Les méthodes de simulation sont une bonne alternative si on dispose de trop peu de données pour invoquer des théorèmes asymptotiques. Rappelons, comme le notait (13) qu il existe deux sources d incertitude, l erreur d estimation (on parle de «variance error») sur l estimation de R, l erreur de modèle (on parle de «process error») sur lévolution possible de R. Il sera alors nécessaire d utiliser deux algorithmes pour quantifier ces deux erreurs. Afin de quatifier l erreur d estimation, il est naturel de simuler des faux triangles (supérieurs), puis de regarder la distribution des estimateurs de montant de provisions obtenus pour chaque triangles. A l étape b, on génère un pseudo triangle à l aide des résidus de Pearson. Rappelons que pour une régression de Poisson, les résidus de Pearson ε i,j = Y i,j Ŷi,j Ŷi,j, sont (asymptotiquement) de variance unitaire. Si l on souhaite avoir des résidus normalisés, il convient de considérer ε i,j = n n k Y i,j Ŷi,j Ŷi,j, où k est le nombre de facteurs de la régression. En simulant des erreurs (qui sont supposées indépendantes et identiquement distribuée), ε b = ( ε b i,j ), on pose alors Yi,j b = Ŷi,j + Ŷ i,j ε b i,j. Pour générer des erreurs, la méthode la plus usuelle est d utiliser une simulation nonparamétrique, c est à dire que l on va bootstrapper les résidus parmi les pseudorésidus obtenus. Sinon il est aussi possible d utiliser un modèle paramétrique (par exemple supposer une loi normale, même si rien théoriquement ne justifie cette méthode).
26 Chapitre 10 Table 10.15 Le triangle des résidus de Pearson, ε i,j. 0 1 2 3 4 5 0 1.375-1.635-2.222-0.710-0.619 0.000 1 0.035 0.402-3.208 1.149 0.600 2 0.169 0.082-1.484-0.431 3-1.569 1.293 6.141 4 0.189-0.306 5 0.000 Le triangle des résidus obtenus peuvent être visualisés sur la Table 10.5.4. Une fois simulé un pseudo triangle d incréments de paiments, on prédit un montant de provision R b (par exemple à l aide de la méthode Chain Ladder, une difficulté technique est qu il est possible de générer, par simulation, des pseudos triangles à incréments négatifs). La variance des R b correspond à l erreur d estimation. Afin de prendre en compte l erreur de modèle, plusieurs méthodes peuvent être utilisées. La première, et la plus simple, consiste à noter qu à partir du pseudo triangle Yi,j b b, peut obtenir des prédictions pour la partie inférieure, Ŷi,j. Compte tenu du modèle Poissonnien, on peut alors simuler une trajectoire possible d incréments de paiements en simulant les Yi,j b à l aide de loi de Poisson de paramètre Ŷ i,j b. Remarque 10.2 En fait, la régression quasi-poisson peut éventuellement être plus adaptée. Dans l exemple considéré, on obtient φ = 3.186, où Var(Y i,j ) = φ E(Y i,j ). L estimation donne les mêmes résulats que la régression de Poisson, toutefois, il faut alors pour générer une loi quasi-poisson. La simulation de cette quasi-loi, se fait généralement suivant une des deux méthodes suivantes. La première idée est d utiliser une approximation par une loi binomiale négative BN(r, p). Rappelons que pour cette loi E(N) = r 1 p p = λ et Var(N) = r 1 p p 2 = φλ, de telle sorte que, si on cherche à simuler une loi quasi-poisson de paramètres λ et φ, p = E(N) Var(N) = 1 φ et r = λφ φ 1. La seconde idée est d utiliser une approximation par une loi Gamma (dont on pourra prendre la partie entière) E(N) = αβ = λ et Var(N) = αβ = φ λ,
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 27 soit α = λ/φ et β = φ. La Figure 10.4 permet de comparer la simulation de ces lois. La Table 10.5.4 permet de comparer les quantiles de R (tenant compte de l incertitude associée à l estimation) et de R (par simulation à partir ) Table 10.16 Quantiles de R et de R, par bootstrap et simulations, dans un modèle quasi-poisson. 75% 95% 99% 99,5% R 2478 2609 2704 2733 R 2507 2653 2764 2805 0.000 0.001 0.002 0.003 0.004 0.005 2200 2300 2400 2500 2600 2700 2800 Montant de provisions Figure 10.4 Distribution de R, avec deux méthodes de générations de scénarios, suivant une loi de Poisson (en trait pointillé), ou une approximation de la loi quasi-poisson par une loi Gamma (en trait plein)). 10.5.5 Quel modèle de régression? Comme nous l avons mentionné dans le premier chapitre, deux paramètres fondamentaux interviennent dans une régression linéaire généralisée, la «fonction lien», qui lie la prédiction aux facteurs, ici un lien logarithmique Ŷ i,j = E(Y i,j F n ) = exp[widehatα i + β j ]
28 Chapitre 10 Rnarm Rsnarm 2000 2200 2400 2600 2800 3000 Density 0.000 0.001 0.002 0.003 0.004 2200 2400 2600 2800 3000 N = 18079 Bandwidth = 11.07 Figure 10.5 Boxplot et densité estimée de R et de R, par simulation. la loi ou la «fonction variance», qui donne la forme de l intervalle de confiance, ici une loi de Poisson, Var(Y i,j F n ) = φ E(Y i,j F n ) L unique motivation du modèle précédent est qu il permet d obtenir exactement le même montant que la méthode Chain Ladder. Mais aucun critère statistique n a été évoqué, pour l instant, afin de légitimer ce modèle. Les modèles Tweedie sont une famille de sur-modèle, incluant le modèle Poissonnien. On suppose que la fonction lien, est une fonction puissance, ou plutôt une tranformée de Box-Cox, Ŷi,j = g 1 λ [ α i + β j ] où g λ (x) = λ 1 [x λ 1] si λ > 0 avec le cas limite g 0 (x) = log(x). la fonction variance, qui donne la forme de l intervalle de confiance, ici Var(Y i,j F n ) = φ E(Y i,j F n ) µ où les paramètres λ et µ sont inconnus.
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 29 10.6 Modélisation et prédiction de la mortalité future De même que le provisionnement posait le problème de la dynamique de la vie des sinistres (dont le montant n est pas connu le jour de la survenance du sinistre), les contrats d assurance vie sont liés à des probabilités de décès (ou de survie) dans un futur plus ou moins lointain. L assurance vie doit donc également être vu comme un problème de prévision, tout comme la modélisation des provisions pour sinistres à payer. Le diagramme de Lexis, présenté dans la Figure 10.1 a d ailleurs été introduit en démographie, et en assurance-vie : des individus naissent ( ) puis décèdent ( ), avec entre temps, des versements de primes (de l assuré vers l assureur) ou de prestations (de l assureur vers l assuré). Les cadences de paiments sont souvent déterministes car prédeterminées de manière contractuelle, la seule incertitude étant ici la durée de vie de l assuré. L outil central pour décrire la survie est la table de mortalité, présentée dans la Table 10.17, qui donne l évolution de L x, nombre de survivants d âge x. 10.6.1 Modélisation statique des contrats d assurance vie Si l assurance non-vie reposait essentiellement sur des modélisation stochastique des sinistres à venir (et des dates auxquelles des payements seront effectués), l assurance-vie consiste fondamentalement à actualiser des flux futurs (aléatoires). Comme le rappelait l introduction, l aléa dans les flux est généralement associé au décès ou à la survie d un assuré (on omettra ici l aléa sur les montants ou leur actualisation). De la même manière que nous nous étions attaché à calculer primes à l aide d espérance de flux en assurance non-vie, nous allons ici calculer calculer des grandeurs de la forme : ( ) C k E (1 + i) T 1(paiement à la date T i ) k k=1 où l assureur s est engagé à verser un capital C i à des dates T i, à condition qu une hypothèse soit vérifiée à la date T i (souvent un décès, ou une survie). Compte tenu de la linéarité de l espérance, si l on suppose le taux d actualisation non aléatoire, on peut réécrire cette dernière expression sous la forme : C k (1 + i) T P(paiement à la date T i ). k k=1 La valeur actuelle probable s écrit, de manière très générale, k j=1 C j p j (1 + i) j
30 Chapitre 10 Table 10.17 Table de mortalité TD 88-90, avec les L x, nombre de survivants d âge x, pour x allant de 0 à 107. x L x x L x x L x x L x 0 100000 27 97222 54 88011 81 35824 1 99129 28 97070 55 87165 82 32518 2 99057 29 96916 56 86241 83 29220 3 99010 30 96759 57 85256 84 25962 4 98977 31 96597 58 84211 85 22780 5 98948 32 96429 59 83083 86 19725 6 98921 33 96255 60 81884 87 16843 7 98897 34 96071 61 80602 88 14133 8 98876 35 95878 62 79243 89 11625 9 98855 36 95676 63 77807 90 9389 10 98835 37 95463 64 76295 91 7438 11 98814 38 95237 65 74720 92 5763 12 98793 39 94997 66 73075 93 4350 13 98771 40 94746 67 71366 94 3211 14 98745 41 94476 68 69559 95 2315 15 98712 42 94182 69 67655 96 1635 16 98667 43 93868 70 65649 97 1115 17 98606 44 93515 71 63543 98 740 18 98520 45 93133 72 61285 99 453 19 98406 46 92727 73 58911 100 263 20 98277 47 92295 74 56416 101 145 21 98137 48 91833 75 53818 102 76 22 97987 49 91332 76 51086 103 37 23 97830 50 90778 77 48251 104 17 24 97677 51 90171 78 45284 105 7 25 97524 52 89511 79 42203 106 2 26 97373 53 88791 80 39041 107 0
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 31 où C = (C 1,, C k ) est l ensemble des montants à verser, i est est le taux d actualisation, et p = (p 1,, p k ) est le vecteur des probabilité de verser le capital aux différentes dates. À partir du moment où nous disposons de toutes les probabilités, il est possible de faire tous les calculs imaginables d actualisation de flux futurs probables. Pour un assuré d âge x, on notera T x sa durée de vie résiduelle, et k p x la probabilité qu il survive encore k années, où T désigne sa durée de vie. kp x = P(T x > k) = P(T > x + k T > x) Exemple 10.2 Le plus simple est probablement la valeur actuelle probable d un capital différé («pure endowment») k E x, correspondant à la valeur actuelle probable d un capital de 1 dans le cas où une personne actuellement d âge x soit encore en vie à au bout de k années, ke x = 1 (1 + i) k P(T > x + k T > x) = 1 (1 + i) k k p x Exemple 10.3 Considérons le cas du versement d une unité monnétaire, commençant dès aujourd hui, et continuant tant que l assuré sera vivant (on parlera d annuité vie entière). On supposera l annuité payable d avance. On peut montrer que ä x = k=0 1 (1 + i) k k p x = ke x k=0 Plus généralement, on veut considérer non pas des assurance annuelles, mais temporaires, d une durée de n années : nä x = k=0 1 (1 + i) k k p x = k=0 Notons que l on peut également différer de h années, h nä x = h+ k=h ke x h+ 1 (1 + i) k k p x = Exemple 10.4 Comme précédament, le cas le plus simple est probablement l assurance décès vie entière, dont la valeur actuelle probable s écrit, pour un k=h ke x
32 Chapitre 10 assuré d âge x qui souhaite le versement d une unité à la fin de l année de son décès, ( 1 T ) ( ) 1 T 1 A x = E = E T = k = 1 + i 1 + i (1 + i) k k 1 p x1 q x+k 1. k=1 Plus générallement, on peut définir une assurance temporaire décès, où le versement du capital n a lieu que si le décès survient dans les n années qui suivent la signature du contrat, na x = n k=1 k=1 1 (1 + i) k k 1 p x1 q x+k 1. 10.6.2 Extension dans un cadre dynamique Dans le cadre statique, toutes les grandeurs pouvaient être construites à partir des tables de mortalités, c est à dire des L x, ou des 1 p x, où x était l âge des individus. On supposait alors k+hp x = L x+h+k L x = h p x+k kp x = L x+h+k L x+h Lx+h L x, puisque pour survivre jusqu à l âge x + k + h, un assuré d âge x devait déjà survivre jusqu à l âge x + k, et donc P(T > x + k + h T > x) = P(T > x + k + h T > x + k) P(T > x + k T > x). Avec la notation précédante, on omet le fait que les probabilités n était pas calculés à la même date. Désormais, nous allons intégrer la dimension temporelle, en notant qu une «table de mortalité» est construite à une date t. Aussi, formellement, on notera L x,t le nombre de personnes d âge x en vie à la date t. Les données que nous allons utilisées sont tirées du site internet http ://mortality.org, et il s agit de données françaises, avec respectivement la mortalité des femmes, des hommes, et de l ensemble, entre 1899 et 2005. Ici on dispose de D x,t le nombre de personnes décédée à l âge x l année t, et E x,t l exposition, avec x allant de 0 à 110 ans (environ), et t observé jusqu à une date que l on notera T (ici 2005). Pour commencer, on peut visualiser l évolution de la surface du taux de mortalité, sur la Figure 10.6, afin de mieux comprendre la nécessité d une analyse dynamique de la démographie, où µ x,t = D x,t E x,t La figure 10.7 permet de visualiser la «rectangularisation» des fonctions de survie, en fonction du temps, en faisant varier l année t.
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 33 10.7 Le modèle de Lee & Carter La modélisation retenue pour le taux instantané de mortalité est la suivante : log µ x,t = α x + β x κ t + ε xt, avec les variables aléatoires ε xt indépendantes et identiqueement distribuées. L idée du modèle est donc d ajuster à la série (doublement indicée par x et t) des logarithmes des taux instantanés de décès une structure paramétrique (déterministe) à laquelle s ajoute un phénomène aléatoire. Le coefficient κ t capture ici la dynamique temporel, qui impactera différment les différents âges, d où le coefficient β x (par exemple les gains sur la mortalité infantile ne sont pas du même ordre que pour les àges élevés), et enfin, un facteur α x décrivant l évoluation moyenne de la mortalité en fonction de l âge x. Le critère d optimisation généralement retenu consiste à maximiser la variance expliquée par le modèle, ce qui revient à minimiser la variance des erreurs. Autrement dit, l estimation des paramètres s effectue en résolvant : { } ( α x, β ) x, κ t = arg min (log µ x,t α x β x κ t ) 2. On retient en général les deux contraintes d identifiabilité suivantes : x,t x M x=x m β x = 1 et t M t=t m k t = 0. Une alternative est d utiliser une régression de Poisson, de la forme D x,t P(E x,t exp[α x + β x κ t ]). ou, de manière plus réaliste, un modèle de type binomial, D x,t B(E x,t, logit(α x + β x κ t )). L estimation des coefficients fonctions de l âge x peut se visualiser sur la Figure 10.8, avec respectivement x α x et x β x. Pour prédire la mortalité future, on utilise µ x,t = exp ( α x + β ) x κ t pour t > T. Pour les les coefficients fonctions de l âge x ( α x et β x ) on utilise les estimateurs obtenus auparavant, mais pour les coefficients liés au temps t (les coefficients κ t ), on a besoin de prédictions. On peut ajuster plusieurs modèles. (8) suggère des méthodes de lissage exponentiel, (10) ou (11) encore suggèrent un modélisation par un processus ARIMA (avec, ou sans tendance). La grande
34 Chapitre 10 difficulté (en pratique) est ici de savoir quelles données utiliser pour effectuer la prévision, en particulier s il faut tenir compte des deux guerres mondiales. La Figure 10.9 permet de noter que les prévisions sont alors sensiblement différentes, en particulier si l on tient compte de l intervalle de confiance. Comme le montrent l évolution des résidus de Pearson de modèle Poissonien ε x,t, en fonction de lâge x et en fonction du temps t, sur les Figures 10.10 et 10.11, ce modèle peut être grandement amélioré. Par exemple, (6) suggère d intégrer un effet cohorte, log µ x,t = α x + β x κ t + γ x δ t x + ε x,t. Une fois modélisée et projetée le taux de décès, toutes les quantités actuarielles (et démographiques) usuelles peuvent être dérivées.
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 35 2 taux de mortalité 4 6 8 2000 1980 1960 Année 1940 1920 1900 0 20 40 Age 60 80 Figure 10.6 Surface du taux de mortalité, en fonction de l année d observation, et de l âge. Fonction de survie (à la naissance) 0.0 0.2 0.4 0.6 0.8 1.0 1990 1980 1970 1960 1950 1940 1930 1920 1910 0 20 40 60 80 100 120 Age Figure 10.7 «Rectangularisation» des fonctions de survie.
36 Chapitre 10 7 6 5 4 3 2 1 0.005 0.010 0.015 0.020 0.025 0 20 40 60 80 100 0 20 40 60 80 100 Age Age Figure 10.8 Estimation des fonctions x α x et x β x du modèle de Lee- Carter. Forecasts from ARIMA(0,1,0) with drift Forecasts from ARIMA(1,1,0) with drift 500 400 300 200 100 0 100 500 400 300 200 100 0 100 1900 1950 2000 2050 2100 1900 1950 2000 2050 2100 Figure 10.9 Projection des κ t du modèle de Lee-Carter par un modèle de marche aléatoire avec une tendance linéaire avec les données complètes (à gauche) et les données après guerre (à droite).
MODÈLES STATISTIQUES DU RISQUE EN ASSURANCE 37 0 20 40 60 80 100 120 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Age 1900 1910 1920 1930 1940 1950 1960 1970 1980 1990 2000 Figure 10.10 Visualisation des pseudo-résidus, x ε x,t. 1900 1920 1940 1960 1980 2000 2020 1.5 1.0 0.5 0.0 0.5 1.0 1.5 Année 0 10 20 30 40 50 60 70 80 90 100 110 Figure 10.11 Visualisation des pseudo-résidus, t ε x,t.
38 Chapitre 10
Bibliographie [1] R.L. Bornhuetter and R.E. Ferguson. The acutary and ibnr. Proceedings of the Casualty Actuarial Society, LIX :181 195, 1972. [2] A. Charpentier and C. Dutang. L actuariat avec R. http ://cran.rproject.org/other-docs.html, 2013. [3] S. Christofides. Regression models based on log-incremental payments. In Institute of Actuaries, editor, Claims Reserving Manual, 1989. [4] F. De Vylder. Estimation of ibnr claims by least squares. In Proc. First Meeting Contact-group Actuarial Sciencesl, 22-28. [5] M. Denuit and A. Charpentier. Mathématiques de l assurance non-vie : Tarification et provisionnement. Tome 2. Economica, 2005. [6] S. Haberman and A. Renshaw. Mortality, longevity and experiments with the lee-carter model. Lifetime Data Analysis, 2008. [7] C. A. Hachemeister and J. N. Stanard. Ibnr claims count estimation with static lag functions. In 12th ASTIN Colloquium, Portimao, Portugal, 1975. [8] R.J. Hyndman, A.B. Koehler, J.K. Ord, and R.D. Snyder. Forecasting with Exponential Smoothing : The State Space Approach. Springer Verlag, 2008. [9] E. Kremer. Ibnr claims and the two-way model of anova. Scandinavian Actuarial Journal, pages 47 55, 1982. [10] R.D. Lee and L.R. Carter. Modeling and forecasting U.S. mortality. Journal of the American Statistical Association, 87(419) :659 671, 1992. [11] S.-H. Li and W.-S. Chan. The lee-carter model for forecasting mortality, revisited. North American Actuarial Journal, 11 :68 89, 2007. [12] T. Mack. A simple parametric model for rating automobile insurance or estimating ibnr claims reserves. ASTIN Bulletin, 21 :93 109, 1991. 39
40 Chapitre 10 [13] T. Mack. Distribution-free calculation of the standard error of chain-ladder reserve estimates. ASTIN Bulletin, 15 :133 138, 1993. [14] T. Mack. The standard error of chain-ladder reserve estimates : Recursive calculation and inclusion of a tail factor. ASTIN Bulletin, 29 :361 366, 1993. [15] M. Merz and M. V Wüthrich. Modelling the claims development result for solvency purposes. CAS E-Forum, pages 542 568, 2008. [16] C. Partrat, E. Lecoeur, J.M. Nessi, E. Nisipasu, and O. Reiz. Provisionnement technique en Assurance non vie. Economica, 2008. [17] A. E. Renshaw and R. J. Verrall. A stochastic model underlying the chainladder technique. British Actuarial Journal, 4 :903 923, 1998. [18] K. Schmidt and A. Wünsche. Chain ladder, marginal sum and maximum likelihood estimation. Blätter der DGVFM, 23 :267 277, 1998. [19] G. Simonet. Comptabilité des entreprises d assurance. L Argus de l Assurance, 1998. [20] G. Taylor. Separation of inflation and other effects from the distribution of non-life insurance claims delays. ASTIN Bulletin, 9(1) :219 231, 1977. [21] M. V. Wüthrich and M. Merz. Stochastic Claims Reserving Methods in Insurance. Wiley Interscience, 2008.