Chapitre 1. Risque et assurance. Arthur Charpentier. 1.1 Prise en compte de la dynamique en assurance

Documents pareils

Chapitre 10. Risque et assurance. Arthur Charpentier La problématique du provisionnment en assurance

Risque et assurance. Arthur Charpentier. Université Rennes 1. http ://freakonometrics.blog.free.

Estimation de l erreur de prédiction dans le cas de l utilisation d une combinaison de méthodes pour le calcul de provisions en assurance IARD

Le métier d actuaire IARD

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Données longitudinales et modèles de survie

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Le modèle de Black et Scholes

Probabilités III Introduction à l évaluation d options

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Modèles et Méthodes de Réservation

La fonction exponentielle

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Production des Services d Assurance non-vie selon le SCN 2008

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Un exemple de régression logistique sous

Introduction à l approche bootstrap

Chapitre 3. Les distributions à deux variables

TARIFICATION EN ASSURANCE COMPLEMENTAIRE SANTE: il était une fois, un statisticien, un actuaire, un économiste de la santé

Les indices à surplus constant

Résumé des communications des Intervenants

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Mathématiques financières

Modélisation aléatoire en fiabilité des logiciels

Chaînes de Markov au lycée

CNAM léments de cours Bonus-malus et Crédibilité

Introduction à l'actuariat

Moments des variables aléatoires réelles

Texte Agrégation limitée par diffusion interne

1 Complément sur la projection du nuage des individus

Chapitre 2 Le problème de l unicité des solutions

Évaluation de la régression bornée

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Analyse de la variance Comparaison de plusieurs moyennes

Simulation de variables aléatoires

Correction du Baccalauréat S Amérique du Nord mai 2007

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Résolution de systèmes linéaires par des méthodes directes

Principe de symétrisation pour la construction d un test adaptatif

PRIME D UNE OPTION D ACHAT OU DE VENTE

TABLE DES MATIERES. C Exercices complémentaires 42

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Compte rendu de l examen par le BSIF des coefficients du risque d assurance

Annexe commune aux séries ES, L et S : boîtes et quantiles

M2 IAD UE MODE Notes de cours (3)

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Programmes des classes préparatoires aux Grandes Ecoles

Modèle GARCH Application à la prévision de la volatilité

TSTI 2D CH X : Exemples de lois à densité 1

Complément d information concernant la fiche de concordance

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Table des matières. I Mise à niveau 11. Préface

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

3 Approximation de solutions d équations

FONCTION DE DEMANDE : REVENU ET PRIX

Le modèle de régression linéaire

Correction du baccalauréat STMG Polynésie 17 juin 2014

MATHÉMATIQUES FINANCIÈRES

Baccalauréat ES Amérique du Nord 4 juin 2008

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

INF6304 Interfaces Intelligentes

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

CAPTEURS - CHAINES DE MESURES

Statistique de l assurance

Table des matières: Guidelines Fonds de Pensions

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Simulation d application des règles CNAV AGIRC ARRCO sur des carrières type de fonctionnaires d Etat

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Précision d un résultat et calculs d incertitudes

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Régression linéaire. Nicolas Turenne INRA

Chapitre 3 Les régimes de fonctionnement de quelques circuits linéaires

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

NON-LINEARITE ET RESEAUX NEURONAUX

Le Modèle Linéaire par l exemple :

Relation entre deux variables : estimation de la corrélation linéaire

Norme comptable relative aux provisions techniques dans les entreprises d assurance et/ou de réassurance NC 29

aux différences est appelé équation aux différences d ordre n en forme normale.

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

CORRIGES DES CAS TRANSVERSAUX. Corrigés des cas : Emprunts

rv de septembre - 09/09/ XC

Comment évaluer une banque?

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Chapitre 1 Régime transitoire dans les systèmes physiques

Chapitre 0 Introduction à la cinématique

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Mesure et gestion des risques d assurance

Correction du baccalauréat ES/L Métropole 20 juin 2014

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Couples de variables aléatoires discrètes

Transcription:

Chapitre 1 Risque et assurance Arthur Charpentier Dans ce chapitre, nous allons présenter quelques modèles utilisés par les assureurs afin de quantifier les risques pris. Nous insisterons sur deux risques (parmi beaucoup d autres). Le premier sera la modélisation des provisions pour sinistres à payer, et plus particulièrement, la présentation de méthodes permettant de quantifier la marge d erreur associée à ce calcul de provisions. Le second sera le risque démographique présent dans les contrats d assurance en cas de décès, ou surtout en cas de vie. 1.1 Prise en compte de la dynamique en assurance 1.1.1 La problématique du provisionnment en assurance Comme le définit (26), les provisions techniques sont les provisions destinées à permettre le règlement intégral des engagements pris envers les assurés et bénéficiaires de contrats. Elles sont liées à la technique même de l assurance, et imposées par la règlementation. D un point de vue plus formel, à la date t, la compagnie d assurance est tenue de constituer une provision pour les sinistres survenus avant la date t qu elle sera tenu d indemniser. Elle doit donc estimer le coût des sinistres survenus, et retrancher les montants déjà versés. Il s agit donc fondamentalement d un problème de prévision. En effet, contrairement à l hypothèse faite dans la plupart des modèles actuariels, les coûts de sinistres ne sont pas connus le jour de la survenance du sinistre. Il y a tout d abord un délai avant que le sinistre ne soit déclaré à la compagnie d assurance par l assuré, puis un temps (plus ou moins long) de gestion du sinistre, d expertises, de paiements, avant de le clôturer plusieurs

2 Chapitre 1 mois, ou plusieurs années plus tard. La Figure 1.1 illustre la problématique du provisionnement, avec un diagramme de Lexis de la vie des sinistres. Années de développement 0 2 4 6 8 10 2006 2008 2010 2012 2014 Temps calendaire Figure 1.1 Évolution de la vie des sinistres, sur un diagramme de Lexis, avec en abscisse le temps calendaire, et en ordonnée l âge des sinistres. Les sinistres surviennent à la date, sont déclarrés à l assureur à la date + et clôturés à la date. L exercice de provisionnement consiste à estimer à une date donnée (ici fin 2010, correspondant au trait plein vertica), le montant des paiements restant à faire pour l ensemble des sinistres survenus (déclarés ou pas). En pratique, le jour de la déclaration du sinistre à l assureur (+), le gestion de sinistre est tenu d estimer un montant pour le sinistre (à l aide de facture à sa disposition, ou de coûts moyens de sinistres similaires). Le montant réel du sinistre ne sera connu que le jour de la clôture ( ). Entre ces deux dates, le gestionnaire de sinistre peut réviser ses estimations de coûts, mais aussi effectuer des paiements. Toutefois, au lieu de travailler sur des données individuelles, les données sont ici aggrégées par années (comme indiquée sur la Figure 1.1) : on s intéresse à l année de survenance du sinistre (notée i) et l année du paiement (par rapport à l année de la survenance, notée j). Parmi les méthodes reconnues par les autorités de contrôles, les plus classiques sont basées sur les cadences de paiements. On raisonne pour cela par année de survenance de sinistre, et on suppose une certaine régularité dans la cadence de paiement. Le déroulement dépend fortement du type de risque considéré. Ainsi, le tableau suivant donne une idée des cadences de règlement pour différentes

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 3 Réglements en n n + 1 n + 2 n + 3 n + 4 Multirisque habitation 55% 90% 94% 95% 96% Automobile 55% 79% 84% 99% 90% dont corporel 13% 38% 50% 65% 72% Responsabilité civile 10% 25% 35% 40% 45% Table 1.1 Cadences de paiements, pour quelques branches d activité (source (9)). branches : On constate donc que pour les branches RC, automobile (partie corporelle) et générale, moins de 15% des sinistres sont réglés après 1 an et il faut attendre 2 à 5 ans pour que la moitié des sinistres soient réglés. Pendant tout ce temps, le bilan doit refléter le coût probable de ces sinistres. 1.1.2 Quelques définitions et notations, aspects règlementaires et comptables La plupart des méthodes présentées ici sont détaillées dans (9), ou (28). Classiquement, on notera i (en ligne) l année de survenance, i = 1,, n, j (en colonne) l année de développement, j = 0,, n 1, Y i,j les incréments de paiments, pour l année de développement j, pour les sinistres survenus l année i, tableau 1.2 C i,j les paiments cumulés, au sens où C i,j = Y i,0 + Y i,1 + + Y i,j, pour l année de survenance j, tableau 1.3 P i la prime acquise pour l année i, tableau 1.4 N i,j le nombre cumulé de sinistres pour l année de survenance i vu au bout de j années, tableau 1.5 0 1 2 3 4 5 1 3209 1163 39 17 7 21 2 3367 1292 37 24 10 3 3871 1474 53 22 4 4239 1678 103 5 4929 1865 6 5217 Table 1.2 Triangle des incréments de paiements, Y = (Y i,j ).

4 Chapitre 1 0 1 2 3 4 5 1 3209 4372 4411 4428 4435 4456 2 3367 4659 4696 4720 4730 3 3871 5345 5398 5420 4 4239 5917 6020 5 4929 6794 6 5217 Table 1.3 Triangle des paiements cumulés, C = (C i,j ). Year i 1 2 3 4 5 6 P i 4591 4672 4863 5175 5673 6431 Table 1.4 Vecteur des primes acquises, P = (P i ). 1.1.3 Formalisation du problème du provisionnement Le provisionnement est un problème de prédiction, conditionelle à l information dont on dispose à la date n. On notera H n l information disponible à la date n, soit formellement H n = {(Y i,j ), i + j n} = {(C i,j ), i + j n} On cherche à étudier, par année de survenance, la loi conditionnelle de C i, sachant H n, ou plutôt, si l on suppose les sinistres clos au bout de n années la loi de C i, (voire C i,n si l on souhaite se laisser la possibilté d incorporer un tail factor) sachant H n. Si l on se focalise sur une année de survenance particulière, osn pourra noter F i,n i = {(Y i,j ), j = 0,, n i)} = {(C i,j ), j = 0,, n i)} Cette notation permet de prendre en compte que l information disponible change d une ligne à l autre (cf Figure 1.2). H n F i,n i Figure 1.2 Les informations disponibles pour faire de la prédiction.

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 5 0 1 2 3 4 5 1 1043.4 1045.5 1047.5 1047.7 1047.7 1047.7 2 1043.0 1027.1 1028.7 1028.9 1028.7 3 965.1 967.9 967.8 970.1 4 977.0 984.7 986.8 5 1099.0 1118.5 6 1076.3 Table 1.5 Triangle des nombres de sinistres, cumulés, en milliers, N = (N i,j ). On cherchera par la suite à prédire le montant des sinistres à payer pour l année i, i.e. Ĉ (n i) i,n = E[C i,n F i,n i ] et la différence entre ce montant et le montant déjà payé constituera la provision pour sinistres à payer, R i = Ĉ(n i) i,n C i,n i On essayera ensuite de quantifier l incertitude associée à cette prédiction. Comme on le verra les méthodes usuelles visaient à calculer mse[c i,n F i,n i ] ou mse[ĉ(n i) i,n ] ce que l on appelera incertitude à horizon ultime. Mais ce n est pas ce que propose Solvabilité II, demandant plutôt de mesurer une incertitude dite à un an. Pour cela, on va s intéresser à la prédiction qui sera faite dans un an, Ĉ (n i+1) i,n = E[C i,n F i,n i+1 ] et plus particulièrement le changement dans l estimation de la charge ultime n i = Ĉ(n i+1) i,n Ĉ(n i) i,n. Si cette différence est positive, on parle de mali (il faudra gonfler la provision afin de pouvoir payer les sinistres), et si elle est négative, on parle de boni. On peut montrer que E[ n i F i,n i ] = 0, autrement dit, on ne peut espérer faire ni boni, ni mali, en moyenne. Les contraintes règlementaires imposéeés par Solvabilité II demandent de calculer mse[ n i F i,n i ]. La Figure 1.3 montre les estimations de montant de provisions deux années consécutives.

6 Chapitre 1 Montant (paiements et réserves) 3500 4000 4500 5000 5500 6000 6500 0 1 2 3 4 Figure 1.3 Estimation de la charge ultime Ĉi,n deux années consécutives ( et n), avec en gris le montant total de paiements déjà effectués, C i,n i et en noir le montant de provisions R i. 1.1.4 Lecture transversale et longitudiligne des tables de mortalité Classiquement en démographie et en assurance-vie, la probabilité qu une personne en vie à l âge x soit en vie à l âge x + h est calculé par P(T > x + h T > x) = L x+h L x où L j désigne le nombre de survivants d âge j, dans une table de mortalité. Formellement, il faudrait toutefois prendre en compte la date à laquelle le calcul de la probabilité se fait. Si on se place l année t, la probabilité précédante devrait s écrire P t (T > x + h T > x) = P t (T > x + 1 T > x) P t+1 (T > x + 2 T > x + 1) P t+h 1 (T > x + h T > x + h 1) soit, si L t,j désigne le nombre de survivants d âge j, observés l année t, P t (T > x + h T > x) = L t,x+1 L t,x Lt+1,x+2 L t+h 1,x+h. L t+1,x+1 L t+h 1,x+h 1 Il convient alors de pouvoir extrapoler ces données, car les L t,i pour des dates futures sont aujourd hui inconnnus. Et pourtant, ils interviennent dans les cal-

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 7 culs des pensions, des retraites, des assurances en cas de décès, etc, comme le montre la Figure 1.4, correspondant au diagramme de Lexis Un des modèles les plus utilisés pour modéliser la mortalité d un point de vue dynamique est celui introduit par (17), appelé communément modèle de Lee & Carter. On suppose pour cela que le taux de décès, à la date t pour une personne d âge x dépend de trois facteurs, µ x,t = exp[α x + β x κ t ], où α = (α x ) désigne l évolution moyenne de la mortalité en fonction de l âge, et où κ = (κ t ) permet de modéliser l évolution de la mortalité dans le temps (traduisant une globale amélioration des conditions de vie). Toutefois, en multipliant par β = (β x ), on peut prendre en compte le fait que les gains ne sont pas identiques pour tous les âges. En fait, la modélisation des durée de vie n est pas très éloignée de la modélisation de la dynamique de la gestion des sinistres. Pour garder les mêmes notations, soit L i,j le nombre de survivants d âge j qui sont nés l année i. L i,j pourrait être vu comme l analogue de C i,j, même si C était croissant (en j) alors qu ici L sera décroissant en j. Dans le premier cas, on parlait de cadence de paiement, ici on parlera de loi de survie. L analogue de Y i,j, les incréments de paiements, seront ici D i,j, le nombre de décès âge à l âge j pour les personnes nées l année i. 1.1.5 Plan du chapitre La section 1.2 posera les bases de la méthode la plus populaire, à savoir la méthode dite Chain Ladder. L idée est que l on passe d une année de développement à une autre un multipliant par une constante (reflétant la cadence de paiements), soit formellement C i,j+1 = λ j C i,j. Cette approche a été formalisée d un point de vue stochastique par (19). On supposera alors que E(C i,j+1 F i,j ) = λ j C i,j, soit Ĉi,j+1 = λ j C i,j. En rajoutant quelques hypothèses, il sera possible de calculer E(C i,n H n ), ainsi que mse(c i,n H n ). (21) ont poursuivit les calculs sous ces hypothèses afin d étudier non plus l incertitude à ultime (comme le faisait Mack), mais l incertitude à un an. Ils ont ainsi obtenu une formule fermée pour un estimateur de mse[ n i F i,n i]. La section 1.4 présentera une alternative à la modélisation proposée par (19) ou (21), basée sur des approches par facteurs, utilisées dans les années 70, et remise au goût du jour à l aide des modèles GLM. En particulier, dans la régression log-poisson, on supposera que Y i,j P(A i B j ), c est à dire que le montant de paiements effectuée l année i + j pour les sinistres survenus l année i suivent une loi de Poisson, avec un impact multiplicatif des facteurs, Ŷi,j = Âi B j. Nous verrons comment les méthodes de simulation permettent d estimer mse(c i,n H n ). Enfin, la section 1.5 se penchera sur la modélisation dynamique de la mortalité. En particulier, nous insisterons sur les parrallèles naturels qui existent entre les modèles log-poisson basés sur l approche de Lee & Carter, et la régression

8 Chapitre 1 log-poisson appliquée à la problématique du calcul des provisions pour sinistres à payer. 1.2 Les cadences de paiements et la méthode Chain Ladder L utilisation des cadences de paiements pour estimer la charge future date des années 30. On suppose qu il existe une relation de récurrence de la forme C i,j+1 = λ j C i,j pour tout i, j = 1,, n. Un estimateur naturel pour λ j, basé sur l expérience passée est alors λ j = n j i=1 C i,j+1 n j i=1 C i,j pour tout j = 1,, n 1. Il s agit tout simplement du ratio moyen entre les années de développement j et j + 1. De telle sorte que l on peut alors prédire la charge pour la partie non-observée dans le triangle, ] Ĉ i,j = [ λn i... λ j 1 C i,n+1 i. 1.2.1 Des réécritudes du modèle Notons qu au lieu de calculer les facteurs de développement, on peut aussi des taux de développement, cumulés ou non. Autrement dit, au lieu d écrire C i,j+1 = λ j C i,j pour tout i, j = 1,, n, on suppose que On notera que γ j = C i,j = γ j C i,n ou Y i,j = ϕ j C i,n. n k=j+1 { 1 γ1 si j = 1 et ϕ j = λ k γ j γ j 1 si j > 1 Ces valeurs ont été calculées dans le Tableau 1.6. Enfin, un peu de réecriture montre qu il est possible de voir l estimateur Chain-Ladder comme une moyenne pondérée des facteurs de transition individuels, i.e. n j C i,j λ j = ω i,j λ i,j où ω i,j = n j i=1 C i,j i=1 et λ i,j = C i,j+1 C i,j.

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 9 0 1 2 3 4 5 λ j 1,38093 1,01143 1,00434 1,00186 1,00474 1,0000 γ j 70,819% 97,796% 98,914% 99,344% 99,529% 100,000% ϕ j 70,819% 26,977% 1,118% 0,430% 0,185% 0,000% Table 1.6 Facteurs de développement, λ = ( λ i ), exprimés en cadence de paiements par rapport à la charge utlime, en cumulé (i.e. γ), puis en incréments (i.e. ϕ). Aussi, on peut obtenir ces coefficients à l aide de régressions linéaires pondérées sans constantes, en régressant les C,j+1 sur les C,j, ou encore λ j = argmin λ R λ j = argmin λ R { n j i=1 { n j i=1 [ C i,j λ C ] } 2 i,j+1, C i,j } 1 [λc i,j C i,j+1 ] 2. C i,j A partir du calcul des facteurs de transition λ = ( λ i ), on complète alors le triangle, en remontant d année de survenance en année de survenance, en commençant par j = 1, puis j = 2, etc (d échelon en échelon, d où le nom de cette méthode). Le triangle complété est présenté dans le Tableau 1.2.1. 0 1 2 3 4 5 1 3209 4372 4411 4428 4435 4456 2 3367 4659 4696 4720 4730 4752.4 3 3871 5345 5398 5420 5430.1 5455.8 4 4239 5917 6020 6046.15 6057.4 6086.1 5 4929 6794 6871.7 6901.5 6914.3 6947.1 6 5217 7204.3 7286.7 7318.3 7331.9 7366.7 Table 1.7 Triangle des paiements cumulés, C = (C i,j ) i+j n avec leur projection future Ĉ = (Ĉi,j) i+j>n. 1.2.2 Une approche par sommes marginales Au delà de l approche Markovienne du problème de provisionnement que l on vient de voir (et qui sera reprise dans la section 1.3), il existe une caractérisation particulièment intéressante, que l on retrouvera dans la section 1.4.

10 Chapitre 1 En fait, si l on cherche des vecteurs A = (A 0,, A n ) et B = (B 0,, B n ), avec B 0 + + B n = 1, tels que n j n j A i B j = Y i,j pour tout j, et i=1 i=1 n i n i A i B j = Y i,j pour tout i, j=0 j=0 (on ne somme que sur la partie observée du triangle) les montants prédits dans la partie inférieure du triangles, i.e. (A i B j ) i+j>n, coïncident avec les quantités prédites par la méthode Chain Ladder ((24)). Proposition 1.1 S il existe A = (A 0,, A n ) et B = (B 0,, B n ), avec B 0 + + B n = 1, tels que n j n j A i B j = Y i,j pour tout j, et i=1 i=1 n i n i A i B j = Y i,j pour tout i, j=0 j=0 alors où B k = j=k Ĉ i,n = A i = C i,n i 1 λ j j=k 1 k=n i λ k 1 1, avec B 0 =. λ j λ j j=k Autrement dit, le montant de provision coïncide avec l estimateur obtenu par la méthode Chain Ladder. Preuve 1.1 La démonstration se fait de manière récursive. Commençons par réécrire les conditions, n j n j n j Y i,j = A i B j = B j A i, et i=1 i=1 i=1 n i n i n i Y i,j = A i B j =, A i B j. j=0 j=0 j=0 Pour i = 1 dans la dernière somme, on en déduit que A 0 = j=0 Y i,j j=0 B j = Y i,j = C 0,n. Supposon que la relation sur les A i soit vérifiée pour 0, 1, 2,, n k 1, et que i j=0 B j = j=i λ 1 j aux étapes n, n 1,, k. Alors à l étape n k, n k A i = i=1 n k 1 i=1 A i + A n k = n k 1 i=1 j=0 C i,k k=n i λ k + k j=0 Y n k,j k j=0 B j

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 11 qui peut se réécrire soit encore n k 1 i=1 C i,k De plus, en réécrire n k 1 k=n i i=1 C i,k k=n i λ k + C n k,k k k+1 B j = B j B k+1 = j=0 j=0 Pour le terme de droite, en notant que n k 1 j=0 on obtient que Y j,k = k j=0 n k 1 j=0 λ k + k=n i j=k [S j,k+1 S j,k ] = B j = ( 1 1 + λ 1 ) n k C n k,k k j=0 B j n k λ k = λ 1 j j=n k+1 n k 1 j=0 i=1 C i,k k=n i n k 1 j=0 Y j,k n k 1 j=0 A j n k 1 S j,k+1 λ 1 j = j=n k j=0 λ 1 j. En soustrayant à chacune des étapes, on obtient le résultat annoncé. Nous reviendrons sur ce modèle dans la sectionn 1.4, car la régression de Poisson (dont les paramètres sont estimés par maximum de vraisemblance) coïncide avec la méthode des marges ((2)). Remarque 1.1 L idée de cette méthode remonte aux années 30. Comme le note (1), décrivant la méthode Chain-Ladder, son apparente rigueur mathématique et sa simplicité semblent résoudre sans effort toutes les difficultés. Il n en est malheureusement rien. [...] La cadence de règlements ne peut être constante que si l assureur prend en charge un nombre de sinistres suffisant pour que la loi des grands nombres puisse jouer. Les changements de jurisprudence qui aggravent la responsabilité des assurés et les dépréciations monétaires aboutissement à une augmentation des indemnités allouées, et ralentissent la cadence des règlements des exercices antérieurs dont les sinistres non encore réglés se trouvent majorés. Et plus précisément, (13) remarquait que la méthode de la cadence numérique appliquée aux éléments statistiques que nous possédons nous paraît donc devoir donner des résultats empreints d une assez grande incertitude. λ k. S j,k

12 Chapitre 1 1.3 De Mack à Merz & Wüthrich La méthode dite Chain Ladder, que nous venons de voir, est une méthode dite déterministe, au sens où l on ne construit pas de modèle probabiliste permettant de mesurer l incertitude associée à la prédiction du montant des réserves. Différents modèles ont été proposés à partir des années 90, à partir du modèles de Mack, jusqu à l approche proposée par Merz & Wüthrich qui introduira la notion d incertitude à un an. 1.3.1 Quantifier l incertitude dans une prédiction Nous avons obtenu, par la méthode Chain Ladder un estimateur du montant de provision, R. Classiquement, pour quantifier l erreur associée à un estimateur θ d un paramètre θ, on calcul la mean squared error - mse - associée, E([ θ θ] 2 ). Or on cherche ici à quantifier l incertitude de l estimateur R associé à une variable aléatoire R. Le mse s écrit alors en comparant θ à E(R), msep( R) = E([ R E(R)] 2 ) = E([biais( R, R)] 2 ). Si l on souhaite comparer à R (qui est ici une variable aléatoire) on ne parle pas de mse, mais de mse de prédiction, notée msep (on ne prédit pas sur les données passées, mais on utilisera les donnéees pour calibrer un modèle qui servira ensuite à faire de la prédiction pour les années futures). Aussi msep( R) = E([ R R] 2 ). Ce terme peut se décomposer en deux (en faisant une approximation au premier ordre), au sens où E([ R R] 2 ) E([ R E(R)] 2 ) + E([R E(R)] 2 ) } {{ } } {{ } Var(R) mse( R) où le terme de gauche est l erreur d estimation, compte tenu du fait que nous avons dû estimer le montant de provisions à partir de la partie supérieure du triangle, et le terme de droite est l erreur classique de modèle (tout modèle comportant une partie résiduelle orthogonale aux observations, et donc imprévisible). En fait, en toute rigueur (et nous en aurons besoin par la suite), on cherche plutôt à calculer un msep conditionnel à l information dont on dispose au bout de n années, msep n ( R) = E([ R R] 2 H n ). 1.3.2 Le formalisme de Mack (19) a proposé un cadre probabiliste afin de justifier l utilisation de la méthode Chain-Ladder. Pour cela, on suppose que (C i,j ) j 0 est un processus

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 13 Markovien, et qu il existe λ = (λ j ) et σ = (σj 2 ) tels que { E(Ci,j+1 H i+j ) = E(C i,j+1 C i,j ) = λ j C i,j Var(C i,j+1 H i+j ) = Var(C i,j+1 C i,j ) = σ 2 j C i,j On note que sous ces hypothèses, E(C i,j+k H i+j ) = E(C i,j+k C i,j ) = λ j λ j+1 λ j+k 1 C i,j (19) rajoute une hypothèse supplémentaire d indépendance entre les années de survenance, autrement dit (C i,j ) j=1,...,n et (C i,j) j=1,...,n sont indépendant pour tout i i. Une réécriture du modèle est alors de supposer que C i,j+1 = λ j C i,j + σ j Ci,j ε i,j où les résidus (ε i,j ) sont i.i.d., centrés et de variance unitaire. A partir de cette écriture, il peut paraître légitime d utiliser les méthodes des moindres carrés pondérés pour estimer ces coefficients, en notant que les poids doivent être inversement proportionnels à la variance, autrement dit aux C i,j, i.e. à j donné, on cherche à résoudre min { n j i=1 } 1 (C i,j+1 λ j C i,j ) 2 C i,j Pour tester ces deux premières hypothèses, on commence par représenter les C,j+1 en fonction des C,j à j donné. Si la première hypothèse est vérifiée, les points doivent être alignés suivant une droite passant par l origine. La Figure 1.5 montre ainsi les nuages de points pour j = 1 et j = 2. Pour la seconde hypothèse, on peut étudier les résidus standardisés ((19) parle de weighted residuals), ɛ i,j = C i,j+1 λ j C i,j Ci,j. L utilisation des résidus standardisés nous donnent d ailleurs une idée simple pour estimer le paramètre de volatilité. ( n j 1 σ j 2 1 C i,j+1 = λ ) 2 j C i,j n j 1 Ci,j ce qui peut aussi s écrire σ 2 j = 1 n j 1 i=1 n j 1 i=1 ( Ci,j+1 C i,j λ j ) 2 C i,j (ce qui est à rapprocher de l écriture du facteur de transition λ comme moyenne pondérée des facteurs de transitions observés). Cette méthode permet d estimer les différents paramètres intervenants dans le modèle de Mack.

14 Chapitre 1 1.3.3 La notion de tail factor Classiquement on suppose que la première ligne de notre triangle est close : il n y a plus de sinistres ouverts, et donc le montant de provision pour cette année de survenance est nul. Cette ligne servira de base pour tous les développements ultérieurs. Cette hypothèse peut être un peu trop forte pour les branches à déroulement long. (20) a posé les bases des premiers modèles toujours utilisés. On supposera qu il existe alors un λ > 1 tel que C i, = C i,n λ. Une méthode qui a souvent été utilisée a reposé sur l idée que l on pouvait projeter les λ i par une extrapolation exponentielle (ou une extrapolation linéaire des log(λ k 1)), puis on pose λ = k n λ k Mais mieux vaut faire attention, en particulier s il y a des valeurs aberrantes. Exemple 1.1 Sur notre triangle, cette méthode prévoit de rajouter 0.07% de charge par rapport à la prédiction faite par les méthodes classiques (en supposant la première année close), comme le montre la Figure 1.6. 1.3.4 De l incertitude sur R i et R L incertitude est ici quantifiée à l aide du mean squared error, mse( R i ) = mse(ĉi,n C i,n i ) = mse(ĉi,n) = E ( [Ĉi,n C i,n ] 2 Hn ) En utilisant l approximation évoquée auparavant, on peut réécrire le mse sous la forme [ ] 2 mse(ĉi,n) = Var(Ĉi,n H n ) + E(Ĉi,n H n ) Ĉi,n où l on a un terme d erreur de modèle, et un terme d erreur d estimation. soit Pour le premier terme, Var(Ĉi,n H n ) = E(Var(Ĉi,n F i,n i )) + Var(E(Ĉi,n F i,n i )) Var(Ĉi,n H n ) = E(Ĉi, F i,n i ) σ 2 + Var(Ĉi, F i,n i ) λ 2 d où, en itérant sur le dernier terme, [ ] Var(Ĉi,n H n ) = E(Ĉi, F i,n i ) σ+ 2 E(Ĉi,n 2 F i,n i ) σn Z 2 + Var(Ĉi,n 2 F i,n i ) λ 2 n 2 λ 2

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 15 etc. On arrive, en itérant jusqu à n i (car C i,n i est observé), à la relation Var(Ĉi,n H n ) = k=n i en utilisant le fait que pour n i < k < n De l autre côté, [λ n i λ k 1 C i,n i ] σ 2 kλ 2 k+1 λ 2 C i,k = λ n i λ k 1 C i,n i. E(C i,n H n ) = E (E (C i,n F i,n i )) = E (λ C i, F i,n i ) = λ E (C i, F i,n i ) ce qui donne, par itérations successives, E(C i,n H n ) = λ n i λ n i+1 λ C i,n i. Aussi, [ ] 2 E(Ĉi,n H n ) Ĉi,n = C 2 i,n i [λ n i λ λ n i λ ] 2 σ 2 k Pour estimer le premier terme, on remplace simplement λ k par λ k et σk 2 par, de telle sorte que Var(Ĉi,n H n ) = k=n i [ λn i λ k 1 C i,n i ] σ 2 k λ 2 k+1 λ 2 ce qui se réécrit encore, en se basant sur l estimation de la charge ultime (et plus sur la dernière valeur observée) Var(Ĉi,n H n ) = Ĉ2 i,n k=n i σ 2 k / λ 2 k Ĉ i,k. Pour le second terme, ça se complique un peu, car on ne peut pas simplement remplacer λ k par son estimateur. On va alors réécrire [λ n i λ λ n i λ ] sous la forme d une somme, où [λ n i λ λ n i λ ] = k=n i S k = λ n i λ k 1 [λ k λ k ]λ k+1 λ, ce qui permet d écrire le carré de la somme k=n i S 2 k + 2 j<k S j S k. S k

16 Chapitre 1 En notant que on en déduit que E([λ k λ k ] 2 H k ) = Var( λ k H k ) = E(S 2 k H k ) = λ n i λ k 1 σ 2 k σk 2 n k j=1 C, j,k n k j=1 C λ k+1 λ. j,k Et en revanche, pour j < k, E(S j S k H k ) = 0. Aussi, un estimateur pour le second terme peut être λ n i λ k=n i k=n i σ k 2/ λ 2 k n k j=1 C. j,k Proposition 1.2 Le mean squared error du montant de provision mse( R i ), pour une année de survenance i, peut être estimé par ( ) mse( R σ 2 i ) = Ĉ2 k 1 1 i,n + λ 2 k Ĉ n k i,k j=1 C. j,k Toutefois, une compagnie doit au minimum provisionner pour la branche d activité, et par par année. Il faut ensuite calculer le mse pour R = R 1 + + R n. En fait, on notera que [ n ] 2 mse( R) n = E R i R i H n i=2 i=2 i.e. ( n ) [ ( mse( R) n ) ] 2 n = Var C i,n H n + E C i,n H n Ĉ i,n i=2 i=2 i=2 Comme on suppose que les années de survenance sont indépendantes, le premier terme se simplifie, ( n ) n Var C i,n H n = Var (C i,n H n ) i=2 (dont les terms sous le signe sommee ont été calculés auparavant). Pour le second terme, il peut être réécrit [ n ] 2 E (C i,n H n ) Ĉi,n i=2 i=2

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 17 soit n [E (C i,n H n ) Ĉi,n] [E (C j,n H n ) Ĉj,n]. i,j=2 En utilisant les notations précédantes, notons que [E (C i,n H n ) Ĉi,n] [E (C j,n H n ) Ĉj,n] = [C i,n i F i ] [C j,n j F j ] ce qui permet de réécrire le mean squared error pour R. En réutilise alors l astuce de tout à l heure pour estimer F i F j. Proposition 1.3 Le mean squared error du montant de provision mse( R), pour l ensemble des années de survenance, peut être estimé par mse( R) = n mse( R i ) + 2 i=2 2 i<j n Ĉ i,n Ĉ j,n k=n i σ k 2/ λ 2 k n k l=1 C. l,k Cette vision est parfois appelée vision à l ultime de l incertitude relative au montant de provision. Exemple 1.2 Sur le triangle 1.2 mse( R) = 79.30, alors que mse( R n ) = 68.45, mse( R ) = 31.3 ou mse( R n 2 ) = 5.05. 1.3.5 L incertitude à un an de Merz & Wüthrich Pour comprendre la notion d incertitude à un an, plaçons nous un an en arrière. A la fin de l année n 1, nous disposions du triangle sans la dernière diagonale, que l on avait alors complété par la méthode Chain Ladder (Tableau 1.3.5). Si l on ne s intéresse qu aux années antérieures, i = 1,, n 1, à la fin de l année n, nous avions obtenu un triangle avec une diagonale supplémentaire que l on avait alors complété par la méthode Chain Ladder (Tableau 1.3.5). 0 1 2 3 4 1 3209 4372 4411 4428 4435 2 3367 4659 4696 4720 4727.4 3 3871 5345 5398 5422.3 5430.9 4 4239 5917 5970.0 5996.9 6006.4 5 4929 6810.8 6871.9 6902.9 693.9 Table 1.8 Triangle des paiements cumulés sur les années antérieures, C = (C i,j ) i+j,i avec les projection future Ĉ = (Ĉi,j) i+j>. A la fin de l année, le montant de provisions constitué était de 2114, 61, pour ces n 1 premières années. Au final, on pensait payer 27513, 61 (toutes

18 Chapitre 1 0 1 2 3 4 5 1 3209 4372 4411 4428 4435 4456 2 3367 4659 4696 4720 4730 4752.4 3 3871 5345 5398 5420 5430.1 5455.8 4 4239 5917 6020 6046.15 6057.4 6086.1 5 4929 6794 6871.7 6901.5 6914.3 6947.1 Table 1.9 Triangle des paiements cumulés sur les années antérieures, C = (C i,j ) i+j n,i avec les projection future Ĉ = (Ĉi,j) i+j>n. années confondues). A la fin de l année n, la charge totale était revue à la hausse, passant à 27697, 33. Cette augmentation de 183, 72 est appelée mali. C est l incertitude associée à cet quantité qui est aujourd hui demandé dans Solvabilité II. Formellement, il convient d introduire dans les notations la date à laquelle est faite l estimation. Par exemple, on distinguera n i 1 n i λ n i=1 C i,j+1 n+1 i=1 j = n i 1 et λ j = C i,j+1 n i i=1 C i,j i=1 C i,j La section précédante permet de monter que E( λ n j H n ) = λ j et E( λ n+1 j H n+1 ) = λ j. Sauf qu ici, on se place toujours à la date n. Il convient alors de calculer E( λ n+1 j H n ) Notons que si l on pose S n j = C 1,j + C 2,j +, C Cn i, n i λ n+1 i=1 j = C i,j+1 n i i=1 C = i,j soit simplement λ n+1 j n i i=1 C i,j+1 S n+1 = j = Sn j λ n j S n+1 j i i=1 C i,j+1 S n+1 j + C n j,j+1 S n+1. j Lemme 1.1 Sous les hypothèses du modèles de Mack, E( λ n+1 j H n ) = Sn j S n+1 j On en déduit en particulier que E(Ĉn+1 i,j H n ) = C i,n i λ n i λ n j + λ j Cn j,n S n+1. j j 1 k=n i+1 ( λn+1 ) E k H n. + C n j,j+1 S n+1 j

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 19 En reprenant les notations de (21), on peut étudier la variation du boni/mali d une année sur l autre, c est à dire du changement dans la prédiction de la charge totale, entre deux années. Pour cela, on introduit le concept suivant Définition 1.1 Le claims development result CDR i (n + 1), pour l année de survenance i, entre les dates n et n+1, aussi appelé boni ou mali (suivant qu il est positif ou négatif), est CDR i (n + 1) = E(R n i H n ) [ Y i,n i+1 + E(R n+1 i H n+1 ) ], où Y i,n i+1 correspond à l incrément de paiements, Y i,n i+1 = C i,n i+1 C i,n i. On notera que CDR i (n+1) est une martingale H n+1 -mesurable, et que l on peut réécrire De plus, E (CDR i (n + 1) H n ) = C i,n i CDR i (n + 1) = E(C i,n H n ) E(C i,n H n+1 ). j=n i On peut réécrire cette dernière expression E (CDR i (n + 1) H n ) = C i,n i 1 λ n i λ n n i λ n j λ n i j=n i+1 j=n i+1 [ ( S n j S n+1 j 1 + (λ j λ n j ) λ n j + λ j Cn j,j S n+1 j ] C n j,j λ n j. Sn+1 j A l aide de ces relations, on peut calculer, puis estimer, le mse de prédiction conditionel du boni-mali, par année de survenance i pour commencer, puis en aggrégeant toutes les années. Pour l erreur de modélisation, on peut noter que Var(CDR i (n + 1) H n ) = E(C i,n H n ) 2 σ2 n i /λ2 n i C i,n i. Cette dernière grandeur est parfois appelée erreur de prédiction prospective Pour l estimation de ce terme, on considère naturellement Var(CDR i (n + 1) H n ) = (Ĉn i,n) 2 [ σn n i ]2 /[ λ n n i ]2 C i,n i, ). où [ σ n i] n 2 = 1 n j ( ) 2 Ci,j C i,j 1 n j C λ n j 1 i,j 1 i=1

20 Chapitre 1 En revanche pour le second terme, c est un peu plus compliqué. On peut toutefois écrire ( ) Ci,n ie 2 S n λ n j j λ n i S n+1 λ n j + λ j 2 Cn j,j j S n+1 H n. j j=n i j=n i+1 Un peu de calcul permet alors d obtenir l écriture suivante [ ] [ ] σ 2 λ 2 j /λ 2 j j Sj n + 1 + αj 2 σj 2/λ2 j Sj n + 1 2 j=n i j=n i j=n i+1 j=n i+1 [ α j σ 2 j /λ2 j S n j + 1] où α j = Sn j S n+1 j. On arrive finalement à la propriété suivante Lemme 1.2 Sous les hypothèses du modèle de Mack, un estimateur de E(ĈDR i (n+ 1) 2 H n ) mse(ĉdr i (n + 1) H n ) = Ĉ2 i,n ( Γi,n + ) i,n où et Γ i,n = i,n = σ 2 n i+1 λ 2 n i+1 Sn+1 n i+1 + j=n i+2 ( ) σ 2 n i+1 1 + λ 2 n i+1 C i,n i+1 j=n i+2 ( ( 1 + C n j+1,j S n+1 j σ 2 j ) 2 σ 2 j λ 2 j Sn j λ 2 j [Sn+1 j ] C 2 n j+1,j ) 1 Remarque 1.2 On peut noter que Ĉ2 i,n i,n est un estimateur de ) E ([E(ĈDR i (n + 1) H n )] 2 H n. En revanche Ĉ2 i,n Γ i,n est un estimateur de Var(ĈDR i (n + 1) H n ). (21) ont alors approché ce dernier terme terme par σ 2 n i+1 Γ i,n λ 2 n i+1 C + i,n i+1 j=n i+2 ( C n j+1,j S n+1 j ) 2 σ 2 j λ 2 j C n j+1,j

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 21 en faisant tout simplement un développement de la forme (1+u i ) 1+ u i, mais qui n est valide que si u i est petit, soit ici σ j 2 λ 2 j << C n j+1,j. Pour l erreur d estimation, on parle également d erreur de prédiction rétrospective, il convient de calculer, puis d estimer ) E ([CDR i (n + 1) ĈDR i (n + 1)] 2 H n, et pas seulement E(ĈDR i (n + 1) 2 H n ) comme nous venons de le faire. Mais comme nous le rappelerons par la suite, la règlementation ne tient pas compte de ce terme, car il est illégal de supposer ĈDR i (n + 1) 0. Toutefois, pour ce terme, il est possible de montrer la propriété suivante Lemme 1.3 Sous les hypothèses du modèle de Mack, un estimateur de E([ĈDR i (n+ 1) CDR i (n + 1)] 2 H n ) est mse(cdr i (n + 1) H n ) = Ĉ2 i,n ( Φi,n + ) i,n où ( ) σ n i+1 Φ 2 i,n = 1 + λ 2 n i+1 C i,n i+1 j=n i+2 ( 1 + (21) ont alors approché ce dernier terme terme par Φ i,n j=n i+2 [ σ n j ]2 [ λ n j ]2 C n j+1,j ( σ 2 j λ 2 j [Sn+1 j ] C 2 n j+1,j C n j+1,j S n+1 j ) 2, ) 1. en faisant là encore un développement de la forme (1 + u i ) 1 + u i, mais qui n est valide que si u i est petit, soit ici σ j 2 λ 2 j << C n j+1,j. En considérant ces approximations, et en supposant qu il est légalement impossible de prédire autre chose que ĈDR i (n + 1) = 0, on peut finallement réécrire

22 Chapitre 1 Proposition 1.4 Sous les hypothèses du modèle de Mack, mse n (ĈDR i (n+1)) [Ĉn i,n] 2 [ σn n i+1 ]2 [ λ n n i+1 ]2 ( 1 Ĉ i,n i+1 + 1 Ŝ n n i+1 ) + [ σ n j ]2 j=n i+2 [ λ n j ]2 1 Ŝ n j (Ĉn j+1,j Ŝ n+1 j ) 2 Pour rappel, la formule de Mack proposait mse n ( R i ) = [Ĉn i,n] 2 [ σn n i+1 ]2 [ λ n n i+1 ]2 ( 1 Ĉ i,n i+1 + 1 Ŝ n n i+1 ) + [ σ n j ]2 j=n i+2 [ λ n j ]2 ( 1 Ĉ i,j + 1 Ŝ n j Autrement dit, dans le mse du CDR, seulement le première terme de l erreur de modèle de la formule de Mack est considérée, et pour l erreur d estimation, on ne considère que la première diagonale i + j = n + 1 (les termes suivants étant écrasés par le facteur Ĉn j+1,j/ŝn+1 j ). Enfin, si l on regarde finalement ce qui se passe toutes années de survenance confondues, on a une formule qui peut encore se rapprocher de celle proposée par Mack, à savoir ). mse n (CDR(n + 1)) n mse n (CDR i (n + 1)) i=1 + 2 i<l Ĉ n i,nĉn l,n [ σn n i ]2 /[ λ n n i ]2 i 1 k=0 C k,n i + j=n i+1 C n j,j [ σ j n ]2 /[ λ n j n j k=0 C ]2 n j 1. k,j k=0 C k,j Cette approximation n est toutefois valide que si C n j+1,j S n+1 j. Et dans ce cas, on peut s attendre à ce que l incertitude à un an soit inférieure à l incertitude à ultime. Exemple 1.3 Sur le triangle 1.2 mse n (CDR(n+1)) = 72.57, alors que mse n (CDR n (n+ 1)) = 60.83, mse n (CDR (n+1)) = 30.92 ou encore mse n (CDR n 2 (n+1)) = 4.48. La formule approchée donne des résultats semblables. 1.4 Régression Poissonnienne et approches économétriques Dans cette section, nous nous éloignerons des modèles récursifs inspirés de la méthode Chain Ladder, et nous reviendrons sur des classes de modèles très utilisés dans les années 70, appelés modèles à facteurs, remis au goût du jour en proposant une lecture économétrique de ces modèles, permettant ainsi d obtenir des intervalles de confiance des différentes grandeurs.

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 23 1.4.1 Les modèles à facteurs, un introduction historique Avant de présenter l utilisation des modèles de régression, on peut commencer par évoquer des modèles plus anciens. Par exemple (27) supposait que Y i,j = r j µ i+j, pour tout i, j i.e. le paiement effectué l année i + j pour les sinistres survenus l année i est function d un effet colonne (de cadence de paiement) et un effet diagonal, que Taylor interprète comme un facteur d inflation. Ce modèle peut se réécrire, dès lors qu il n y a pas d incrément positif, qui prend alors une forme linéaire. log Y i,j = α i + γ i+j Comme nous l avons noté à la fin de la section 1.2 un modèle de la forme Y i,j = a i b j pourra se rapprocher du modèle Chain Ladder. (29) avait également proposé d utiliser une courbe d Hoerl, c est à dire log Y i,j = α i + β i log(j) + γ i j. Remarque 1.3 Dans cette section, nous travaillerons davantage sur les incréments de paiements Y i,j que sur les montants cumulés C i,j. En effet, conditionnellement aux facteurs (ligne, colonne ou diagonale), il semble plus vraisemblable de supposer les Y i,j comme étant des variables indépendantes, alors que les C i,j ne le seront probablement pas. 1.4.2 Les modèles Gaussiens de de Vylder et de Christophides (8) a été un des premiers modèles économétrique de provisionnement. Pour cela, on suppose que Y i,j N (α i β j, σ 2 ), pour tout i, j On peut estimer les coefficients par moindres carrés, ( α, β) = argmin [Y i,j α i β j ] 2. Les équations normales s écrivent ici j α i = Y β i,j j β et β i j = Y i,j α i, j j 2 i α2 i i,j

24 Chapitre 1 ce qui ne résoud pas explicitement. Pour le résoudre, (5) a suggéré de le réécrire comme un modèle log-linéaire, i.e. log Y i,j N (a i + b j, σ 2 ), pour tout i, j 1.4.3 La régression poissonnienne de Hachemeister & Stanard (12), (15) et enfin (18) ont montré que dans une régression log-poisson sur les incréments, la somme des prédictions des paiments à venir correspond à l estimateur Chain Ladder. On retrouve ici un résultat pouvant être relié à la méthode des marges présentée à la fin de la section 1.2. On suppose ici que E(Y i,j ) = µ i,j = exp[r i + c j ] = a i b j. Il y a ici un 2n paramètres à estimer, a = (a 0,, a n ) et b = (b 0,, b n ), avec une contrainte de la forme b 0 + + b n = 1 (car il nous reste un degré de liberté). Compte tenu du choix des facteurs (ici un facteur ligne r (ou a) et un facteur colonne c (ou b)), une fois estimés ces paramètres, il est possible de prédire la partie inférieure du triangle très simplement, i.e. Ŷ i,j = µ i,j = exp[ r i + ĉ j ] = â i b j. Remarque 1.4 Si les seuls facteurs qui interviennent dans la modélisation sont un facteur ligne et un facteur colonne, on peut aisément prédire toutes les valeurs telles que 0 i, j leqn. On a alors Ŷi,j = â i b j, pour i + j > n. En revanche, si l on intègre un effet calendaire (d inflation comme dans (27)), il sera alors nécessaire de prévoir les valeurs futures du facteur diagonal, Ŷi,j = b j γ i+j, pour i + j > n, où γ i+j désigne une prédiction de l effet diagonale (prédit à partir des γ 0, γ 1,, γ n ). La valeur de référence est la valeur dans le coin supérieur gauche. Compte tenu de la forme logarithmique du modèle, on a une interprétation simple de toutes les valeurs, relativement à cette première valeur E(Y i,j H n ) = E(Y 0,0 H n ) exp[r i + c j ]. Exemple 1.4 Sur le triangle 1.2, on obtient la sortie de régression suivante, en régressant sur un facteur ligne, et un facteur colonne. Call: glm(formula = Y ~ lig + col, family = poisson("log"), data = base) Deviance Residuals: Min 1Q Median 3Q Max -2.343e+00-4.996e-01 9.978e-07 2.770e-01 3.936e+00

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 25 Coefficients: Estimate Std. Error z value Pr(> z ) (Intercept) 8.05697 0.01551 519.426 < 2e-16 *** lig2 0.06440 0.02090 3.081 0.00206 ** lig3 0.20242 0.02025 9.995 < 2e-16 *** lig4 0.31175 0.01980 15.744 < 2e-16 *** lig5 0.44407 0.01933 22.971 < 2e-16 *** lig6 0.50271 0.02079 24.179 < 2e-16 *** col2-0.96513 0.01359-70.994 < 2e-16 *** col3-4.14853 0.06613-62.729 < 2e-16 *** col4-5.10499 0.12632-40.413 < 2e-16 *** col5-5.94962 0.24279-24.505 < 2e-16 *** col6-5.01244 0.21877-22.912 < 2e-16 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for poisson family taken to be 1) Null deviance: 46695.269 on 20 degrees of freedom Residual deviance: 30.214 on 10 degrees of freedom (15 observations deleted due to missingness) AIC: 209.52 Number of Fisher Scoring iterations: 4 Les prédictions Ŷi,j sont indiquées dans le tableau 1.4.3. 0 1 2 3 4 5 1 3209 4372 4411 4428 4435 4456 2 3367 4659 4696 4720 4730 4752.4 3 3871 5345 5398 5420 5430.1 5455.8 4 4239 5917 6020 6046.15 6057.4 6086.1 5 4929 6794 6871.7 6901.5 6914.3 6947.1 6 5217 7204.3 7286.7 7318.3 7331.9 7366.7 Table 1.10 Triangle des prédictions d incréments de paiements, Ŷ = (Ŷi,j) 0 i,j n par une régression log-poisson. 1.4.4 Incertitude dans un modèle de régression Nous avions noté auparavant qu obtenir une estimation du montant de sinistres restant à payer ne suffisait pas, et qu il fallait avoir un intervalle de

26 Chapitre 1 confiance, ou - au moins - une mesure de la dispersion du vrai montant autour de cette valeur prédite. Les formules économétriques fermées Les modèles de régressions pourraient paraître très intéressants car il existe des formules fermés pour toutes sortes de prédictions. Par exemple, dans une régression GLM avec un lien logarithmique, rappelons que ou encore E(Y i,j H n ) = µ i,j = exp[η i,j ] Ŷ i,j = µ i,j = exp[ η i,j ]. La delta method nous permet d écrire que Var(Ŷi,j) 2 µ i,j η i,j Var( η i,j ), ce qui se simplifie dans le cas où le lien est logarithmique, i.e. µ i,j η i,j = µ i,j Aussi, pour une loi de Poisson surdispersée (comme dans (22)), ( E [Y i,j Ŷi,j] 2) φ µ i,j + µ 2 i,j Var( η i,j ) pour la partie inférieure du triangle. De plus, car il sera nécessaire de sommer tous les termes de la partie inférieure du triangle pour déterminer le montant total de provisions, Cov(Ŷi,j, Ŷk,l) µ i,j µ k,l Ĉov( η i,j, η k,l ). Le montant de provision que l on cherche à estimer étant la somme des prédictions de paiements à venir, R = i+j>n Ŷi,j, alors ( E [R R] 2) i+j>n φ µ i,j + µ Var( η) µ Remarque 1.5 Cette formule est malheureusement asymptotique, ce qui est rarement le cas en provisionnement où l on dispose de très peu de données. Exemple 1.5 Sur notre triangle, on obtient un mean squared error de l ordre de 131.77.

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 27 Les méthodes de simulations Les méthodes de simulation sont une bonne alternative si on dispose de trop peu de données pour invoquer des théorèmes asymptotiques. Rappelons, comme le notait (19) qu il existe 2 sources d incertitude, l erreur de modèle (on parle de process error) l erreur d estimation (on parle de variance error) Il sera alors nécessaire d utiliser deux algorithmes pour quantifier ces deux erreurs. Afin de quantifier l erreur d estimation, il est naturel de simuler des faux triangles (supérieurs), puis de regarder la distribution des estimateurs de montant de provisions obtenus pour chaque triangles. A l étape b, on génère un pseudo triangle à l aide des résidus de Pearson. Rappelons que pour une régression de Poisson, ε i,j = Y i,j µ i,j µi,j. Les erreurs de Peqrson obtenues peuvent être visualisées dans le Tableau 1.4.4 0 1 2 3 4 5 1 0.948-1.128-1.533-0.489-0.427 0.000 2 0.024 0.277-2.213 0.792 0.414 3 0.116 0.056-1.024-0.297 4-1.082 0.891 4.237 5 0.130-0.211 6 0.000 Table 1.11 Le triangle des résidus de Pearson, ε où ε i,j = µ 1/2 i,j [Y i,j µ i,j ]. On considère les erreurs de Pearson (et non pas les erreurs brutes Y i,j µ i,j ) car les données sont hétérescédastiques. Les erreurs de Pearson ont été définies de manière à normaliser les résidus (que l on pourra alors supposer i.i.d). Remarque 1.6 Les résidus de Pearson ne sont générallement pas Gaussien, ils sont simplement centrés et réduits. La Figure 1.7 montre en particulier que les supposer Gaussien nous ferait probablement sous-estimer la Value-at-Risk pour un niveau élevé. En simulant des erreurs (qui sont supposées indépendantes et identiquement distribuée), ε b = ( ε b i,j ), on pose alors Y b i,j = µ i,j + µ i,j ε b i,j. Pour générer des erreurs, la méthode la plus usuelle est d utiliser une simulation nonparamétrique, c est à dire que l on va bootstrapper les résidus parmi

28 Chapitre 1 les pseudorésidus obtenus. Sinon il est aussi possible d utiliser un modèle paramétrique (par exemple supposer une loi normale, même si rien - théoriquement - ne justifie cette méthode). Le Tableau 1.4.4 présente un triangle simulé Y b = (Y b i,j ). 0 1 2 3 4 5 1 3155.7 1216.4 42.2 18.2 9.0 22.9 2 3381.7 1245.4 84.0 18.2 11.1 3 3726.1 1432.5 61.44 23.44 4 4337.3 1642.8 74.6 5 4929.0 1879.8 6 5186.1 Table 1.12 Triangle de paiements bootstrapé, Y b = (Y b i,j ). 0 1 2 3 4 5 1 0.00 0.414-1.082-0.211 0.0277 0.414 2 0.277-1.024 4.237-0.489 0.792 3-2.213-1.024 0.056 0.000 4 0.414 0.024 0.792 5 0.130 0.130 6-0.427 Table 1.13 Triangle de résidus simulé par bootstrap, ε b = (ε b i,j ). Une fois simulé un pseudo triangle d incréments de paiments, on prédit un montant de provision R b (par exemple via une méthode Chain Ladder, ou en refaisant une modélisation log-poisson si les incréments de paiements sont tous positifs). La variance des R b correspond à l erreur d estimation. Le Tableau 1.14 présente la modélisation du triangle simulé 1.4.4 par un modèle log-poisson Ŷ b = (Ŷ i,j b ). La somme des termes dans la partie inférieure donne une valeur possible pour l estimation du montant de provision R b = 2448.175. Afin de prendre en compte l erreur de modèle, plusieurs méthodes peuvent être utilisées. La première, et la plus simple, consiste à noter qu à partir du pseudo triangle Yi,j b b, peut obtenir des prédictions pour la partie inférieure, Ŷi,j. Compte tenu du modèle Poissonnien, on peut alors simuler une trajectoire possible d incréments de paiements en simulant les Yi,j b à l aide de loi de Poisson de paramètre Ŷ i,j b. Le Tableau 1.4.4 une simulation de paiements futurs à partir du triangle simulé 1.4.4 Y b P(Ŷ b ). La somme des termes dans la partie inférieure dans

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 29 0 1 2 3 4 5 1 3157.5 1199.1 56.7 18.4 9.7 22.8 2 3369.9 1279.8 60.5 19.6 10.3 24.4 3 3735.8 1418.7 67.1 21.7 11.5 27.0 4 4331.7 1645.1 77.8 25.2 13.3 31.4 5 4934.6 1874.0 88.6 28.7 15.2 35.7 6 5186.1 1969.5 93.1 30.2 16.0 37.6 Table 1.14 Triangle des prédictions Ŷ b = (Ŷ i,j b ) obtenues sur le triangle simulé, Y b = (Yi,j b ). une valeur possible pour les paiements restant à faire R b. 0 1 2 3 4 5 1 2 29 3 10 24 4 27 11 37 5 94 34 16 40 6 1956 102 26 15 36 Table 1.15 Triangle de paiements simulés, Y b P(Ŷ b ). La seconde méthode est d utiliser une relecture du modèle de (19), proposée par (10). A partir du pseudo triangle, on va utiliser les facteurs de développement λ j et les variances associés σ j 2 obtenus sur le triangle initial. On prolonge alors le triangle dans la partie inférience via le modèle dynamique Ĉ b i,j+1 (Ĉb i,j,, Ĉb i,0) N ( λ j Ĉ b i,j, σ 2 j Ĉb i,j). Exemple 1.6 Sur le triangle 1.2 la variance empirique de R nous permet d avoir un bon estimateur de mse( R). Ici, à l aide de 100 000 simulations, on obtient la distribution pour R donnée sur la Figure 1.8. Sur cet exemple, on obtient un écart-type (empirique) pour les simulations de R b de l ordre de 84.12 (ce qui se rapproche davantage des 79.3 de la méthode de Mack, que des 131.7 obtenus par développements asymptotiques). 1.4.5 Quel modèle de régression? Nous avions justifié l utilisation de la loi de Poisson, car le montant de provisions prédit coïncidait avec l estimateur Chain Ladder. Mais rien ne permet de justifier statistiquement l adéquation de la loi de Poisson a nos données.

30 Chapitre 1 Prise en compte d une éventuelle surdispersion En fait, la régression quasi Poisson peut éventuellement être plus adaptée (comme cela est mentionné par exemple dans (25)). Exemple 1.7 Sur le triangle 1.2 une modélisation par une loi quasipoisson donne la sortie suivante Call: glm(formula = Y ~ lig + col, family = quasipoisson("log"), data = base) Deviance Residuals: Min 1Q Median 3Q Max -2.343e+00-4.996e-01 9.978e-07 2.770e-01 3.936e+00 Coefficients: Estimate Std. Error t value Pr(> t ) (Intercept) 8.05697 0.02769 290.995 < 2e-16 *** lig2 0.06440 0.03731 1.726 0.115054 lig3 0.20242 0.03615 5.599 0.000228 *** lig4 0.31175 0.03535 8.820 4.96e-06 *** lig5 0.44407 0.03451 12.869 1.51e-07 *** lig6 0.50271 0.03711 13.546 9.28e-08 *** col2-0.96513 0.02427-39.772 2.41e-12 *** col3-4.14853 0.11805-35.142 8.26e-12 *** col4-5.10499 0.22548-22.641 6.36e-10 *** col5-5.94962 0.43338-13.728 8.17e-08 *** col6-5.01244 0.39050-12.836 1.55e-07 *** --- Signif. codes: 0 *** 0.001 ** 0.01 * 0.05. 0.1 1 (Dispersion parameter for quasipoisson family taken to be 3.18623) Null deviance: 46695.269 on 20 degrees of freedom Residual deviance: 30.214 on 10 degrees of freedom (15 observations deleted due to missingness) AIC: NA Number of Fisher Scoring iterations: 4 Le paramètre de surdispersion φ vaut ici 3.18 (qui est significativement supérieur à 1). Dans l exemple considéré, on obtient φ =, où Var(Y i,j ) = φ E(Y i i, j). L estimation donne les mêmes résulats que la régression de Poisson, toutefois, il faut alors pour simuler une loi quasi Poisson.

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 31 La simulatin de cette quasi loi, se fait généralement suivant une des deux méthodes suivantes. La première idée est d utiliser une approximation par une loi binomiale négative BN(r, p). Rappelons que pour cette loi E(N) = r 1 p p = λ et Var(N) = r 1 p p 2 = φλ, de telle sorte que, si on cherche à simuler une loi quasipoisson de paramètres λ et φ, p = E(N) Var(N) = 1 φ et r = λφ φ 1. La seconde idée est d utiliser une approximation par une loi Gamma (dont on pourra prendre la partie entière) E(N) = αβ = λ et Var(N) = αβ = φλ, soit α = λ/φ et β = φ. La Figure 1.9 permet de comparer la simulation de ces lois. Entre un modèle Poisson et un modèle Gamma Si les modèles GLM sont générallement présentés comme des modèles où une hypothèse de loi est faite (la loi de la variable dépendante Y devant appartenir à la famille exponentielle), rappelons les modèles GLM peuvent être caractérisés par une modélisation des deux premiers moments, E(Y X) = h(xβ) et Var(Y X) = V (E(Y X)) = g((xβ)), où la fonction lien, h, qui lie la prédiction aux facteurs, ici Ŷi,j = E(Y i,j H n ) = exp[ γ + α i + β j ], la loi ou la fonction variance, V, qui donne la forme de la dispersion, ici Var(Y i,j H n ) = φ E(Y i,j H n ). L unique motivation du modèle précédent (loi de Poisson, i.e. fonction variance identité, et lien logarithmique) est qu il permet d obtenir exactement le même montant que la méthode Chain Ladder. Mais aucun critère statistique n a été évoqué, pour l instant, afin de légitimer ce modèle. Les modèles Tweedie sont une famille de sur-modèle, incluant le modèle Poissonnien. On suppose que la fonction lien, est une fonction puissance, ou plutôt une tranformée de Box-Cox, Ŷi,j = g 1 λ [ γ + α i + β j ] où g λ (x) = λ 1 [x λ 1] si λ > 0 avec le cas limite g 0 (x) = log(x). la fonction variance, qui donne la forme de l intervalle de confiance, ici Var(Y i,j H n ) = φ E(Y i,j H n ) κ où les paramètres λ et κ sont inconnus.

32 Chapitre 1 Remarque 1.7 Formellement, dans les modèles GLM, on suppose que la loi de Y i,j appartient à la famille exponentielle, i.e. de densité ( ) yθi,j b(θ i,j ) f(y; θ i,j, φ) = exp + c(y, φ). φ La fonction variance est ici V (µ) = b ([b ] 1 )(µ). Pour reprendre les notations de (14), on se limite ici aux formes V (µ) = µ κ. Cela signifie que b(θ) = 1 2 κ [(1 κ)θ] 1 κ, pour κ 1, 2, 2 κ avec les cas particulier b(θ) = exp[θ] pour κ = 1 (on a alors une loi quasi- Poisson) et b(θ) = log[ θ] pour κ = 2 (on a alors une loi Gamma). Si l on supppose que une forme multiplicative A i B j pour modéliser les incréments de paiements, on aura alors θ i,j = log[a i B j ] si κ = 1 et θ i,j = [A i B j ] 1 κ 1 κ sinon. Afin de juger de la pertinance de l ajustement, on peut calculer la logvraisemblance du modèle, en gardant un lien logarithmique par exemple (ce qui est parfois plus simple au niveau numérique, mais aussi au niveau de l interprétation), ou le critère d Akaike. La Figure 1.10 permet de visualiser l influence du paramètre de la puissance κ de la fonction variance sur la logvraisemblance. La Figure 1.11 montre aussi l évolution du montant de provision R, Exemple 1.8 Si l on souhaite garder un lien logarithmique, le paramètre le plus vraisemblable pour la fonction variance compris entre 1 et 2, est κ = 1, ce qui correspond à un modèle de Poisson (ou plutôt quasi-poisson). Remarque 1.8 Ces méthodes de simulations sont suffisement souples pour pouvoir être adaptées, en particulier pour quantifier l incertitude à un an. Toutefois, cette approche repose sur l utilsation de régression GLM (Poisson ou Gamma), ce qui n est possible que si les Y i,j sont positifs. En théorie, il s agit d incréments de paiements, qui doivent être positifs, mais en pratique, il n est pas rare que de incréments négatifs soient observés. C est d ailleurs possible de générer un pseudo triangle possédant des incréments négatifs (e.g. (7) ou (16)). 1.5 Modélisation et prédiction de la mortalité future De même que le provisionnement posait le problème de la dynamique de la vie des sinistres (dont le montant n est pas connu le jour de la survenance

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 33 du sinistre), les contrats d assurance vie sont liés à des probabilités de décès (ou de survie) dans un futur plus ou moins lointain. L assurance vie doit donc égalemnt être vu comme un... CONTINUER 1.5.1 Modélisation statique des contrats d assurance vie Si l assurance non-vie repose essentiellement sur des modélisation stochastique des sinistres à venir, l assurance-vie consiste fondamentalement à actualiser des flux futurs, incluant généralement un part d incertitude (associée au décès ou à la survie d un assuré). De la même manière que nous nous étions attaché à calculer primes à l aide d espérance de flux en assurance non-vie (conditionnelles à des variables tarifaires dans le chapitre?? par exemple), nous allons ici calculer calculer des grandeurs de la forme : ( ) C k E (1 + i) T 1(paiement à la date T i ) k k=1 où l assureur s est engagé à verser un capital C i à des dates T i, à condition qu une hypothèse soit vérifiée à la date T i. Compte tenu de la linéarité de l espérance, si l on suppose le taux d actualisation non aléatoire, on peut réécrire cette dernière expression sous la forme : C k (1 + i) T P(paiement à la date T i ). k k=1 La valeur actuelle probable s écrit, de manière très générale, k j=1 C j p j (1 + i) j où C = (C 1,, C k ) est l ensemble des montants à verser, i est est le taux d actualisation, et p = (p 1,, p k ) est le vecteur des probabilité de verser le capital aux différentes dates. Exemple 1.9 Le plus simple est probablement la valeur actuelle probable d un capital différé (pure endowment) k E x, correspondant à la valeur actuelle probable d un capital de 1 dans le cas où une personne actuellement d âge x soit encore en vie à au bout de k années, i.e. ke x = 1 (1 + i) k P(T > x + k T > x) = 1 (1 + i) k k p x où k p x désigne la probabilité qu un individu d âge x atteigne l âge x + k.

34 Chapitre 1 Exemple 1.10 Considérons le cas du versement d une unité monnétaire, commençant dès aujourd hui, et continuant tant que l assuré sera vivant (on parlera d annuité vie entière). On supposera l annuité payable d avance. On peut montrer que ä x = k=0 1 (1 + i) k k p x = ke x k=0 Plus généralement, on veut considérer non pas des assurance annuelles, mais temporaires, d une durée de n années, i.e. nä x = k=0 1 (1 + i) k k p x = k=0 Notons que l on peut également différer de h années, h nä x = h+ k=h ke x h+ 1 (1 + i) k k p x = Exemple 1.11 Comme précédament, le cas le plus simple est probablement l assuranc décès vie entière, dont la valeur actuelle probable s écrit, pour un assuré d âge x qui souhaite le versement d une unité à la fin de l année de son décès, A x = E ( 1 T ) = 1 + i k=1 ( 1 T ) E T = k = 1 + i k=h k=1 ke x 1 (1 + i) k k 1 p x1 q x+k 1 Plus générallement, on peut définir une assurance temporaire décès, où le versement du capital n a lieu que si le décès survient dans les n années qui suivent la signature du contrat, na x = n k=1 1 (1 + i) k k 1 p x1 q x+k 1 Classiquement, si p k correspond à une probabilité en cas de vie, ils sont estimés à partir des tables de mortalités. Une table de mortalité est souvent présenté comme le suivi d une cohorte dans le temps, avec L 0 individus à la naissance. L k est le nombre de survivants - au sein de la cohorte - à l âge k. Dans les exemples précédants, k p x désigne la probabilité qu un individu en vie à l âge x soit encore en vie à l âge x+k, alors que k q x désigne la probabilité qu un individu en vie à l âge x ne soit plus en vie à l âge x+k (en gardant les notations actuarielles, e.g. (3)). Classiquement, k p x = L x+k L x alors que k p x = L x L x+k L x.

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 35 1.5.2 Extension dans un cadre dynamique Dans le cadre statique, toutes les grandeurs pouvaient être construites à partir des L x, ou des 1 p x, où x était l âge des individus (au moment où ils souscrivaient une police d assurance). Ici, nous allons intégrer la dimension temporelle, en notant qu une table de mortalité est construite à une date t. Aussi, formellement, on notera L x,t le nombre de personnes d âge x en vie à la date t. Nous disposons ici de données françaises, avec la mortalité des femmes, des hommes, et de l ensemble, entre 1899 et 2005. Ici on dispose de D x,t le nombre de personnes décédée à l âge x l année t, et E x,t l exposition. Pour commencer, on peut visualiser l évolution de la surface du taux de mortalité, afin de mieux comprendre la nécessité d une analyse dynamique de la démographie, où µ x,t = D x,t E x,t Compte tenu du lien entre le taux de hasard et les fonctions de survie, on peut en déduire les fonctions de survie à la naissance (c est à dire x = 0), La figure?? permet d ailleurs de visualiser la rectangularisation des fonctions de survie, en fonction du temps, en faisant varier t 1.5.3 La lecture transversale des tables En fait, cette lecture transversale des tables - bien que correspondant à ce que nous avions fait jusqu à présent - ne paraît pas valide. Pour s en convaincre, il suffit de regarder le diagramme de Lexis, de la Figure 1.4. Aussi, afin de lire la fonction de survie pour un individu (ou une cohorte), on ne lit plus la base par année, mais suivant une diagonale. 1.6 Le modèle de Lee & Carter La modélisation retenue pour le taux instantané de mortalité est la suivante : ln µ x,t = α x + β x κ t + ε xt, avec les variables aléatoires ε xt iid ; l idée du modèle est donc d ajuster à la série (doublement indicée par x et t) des logarithmes des taux instantanés de décès une structure paramétrique (déterministe) à laquelle s ajoute un phénomène aléatoire ; le critère d optimisation retenu va consister à maximiser la variance expliquée par le modèle, ce qui revient à minimiser la variance des erreurs.

36 Chapitre 1 On retient en général les deux contraintes d identifiabilité suivantes : 120 β x = 1 et x=0 2005 t=1900 κ t = 0. L estimation des paramètres s effectue en résolvant (numériquement) ( ˆα, ˆβ, ) κ = arg min (ln µ xt α x β x κ t ) 2, x,t où α = (α x ), β = (β x ) et κ = (κ t ). Ces cooefficients sont représentés sur la Figure 1.16. Une fois l ajustement réalisé sur les données disponibles, on peut réaliser des projections de la mortalité future, c est à dire du coefficient κ t, comme sur la Figure 1.17 On peut utiliser ces prédictions (en l occurence à l aide d un processus ARIMA(1, 1, 0) pour prédire l évolution l espérance de vie des assurés,... Mais au delà des travaux sur les µ x,t, on peut également travailler sur une modélisation des nombres de décès D x,t. Et le modèle de Lee & Carter (qui repose sur une idée de modèle Gaussien pour µ x,t peut alors servir de base. L approche proposée par (4), (11), (6) ou encore (23) consiste à supposer (comme sur les modèles de provisions) que l on peut modéliser le nombre de décès à l aide d un modèle GLM Poissonnien. Or compte tenu de l analyse précédante sur les taux de décès µ x,t, il est légitime de considérer un modèle D x,t P(E x,t exp[µ x,t ]). On considère alors une régression Poissonnienne, avec le logarithme de l exposition comme variable offset, mais compte tenu du modèle de Lee & Carter, il ne s agit plus d un modèle GLM, les facteurs α, β et κ n intervenant plus de manière linéaire. Mais il est toujours possible d estimer les paramètres à l aide d algorithmes numériques. Et de même que pour les modèles de provisionnement on peut alors commencer une analyse des résidus,

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 37 Age 0 20 40 60 80 1960 1980 2000 2020 Temps calendaire Figure 1.4 Évolution de la vie des assurés, sur un diagramme de Lexis, avec en abscisse le temps calendaire, et en ordonnée l âge des assurés. Les assurés naissent à la date, et décèdent à la date. PAID[, j + 1] 4500 5000 5500 6000 6500 PAID[, j + 1] 4500 5000 5500 6000 3500 4000 4500 5000 PAID[, j] 4500 5000 5500 6000 6500 PAID[, j] Figure 1.5 Nuage de points C,j+1 en fonction des C,j pour j = 1, 2, et droite de régression passant par l origine.

38 Chapitre 1 12 10 8 6 4 2 2 4 6 8 10 Année de développment Figure 1.6 Ajustement linéaire sur le nuage {(k, log(λ k 1))}, avec une prédiction pour k > 5. Densité Fonction de répartition 0.0 0.1 0.2 0.3 0.4 0.5 0.0 0.2 0.4 0.6 0.8 1.0 2 0 2 4 Résidus 2 0 2 4 Résidus Figure 1.7 Histogramme et densité des résidus (à gauche) et fonctions de répartition (à droite), avec l ajustement Gaussien en pointillés.

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 39 0.000 0.001 0.002 0.003 0.004 0.005 2200 2300 2400 2500 2600 2700 Montant de provisions Figure 1.8 Distribution du montant de provision R, avec le trait plein vertical correspondant à R, et en pointillés (quasiment confondus), le montant de provision donné par Chain Ladder. A droite est indiqué le quantile à 95% de R (obtenu par simulation), en trait plein, avec le quantile Gaussien donné par la méthode de Mack (sous hypothèse de normalité de R), en trait fin. 0.000 0.001 0.002 0.003 0.004 0.005 2200 2300 2400 2500 2600 2700 2800 Montant de provisions Figure 1.9 Distribution de R, avec trois méthodes de générations de scénarios, i.e. suivant une loi de Poisson, ou une approximation de la loi quasipoisson par une loi Gamma).

40 Chapitre 1 Logvraisemblance 104 102 100 98 96 94 1.0 1.2 1.4 1.6 1.8 2.0 Puissance de la fonction variance Figure 1.10 Évolution de la log-vraisemblance profilée en fonction de κ (avec un lien logarithmique). Montant de provisions (total) 2430 2435 2440 1.0 1.2 1.4 1.6 1.8 2.0 Puissance de la fonction variance Figure 1.11 Évolution du montant total de provision R, en fonction de κ (avec un lien logarithmique).

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 41 2 taux de mortalité 4 6 8 2000 1980 1960 Année 1940 1920 1900 0 20 40 Age 60 80 Figure 1.12 Surface du taux de mortalité, en fonction de l année d observation, et de l âge, µ x,t. Taux de mortalité 8 6 4 2 0 Hommes Femmes 0 20 40 60 80 100 Age Figure 1.13 Taux de hasard x µ x,t en t = 2000 pour les hommes et pour les femmes.

42 Chapitre 1 Fonction de survie (à la naissance) 0.0 0.2 0.4 0.6 0.8 1.0 Hommes Femmes 0 20 40 60 80 100 Age Figure 1.14 Fonctions de survie (à la naissance), en t = 2000, pour les hommes et pour les femmes, i.e. x P t (T > x) = exp[ x 0 µ y,t]dy. Fonction de survie (à la naissance) 0.0 0.2 0.4 0.6 0.8 1.0 1990 1980 1970 1960 1950 1940 1930 1920 1910 0 20 40 60 80 100 120 Age Figure 1.15 Rectangularisation des fonctions de survie à la naissance, entre 1900 et 20000.

MODÉLES STATISTIQUES DU RISQUE EN ASSURANCE 43 7 6 5 4 3 2 1 0.005 0.010 0.015 0.020 0.025 0 20 40 60 80 100 0 20 40 60 80 100 Age Age Figure 1.16 Estimation des coefficients ˆα = (ˆα x ) et ˆβ = ( ˆβ x ). 300 200 100 0 100 1900 1950 2000 2050 2100 Années Figure 1.17 Estimation des coefficients κ = ( κ t ) pour t allant de 1900 à 2005, et projection pour les période allant de 2006 à 2100.

44 Chapitre 1 0 20 40 60 80 100 0 20 40 60 80 Age Espérance de vie résiduelle Figure 1.18 Estimation des fonctions d espérance de vie à l âge x, à la date t = 2000. 0 20 40 60 80 100 40 20 0 20 40 Age 1899 1920 1920 1940 1940 1960 1960 1980 1980 1995 1995 2005 1900 1920 1940 1960 1980 2000 40 20 0 20 40 Année 0 15 15 25 25 40 40 60 60 80 80 100 Figure 1.19 Évolution des résidus de Pearson sur un modèle Poissonnien, ε x,t, avec l évolution en fonction de l âge x, à gauche, et de la date t, à droite.

Bibliographie [1] E. Astesan. Les réserves techniques des sociétés d assurance contre les accidents automobiles. Librarite Générale de Droit & de Jurisprudence, Paris, 1938. [2] R.A. Bailey. Insurance rates with minimum bias. Proceedings of the Society of Actuaries, 50 :4 11, 1963. [3] N. L. Bowers, H. U. Gerber, J. C. Hickman, D. A. Jones, and C. J. Nesbitt. Actuarial mathematics. Society of Actuaries, Itasca, IL, 1986. [4] Natacha Brouhns, Michel Denuit, and Jeroen K. Vermunt. A poisson logbilinear regression approach to the construction of projected lifetables. Insurance : Mathematics and Economics, 31(3) :373 393, 2002. [5] S. Christofides. Regression models based on log-incremental payments. In Institute of Actuaries, editor, Claims Reserving Manual, 1989. [6] Iain Currie, James Kirkby, Maria Durban, and Paul Eilers. Smooth leecarter models and beyond. In Annual meeting. Society of Actuaries, 2004. [7] Enrique de Alba. Claims reserving when there are negative values in the runoff triangle : Bayesian analysis using the three-parameter log-normal distribution. N. Am. Actuar. J., 10(3) :45 59, 2006. [8] F. de Vylder. Estimation of i.b.n.r. claims by least squares. Mitt. Verein. Schweiz. Versicherungsmath., pages 249 254, 1978. [9] M. Denuit and A. Charpentier. Mathématiques de l assurance non-vie : Tarification et provisionnement. Tome 2. Economica, 2005. [10] P. D. England and R. J. Verrall. Analytic and bootstrap estimates of prediction errors in claims reserving. Insurance : Mathematics and Economics, 25 :281 293, 1999. [11] S. Haberman and A. Renshaw. Mortality, longevity and experiments with the lee-carter model. Lifetime Data Analysis, 2008. 45

46 Chapitre 1 [12] C. A. Hachemeister and J. N. Stanard. Ibnr claims count estimation with static lag functions. In 12th ASTIN Colloquium, Portimao, Portugal, 1975. [13] Henry. 1937. [14] B. JØorgensen. The theory of dispersion models. Chapman & Hall, 1997. [15] E. Kremer. Ibnr claims and the two-way model of anova. Scandinavian Actuarial Journal, pages 47 55, 1982. [16] Michael Kunkler. Modelling negatives in stochastic reserving models. Insurance : Mathematics and Economics, 38(3) :540 555, 2006. [17] Ronald D. Lee, Lawrence R. Carter, Robert McNown, and Juha M. Alho. Modeling and forecasting U.S. mortality. 87(419) :659??, September 1992. [18] T. Mack. A simple parametric model for rating automobile insurance or estimating ibnr claims reserves. ASTIN Bulletin, 21 :93 109, 1991. [19] T. Mack. Distribution-free calculation of the standard error of chain-ladder reserve estimates. ASTIN Bulletin, 15 :133 138, 1993. [20] T. Mack. The standard error of chain-ladder reserve estimates : Recursive calculation and inclusion of a tail factor. ASTIN Bulletin, 29 :361 366, 1993. [21] M. Merz and M. V Wüthrich. Modelling the claims development result for solvency purposes. CAS E-Forum, pages 542 568, 2008. [22] A. E. Renshaw and R. J. Verrall. A stochastic model underlying the chainladder technique. British Actuarial Journal, 4 :903 923, 1998. [23] A.E. Renshaw and S. Haberman. A cohort-based extension to the leecarter model for mortality reduction factors. Insurance : Mathematics and Economics, 38(3) :556 570, 2006. [24] Klaus Schmidt and Angela Wünsche. Chain ladder, marginal sum and maximum likelihood estimation. Blätter der DGVFM, 23 :267 277, 1998. 10.1007/BF02808289. [25] Klaus D. Schmidt. A note on the overdispersed poisson family. Insurance : Mathematics and Economics, 30(1) :21 25, 2002. [26] G. Simonet. Comptabilité des entreprises d assurance. L Argus de l Assurance, 1998. [27] G. Taylor. Separation of inflation and other effects from the distribution of non-life insurance claims delays. ASTIN Bulletin, 9(1) :219 231, 1977.

BIBLIOGRAPHIE 47 [28] M. V. Wüthrich and M. Merz. Stochastic Claims Reserving Methods in Insurance. Wiley Interscience, 2008. [29] B. Zehnwirth. Interactive claims reserving forecasting system (ICRFS). Benhar Nominees Pty Ltd. Tarramurra N.S.W., Australia., 1985.