Méthodes d apprentissage statistique («Machine Learning») Journées d Etudes IARD Niort, 21 Mars 2014 Fabrice TAILLIEU Sébastien DELUCINGE Rémi BELLINA 2014 Milliman. All rights reserved
Sommaire Introduction Les méthodes d apprentissage statistique Illustration 2
Introduction L environnement du marché de l assurance Le marché de l assurance non-vie est extrêmement compétitif en France, ce qui fait peser une incertitude importante sur les marges des compagnies. Plusieurs facteurs accentuent ce phénomène, notamment : L aggravation des charges sinistres sur certaines branches (accidents corporels lourds, assurance santé, événements climatiques, ) L environnement économique et financier Les changements législatifs (réforme FGAO, fin de la différenciation liée au critère de genre, loi Hamon, entrée en vigueur de Solvabilité II, ) L incertitude liée à de nouveaux risques (risques technologiques, risques climatiques, ) 3
Introduction L environnement du marché de l assurance Les résultats des compagnies s en ressortent fortement : 70 7 60 6 50 5 40 30 20 4 3 2 Cotisations acquises (Mds ) Résultat technique (Mds ) Résultat net comptable (Mds ) 10 1 0 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 0 Source : Rapport annuel FFSA 2012, Sociétés dommages 4
Introduction Les enjeux pour une compagnie d assurance Dans ce contexte, il est primordial pour toute compagnie : D identifier les segments de clientèle fragilisant ses résultats, ou à l inverse ceux qui peuvent êtres créateurs de richesse De suivre les résultats des affaires en portefeuille de manière objective, indépendamment de la structure tarifaire utilisée lors de la souscription de ces affaires D être capable d identifier les actions à mettre en œuvre, et dans la mesure du possible avant ses concurrents De mettre en œuvre les actions nécessaires pendant les périodes de renouvellement (résiliations, augmentations/baisses tarifaires) et tout au long de l année (suivi de la performance d un réseau de distribution, actions marketing vis-àvis des clients à conserver en portefeuille, efforts commerciaux sur les affaires nouvelles, etc) Dans la plupart des compagnies d assurance, ces travaux sont aujourd hui menés en utilisant des techniques et des indicateurs relativement standardisés. 5
Introduction Les dimensions de modélisation De nouvelles dimensions à prendre en compte : Temps nécessaire à l implémentation des modèles Choix du type de modélisation (GLM, Apprentissage statistique, Mix des 2, etc) Les contraintes des Systèmes d Informations existants La distribution des données Les variables candidates à la modélisation (leur nombre et leur connaissance par l actuaire) et leurs interactions Le diagnostic recherché par le modèle (tarif, revue, scoring, valeur client, ) Pour un grand nombre de ces dimensions, le choix des méthodes d apprentissage statistique sera le plus à même de répondre aux besoins croissants en termes de modélisations. 6
Introduction Les enjeux pour une compagnie d assurance Pour répondre aux problématiques nouvelles soulevées par le management, les actuaires ont besoin d outils adaptés au nouvel environnement dans lequel leur compagnie exerce. Quelles solutions apportent les méthodes d apprentissage statistique pour effectuer les bons diagnostics? Est-ce pour autant la fin des GLM en tarification? 7
Sommaire Introduction Les méthodes d apprentissage statistique Illustration 8
Les méthodes d apprentissage statistique Machine learning Définition : on parle de machine learning ou d apprentissage lorsqu un algorithme est mis en œuvre pour apprendre et extraire des informations d une base de données. Une fois la phase d apprentissage terminée, on peut utiliser les résultats pour réaliser des prédictions. Cela couvre un domaine très vaste, tant par les méthodes (réseaux de neurones, arbres, méthodes ensemblistes, etc.) que par les applications (filtre anti-spam, marketing, etc.). Nous nous concentrons sur l algorithme CART (Classification And Regression Tree) et ses méthodes d agrégation. Source : Michie D., Spiegelhalter D.J., Taylor C.C. (1984) Machine Learning, Neural and Statistical Classification 9
Les méthodes d apprentissage statistique Base de données pour illustration BASE DE DONNÉES X 1 X 2 X 3 X 4 X 5 Y LUXE CITADINE CYLINDRE USAGE AGE_COND NOMBRE_SIN 1 N N 4 PRIVE 50 0 2 N N 6 PRIVE 60 0 3 N Y 4 COMMERCIAL 40 1 4 N Y 4 PRIVE 30 0 5 N N 4 PRIVE 70 0 6 Y Y 4 COMMERCIAL 23 0 7 N N 4 BUSINESS 40 0 8 N N 6 PRIVE 40 1 9 Y Y 4 PRIVE 60 0 10 N N 6 PRIVE 50 0 11 N N 8 PRIVE 30 1 12 N Y 4 BUSINESS 30 0 13 Y N 6 PRIVE 40 0 14 N N 6 PRIVE 30 0 998 N N 4 BUSINESS 60 0 999 N Y 4 PRIVE 60 2 1000 N N 4 COMMERCIAL 40 1 Apprentissage Validation Test 70% 20% 10% 10
Les méthodes d apprentissage statistique Cadre mathématique (1/4) Variables explicatives : X 1,, X p. Variable à expliquer : Y. On cherche parmi un ensemble de fonctions admissibles F : φ R p R, x = x 1,, x p φ x = y Comment trouver une «bonne» fonction φ? Selon un critère quadratique et sans restriction sur F, la meilleure fonction φ est l espérance conditionnelle : φ = arg min φ F Y φ X 2 = arg min W L 2 σ X Y W 2 = E Y X La meilleure représentation φ X de Y sachant que l on dispose de l échantillon X est E Y X. On souhaite obtenir un bon estimateur de l espérance conditionnelle. L erreur d un modèle sur une base est donnée par R base φ = y i φ x 2 base i. 11
Les méthodes d apprentissage statistique Cadre mathématique (2/4) Problème : E Y X = x traduit un sur-apprentissage. Solution : garder une certaine généralité/distance par rapport aux données d apprentissage. Erreur de prédiction Meilleur modèle R validation φ R apprentissage φ Estimateur trivial φ x = y Estimateur sur-appris φ x = E Y X = x Complexité du modèle φ «Taille» de F 12
Les méthodes d apprentissage statistique Cadre mathématique (3/4) Plus formellement, écrivons : Y = φ X + ε E ε = 0 et V ε = σ 2 φ X est une fonction déterministe certaine mais inconnue Dans l absolu, on souhaite estimer φ mais on ne dispose que des observations bruitées Y. Le sur-apprentissage consiste à apprendre Y (et ε) en s éloignant de φ. Les méthodes d apprentissage permettent d obtenir un modèle estimé φ X. On peut montrer : 2 Y φ 2 = E Y φ 2 = σ 2 + E φ φ à minimiser biais 2 + V φ variance Le meilleur modèle traduit un compromis entre le biais et la variance. 13
Valeurs de Y -1000 0 1000 2000 3000 4000 5000 Les méthodes d apprentissage statistique Cadre mathématique (4/4) Comparaison des méthodes Observés Vrai Modèle GLM Modèle Simple Modèle Optimal Modèle Complexe 0 20 40 60 80 100 Valeurs de X 14
Les méthodes d apprentissage statistique CART - Généralités Les arbres CART sont une représentation graphique d une analyse récursive d une base de données, permettant d en extraire de l information servant à la décision/prédiction. On retrouve deux types distincts : Les arbres de classification (variable de sortie qualitative ou discrète) Les arbres de régression (variable de sortie quantitative continue). BASE DE DONNÉES X 1 X 2 X 3 X 4 X 5 Y LUXE CITADINE CYLINDRE USAGE AGE_COND NOMBRE_SIN 1 N N 4 PRIVE 50 0 2 N N 6 PRIVE 60 0 3 N Y 4 COMMERCIAL 40 1 4 5 6 Y Y 4 COMMERCIAL 23 0 7 8 N N 6 PRIVE 40 1 9 10 N N 6 PRIVE 50 0 11 N N 8 PRIVE 30 1 12 N Y 4 BUSINESS 30 0 13 14 N N 6 PRIVE 30 0 998 999 N Y 4 PRIVE 60 2 1000 N N 4 COMMERCIAL 40 1 Racine 0.15 CITADINE=Y N 0.093 0.17 Feuille 1 CYLINDRE>=5 <5 0.16 0.18 Feuille 2 Feuille 3 15
Les méthodes d apprentissage statistique CART - Construction Idée : Utiliser les p variables explicatives pour subdiviser les individus en classes homogènes. Moyen : Fonction d hétérogénéité basée sur la variance intra-nœud. n N Δ = y i y N 2 n NG n ND 2 2 y i y N G + y i y N D i=1,i N noeud mère i=1,i N G noeud fils gauche i=1,i N D noeud fils droit Algorithme Étape 4 : Division Division effective du nœud mère en deux nœuds fils Étape 1 : Disjonction Déterminer les partitions binaires des p variables Étape 3 : Optimisation Choix de la division qui maximise Δ Étape 2 : Calcul Calcul de Δ pour chaque division Condition d arrêt Naturelle Un seul profil par feuille. Imposée Nombre maximum de feuilles atteint, Nombre minimum d individus par feuille atteint, Qualité de l arbre jugée suffisante, Etc. Si l algorithme est mené jusqu à son terme : l arbre obtenu est appelé l arbre saturé. Élagage Sur l arbre saturé φ K, on isole les arbres φ k à k feuilles pour k = K 1,, 1. On obtient alors la courbe R validation φ k. 16
Les méthodes d apprentissage statistique CART - Illustration (1/4) Choix de la première segmentation sur la base d apprentissage de 700 individus. 1,00 0,80 0,60 0,80 0,54 Réduction d'hétérogénéité 0,40 0,20 0,00 0,17 0,17 0,20 0,08 0,11 0,09 0,09 0,08 0,03 0,01 0,01 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Index Variable Testée Nœud Gauche Nœud Droite E[Y] E[Y N_G] E[Y N_D] MSE Total MSE Gauche MSE Droite Delta 1 LUXE Y N 0,15 0,00 0,16 115,34 0,00 115,17 0,17 2 CITADINE Y N 0,15 0,09 0,17 115,34 13,61 100,92 0,80 3 CYLINDRE 4 6 et 8 0,15 0,15 0,16 115,34 73,29 42,02 0,03 4 CYLINDRE 4 et 6 8 0,15 0,16 0,13 115,34 111,86 3,47 0,01 5 USAGE B P et C 0,15 0,00 0,16 115,34 0,00 114,80 0,54 6 USAGE C B et P 0,15 0,23 0,15 115,34 4,31 110,95 0,08 7 USAGE P B et C 0,15 0,16 0,09 115,34 110,42 4,74 0,17 8 AGE_COND <=20 >20 0,15 0,13 0,15 115,34 1,73 113,60 0,01 9 AGE_COND <=23 >23 0,15 0,10 0,16 115,34 2,71 112,52 0,11 10 AGE_COND <=25 >25 0,15 0,12 0,16 115,34 9,91 105,34 0,09 11 AGE_COND <=30 >30 0,15 0,12 0,16 115,34 20,39 94,75 0,20 12 AGE_COND <=40 >40 0,15 0,16 0,15 115,34 56,41 58,93 0,00 13 AGE_COND <=50 >50 0,15 0,16 0,13 115,34 90,48 24,76 0,09 14 AGE_COND <=60 >60 0,15 0,15 0,19 115,34 104,34 10,91 0,08 17
Les méthodes d apprentissage statistique CART - Illustration (2/4) Arbre saturé obtenu sur la base d apprentissage. CITADINE: N 0.150 USAGE: B 0.170 AGE_COND < 35 0.000 0.180 AGE_COND < 24 0.093 AGE_COND < 45 0.000 0.097 CYLINDRE < 7 AGE_COND < 55 AGE_COND < 27.5 AGE_COND < 65 0.140 0.190 0.110 0.083 CYLINDRE < 5 0.130 LUXE: N 0.250 CYLINDRE < 7 0.210 AGE_COND < 65 0.160 USAGE: AGE_COND B AGE_COND < 35 < 55 0.140 0.110 0.076 0.110 AGE_COND < 21.5 0.150 AGE_COND < AGE_COND 24 < 27.5 0.110 0.330 0.000 LUXE: N 0.210 AGE_COND < 45 CYLINDRE < 5 0.062 0.130 CYLINDRE < 5 0.220 0.0000.1500.0910.120 0.0790.071 AGE_COND < 24 AGE_COND < 27.5 0.400 0.130 0.000 0.140 0.0000.500 CYLINDRE < 5 0.220 CYLINDRE < 7 LUXE: N 0.0000.0000.120 0.160 0.086 0.110 0.460 AGE_COND < 27.5 0.140 0.130 0.2000.120 USAGE: C 0.240 USAGE: C 0.200 USAGE: C 0.065 0.2500.1200.000 0.1200.130 AGE_COND AGE_COND < 45 < 45AGE_COND < 45 0.430 0.230 0.000 0.200 0.0000.067 0.2001.0000.2100.250 0.2500.160 18
deviance 49.0 49.5 50.0 50.5 51.0 Les méthodes d apprentissage statistique CART - Illustration (3/4) Choix du nombre de feuilles à conserver sur notre arbre saturé. 0.80000 0.43000 0.36000 0.20000 0.20000 0.19000 0.18000 0.07200 0.04300 0.03200 0.01800 0.00950 0.00140 0.00017 1 5 10 15 20 25 30 35 size 19
Les méthodes d apprentissage statistique CART - Illustration (4/4) Résultat de l élagage sur notre exemple. CITADINE: N 0.150 USAGE: B 0.170 AGE_COND < 35 0.000 0.180 AGE_COND < 24 0.093 AGE_COND < 45 0.000 0.097 CYLINDRE < 7 AGE_COND < 55 AGE_COND < 27.5 AGE_COND < 65 0.140 0.190 0.110 0.083 CYLINDRE < 5 0.130 LUXE: N 0.250 CYLINDRE < 7 0.210 AGE_COND < 65 0.160 USAGE: AGE_COND B AGE_COND < 35 < 55 0.140 0.110 0.076 0.110 AGE_COND < 21.5 0.150 AGE_COND < AGE_COND 24 < 27.5 0.110 0.330 0.000 LUXE: N 0.210 AGE_COND < 45 CYLINDRE < 5 0.062 0.130 CYLINDRE < 5 0.220 0.0000.1500.0910.120 0.0790.071 AGE_COND < 24 AGE_COND < 27.5 0.400 0.130 0.000 0.140 0.0000.500 CYLINDRE < 5 0.220 CYLINDRE < 7 LUXE: N 0.0000.0000.120 0.160 0.086 0.110 0.460 AGE_COND < 27.5 0.140 0.130 0.2000.120 USAGE: C 0.240 USAGE: C 0.200 USAGE: C 0.065 0.2500.1200.000 0.1200.130 AGE_COND AGE_COND < 45 < 45AGE_COND < 45 0.430 0.230 0.000 0.200 0.0000.067 0.2001.0000.2100.250 0.2500.160 20
deviance 16450 16500 16550 16600 Les méthodes d apprentissage statistique CART - Illustration sur la base complète 1.4e+02 6.5e+00 3.6e+00 2.1e+00 1.6e+00 1.3e+00 1.1e+00 8.2e-01 7.1e-01 6.5e-01 5.7e-01 5.3e-01 4.6e-01 4.1e-01 3.1e-01 2.6e-01 2.0e-01 1.4e-01 6.8e-02 -Inf R validation φ k 1 50 100 150 200 250 size Arbre tronc φ 1 1 feuille Arbre élagué φ 5 5 feuilles Arbre élagué φ 20 20 feuilles Arbre optimal φ 122 122 feuilles Arbre saturé φ 280 1000 obs. par feuille 21
Les méthodes d apprentissage statistique Méthodes d agrégation Les arbres CART présentent certains avantages : Représentation graphique hiérarchisée intuitive, avec des règles simples Interactions crédibles et naturelles «faire parler» les données Mais possèdent également quelques limites : Non robustesse de la structure : «Effet papillon» Fonction prédictive en escaliers On se tourne alors vers des méthodes d agrégation parallèles et adaptatives. Bagging et Random Forests Base d apprentissage Erreur de prédiction Gradient Boosting et Stochastic Gradient Boosting Bootstrap : tirage avec remise de l échantillon Meilleur modèle Échantillon 1 Échantillon Échantillon Bagging : CART Random Forests : CART avec une sélection aléatoire de variables parmi les disponibles avant de segmenter Arbre saturé Arbre saturé Arbre saturé Complexité du modèle Modèle trivial Modèle sur-appris 22
Les méthodes d apprentissage statistique Comparaison des méthodes sur la base complète 86,7 15% 13% 20% 86,6 0% 6% 6% 0% 86,5 86,4-24% -18% -20% 86,3-40% 86,2-60% 86,1 86,0-80% 85,9-100% Arbre tronc Arbre saturé (1000 obs) Arbre optimal (122 feuilles) GLM sélectionné Bagging (B=55) Random Forest (B=17) Gradient Boosting (B=515) Sto. Gradient Boosting (B=585) -100% Erreur de prédiction sur la base de test en fonction du modèle Gain d'écart relatif au modèle trivial par rapport au GLM 23
Sommaire Introduction Les méthodes d apprentissage statistique Illustration 24
Illustration Présentation de l illustration Une compagnie d assurance dommages souhaite faire un état des lieux de son tarif auto existant (GLM). L état des lieux peut consister à répondre aux diagnostics suivants : 1. Est-ce que la structure actuelle du GLM est toujours pertinente? 2. Est-ce que des variables (auto) qui étaient candidates à la modélisation (et donc non-retenues) lors de la création du tarif pourraient aujourd hui améliorer la structure tarifaire? 3. Est-ce que les variables (auto) nouvellement disponibles (externe ou nouveau champ) depuis la création du tarif pourraient améliorer la structure tarifaire? 4. Est-ce que les variables des clients sur les autres branches pourraient permettre d identifier de nouveaux segments de clientèle créateurs de richesse (lien avec la valeur client) pour la compagnie? Diagnostic 1 = OUI Test de validité du GLM existant au sein de la compagnie : Application des paramètres du GLM sur une nouvelle base (test) : par exemple un sondage sur les 12 derniers mois de production Présentation du diagnostic sous l angle de vue du GLM : la population est répartie en 30 paquets triés par fréquence prédite du GLM dans la base de test Nous proposons une démarche possible pour mettre en œuvre les diagnostics 2 et 3 à l aide des méthodes d apprentissage 25
Illustration Présentation du modèle Pour répondre aux diagnostics 2 et 3, l algorithme d apprentissage statistique que nous avons mis en œuvre a pour fonction objectif la fréquence résiduelle de sinistre sachant la fréquence prédite par le GLM existant : Nombre de sinistres observés y = Exposition fréquence prédite du GLM Les variables candidates : Ne sont pas les variables explicatives déjà retenues par le GLM Et sont donc toutes les autres variables explicatives disponibles pour prédire la fréquence Un exemple d une variable non-candidate : Un exemple d une variable candidate : Fréquence Observée Fréquence Observée Fréquence Résiduelle Fréquence Résiduelle 26
Illustration Résultats graphiques du modèle Les résultats du modèle sont présentés sous l angle des segments créés par l algorithme. L algorithme a été paramétré pour créer 30 segments L algorithme a permis d identifier des segments de clientèle pour qui la compagnie pourrait augmenter son tarif au maximum de 45% ou au contraire le baisser jusqu à 28%. Score Fréquence résiduelle 145% Score Fréquence résiduelle 72% 27
Illustration Intégration des résultats dans la structure GLM existante La compagnie souhaite intégrer les résultats de l algorithme dans sa structure tarifaire GLM existante Apprentissage statistique (30 segments) DEFINITION DES SEGMENTS Variable 1 Variable 2 Variable 3 Variable N 1 N D 3 50 2 C 60 3 N B 4 40 29 N A 6 30 N 8 30 Contrairement à une structure GLM, il se peut que certains segments soient définis sans utiliser l ensemble des variables de l algorithme. PARAMETRES y Fréquence résiduelle 1 145% 2 135% 3 125% 29 78% 30 72% Structure GLM existante TABLE FACTEURS GLM VARIABLE MODALITE FACTEUR INTERCEPT - 2 AGE_COND 40 0 AGE_COND 23 0,8 AGE_COND 60 0,1 CYLINDRE 6 0 USAGE PRIVE 0 Nouvelle structure GLM TABLE FACTEURS GLM VARIABLE MODALITE FACTEUR INTERCEPT - 2 AGE_COND 40 0 AGE_COND 23 0,8 AGE_COND 60 0,1 CYLINDRE 6 0 USAGE PRIVE 0 SCORE 1 1,45 SCORE 2 1,35 SCORE 3 1,25 SCORE SCORE 30 0,72 Il est nécessaire que chaque variable retenue par le score soit lisible dans le système d informations pour être intégrée dans la structure GLM de la compagnie 28
Conclusion L illustration a permis de montrer que l utilisation des méthodes d apprentissage statistique pouvait être un complément pertinent à l utilisation des GLM dans un cadre tarifaire. En effet, l application de ces méthodes permet : De pallier certaines limites des GLM D optimiser le temps d implémentation pour mettre en œuvre un modèle De traiter un grand nombre de variables tarifaires Plus généralement, ces méthodes permettent également d ouvrir un horizon de modélisation plus large que la tarification. En effet, les méthodes d apprentissage statistique permettent par exemple : De répondre à un besoin de suivi des actions du management en «temps réel» D être une réponse pertinente à la mise en place d un concept de valeur client au sein d une compagnie D être la réponse de modélisation pour les données de masse dont les assureurs vont pouvoir ou peuvent déjà disposer. 29
Contacts Fabrice TAILLIEU Principal fabrice.taillieu@milliman.com + 33 6 87 30 69 92 Sébastien DELUCINGE Senior Consultant sebastien.delucinge@milliman.com + 33 6 38 74 52 15 Rémi BELLINA Consultant remi.bellina@milliman.com + 33 6 08 23 39 95 30