Méthodes d apprentissage statistique («Machine Learning»)



Documents pareils
Méthodes d apprentissage statistique «Machine Learning»

Le métier d actuaire IARD

Arbres binaires de décision

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Journées d études IARD

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit


LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Assurance auto des véhicules électriques: risques et réalité Stanislas Roth Directeur Excellence Technique IARD Particuliers AXA GLOBAL P&C

Introduction au datamining

Introduction au Data-Mining

Optimisation des ressources des produits automobile première

données en connaissance et en actions?

Resolution limit in community detection

BIG DATA et données externes dans les modèles de tarification

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

TARIFICATION EN ASSURANCE COMPLEMENTAIRE SANTE: il était une fois, un statisticien, un actuaire, un économiste de la santé

Travailler avec les télécommunications

Comment mieux lutter contre la fraude à l assurance? Gestion de sinistres Odilon Audouin, le 4 avril 2013

Construction de bases biométriques pour l assurance dépendance. SCOR inform - Novembre 2012

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L olivier Assurances Licence 3 Econométrie Lyon II

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

Introduction au Data-Mining

Surabondance d information

Coup de Projecteur sur les Réseaux de Neurones

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

INTRODUCTION (Eric BERTHOUX Directeur Délégué Administratif et Financier MAIF)

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Les algorithmes de fouille de données

Solution logicielle pour le pilotage et l ERM. Journées d études IARD 26 mars mars 2010

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La classification automatique de données quantitatives

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Agrégation des portefeuilles de contrats d assurance vie

La baisse tendancielle des rentes réduitelle la demande d épargne retraite? Leçons tirées d une réforme des tables de mortalité

un environnement économique et politique

Le rôle de CCR dans le régime d indemnisation des catastrophes naturelles. Séisme de Lambesc ( Sud-est de la France)

Agenda de la présentation

L Assurance. L Assurance

Université de Montréal. par Sylvain Pannetier Lebeuf

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Présentation du cabinet

Provisions pour risques croissants en santé SACEI 13 mars 2008

Spécificités, Applications et Outils

Table des matières. I Mise à niveau 11. Préface

des compagnies d assurance : évolutions récentes

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Le risque Idiosyncrasique

INF6304 Interfaces Intelligentes

Probabilités conditionnelles Exercices corrigés

Algorithmes d'apprentissage

ANALYSE STATISTIQUE PRÉDICTIVE

point sur l assurance française

1 Modélisation d être mauvais payeur

Mesure et gestion des risques d assurance

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

SOMMAIRE INTRODUCTION... 3

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Gender Directive Impacts opérationnels pour les assureurs

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

IBM SPSS Direct Marketing

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Pourquoi l apprentissage?

Les critères de segmentation Critères Variables retenues Description Exemple Pays, région, ville, Chauffage,

Fast and furious decision tree induction

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

Business Intelligence simple et efficace

Probabilités Loi binomiale Exercices corrigés

Le Data Risk Center. Plateforme de pilotage et de gestion des risques Pilier I de la directive Solvabilité II

SESSION 2013 BTS ASSURANCE CORRIGE E3

PARTIE 1. Phénoménologie

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Accélérer l agilité de votre site de e-commerce. Cas client

Assurance automobile : défis et perspectives des compagnies d assurances

Le Guide Pratique des Processus Métiers

Travaux pratiques. Compression en codage de Huffman Organisation d un projet de programmation

Processus de comptage, Poisson mélange, fonction de perte exponentielle, système bonus-malus.

Apprentissage Automatique

Mesures de Risque Multipériodes Cohérentes Appliquées au Compte à Terme

PROGRAMME (Susceptible de modifications)

Le ranking de Augure Influencers La méthodologie AIR en détails

Table des matières: Guidelines Fonds de Pensions

ENJEUX ET PERSPECTIVES DU MODÈLE DE BANCASSURANCE NON-VIE À L AUNE DES ANNÉES 2020

Solvabilité II Les impacts sur la tarification et l offre produit

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

TABLE DES MATIÈRES AVANT-PROPOS... 5 RÉFÉRENCES ABRÉGÉES À DES PUBLICATIONS FRÉQUEMMENT CITÉES... 7 INTRODUCTION Section 1

Solutions EMC Documentum pour les assurances

Les Journées Régionales de la Création & Reprise d Entreprise

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Résumé des communications des Intervenants

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

FIMA, 7 juillet 2005

L analyse de la gestion de la clientèle

Classe de première L

Transcription:

Méthodes d apprentissage statistique («Machine Learning») Journées d Etudes IARD Niort, 21 Mars 2014 Fabrice TAILLIEU Sébastien DELUCINGE Rémi BELLINA 2014 Milliman. All rights reserved

Sommaire Introduction Les méthodes d apprentissage statistique Illustration 2

Introduction L environnement du marché de l assurance Le marché de l assurance non-vie est extrêmement compétitif en France, ce qui fait peser une incertitude importante sur les marges des compagnies. Plusieurs facteurs accentuent ce phénomène, notamment : L aggravation des charges sinistres sur certaines branches (accidents corporels lourds, assurance santé, événements climatiques, ) L environnement économique et financier Les changements législatifs (réforme FGAO, fin de la différenciation liée au critère de genre, loi Hamon, entrée en vigueur de Solvabilité II, ) L incertitude liée à de nouveaux risques (risques technologiques, risques climatiques, ) 3

Introduction L environnement du marché de l assurance Les résultats des compagnies s en ressortent fortement : 70 7 60 6 50 5 40 30 20 4 3 2 Cotisations acquises (Mds ) Résultat technique (Mds ) Résultat net comptable (Mds ) 10 1 0 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 0 Source : Rapport annuel FFSA 2012, Sociétés dommages 4

Introduction Les enjeux pour une compagnie d assurance Dans ce contexte, il est primordial pour toute compagnie : D identifier les segments de clientèle fragilisant ses résultats, ou à l inverse ceux qui peuvent êtres créateurs de richesse De suivre les résultats des affaires en portefeuille de manière objective, indépendamment de la structure tarifaire utilisée lors de la souscription de ces affaires D être capable d identifier les actions à mettre en œuvre, et dans la mesure du possible avant ses concurrents De mettre en œuvre les actions nécessaires pendant les périodes de renouvellement (résiliations, augmentations/baisses tarifaires) et tout au long de l année (suivi de la performance d un réseau de distribution, actions marketing vis-àvis des clients à conserver en portefeuille, efforts commerciaux sur les affaires nouvelles, etc) Dans la plupart des compagnies d assurance, ces travaux sont aujourd hui menés en utilisant des techniques et des indicateurs relativement standardisés. 5

Introduction Les dimensions de modélisation De nouvelles dimensions à prendre en compte : Temps nécessaire à l implémentation des modèles Choix du type de modélisation (GLM, Apprentissage statistique, Mix des 2, etc) Les contraintes des Systèmes d Informations existants La distribution des données Les variables candidates à la modélisation (leur nombre et leur connaissance par l actuaire) et leurs interactions Le diagnostic recherché par le modèle (tarif, revue, scoring, valeur client, ) Pour un grand nombre de ces dimensions, le choix des méthodes d apprentissage statistique sera le plus à même de répondre aux besoins croissants en termes de modélisations. 6

Introduction Les enjeux pour une compagnie d assurance Pour répondre aux problématiques nouvelles soulevées par le management, les actuaires ont besoin d outils adaptés au nouvel environnement dans lequel leur compagnie exerce. Quelles solutions apportent les méthodes d apprentissage statistique pour effectuer les bons diagnostics? Est-ce pour autant la fin des GLM en tarification? 7

Sommaire Introduction Les méthodes d apprentissage statistique Illustration 8

Les méthodes d apprentissage statistique Machine learning Définition : on parle de machine learning ou d apprentissage lorsqu un algorithme est mis en œuvre pour apprendre et extraire des informations d une base de données. Une fois la phase d apprentissage terminée, on peut utiliser les résultats pour réaliser des prédictions. Cela couvre un domaine très vaste, tant par les méthodes (réseaux de neurones, arbres, méthodes ensemblistes, etc.) que par les applications (filtre anti-spam, marketing, etc.). Nous nous concentrons sur l algorithme CART (Classification And Regression Tree) et ses méthodes d agrégation. Source : Michie D., Spiegelhalter D.J., Taylor C.C. (1984) Machine Learning, Neural and Statistical Classification 9

Les méthodes d apprentissage statistique Base de données pour illustration BASE DE DONNÉES X 1 X 2 X 3 X 4 X 5 Y LUXE CITADINE CYLINDRE USAGE AGE_COND NOMBRE_SIN 1 N N 4 PRIVE 50 0 2 N N 6 PRIVE 60 0 3 N Y 4 COMMERCIAL 40 1 4 N Y 4 PRIVE 30 0 5 N N 4 PRIVE 70 0 6 Y Y 4 COMMERCIAL 23 0 7 N N 4 BUSINESS 40 0 8 N N 6 PRIVE 40 1 9 Y Y 4 PRIVE 60 0 10 N N 6 PRIVE 50 0 11 N N 8 PRIVE 30 1 12 N Y 4 BUSINESS 30 0 13 Y N 6 PRIVE 40 0 14 N N 6 PRIVE 30 0 998 N N 4 BUSINESS 60 0 999 N Y 4 PRIVE 60 2 1000 N N 4 COMMERCIAL 40 1 Apprentissage Validation Test 70% 20% 10% 10

Les méthodes d apprentissage statistique Cadre mathématique (1/4) Variables explicatives : X 1,, X p. Variable à expliquer : Y. On cherche parmi un ensemble de fonctions admissibles F : φ R p R, x = x 1,, x p φ x = y Comment trouver une «bonne» fonction φ? Selon un critère quadratique et sans restriction sur F, la meilleure fonction φ est l espérance conditionnelle : φ = arg min φ F Y φ X 2 = arg min W L 2 σ X Y W 2 = E Y X La meilleure représentation φ X de Y sachant que l on dispose de l échantillon X est E Y X. On souhaite obtenir un bon estimateur de l espérance conditionnelle. L erreur d un modèle sur une base est donnée par R base φ = y i φ x 2 base i. 11

Les méthodes d apprentissage statistique Cadre mathématique (2/4) Problème : E Y X = x traduit un sur-apprentissage. Solution : garder une certaine généralité/distance par rapport aux données d apprentissage. Erreur de prédiction Meilleur modèle R validation φ R apprentissage φ Estimateur trivial φ x = y Estimateur sur-appris φ x = E Y X = x Complexité du modèle φ «Taille» de F 12

Les méthodes d apprentissage statistique Cadre mathématique (3/4) Plus formellement, écrivons : Y = φ X + ε E ε = 0 et V ε = σ 2 φ X est une fonction déterministe certaine mais inconnue Dans l absolu, on souhaite estimer φ mais on ne dispose que des observations bruitées Y. Le sur-apprentissage consiste à apprendre Y (et ε) en s éloignant de φ. Les méthodes d apprentissage permettent d obtenir un modèle estimé φ X. On peut montrer : 2 Y φ 2 = E Y φ 2 = σ 2 + E φ φ à minimiser biais 2 + V φ variance Le meilleur modèle traduit un compromis entre le biais et la variance. 13

Valeurs de Y -1000 0 1000 2000 3000 4000 5000 Les méthodes d apprentissage statistique Cadre mathématique (4/4) Comparaison des méthodes Observés Vrai Modèle GLM Modèle Simple Modèle Optimal Modèle Complexe 0 20 40 60 80 100 Valeurs de X 14

Les méthodes d apprentissage statistique CART - Généralités Les arbres CART sont une représentation graphique d une analyse récursive d une base de données, permettant d en extraire de l information servant à la décision/prédiction. On retrouve deux types distincts : Les arbres de classification (variable de sortie qualitative ou discrète) Les arbres de régression (variable de sortie quantitative continue). BASE DE DONNÉES X 1 X 2 X 3 X 4 X 5 Y LUXE CITADINE CYLINDRE USAGE AGE_COND NOMBRE_SIN 1 N N 4 PRIVE 50 0 2 N N 6 PRIVE 60 0 3 N Y 4 COMMERCIAL 40 1 4 5 6 Y Y 4 COMMERCIAL 23 0 7 8 N N 6 PRIVE 40 1 9 10 N N 6 PRIVE 50 0 11 N N 8 PRIVE 30 1 12 N Y 4 BUSINESS 30 0 13 14 N N 6 PRIVE 30 0 998 999 N Y 4 PRIVE 60 2 1000 N N 4 COMMERCIAL 40 1 Racine 0.15 CITADINE=Y N 0.093 0.17 Feuille 1 CYLINDRE>=5 <5 0.16 0.18 Feuille 2 Feuille 3 15

Les méthodes d apprentissage statistique CART - Construction Idée : Utiliser les p variables explicatives pour subdiviser les individus en classes homogènes. Moyen : Fonction d hétérogénéité basée sur la variance intra-nœud. n N Δ = y i y N 2 n NG n ND 2 2 y i y N G + y i y N D i=1,i N noeud mère i=1,i N G noeud fils gauche i=1,i N D noeud fils droit Algorithme Étape 4 : Division Division effective du nœud mère en deux nœuds fils Étape 1 : Disjonction Déterminer les partitions binaires des p variables Étape 3 : Optimisation Choix de la division qui maximise Δ Étape 2 : Calcul Calcul de Δ pour chaque division Condition d arrêt Naturelle Un seul profil par feuille. Imposée Nombre maximum de feuilles atteint, Nombre minimum d individus par feuille atteint, Qualité de l arbre jugée suffisante, Etc. Si l algorithme est mené jusqu à son terme : l arbre obtenu est appelé l arbre saturé. Élagage Sur l arbre saturé φ K, on isole les arbres φ k à k feuilles pour k = K 1,, 1. On obtient alors la courbe R validation φ k. 16

Les méthodes d apprentissage statistique CART - Illustration (1/4) Choix de la première segmentation sur la base d apprentissage de 700 individus. 1,00 0,80 0,60 0,80 0,54 Réduction d'hétérogénéité 0,40 0,20 0,00 0,17 0,17 0,20 0,08 0,11 0,09 0,09 0,08 0,03 0,01 0,01 0,00 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Index Variable Testée Nœud Gauche Nœud Droite E[Y] E[Y N_G] E[Y N_D] MSE Total MSE Gauche MSE Droite Delta 1 LUXE Y N 0,15 0,00 0,16 115,34 0,00 115,17 0,17 2 CITADINE Y N 0,15 0,09 0,17 115,34 13,61 100,92 0,80 3 CYLINDRE 4 6 et 8 0,15 0,15 0,16 115,34 73,29 42,02 0,03 4 CYLINDRE 4 et 6 8 0,15 0,16 0,13 115,34 111,86 3,47 0,01 5 USAGE B P et C 0,15 0,00 0,16 115,34 0,00 114,80 0,54 6 USAGE C B et P 0,15 0,23 0,15 115,34 4,31 110,95 0,08 7 USAGE P B et C 0,15 0,16 0,09 115,34 110,42 4,74 0,17 8 AGE_COND <=20 >20 0,15 0,13 0,15 115,34 1,73 113,60 0,01 9 AGE_COND <=23 >23 0,15 0,10 0,16 115,34 2,71 112,52 0,11 10 AGE_COND <=25 >25 0,15 0,12 0,16 115,34 9,91 105,34 0,09 11 AGE_COND <=30 >30 0,15 0,12 0,16 115,34 20,39 94,75 0,20 12 AGE_COND <=40 >40 0,15 0,16 0,15 115,34 56,41 58,93 0,00 13 AGE_COND <=50 >50 0,15 0,16 0,13 115,34 90,48 24,76 0,09 14 AGE_COND <=60 >60 0,15 0,15 0,19 115,34 104,34 10,91 0,08 17

Les méthodes d apprentissage statistique CART - Illustration (2/4) Arbre saturé obtenu sur la base d apprentissage. CITADINE: N 0.150 USAGE: B 0.170 AGE_COND < 35 0.000 0.180 AGE_COND < 24 0.093 AGE_COND < 45 0.000 0.097 CYLINDRE < 7 AGE_COND < 55 AGE_COND < 27.5 AGE_COND < 65 0.140 0.190 0.110 0.083 CYLINDRE < 5 0.130 LUXE: N 0.250 CYLINDRE < 7 0.210 AGE_COND < 65 0.160 USAGE: AGE_COND B AGE_COND < 35 < 55 0.140 0.110 0.076 0.110 AGE_COND < 21.5 0.150 AGE_COND < AGE_COND 24 < 27.5 0.110 0.330 0.000 LUXE: N 0.210 AGE_COND < 45 CYLINDRE < 5 0.062 0.130 CYLINDRE < 5 0.220 0.0000.1500.0910.120 0.0790.071 AGE_COND < 24 AGE_COND < 27.5 0.400 0.130 0.000 0.140 0.0000.500 CYLINDRE < 5 0.220 CYLINDRE < 7 LUXE: N 0.0000.0000.120 0.160 0.086 0.110 0.460 AGE_COND < 27.5 0.140 0.130 0.2000.120 USAGE: C 0.240 USAGE: C 0.200 USAGE: C 0.065 0.2500.1200.000 0.1200.130 AGE_COND AGE_COND < 45 < 45AGE_COND < 45 0.430 0.230 0.000 0.200 0.0000.067 0.2001.0000.2100.250 0.2500.160 18

deviance 49.0 49.5 50.0 50.5 51.0 Les méthodes d apprentissage statistique CART - Illustration (3/4) Choix du nombre de feuilles à conserver sur notre arbre saturé. 0.80000 0.43000 0.36000 0.20000 0.20000 0.19000 0.18000 0.07200 0.04300 0.03200 0.01800 0.00950 0.00140 0.00017 1 5 10 15 20 25 30 35 size 19

Les méthodes d apprentissage statistique CART - Illustration (4/4) Résultat de l élagage sur notre exemple. CITADINE: N 0.150 USAGE: B 0.170 AGE_COND < 35 0.000 0.180 AGE_COND < 24 0.093 AGE_COND < 45 0.000 0.097 CYLINDRE < 7 AGE_COND < 55 AGE_COND < 27.5 AGE_COND < 65 0.140 0.190 0.110 0.083 CYLINDRE < 5 0.130 LUXE: N 0.250 CYLINDRE < 7 0.210 AGE_COND < 65 0.160 USAGE: AGE_COND B AGE_COND < 35 < 55 0.140 0.110 0.076 0.110 AGE_COND < 21.5 0.150 AGE_COND < AGE_COND 24 < 27.5 0.110 0.330 0.000 LUXE: N 0.210 AGE_COND < 45 CYLINDRE < 5 0.062 0.130 CYLINDRE < 5 0.220 0.0000.1500.0910.120 0.0790.071 AGE_COND < 24 AGE_COND < 27.5 0.400 0.130 0.000 0.140 0.0000.500 CYLINDRE < 5 0.220 CYLINDRE < 7 LUXE: N 0.0000.0000.120 0.160 0.086 0.110 0.460 AGE_COND < 27.5 0.140 0.130 0.2000.120 USAGE: C 0.240 USAGE: C 0.200 USAGE: C 0.065 0.2500.1200.000 0.1200.130 AGE_COND AGE_COND < 45 < 45AGE_COND < 45 0.430 0.230 0.000 0.200 0.0000.067 0.2001.0000.2100.250 0.2500.160 20

deviance 16450 16500 16550 16600 Les méthodes d apprentissage statistique CART - Illustration sur la base complète 1.4e+02 6.5e+00 3.6e+00 2.1e+00 1.6e+00 1.3e+00 1.1e+00 8.2e-01 7.1e-01 6.5e-01 5.7e-01 5.3e-01 4.6e-01 4.1e-01 3.1e-01 2.6e-01 2.0e-01 1.4e-01 6.8e-02 -Inf R validation φ k 1 50 100 150 200 250 size Arbre tronc φ 1 1 feuille Arbre élagué φ 5 5 feuilles Arbre élagué φ 20 20 feuilles Arbre optimal φ 122 122 feuilles Arbre saturé φ 280 1000 obs. par feuille 21

Les méthodes d apprentissage statistique Méthodes d agrégation Les arbres CART présentent certains avantages : Représentation graphique hiérarchisée intuitive, avec des règles simples Interactions crédibles et naturelles «faire parler» les données Mais possèdent également quelques limites : Non robustesse de la structure : «Effet papillon» Fonction prédictive en escaliers On se tourne alors vers des méthodes d agrégation parallèles et adaptatives. Bagging et Random Forests Base d apprentissage Erreur de prédiction Gradient Boosting et Stochastic Gradient Boosting Bootstrap : tirage avec remise de l échantillon Meilleur modèle Échantillon 1 Échantillon Échantillon Bagging : CART Random Forests : CART avec une sélection aléatoire de variables parmi les disponibles avant de segmenter Arbre saturé Arbre saturé Arbre saturé Complexité du modèle Modèle trivial Modèle sur-appris 22

Les méthodes d apprentissage statistique Comparaison des méthodes sur la base complète 86,7 15% 13% 20% 86,6 0% 6% 6% 0% 86,5 86,4-24% -18% -20% 86,3-40% 86,2-60% 86,1 86,0-80% 85,9-100% Arbre tronc Arbre saturé (1000 obs) Arbre optimal (122 feuilles) GLM sélectionné Bagging (B=55) Random Forest (B=17) Gradient Boosting (B=515) Sto. Gradient Boosting (B=585) -100% Erreur de prédiction sur la base de test en fonction du modèle Gain d'écart relatif au modèle trivial par rapport au GLM 23

Sommaire Introduction Les méthodes d apprentissage statistique Illustration 24

Illustration Présentation de l illustration Une compagnie d assurance dommages souhaite faire un état des lieux de son tarif auto existant (GLM). L état des lieux peut consister à répondre aux diagnostics suivants : 1. Est-ce que la structure actuelle du GLM est toujours pertinente? 2. Est-ce que des variables (auto) qui étaient candidates à la modélisation (et donc non-retenues) lors de la création du tarif pourraient aujourd hui améliorer la structure tarifaire? 3. Est-ce que les variables (auto) nouvellement disponibles (externe ou nouveau champ) depuis la création du tarif pourraient améliorer la structure tarifaire? 4. Est-ce que les variables des clients sur les autres branches pourraient permettre d identifier de nouveaux segments de clientèle créateurs de richesse (lien avec la valeur client) pour la compagnie? Diagnostic 1 = OUI Test de validité du GLM existant au sein de la compagnie : Application des paramètres du GLM sur une nouvelle base (test) : par exemple un sondage sur les 12 derniers mois de production Présentation du diagnostic sous l angle de vue du GLM : la population est répartie en 30 paquets triés par fréquence prédite du GLM dans la base de test Nous proposons une démarche possible pour mettre en œuvre les diagnostics 2 et 3 à l aide des méthodes d apprentissage 25

Illustration Présentation du modèle Pour répondre aux diagnostics 2 et 3, l algorithme d apprentissage statistique que nous avons mis en œuvre a pour fonction objectif la fréquence résiduelle de sinistre sachant la fréquence prédite par le GLM existant : Nombre de sinistres observés y = Exposition fréquence prédite du GLM Les variables candidates : Ne sont pas les variables explicatives déjà retenues par le GLM Et sont donc toutes les autres variables explicatives disponibles pour prédire la fréquence Un exemple d une variable non-candidate : Un exemple d une variable candidate : Fréquence Observée Fréquence Observée Fréquence Résiduelle Fréquence Résiduelle 26

Illustration Résultats graphiques du modèle Les résultats du modèle sont présentés sous l angle des segments créés par l algorithme. L algorithme a été paramétré pour créer 30 segments L algorithme a permis d identifier des segments de clientèle pour qui la compagnie pourrait augmenter son tarif au maximum de 45% ou au contraire le baisser jusqu à 28%. Score Fréquence résiduelle 145% Score Fréquence résiduelle 72% 27

Illustration Intégration des résultats dans la structure GLM existante La compagnie souhaite intégrer les résultats de l algorithme dans sa structure tarifaire GLM existante Apprentissage statistique (30 segments) DEFINITION DES SEGMENTS Variable 1 Variable 2 Variable 3 Variable N 1 N D 3 50 2 C 60 3 N B 4 40 29 N A 6 30 N 8 30 Contrairement à une structure GLM, il se peut que certains segments soient définis sans utiliser l ensemble des variables de l algorithme. PARAMETRES y Fréquence résiduelle 1 145% 2 135% 3 125% 29 78% 30 72% Structure GLM existante TABLE FACTEURS GLM VARIABLE MODALITE FACTEUR INTERCEPT - 2 AGE_COND 40 0 AGE_COND 23 0,8 AGE_COND 60 0,1 CYLINDRE 6 0 USAGE PRIVE 0 Nouvelle structure GLM TABLE FACTEURS GLM VARIABLE MODALITE FACTEUR INTERCEPT - 2 AGE_COND 40 0 AGE_COND 23 0,8 AGE_COND 60 0,1 CYLINDRE 6 0 USAGE PRIVE 0 SCORE 1 1,45 SCORE 2 1,35 SCORE 3 1,25 SCORE SCORE 30 0,72 Il est nécessaire que chaque variable retenue par le score soit lisible dans le système d informations pour être intégrée dans la structure GLM de la compagnie 28

Conclusion L illustration a permis de montrer que l utilisation des méthodes d apprentissage statistique pouvait être un complément pertinent à l utilisation des GLM dans un cadre tarifaire. En effet, l application de ces méthodes permet : De pallier certaines limites des GLM D optimiser le temps d implémentation pour mettre en œuvre un modèle De traiter un grand nombre de variables tarifaires Plus généralement, ces méthodes permettent également d ouvrir un horizon de modélisation plus large que la tarification. En effet, les méthodes d apprentissage statistique permettent par exemple : De répondre à un besoin de suivi des actions du management en «temps réel» D être une réponse pertinente à la mise en place d un concept de valeur client au sein d une compagnie D être la réponse de modélisation pour les données de masse dont les assureurs vont pouvoir ou peuvent déjà disposer. 29

Contacts Fabrice TAILLIEU Principal fabrice.taillieu@milliman.com + 33 6 87 30 69 92 Sébastien DELUCINGE Senior Consultant sebastien.delucinge@milliman.com + 33 6 38 74 52 15 Rémi BELLINA Consultant remi.bellina@milliman.com + 33 6 08 23 39 95 30