Méthodes d apprentissage statistique «Machine Learning»



Documents pareils
Arbres binaires de décision

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Optimisation des ressources des produits automobile première

Le métier d actuaire IARD

TARIFICATION EN ASSURANCE COMPLEMENTAIRE SANTE: il était une fois, un statisticien, un actuaire, un économiste de la santé

Introduction au datamining

Journées d études IARD

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Introduction au Data-Mining

Surabondance d information


Travailler avec les télécommunications

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Université de Montréal. par Sylvain Pannetier Lebeuf

Assurance automobile : défis et perspectives des compagnies d assurances

Production des Services d Assurance non-vie selon le SCN 2008

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Introduction au Data-Mining

L analyse de la gestion de la clientèle

Comment mieux lutter contre la fraude à l assurance? Gestion de sinistres Odilon Audouin, le 4 avril 2013

SOMMAIRE INTRODUCTION... 3

Construction de bases biométriques pour l assurance dépendance. SCOR inform - Novembre 2012

des compagnies d assurance : évolutions récentes

ENJEUX ET PERSPECTIVES DU MODÈLE DE BANCASSURANCE NON-VIE À L AUNE DES ANNÉES 2020

L olivier Assurances Licence 3 Econométrie Lyon II

Présentation du cabinet

Le scoring est-il la nouvelle révolution du microcrédit?

Résumé des communications des Intervenants

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

La classification automatique de données quantitatives

Bulletin Officiel de la Concurrence, de la Consommation et de la Répression des Fraudes

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Vision prospective et obstacles à surmonter pour les assureurs

Mesure et gestion des risques d assurance

UDSG CLASSIFICATION DOSSIER DOCUMENTAIRE

Coup de Projecteur sur les Réseaux de Neurones

Gender Directive Impacts opérationnels pour les assureurs

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Module 1 : Les fondamentaux de l'assurance / Durée : 1,5 jour

BIG DATA et données externes dans les modèles de tarification

PARTIE 1. Phénoménologie

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Pourquoi l apprentissage?

Compte rendu de l examen par le BSIF des coefficients du risque d assurance

Analyse du comportement individuel et collectif des professionnels. des professionnels forestiers face aux risques

Janvier Enquête CLCV Assurances et sinistres

Le risque opérationnel - Journées IARD de l'institut des Actuaires

Les clients puissance cube

Le risque Idiosyncrasique

IBM SPSS Direct Marketing

L évaluation de la performance de la communication media

Agenda de la présentation

Quelles stratégies gagnantes pour les assureurs dans la France de 2020?

Les risques liés à l activité de l entreprise : quels outils pour les identifier?

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

CNAM léments de cours Bonus-malus et Crédibilité

Le plan d action marketing et commercial : De la réflexion marketing à l action commerciale

Les algorithmes de fouille de données

Associations Dossiers pratiques

Accélérer l agilité de votre site de e-commerce. Cas client

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

ASSURANCE AUTOMOBILE ÉTUDES ACTUARIELLES ET POLITIQUE TARIFAIRE EN 2001 (x)

Rapport sur la situation financière des institutions de prévoyance et des assureurs vie

Solvabilité II Les impacts sur la tarification et l offre produit

Comment lutter efficacement contre la fraude à l assurance

Analyse prédictive. L essor et la valeur de l analyse prédictive dans la prise de décisions

Apprentissage Automatique

La fonction d audit interne garantit la correcte application des procédures en vigueur et la fiabilité des informations remontées par les filiales.

ATELIER DROIT DES CONTRATS, DE LA CONSOMMATION ET DU COMMERCE ELECTRONIQUE

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

La relation bancaire avec la clientèle des particuliers : revue de la littérature

Les dessous des moteurs de recommandation

SESSION 2013 BTS ASSURANCE CORRIGE E3

L environnement juridique et fiscal

Groupe Eyrolles, 2004 ISBN :

L actuariat et les nouveaux horizons de l assurance en Afrique

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

I. Une nouvelle loi anti-discrimination

INFORM OBLIGATIONS DE PREMIÈRE QUALITÉ ET OBLIGATIONS À HAUT RENDEMENT: AUGMENTER LE RENDEMENT ET DIMINUER LE RISQUE GRÂCE À UNE JUSTE COMBINAISON

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Les extranets de gestion en assurance collective DECEMBRE 2010

Fast and furious decision tree induction

Introduction Objectif et portée de la vérification Opinion de la Vérification interne... 3

Les imperfections de concurrence dans l industrie bancaire : spécificités et conséquences

La Qualité de Vie au Travail, Pourquoi aujourd hui? C est quoi? Pour faire quoi? Comment? Jeudi 5 février 2015 Rencontre Prévention - STSM

INTELLIGENCE MARKETING ETUDES DE MARCHE - DATA MINING - CONSEIL EN MARKETING - SYSTEMES D INFORMATION MARKETING

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain?

Libre choix par l assuré de son réparateur et de son expert : le CNPA à l offensive

PLAN STATISTIQUE AUTOMOBILE DU QUÉBEC Définitions

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

EXCESS RC PME - PMI. Georges BORKOWSKI. Février ACE Europe

Titre 4 - Analyse de l impact de la résiliation annuelle sur les marges des contrats emprunteurs

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Lydian Webinar. La nouvelle Loi sur les Assurances

L Evènement Assurance Automobile de GT Motive

Transcription:

Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours de ces dernières années. Cette situation met encore davantage en lumière la nécessité au sein des compagnies d effectuer les diagnostics pouvant aider le management dans sa prise de décisions. L utilisation de méthodes innovantes et rapides à mettre en œuvre comme les méthodes d apprentissage statistique (ou «machine learning») peut être un avantage compétitif déterminant dans ce contexte. INTRODUCTION Le marché de l assurance est extrêmement concurrentiel en France, on parle même souvent d un marché «saturé», ce qui fait peser une incertitude importante sur les marges des compagnies. Les chiffres publiés par la FFSA 1 montrent que pour les sociétés dommages, le résultat net comptable rapporté aux cotisations acquises a atteint en 2012 son plus bas niveau depuis 10 ans. La FFSA et le GEMA ont par ailleurs récemment annoncé que les résultats des sociétés dommages s étaient dégradés en 2013. Mais au-delà des statistiques d une année donnée, c est la faiblesse des résultats observée depuis plusieurs années qui soulève des interrogations. Plusieurs facteurs expliquent et peuvent accentuer ce phénomène. Tout d abord, on observe chez de nombreux acteurs une aggravation des charges de sinistres sur certaines branches, comme l Automobile (impact des corporels lourds) ou les Dommages aux Biens (événements climatiques récurrents), les deux principales branches d assurance non-vie. Ensuite, l environnement économique et financier a fragilisé les résultats de ces dernières années. Enfin et surtout, le marché de l assurance connait de fortes évolutions : la réforme de l ANI, la réforme du FGAO 2, la fin de la différenciation liée au critère de genre, la loi Hamon, l entrée en vigueur de Solvabilité II, etc. Ces évolutions soulèvent de nombreuses interrogations au sein des compagnies d assurance, notamment autour de la mesure de leurs impacts respectifs sur les résultats 1 Rapport annuel de la FFSA, 2012 2 Voir notre article «La réforme FGAO, quels impacts pour l assurance automobile», Mars 2013 techniques futurs, et sur les processus à mettre en place pour le suivi et la gestion des affaires en Dans ce contexte, il est crucial pour toute compagnie de savoir mener correctement des études sur le niveau de la rentabilité et sur la qualité de la souscription. En effet, quelle que soit la qualité des processus de décision en place, une décision prise sur un diagnostic erroné ou biaisé s avérera souvent contreproductive. Une des problématiques posées aux compagnies d assurance est de pouvoir identifier les segments de clientèle fragilisant leurs résultats, ou au contraire ceux qui peuvent être créateurs de richesse : comment identifier les marchés, les portefeuilles, voire les clients, les plus rentables? Et à l inverse ceux pour lesquels il n est pas judicieux d accorder des réductions commerciales ou d enclencher des actions marketing? Il est également primordial de mettre en place un suivi objectif des affaires en portefeuille, indépendamment de la structure tarifaire utilisée lors de la souscription de ces affaires : en effet analyser le portefeuille sur la base des seules variables tarifaires peut avoir un effet autoréalisateur et conduire l analyse à occulter des effets qui pourtant s avèrent pertinents. Une fois les décisions prises et les mesures mises en œuvre (en termes de souscription, de résiliations, d augmentations ou de baisses tarifaires ciblées, etc.), il est en outre important de pouvoir analyser les effets de ces décisions : comment s assurer «en temps réel» du caractère Avril 2014

approprié, ou non, des décisions prises et comment identifier dans les meilleurs délais les éventuelles actions correctrices à mettre en œuvre, par exemple auprès d un réseau de distribution? En d autres termes : comment effectuer les bons diagnostics? Dans la plupart des compagnies, ces travaux sont aujourd hui menés en utilisant des techniques et des indicateurs relativement standardisés. L utilisation de méthodes innovantes et rapides à mettre en œuvre peut constituer un avantage compétitif déterminant. L APPRENTISSAGE STATISTIQUE L apprentissage statistique consiste à mettre en œuvre des algorithmes permettant de reproduire le processus d apprentissage par l exemple, en assimilant des informations afin d en extraire des connaissances. L accent est mis ici sur l apprentissage supervisé qui vise à attribuer une classe à des entrées dans le cas d une sortie quantitative. un échantillon donné afin de s assurer que celles-ci ne sont pas endogènes à cet échantillon, mais bien généralisables à d autres. On souhaite éviter ainsi le phénomène de sur-apprentissage. De plus, le machine learning offre par essence une grande liberté qui est à opposer aux résultats fournis par les méthodes paramétriques (comme les GLM) qui imposent une forme prédéterminée à la fonction de prédiction limitant de fait tout surapprentissage, mais confinant aussi le degré de compréhension qu il est possible d atteindre. En lien direct avec ce constat, l échantillon de travail est classiquement subdivisé en 3 parties : - Échantillon d apprentissage (~70 %) : c est l échantillon sur lequel les modèles sont construits. - Échantillon de validation (~20 %) : il permet de sélectionner le meilleur modèle parmi tous ceux construits. - Échantillon de test (~10 %) : ce dernier est utilisé pour tester l adéquation du modèle optimal (au sens de la base de validation) et évaluer objectivement l erreur commise. Meilleur Modèle Source : Michie D., Spiegelhalter D.J., Taylor C.C. (1984) Machine Learning, Neural and Statistical Classification Plus concrètement, il s agit d étudier une variable aléatoire (par exemple la fréquence de sinistres) dépendant de plusieurs variables explicatives (âge de l assuré, type de véhicule, etc.). On cherche une application qui prédirait cette variable sur la base des observations, l objectif étant de minimiser l écart entre les valeurs observées et les valeurs prédites. On attend de l algorithme qu il s approprie les données disponibles réalisations du phénomène inconnu à décrire tout en conservant de bonnes performances sur de nouvelles données. C est dans cette ambivalence que réside l enjeu majeur des méthodes d apprentissage : un bon modèle se doit d apprendre les interactions entre données tout en gardant une certaine distance par rapport à Il existe de nombreuses méthodes d apprentissage statistique : les arbres (CHAID, C4.5, CART ), les réseaux de neurones, les Support Vector Machines, etc. Nous nous concentrons ici sur les arbres de régression binaires CART (Classification and Regression Trees) 3. Arbres de décision CART La technique des arbres est fondée sur la classification d'un objet par une suite de tests sur les variables explicatives. Ces tests sont organisés de façon hiérarchique et récursive, puisqu ils vont chercher à séparer l échantillon initial en deux sous-échantillons homogènes, mais qui soient les plus distincts possibles ; puis à reproduire cette séparation sur chacun des sous-échantillons. Cette 3 BREIMAN L., FRIEDMAN J., OLSHEN R.A., STONE C.J. (1984) Classification and Regression Trees. Chapman and Hall Avril 2014 2

capacité à discriminer est basée sur l évaluation de la réduction d hétérogénéité, quantifiée par la variance intra-nœud définie par : ( ( )) ( ( ( )) ( ( )) ) où ( ) est l espérance empirique de sachant le nœud. En d autres termes, on cherche donc à tester toutes les séparations envisageables en deux nœuds distincts ( et ) afin de trouver la séparation qui maximise la réduction d hétérogénéité. On répète cette opération jusqu à obtenir un profil par feuille (un nœud terminal) : on parle alors d arbre saturé. Les valeurs associées à ces feuilles sont les moyennes empiriques pour le profil identifié. On présente cidessous un exemple d arbre saturé sur une base d apprentissage restreinte de 6 individus et 3 profils. CITADINE USAGE NOMBRE_SIN N PRIVE 0 N COMMERCIAL 1 Y PRIVE 1 Y PRIVE 0 N COMMERCIAL 1 Y PRIVE 2 Les performances des arbres dépendent essentiellement de leur taille. Un arbre trop grand et donc très spécialisé conduit à des problèmes de sur-apprentissage. On cherche ainsi à obtenir des arbres plus parcimonieux et robustes. Le principe de l élagage est de construire l arbre saturé sur les données d apprentissage, puis de supprimer les nœuds pour lesquels les divisions ultérieures n améliorent pas significativement la capacité de prédiction sur la base de validation. Les arbres CART présentent de nombreux avantages, comme le fait d être non paramétriques et de posséder une représentation graphique hiérarchisée avec des règles de décision simples. De plus les interactions entre les variables ne relèvent pas d un jugement d expert mais sont intégrées au sein même de l algorithme, elles sont par là même non subjectives. Méthodes d agrégation USAGE=PRI Afin de gagner en efficacité et en précision, le processus de construction d un arbre peut être distribué ou répété. Cette procédure permet de réduire la variance de l estimation, mais conduit à une structure moins simple et tangible des arbres de décision. 0.67 CITADINE=N COM 0.83 Y Feuille 3 1 Profil {Y;PRIVE} Feuille 1 Feuille 2 0 Profil {N;PRIVE} 1 Profil {N;COMERCIAL} Les méthodes de parallélisation comme le bagging 4 et les forêts aléatoires 5 assemblent des arbres saturés construits indépendamment les uns des autres sur des échantillons bootstrappés des données d apprentissage. La fonction de prédiction est alors la moyenne de toutes les fonctions obtenues. Les méthodes adaptatives comme le gradient boosting 6 ou le stochastic gradient boosting 7 sont des méthodes de descente, où chaque arbre construit dans le modèle améliore la capacité prédictive de l arbre précédent, l algorithme s arrêtant ainsi quand celle-ci est jugée la plus appropriée. ETUDES DE CAS Ces méthodes innovantes peuvent être mises en œuvre dans de nombreux domaines. Nous présentons ci-dessous quelques exemples d applications. Etude de cas 1 : S assurer du pouvoir discriminant de la structure tarifaire existante L utilisation des méthodes d apprentissage statistique permet de mettre en évidence de nouveaux effets prédictifs sur une structure tarifaire existante. L objectif de cette étude était de vérifier la bonne adéquation de la structure tarifaire avec l évolution du marché d une part et des risques souscrits d autre part. On a donc cherché à prédire la prime pure résiduelle (l écart entre la prime pure prédite par le GLM et la charge de sinistres observée) à partir de variables explicatives non retenues dans la 4 BERK R.A. (2004) An introduction to Ensemble Methods for Data Analysis. Department of Statistics UCLA 5 BREIMAN L. (2001) Random Forests. Statistics Department, Berkeley 6 FRIEDMAN J.H. (2001) Greedy function approximation: a gradient boosting machine. The annals of Statistics 7 FRIEDMAN J.H. (2002) Stochastic gradient boosting. Computational Statistics & Data Analysis Avril 2014 3

structure tarifaire existante. L algorithme a identifié une quinzaine de variables explicatives non incluses dans la structure tarifaire existante afin de créer 30 profils. L étude a démontré la nécessité de faire évoluer la structure tarifaire, en exhibant notamment une sous-tarification de 30% pour le profil 1 (le plus risqué) et une sur-tarification de 30% pour le profil 30 (le moins risqué). D un point de vue opérationnel, l entreprise d assurance a choisi d ajouter à son tarif GLM une variable «score» à 30 modalités, synthétisant le pouvoir discriminant des 15 variables explicatives identifiées par l algorithme. Etude de cas 2 : Construire un indicateur de pilotage du portefeuille L entreprise que nous avons accompagnée avait observé une baisse de la rentabilité technique de son portefeuille habitation en 2012. L étude a été réalisée à partir de données de 9 trimestres successifs (de T1 2010 à T1 2013) et a tout d abord permis de mettre en évidence une baisse significative du score moyen du portefeuille depuis fin 2011. dégradation du score des affaires nouvelles et l amélioration du score des résiliations ont été le signe avant-coureur de la baisse de la rentabilité observée en 2012. Face à ce constat, l entreprise a mis en œuvre des actions visant à sensibiliser son réseau de distribution sur la qualité de la souscription et à fidéliser les meilleurs segments de clientèle. Nous avons par ailleurs aidé cette entreprise à mettre en place un suivi de ces actions, afin de mesurer leur effet et de s assurer de leur pertinence. L introduction de l indicateur score et l application de l algorithme obtenu grâce aux méthodes d apprentissage a ainsi permis au management de suivre l effet des actions «en temps réel» (selon un pas trimestriel). L entreprise a observé un redressement de la qualité de la souscription au cours de l année 2013 qui devrait se matérialiser par une amélioration de la rentabilité technique en 2014. Cette étude peut être vue comme une première approche pour l introduction d un concept de valeur client au sein de l entreprise. CONCLUSION L utilisation des méthodes d apprentissage statistique a ainsi permis de construire un nouvel indicateur au sein de l entreprise, sous la forme d un score prenant des valeurs comprises entre 1 et 999 (par ordre croissant de rentabilité prédite). La rentabilité a été modélisée à la maille client en tenant compte de l ensemble des polices détenues au sein de l entreprise (et notamment autres que les polices habitation). L étude a également montré que la baisse du score moyen s explique par une baisse de la qualité des souscriptions d une part (dégradation du score des affaires nouvelles depuis mi-2011) et par une incapacité à retenir les clients ayant un bon score d autre part (constatation du score des affaires résiliées). Enfin, l étude a montré que la Les méthodes paramétriques classiques (par exemple GLM) présupposent une forme particulière des risques et de leurs interactions, ce qui de fait limite la compréhension des subtilités du Les méthodes d apprentissage statistique, déjà largement utilisées en marketing ou en détection de fraude, apportent donc une vision nouvelle dans les domaines de la tarification et du pilotage de Elles offrent ainsi, notamment dans le contexte concurrentiel actuel, une réponse aux besoins croissants de modélisation et d analyse de données (essor du «Big data»). Avril 2014 4

A PROPOS DE MILLIMAN Milliman figure parmi les principaux cabinets de conseil en actuariat au monde. La société intervient dans les secteurs de l assurance-vie et des services financiers, de l assurance non-vie, de la prévoyance et de la santé. Fondé en 1947, Milliman est une société indépendante qui compte des bureaux dans les principaux centres économiques dans le monde. MILLIMAN EN EUROPE Milliman s est fortement développé en Europe et compte plus de 250 consultants au travers de ses bureaux d Amsterdam, Bruxelles, Bucarest, Dublin, Dusseldorf, Londres, Madrid, Milan, Munich, Paris, Stockholm, Varsovie et Zurich. milliman.com CONTACTS Pour toute question ou commentaire sur cet article vous pouvez vous adresser à : Fabrice Taillieu, Principal fabrice.taillieu@milliman.com Sébastien Delucinge, Senior Consultant sebastien.delucinge@milliman.com Rémi Bellina, Consultant remi.bellina@milliman.com Avril 2014 5