Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing



Documents pareils
Journées d études IARD

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Agenda de la présentation

L olivier Assurances Licence 3 Econométrie Lyon II

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

BIG DATA et données externes dans les modèles de tarification

CNAM léments de cours Bonus-malus et Crédibilité

Accélérer l agilité de votre site de e-commerce. Cas client

Introduction au datamining

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Méthodes d apprentissage statistique «Machine Learning»

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Le métier d actuaire IARD

SAS ENTERPRISE MINER POUR L'ACTUAIRE

données en connaissance et en actions?

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Spécificités, Applications et Outils

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Coup de Projecteur sur les Réseaux de Neurones

SESSION 2013 BTS ASSURANCE CORRIGE E3

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Analyse de grandes bases de données en santé

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

TARIFICATION EN ASSURANCE COMPLEMENTAIRE SANTE: il était une fois, un statisticien, un actuaire, un économiste de la santé

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Optimisation des ressources des produits automobile première

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Construction de bases biométriques pour l assurance dépendance. SCOR inform - Novembre 2012


Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

INTRODUCTION AU DATA MINING

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION

Plus de données, quels impacts sur la gestion des sinistres? 4 avril 2013 Gontran Peubez

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

La classification automatique de données quantitatives

Arbres binaires de décision

Débouchés professionnels

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

(Customer Relationship Management, «Gestion de la Relation Client»)

Introduction au Data-Mining

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

Fiabilisation des bases de données BtoB : Un enjeu majeur

Coheris est agréé organisme de formation, n d agrément

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

ASSURANCE AUTOMOBILE ÉTUDES ACTUARIELLES ET POLITIQUE TARIFAIRE EN 2001 (x)

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Groupe Eyrolles, 2004 ISBN :

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Introduction au Data-Mining

Réseaux bayésiens. 3 e édition Patrick Naïm, Pierre-Henri Wuillemin, Philippe Leray, Olivier Pourret, Anna Becker

L assurance une toute petite introduction à l assurance 2008/2009 Arthur Charpentier

We make your. Data Smart. Data Smart

Introduction à l approche bootstrap

Cybermarché et analyse comportementale

marketing, scoring comportemental & analyse prédictive

10 REPÈRES «PLUS DE MAÎTRES QUE DE CLASSES» JUIN 2013 POUR LA MISE EN ŒUVRE DU DISPOSITIF

Complet Intuitif Efficace. Références

Introduction au Data Mining et à l apprentissage statistique

Why Software Projects Escalate: The Importance of Project Management Constructs

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Vision prospective et obstacles à surmonter pour les assureurs

Enjeux mathématiques et Statistiques du Big Data

Améliorer les performances du site par l'utilisation de techniques de Web Mining

L évaluation de la performance de la communication media

PLAN STATISTIQUE AUTOMOBILE DU QUÉBEC Définitions

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Didier MOUNIEN Samantha MOINEAUX

ANTISELECTION ET CHOIX D'ASSURANCE : LE CAS DU VOL EN HABITATION UNE APPROCHE DE LA MESURE DU PHENOMENE

Gestion du niveau de la franchise d un contrat avec bonus-malus. Pierre THEROND & Stéphane BONCHE

MRK A : Méthodes d Analyse de Données en Marketing Automne 2010

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Introduction à la B.I. Avec SQL Server 2008

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Cycle de formation certifiante Sphinx

L analyse de la gestion de la clientèle

Travailler avec les télécommunications

Mesures de Valeur-Client. Étienne Plante-Dubé Modélisation & Recherche Desjardins Groupe d assurances générales etienne.plante.dube@dgag.

Le risque Idiosyncrasique

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

Publications, ressources, liens, logiciels,

IBM SPSS Direct Marketing

Assurance auto des véhicules électriques: risques et réalité Stanislas Roth Directeur Excellence Technique IARD Particuliers AXA GLOBAL P&C

LES MODELES DE SCORE

Apprentissage Automatique

ACT3284 Modèles en assurance IARD Examen Final - 14 décembre 2011

DESCRIPTION DES PRODUITS ET MÉTRIQUES

Transcription:

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1

L approche statistique permet de combiner connaissance des risques et connaissance du client Problèmes multidimensionnels Modèles, fouille de données 2

Statistique et tarification 3

Recherche de variables tarifaires: un problème multivarié Insuffisance des études univariées exemple RC auto: tarif de base 100 modèle mutiplicatif 100(1+a i )(1+b i )... a i, b j...coefficients de réduction majoration négatifs ou positifs en % réduction de 20% pour les agriculteurs, de 15% pour les zones rurales soit 32% de réduction! Tenir compte des corrélations et des interactions 4

Corrélation Colinéarite entre prédicteurs numériques ou dépendance entre prédicteurs qualitatifs ( 2 ) mieux vaut éviter de garder des variables corrélées possibilités de «proxy» Interaction: Action différenciée sur la réponse (sinistralité) d une variable selon les valeurs d une autre : ex. l effet de «permis de conduire depuis moins de 2 ans» s atténue avec l age au permis améliore les modèles 5

Modèles classiques Risque binaire: scores obtenus par régression logistique ou analyse discriminante Fréquence: régression de Poisson Coût: modèles linéaires généralisés 6

Non prise en compte d une variable significative (eg le genre) Situation fréquente mais variable selon les réglementations Effets statistiques estimateurs biaisés perte d efficacité: plus d incertitude tarif moyenné 7

Tarifs commerciaux vs tarifs techniques on peut toujours utiliser le genre pour modéliser la prime pure calcul des risques tarification utile pour la réassurance analyse a posteriori du S/P par segments 8

Limites de la tarification a priori par segmentation la plupart des modèles précédents reposent sur des historiques de sinistres d assurés absence fréquente de causalité (statut marital) non-utilisation de variables pertinentes (nonrespect du code de la route, alcoolisme, etc.) car absentes des dossiers 9

Tarification a posteriori corrige les défauts de la segmentation a priori prise en compte du comportement réel si les femmes sont moins risquées, leur prime diminuera dans le temps Difficile en assurance de personnes 10

Data Mining 11

Data Mining ou fouille de données Exploration de modèles sans a priori Nouvelle discipline apparue dans les années 90 à la frontière des bases de données, de l IA, de la statistique La métaphore du Data Mining signifie qu il y a des trésors ou pépites cachés sous des montagnes de données «L analyse des données est un outil pour dégager de la gangue des données le pur diamant de la véridique nature.» (J.P.Benzécri 1973) 12

http://www.kdnuggets.com n 1 marketing n 10 assurance 13

Comment choisir les bonnes variables? Classiquement à l aide de tests statistiques Inconvénients: liste souvent restreinte à des indicateurs classiques tests peu informatifs sur de grands jeux de données: tout est significatif! Nécessité de nouvelles méthodes de validation échantillons test; bootstrap 14

Arbre de décision Année de construction... 375( 51%) 366( 49%) 741(100%) Bonus-malus Année -1... 321( 84%) 63( 16%) 384( 52%) Bonus-malus Année -1... 54( 15%) 303( 85%) 357( 48%) 283( 92%) 25( 8%) 308( 42%) Année de construction... 38( 50%) 38( 50%) 76( 10%) Code postal souscript... 13( 8%) 152( 92%) 165( 22%) Code postal souscript... 41( 21%) 151( 79%) 192( 26%) Age de l'assuré (3 mo... 35( 64%) 20( 36%) 55( 7%) Age de l'assuré (3 mo... 3( 14%) 18( 86%) 21( 3%) Age de l'assuré (3 mo... 31( 32%) 66( 68%) 97( 13%) Age de l'assuré (3 mo... 10( 11%) 85( 89%) Primes acquises RC 19... 19( 47%) 21( 52%) 40( 5%) Primes acquises RC 19... 12( 21%) 45( 79%) 57( 8%) 95( 13%) 15

Arbres de décision grande lisibilité souplesse d utilisation: variables de types quelconques (numériques, catégorielles) fournit des découpages en classe optimaux détecte les intéractions (origine de la méthode AID) Bien d autres méthodes algorithmiques de sélection 16

17

Choix de variables, choix de modèles et théorie statistique de l apprentissage compromis entre complexité et capacité de prédiction un modèle trop complexe s ajuste bien mais prédit mal mais plus les données disponibles sont nombreuses, plus on peut augmenter la complexité des modèles 18

Une nouvelle façon de concevoir les modèles Modèles pour comprendre ou modèles pour prévoir? Compréhension des données et de leur mécanisme générateur à travers une représentation parcimonieuse On peut prévoir sans comprendre: nul besoin d une théorie du consommateur pour faire du ciblage un modèle n est qu un algorithme Combinaison de modèles: averaging, stacking 19

Analyse des données et marketing typologies et profils clientèle,ventes croisées, fidélisation vs acquisition Outils classification, analyse factorielles, scoring, règles d association statistique spatiale: données géolocalisées Fusion de données de sources et de niveaux d agrégation différents: fichiers clients, enquêtes, données administratives élaboration de produits adaptés prendre garde à l antisélection 20

Vers des offres segmentant hommes et femmes aversion au risque plus grande chez les femmes élaboration de contrats qui seront plus souvent choisis par les femmes et d autres par les hommes possibilité implicite de tarification différenciée 21

Conclusions la directive européenne prive les assureurs d une variable de tarification mais pas d une variable d analyse technique les méthodes de data mining peuvent mener à de nouveaux critères mieux exploiter la convergence entre données marketing et sinistralité. vers les «Big Data» en assurance 22