Des solutions de data mining pour résoudre des problèmes d estimation du risque 12 juin 2009 Association des Statisticiennes et Statisticiens du



Documents pareils
ANALYSE STATISTIQUE PRÉDICTIVE

Enjeux et défis en assurance habitation Marc-Olivier Faulkner 18 novembre 2011

Le MDM (Master Data Management) Pierre angulaire d'une bonne stratégie de management de l'information

JSIam Introduction talk. Philippe Gradt. Grenoble, March 6th 2015

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Big Data -Comment exploiter les données et les transformer en prise de décisions?

L olivier Assurances Licence 3 Econométrie Lyon II

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Application Form/ Formulaire de demande

ANGULAR JS AVEC GDE GOOGLE

Nouveautés printemps 2013

Agenda de la présentation

We Generate. You Lead.

Les défis statistiques du Big Data

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Eléments de statistique

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

Exemple PLS avec SAS

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Institut français des sciences et technologies des transports, de l aménagement

Revision of hen1317-5: Technical improvements

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Introduction au datamining

Agile&:&de&quoi&s agit0il&?&

Formulaire d inscription (form also available in English) Mission commerciale en Floride. Coordonnées

Toni Lazazzera Tmanco is expert partner from Anatole ( and distributes the solution AnatoleTEM

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Francoise Lee.

SAN07 IBM Social Media Analytics:

Township of Russell: Recreation Master Plan Canton de Russell: Plan directeur de loisirs

Compléter le formulaire «Demande de participation» et l envoyer aux bureaux de SGC* à l adresse suivante :

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Face Recognition Performance: Man vs. Machine

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Conférence Bales II - Mauritanie. Patrick Le Nôtre. Directeur de la Stratégie - Secteur Finance Solutions risques et Réglementations

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

IODE Consulting I Intelligence on Demand Slide 1

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL

Industrial Phd Progam

AOC Insurance Broker Compare vos Assurances Santé Internationale Economisez jusqu à 40 % sur votre prime

UML : Unified Modeling Language

EN UNE PAGE PLAN STRATÉGIQUE

Le nouveau visage de la Dataviz dans MicroStrategy 10

SCC / QUANTUM Kickoff 2015 Data Protection Best Practices

Scénarios économiques en assurance

INSTITUT MARITIME DE PREVENTION. For improvement in health and security at work. Created in 1992 Under the aegis of State and the ENIM

Module Title: French 4

WEB page builder and server for SCADA applications usable from a WEB navigator

Travailler avec les télécommunications

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

France SMS+ MT Premium Description

RISK-BASED TRANSPORTATION PLANNING PRACTICE: OVERALL METIIODOLOGY AND A CASE EXAMPLE"' RESUME

Plan de la présentation

The impacts of m-payment on financial services Novembre 2011

Application du data mining pour l évaluation de risque en assurance automobile

Bigdata et Web sémantique. les données + l intelligence= la solution

Dans une agence de location immobilière...

Provide supervision and mentorship, on an ongoing basis, to staff and student interns.

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015

accidents and repairs:

L ABC de l acquisition de petites entreprises

ICHEC MANAGEMENT SCHOOL

TRAVAUX DE RECHERCHE DANS LE

Comment AXA adapte ses processus pour répondre aux attentes de ses clients

Bourses d excellence pour les masters orientés vers la recherche

LADIES IN MOBILITY. LIVE TWEET Innovative City

Frequently Asked Questions

Cloud Computing: de la technologie à l usage final. Patrick CRASSON Oracle Thomas RULMONT WDC/CloudSphere Thibault van der Auwermeulen Expopolis

Surmonter les 5 défis opérationnels du Big Data

APPENDIX 6 BONUS RING FORMAT

Le marketing appliqué: Instruments et trends

Mesures de Valeur-Client. Étienne Plante-Dubé Modélisation & Recherche Desjardins Groupe d assurances générales etienne.plante.dube@dgag.

valentin labelstar office Made-to-measure label design. Conception des étiquettes sur mesure. Quality. Tradition. Innovation DRUCKSYSTEME

Marketing et CRM: Comment définir une stratégie informatique en fonction de la stratégie commerciale?

Consultants en coûts - Cost Consultants

Stratégie DataCenters Société Générale Enjeux, objectifs et rôle d un partenaire comme Data4

Surabondance d information

IBM SPSS Direct Marketing

HSCS 6.4 : mieux appréhender la gestion du stockage en environnement VMware et service de fichiers HNAS Laurent Bartoletti Product Marketing Manager

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

Extension fonctionnelle d un CRM. CRM étendu >> Conférence-débat 15 April Club Management des Systèmes d Information de l'iae de Paris Alumni

Empowering small farmers and their organizations through economic intelligence

IPSAS 32 «Service concession arrangements» (SCA) Marie-Pierre Cordier Baudouin Griton, IPSAS Board

BIG DATA en Sciences et Industries de l Environnement

Innovation in Home Insurance: What Services are to be Developed and for what Trade Network?

SERVEUR DÉDIÉ DOCUMENTATION

Accélérer la transformation de vos nouveaux modèles assurances

IPv6: from experimentation to services

MANUEL MARKETING ET SURVIE PDF

Conserver les Big Data, source de valeur pour demain

Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France

86 rue Julie, Ormstown, Quebec J0S 1K0

INSURANCE CONFIRMATION/ CONFIRMATION D ASSURANCE IN FAVOUR OF/ POUR

Instructions Mozilla Thunderbird Page 1

Transcription:

Des solutions de data mining pour résoudre des problèmes d estimation du risque 12 juin 2009 Association des Statisticiennes et Statisticiens du Québec

1 - Data mining vs Statistique Pourquoi les statisticiens nous détestent-ils? - S. Imberman «Ceux qui ignorent la statistique sont condamnés à la réinventer.» - B. Efron Français: exploration, prospection, découverte ou forage de données.

Définition de forage de données Technique de recherche et d'analyse de données qui permet de dénicher des tendances ou des corrélations cachées parmi des masses de données, ou encore de détecter des informations stratégiques ou de découvrir de nouvelles connaissances en s'appuyant sur des méthodes de traitement statistique. Source: grand dictionnaire terminologique de l OLF.

Méthodologies du forage de données (J. Friedman) Méthodologie Domaine de développement Reconnaissance de formes Informatique, Génie Gestion de bases de données Réseaux de neurones Algorithmes d apprentissage Modèles graphiques (réseaux bayésiens) Algorithmes génétiques Chemometrics Visualisation de données Informatique Psychologie, Informatique, Génie Informatique, Intelligence artificielle Informatique, Intelligence artificielle Informatique, Génie Chimie Informatique, Calcul scientifique (Statistique)

Défis du forage de données Calculs hors ligne (offline) pour accélérer la performance (en ligne) Parallélisation Gestion de la mémoire vive Interfaces entre algorithmes de forage de données et SGBD (entrepôts de données) Signification de O(n): statisticien: vitesse de convergence «foreur» : temps de calcul, espace mémoire

2 - Estimation du risque en assurance automobile primes par sous-groupes ensemble réduit de critères extraction difficile des relations de dépendance primes individualisées nombreux critères extraction automatique des relations de dépendance

Malédiction de la dimensionalité Croissance exponentielle du nombre de profils différents, en fonction du nombre de facteurs explicatifs.

Plan de répartition des risques Québec Ontario Pourcentage 10% volume 5% unités Dommages corporels exclus (SAAQ) inclus Taux de dépenses 25% max. 30% Portion cédée 100% 85% Cessions profitables SP > 75% SP > 70%

Plan de répartition des risques Le marketing n est pas impliqué assurés ne sont pas affectés courtiers ne sont pas affectés législation plus souple (IGIF, FSCO) aspects stratégiques sans impact purement analytique zero-sum game entre les assureurs solution: utiliser toutes les ressources disponibles pour développer les meilleurs modèles prédictifs

Images (profils) Images: dates de début et de fin valeurs pour toutes les variables explicatives montants des sinistres (s il y a lieu) lien entre données de polices (images) et données de sinistres (variable dépendante)

Sélection de modèle: validation séquentielle Doit être un juste reflet de l utilisation future

Résultats Facteurs: volume ratio SP modèle en place tarification

3 - Valeur Économique du Client Vue orientée produit Attirer des clients Transactions Produits Profits des lignes de produits (product death spiral) Vue orientée consommateur Conserver des clients Relations Services Gestion du capital client

Capital client Pour une compagnie, c est le total des valeurs économiques de ses clients (actuels et futurs) Capital marque (brand equity) Nobody ever got fired for hiring big blue (IBM). Capital client Capital valeur (value equity) Cette voiture détient la meilleure cote de sécurité de sa catégorie Capital rétention (retention equity) Air Canada traite ses clients comme des rois

Définitions du Capital client Niveau de raffinement: 1. ventes croisées (cross-selling) 2. vente incitative (upselling) 3. clients peu fidèles (switchers) 4. nouveaux entrants Facteurs difficiles à quantifier: 1. réaction de la compétition 2. bouche à oreille 3. marketing et publicité 4. frais de gestion de la relation 5. frais d utilisation décroissants

Capital rétention valeur présente des profits futurs qui découlent des transactions réalisées avec le client (taux faible horizon (e.g. 5ans) facteur d escompte T CLV = v t s(x,t) p(x,t) t=1 rétention importante) taux de rétention (forage de données) profits dans le temps (frais fixes?)

Problèmes ouverts Modéliser les variations dans la quantité achetée Modéliser les interdépendances entre produits: matrice de transition de l état du client (quantité = 0/1) m produits 2 m états 2 2m éléments achats multiples Modéliser les «infidèles» un prospect a-t-il plus/moins de chances d accepter une offre qu une personne tirée au hasard dans la population? les frais d acquisitions sont-ils les mêmes à chaque retour du client?

4 Détection de fraudes de cartes de crédit L une des applications les plus profitables des réseaux de neurones 85% des cartes en Amérique protégées par Fair Isaac (HNC) Milliards de transactions disponibles pour entraîner les modèles Défi d efficacité en temps réel: 30 sec.

5 Horaires Planifier les horaires des employés en fonction des contraintes individuelles de la convention collective de l absentéisme de l achalandage prévu

Conclusion Le forage de données est issu de la statistique La statistique pourrait se réapproprier ce domaine: Informatique Mathématiques Mentalité Progrès réalisés mais défis encore nombreux

Questions? «Statistical thinking will one day be as necessary for efficient citizenship as the ability to read and write.» - H.G. Wells

Questions? Remember: All models are wrong, some are useful

Insurance business Loss Ratio (LR) Claims / Premiums (ca. 60%) Book Volume Total of all premiums Retention - opposite of churn (taux d attrition) - fixed time window - measured in annual terms (ca. 90%) profit expenses claims Québec personal lines auto insurance None of these figures is prospective! Goal - identify the long term value of the clients: CLV

Steps towards a CLV model 1 Choose definition - upselling: can you trace a customer s business? - cross selling:is there a unique key across products? - switchers: can you match profiles through time? - new entrants: what do you know of your prospects? 2 Make assumptions - for each client, project - profits or - revenues and expenses important: recognize acquisition expenses - discounting factor based on cost of capital - retention models can be based on survival analysis - horizon, e.g. 5 years

Steps towards a CLV model 3 Build database for survival analysis - initial profile with length of stay (SAS procs: lifetest, lifereg, phreg) - data plumbing : cleaning and encoding unobserved truncated fully observed censored unobserved start end

Steps towards a CLV model 4 Modeling - design modeling experiment - train models - select best performing models 5 Enjoy! - CLV-based comparison of market segments - CLV-based valuation of retention increases - Prioritization of outgoing agent calls - Prioritization of marketing offers

Example of output

Data Mining Curse of dimensionality: The number of potential different customer profiles grows exponentially with the number of factors

Data Mining A complex reality commands the use of models with greater capacity, i.e., more flexible models. p(x) p(x) 6 4 6 4 2 2 2 4 6 8 10 x 2 4 6 8 10 x

Popular models Generalized linear (GLMs) Decision trees

Neural networks

Model Selection

Methodology

Model Selection: Sequential Validation train retrain valid test train retrain valid test train retrain valid test 2000 2001 2002 2003 2004 2005 2006 2007

Data Mining in Insurance Data easier if data warehouse otherwise, projects are costly Models well-known and popular: decision trees, glms little used: neural networks all are available in SAS-EM Methodology very little attention given to model selection!

Data mining and Insurance Ratemaking Risky Eliminate bad risks Less risky Attract good risks

Conclusion Importance of CLV part of a shift towards customer-oriented practices can be used internally and for marketing purposes Future work Project revenues & expenses rather than profits Out-of-sample tests Work on graphical user interface Develop multiline models Impact of changes on retention