Comment ne pas construire un score-titanic



Documents pareils
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Arbres binaires de décision

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Théorie des sondages : cours 5

CNAM léments de cours Bonus-malus et Crédibilité

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Coup de Projecteur sur les Réseaux de Neurones

Evolution de la fréquence des sinistres en assurance RC automobile

Introduction à l approche bootstrap

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Évaluations aléatoires : Comment tirer au sort?

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Introduction au datamining

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Evolution de la fréquence des sinistres en assurance RC automobile

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Valeur verte des logements d après les bases Notariales BIEN et PERVAL Synthèse

STATISTIQUES. UE Modélisation pour la biologie

INF6304 Interfaces Intelligentes

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

ÉTUDE SUR L EFFICACITÉ DES PNEUS D HIVER EN ÉTÉ RÉALISÉE PAR CAA-QUÉBEC

ENSEIGNEMENT ET MONDE PROFESSIONNEL. Illustration d un lien fort au travers d un cours de scoring. Jean-Philippe KIENNER 7 novembre 2013

Optimisation des ressources des produits automobile première

Why Software Projects Escalate: The Importance of Project Management Constructs

3 ème 2 DÉVELOPPEMENT FACTORISATIONS ET IDENTITÉS REMARQUABLES 1/5 1 - Développements

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Examen Etude de marché

SDLS08 - Modes propres d'une plaque carrée calculés sur base réduite

FORMULAIRE DE STATISTIQUES

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

TD 3 : suites réelles : application économique et nancière

La classification automatique de données quantitatives

Document d orientation sur les allégations issues d essais de non-infériorité

Baromètre Image des Assureurs

Suivi statistique des scores - Document descriptif des solutions retenues

Observation statistique

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

Le risque Idiosyncrasique

Les algorithmes de fouille de données

Statistiques Descriptives à une dimension

Baromètre: les Français et la confiance numérique Vague 2

En 2014, comment mener à bien une enquête aléatoire en population générale par téléphone?


Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

INITIATION AUX METHODES DE SONDAGE

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Représentation des Nombres

La place de SAS dans l'informatique décisionnelle

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

CCAS DE PLEURTUIT LOT N 3

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

La nouvelle planification de l échantillonnage

Méthodes d apprentissage statistique «Machine Learning»

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

«BONUS MALUS» (exercice exploitant les changements de registre) (D après Académie de Strasbourg)

FÉDÉRATION MAROCAINE DES SOCIÉTÉS D'ASSURANCES ET DE RÉASSURANCE FICHIER CENTRAL CRM. MANUEL D UTILISATION Version 1.0

BONUS MALUS. Voici, la façon de calculer la prime : Le montant de la prime à acquitter est égale à : P = PB. C où : P

Améliorer les performances du site par l'utilisation de techniques de Web Mining

ASR1 TD7 : Un microprocesseur RISC 16 bits

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Item 169 : Évaluation thérapeutique et niveau de preuve

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

COMMUNAUTE DE COMMUNES DE LA REGION DE DOUE-LA-FONTAINE LOT N 3

données en connaissance et en actions?

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Principe d un test statistique

ASSURANCES DES VEHICULES PERSONNELS DES AGENTS

TRANSPORT ET LOGISTIQUE :

Les probabilités. Chapitre 18. Tester ses connaissances

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

OFFRE DE SERVICE. Référence : GA/NT/P

Chapitre 18 : Transmettre et stocker de l information

DIOGENE. Un logiciel de Génétique & Amélioration des Plantes

Car Insurance Survey. L assurance automobile RC chez les jeunes. Statistics Belgium. Rapport final

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

4. Résultats et discussion

Transcription:

Comment ne pas construire un score-titanic Mon mailing Olivier Decourt ABS Technologies / Educasoft Formations

1- Les principes 2- Un premier exemple : les vins de France 3- Mise en œuvre sous SAS 4- Un exemple "DataMining" : "qualité" des assurés automobiles

La robustesse, un premier exemple : Quelle confiance avoir dans cette droite si je rajoute de nouveaux individus?

La robustesse, un deuxième exemple : 2 groupes d'individus distincts! toute modélisation de l'ensemble sera médiocre. 2 modèles séparés! meilleure précision.

La robustesse, une définition : Qualité des modèles qui ne perdent pas en performance si on les applique à de nouveaux individus. Un modèle robuste est donc loisible de bien prédire le comportement de nouveaux clients.

Les modèles stratifiés On isole des sous-populations ayant de fortes ressemblances ; on modélise séparément dans chacune de ces sous-populations. Le modèle global fait la synthèse (la somme) des différents "sous-modèles" obtenus.

Les modèles stratifiés Avantages : Simplicité de l'idée Lisibilité du modèle Convient bien à tous les cas étudiés Inconvénients : # Représentativité de l'échantillon de travail? Difficulté de séparer les individus en classes homogènes et stables

Les modèles itératifs "Cent fois sur le métier remettra ton ouvrage "

Les modèles itératifs On fait la modélisation un grand nombre de fois sur des populations légèrement différentes. Toutes ces sous-populations sont issues de la population d'origine (pas de nouveaux individus). Le modèle final est une synthèse (une moyenne) des différents modèles obtenus.

Les modèles itératifs Plusieurs variantes : le Jackknife (population à modéliser moins 1 individu) le Bootstrap simple (échantillonnage à probabilités égales dans la population à modéliser) le Bootstrap à probabilités inégales (variante du précédent : l'échantillon n'est pas représentatif de la population de départ)

Les modèles itératifs : principe sous-modèle population étudiée échantillon modèle final (moyenne des sous-modèles)

Les modèles itératifs Avantages : Grande robustesse du modèle final Possibilité de connaître «l'imprévisibilité» du modèle Inconvénients : Temps d'exécution! Programmation parfois plus ardue Comment faire la synthèse de certains modèles? #

Le Jackknife sous-modèle population étudiée échantillon : toute la population sauf 1 individu modèle final (moyenne des sous-modèles) Autant de boucles qu'il y a d'individus dans la population étudiée

Le Bootstrap sous-modèle population étudiée échantillon : représentatif ou non de la population modèle final (moyenne des sous-modèles) Nombre de boucles décidé à l'avance

Le Bootstrap : échantillonnage Sondage à probabilités égales Respecter la population Chaque individu de la population a la même probabilité d'appartenir à l'échantillon Sondage à probabilités inégales On impose a priori des probabilités d'inclusion! sur-représentation de certains individus Importance de cette étape : gain de temps

Un premier exemple : Les vins de France de 1969 à 1985

Un 1er modèle pour le Bourgogne rouge : 6 5 Valeurs prédites par le modèle 4 3 2 1 1 2 3 4 5 6 Notes réelles pour le Bourgogne rouge

Un modèle stratifié pour le Bourgogne rouge 1. Classification des années (PROC FASTCLUS) sur la base des données météos 2. Stratification selon cette variable de classe (2 classes créées)

Modèle stratifié pour le Bourgogne rouge : 6 5 Valeurs prédites par le modèle 4 3 2 1 1 2 3 4 5 6 Notes réelles pour le Bourgogne rouge

Comparaison des deux modèles Modèle simple : SCE = 14,81 Modèle stratifié : SCE = 8,79 On a donc presque diminué de 40 % (!) la distance moyenne entre les valeurs réelles et les valeurs prévues. Note : SCE = Somme des Carrés des Ecarts

Jackknife et bootstrap à probabilités égales sur le modèle non stratifié On procède, selon les cas, à 17 boucles (jackknife) ou à seulement 10 boucles (bootstrap à probabilités égales).

Performance des modèles itérés : SCE du jackknife : 14,05 SCE du bootstrap (en moyenne) : 7,70 (La SCE du bootstrap est comprise entre 8,89 et 6,14 sur 30 essais.) Pour mémoire : SCE du modèle normal : 14,81 SCE du modèle stratifié : 8,79

Que constate-t-on? Modèle robuste "meilleur" modèle Jackknife! une seule observation peut tout changer Bootstrap! meilleur moyen de niveler les effets des observations atypiques si on prend les "bons" échantillons!

Autre avantage des modèles itérés : les intervalles de confiance Bootstrap sur le modèle simple : le coefficient de la température minimale est compris entre -0,38 et 0,44 (avec 95% de chances de tomber juste dans cet intervalle). La valeur moyenne s'établit à -0,41. Le modèle sans itération propose une valeur de -0,37.

Mise en œuvre sous SAS Avec des macro-programmes Les modèles stratifiés, le jackknife et le bootstrap à probabilités égales sont assez faciles à développer. Avec SAS Enterprise Miner Possibilité de modèles stratifiés et de bootstrap, sauf la partie "intervalle de confiance" du modèle Nœuds GROUP PROCESSING et ENSEMBLE

Un exemple "DataMining" : "Qualité" des clients d'une assurance automobile

Les données 20020 clients d'une assurance automobile décrits par 21 variables âge de l'assuré marque de la voiture bonus / malus âge du véhicule année du permis situation familiale connus comme "bons" ou "mauvais" clients.

La problématique Construire un score à partir des renseignements existants pour repérer les bons et les mauvais clients parmi de nouveaux candidats à l'assurance. Le modus operandi On testera la qualité et la robustesse de nos modèles en les construisant sur 10000 clients, et en "scorant" les 10020 restants, inconnus jusqu'alors.

Premier modèle Une régression logistique (puisque la variable à modéliser est binaire) avec 11 variables explicatives : usage du véhicule, est-il dans un garage fermé? âge, puissance et valeur du véhicule année du permis, situation familiale, âge, ancienneté du contrat et CRM de l'assuré nombre de sinistres de l'année écoulée Prédit bon Prédit mauvais Taux de confusion : 19,36 % Réellement bon Réellement mauvais 21,40 % 15,72 % 3,64 % 59,24 %

Le bootstrap avec SAS Enterprise Miner Les ingrédients Un trait de, 2 traits de et, et un zest de. La recette

Mise en oeuvre

Comparaison des performances (matrices de confusion) 19,36 % Prédit bon Prédit mauvais Modèle simple 18,84 % Prédit bon Prédit mauvais Réellement bon 21,40 % 3,64 % Réellement bon 21,00 % 4,04 % Réellement mauvais 19,01 % 15,72 % Prédit bon 59,24 % Prédit mauvais Bootstrap Probas égales Réellement mauvais 18,28 % 14,80 % 60,16 % Modèle stratifié Prédit bon Prédit mauvais Réellement bon 21,32 % 3,72 % Réellement bon 20,60 % 4,44 % Réellement mauvais 15,29 % 59,67 % Bootstrap Probas inégales Réellement mauvais 13,84 % 61,12 %

Conclusion (1/2) La robustesse est un des atouts indispensables d'un score : c'est sa capacité de généralisation. On la teste validation croisée. avec la partition des données et la

Conclusion (2/2) On peut accroître la robustesse avec des modèles complexes. La mise au point de ces modèles demande plus de temps, mais leur durée de vie s'accroît également. Un modèle robuste n'est pas forcément meilleur de prime abord!