Comment ne pas construire un score-titanic Mon mailing Olivier Decourt ABS Technologies / Educasoft Formations
1- Les principes 2- Un premier exemple : les vins de France 3- Mise en œuvre sous SAS 4- Un exemple "DataMining" : "qualité" des assurés automobiles
La robustesse, un premier exemple : Quelle confiance avoir dans cette droite si je rajoute de nouveaux individus?
La robustesse, un deuxième exemple : 2 groupes d'individus distincts! toute modélisation de l'ensemble sera médiocre. 2 modèles séparés! meilleure précision.
La robustesse, une définition : Qualité des modèles qui ne perdent pas en performance si on les applique à de nouveaux individus. Un modèle robuste est donc loisible de bien prédire le comportement de nouveaux clients.
Les modèles stratifiés On isole des sous-populations ayant de fortes ressemblances ; on modélise séparément dans chacune de ces sous-populations. Le modèle global fait la synthèse (la somme) des différents "sous-modèles" obtenus.
Les modèles stratifiés Avantages : Simplicité de l'idée Lisibilité du modèle Convient bien à tous les cas étudiés Inconvénients : # Représentativité de l'échantillon de travail? Difficulté de séparer les individus en classes homogènes et stables
Les modèles itératifs "Cent fois sur le métier remettra ton ouvrage "
Les modèles itératifs On fait la modélisation un grand nombre de fois sur des populations légèrement différentes. Toutes ces sous-populations sont issues de la population d'origine (pas de nouveaux individus). Le modèle final est une synthèse (une moyenne) des différents modèles obtenus.
Les modèles itératifs Plusieurs variantes : le Jackknife (population à modéliser moins 1 individu) le Bootstrap simple (échantillonnage à probabilités égales dans la population à modéliser) le Bootstrap à probabilités inégales (variante du précédent : l'échantillon n'est pas représentatif de la population de départ)
Les modèles itératifs : principe sous-modèle population étudiée échantillon modèle final (moyenne des sous-modèles)
Les modèles itératifs Avantages : Grande robustesse du modèle final Possibilité de connaître «l'imprévisibilité» du modèle Inconvénients : Temps d'exécution! Programmation parfois plus ardue Comment faire la synthèse de certains modèles? #
Le Jackknife sous-modèle population étudiée échantillon : toute la population sauf 1 individu modèle final (moyenne des sous-modèles) Autant de boucles qu'il y a d'individus dans la population étudiée
Le Bootstrap sous-modèle population étudiée échantillon : représentatif ou non de la population modèle final (moyenne des sous-modèles) Nombre de boucles décidé à l'avance
Le Bootstrap : échantillonnage Sondage à probabilités égales Respecter la population Chaque individu de la population a la même probabilité d'appartenir à l'échantillon Sondage à probabilités inégales On impose a priori des probabilités d'inclusion! sur-représentation de certains individus Importance de cette étape : gain de temps
Un premier exemple : Les vins de France de 1969 à 1985
Un 1er modèle pour le Bourgogne rouge : 6 5 Valeurs prédites par le modèle 4 3 2 1 1 2 3 4 5 6 Notes réelles pour le Bourgogne rouge
Un modèle stratifié pour le Bourgogne rouge 1. Classification des années (PROC FASTCLUS) sur la base des données météos 2. Stratification selon cette variable de classe (2 classes créées)
Modèle stratifié pour le Bourgogne rouge : 6 5 Valeurs prédites par le modèle 4 3 2 1 1 2 3 4 5 6 Notes réelles pour le Bourgogne rouge
Comparaison des deux modèles Modèle simple : SCE = 14,81 Modèle stratifié : SCE = 8,79 On a donc presque diminué de 40 % (!) la distance moyenne entre les valeurs réelles et les valeurs prévues. Note : SCE = Somme des Carrés des Ecarts
Jackknife et bootstrap à probabilités égales sur le modèle non stratifié On procède, selon les cas, à 17 boucles (jackknife) ou à seulement 10 boucles (bootstrap à probabilités égales).
Performance des modèles itérés : SCE du jackknife : 14,05 SCE du bootstrap (en moyenne) : 7,70 (La SCE du bootstrap est comprise entre 8,89 et 6,14 sur 30 essais.) Pour mémoire : SCE du modèle normal : 14,81 SCE du modèle stratifié : 8,79
Que constate-t-on? Modèle robuste "meilleur" modèle Jackknife! une seule observation peut tout changer Bootstrap! meilleur moyen de niveler les effets des observations atypiques si on prend les "bons" échantillons!
Autre avantage des modèles itérés : les intervalles de confiance Bootstrap sur le modèle simple : le coefficient de la température minimale est compris entre -0,38 et 0,44 (avec 95% de chances de tomber juste dans cet intervalle). La valeur moyenne s'établit à -0,41. Le modèle sans itération propose une valeur de -0,37.
Mise en œuvre sous SAS Avec des macro-programmes Les modèles stratifiés, le jackknife et le bootstrap à probabilités égales sont assez faciles à développer. Avec SAS Enterprise Miner Possibilité de modèles stratifiés et de bootstrap, sauf la partie "intervalle de confiance" du modèle Nœuds GROUP PROCESSING et ENSEMBLE
Un exemple "DataMining" : "Qualité" des clients d'une assurance automobile
Les données 20020 clients d'une assurance automobile décrits par 21 variables âge de l'assuré marque de la voiture bonus / malus âge du véhicule année du permis situation familiale connus comme "bons" ou "mauvais" clients.
La problématique Construire un score à partir des renseignements existants pour repérer les bons et les mauvais clients parmi de nouveaux candidats à l'assurance. Le modus operandi On testera la qualité et la robustesse de nos modèles en les construisant sur 10000 clients, et en "scorant" les 10020 restants, inconnus jusqu'alors.
Premier modèle Une régression logistique (puisque la variable à modéliser est binaire) avec 11 variables explicatives : usage du véhicule, est-il dans un garage fermé? âge, puissance et valeur du véhicule année du permis, situation familiale, âge, ancienneté du contrat et CRM de l'assuré nombre de sinistres de l'année écoulée Prédit bon Prédit mauvais Taux de confusion : 19,36 % Réellement bon Réellement mauvais 21,40 % 15,72 % 3,64 % 59,24 %
Le bootstrap avec SAS Enterprise Miner Les ingrédients Un trait de, 2 traits de et, et un zest de. La recette
Mise en oeuvre
Comparaison des performances (matrices de confusion) 19,36 % Prédit bon Prédit mauvais Modèle simple 18,84 % Prédit bon Prédit mauvais Réellement bon 21,40 % 3,64 % Réellement bon 21,00 % 4,04 % Réellement mauvais 19,01 % 15,72 % Prédit bon 59,24 % Prédit mauvais Bootstrap Probas égales Réellement mauvais 18,28 % 14,80 % 60,16 % Modèle stratifié Prédit bon Prédit mauvais Réellement bon 21,32 % 3,72 % Réellement bon 20,60 % 4,44 % Réellement mauvais 15,29 % 59,67 % Bootstrap Probas inégales Réellement mauvais 13,84 % 61,12 %
Conclusion (1/2) La robustesse est un des atouts indispensables d'un score : c'est sa capacité de généralisation. On la teste validation croisée. avec la partition des données et la
Conclusion (2/2) On peut accroître la robustesse avec des modèles complexes. La mise au point de ces modèles demande plus de temps, mais leur durée de vie s'accroît également. Un modèle robuste n'est pas forcément meilleur de prime abord!