ANALYSE STATISTIQUE PRÉDICTIVE



Documents pareils
Des solutions de data mining pour résoudre des problèmes d estimation du risque 12 juin 2009 Association des Statisticiennes et Statisticiens du

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Introduction au Data-Mining

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Apprentissage Automatique

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Introduction au datamining

Agenda de la présentation

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Introduction au Data-Mining

Mesures de Valeur-Client. Étienne Plante-Dubé Modélisation & Recherche Desjardins Groupe d assurances générales etienne.plante.dube@dgag.

Accélérer l agilité de votre site de e-commerce. Cas client

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Coup de Projecteur sur les Réseaux de Neurones

JSIam Introduction talk. Philippe Gradt. Grenoble, March 6th 2015

Université de Montréal. par Sylvain Pannetier Lebeuf

INF6304 Interfaces Intelligentes

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

La stratégie de contenu. en pratique 30 OUTILS PASSÉS AU CRIBLE. Isabelle Canivet & Jean-Marc Hardy DESIGN

Les Best Practices du Marketing Comportemental en Temps Réel

Séminaire CRM Les directions de recherche et les perspectives du Customer Relationship Management 1

Présentation à l Institut canadien de la retraite et des avantages sociaux. Selon Wikipédia

Où investir en 2014? Grand colloque sur la gestion des actifs des caisses de retraite

données en connaissance et en actions?

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

TSTI 2D CH X : Exemples de lois à densité 1

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Les RH à l ère du Big Data: faites parler vos données! Mesurez et optimisez la performance de vos programmes RH 18 septembre 2013

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Application du data mining pour l évaluation de risque en assurance automobile

SOCIAL CRM pour le E-commerce

Illustrations concrètes : cross selling et up-selling. Illustrations concrètes : la relation client - le social et l ing

Les dessous des moteurs de recommandation

Eléments de statistique

ACT3284 Modèles en assurance IARD Examen Final - 14 décembre 2011

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

IFT 6261: L Analytique Web. Fares Aldik, Consultant principal, Analytique Web et optimisation Bell Marchés Affaires services d expérience client

Optimisation des ressources des produits automobile première

Table des matières: Guidelines Fonds de Pensions

Quelles sont les principales formules utiles pour l étude de cas de vente?

L olivier Assurances Licence 3 Econométrie Lyon II

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Chapitre 2/ La fonction de consommation et la fonction d épargne

SAS ENTERPRISE MINER POUR L'ACTUAIRE

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

SAN07 IBM Social Media Analytics:

Pôle de Dakar S IMUL ATIONS. 1 Utiliser un taux d accroissement pour une simulation

DISCOUNTED CASH-FLOW

Le ROI du marketing digital

Travailler avec les télécommunications

Méthodes d apprentissage statistique «Machine Learning»

Sommaire. Rentabilité du retour d une franchise de baseball de la Ligue majeure de baseball à Montréal (les «Expos»)

Les datas = le fuel du 21ième sicècle

SYNERGIE Associés Confidentiel Reproduction interdite sans autorisation préalable Page 1 de 44

S e r v i r l e s clients actuels de maniè r e e f f ic a ce grâce a u «Co n s u m er Insight»

L apprentissage automatique

Introduction à l approche bootstrap

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

LES e-donateurs en france

Logiciel XLSTAT version rue Damrémont PARIS

Livre blanc. CRM: Quels sont les bénéfices pour votre entreprise?

S84-1 LA GRC ET LE SI (Système d Information) Qualification des données clientèle La segmentation de la clientèle

I- Définitions des signaux.

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Le risque Idiosyncrasique

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

L ATTRIBUTION EN MARKETING DIGITAL

Projet de Traitement du Signal Segmentation d images SAR

1 Modélisation d être mauvais payeur

Optimiser l impact de son site avec. Nantes, le

Marketing et CRM: Comment définir une stratégie informatique en fonction de la stratégie commerciale?

BTS Groupement A. Mathématiques Session Spécialités CIRA, IRIS, Systèmes électroniques, TPIL

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Table des matières. I Mise à niveau 11. Préface

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

SMARC La révolution des usages et des technologies : Quels impacts sur votre Stratégie Digitale. Mardi, le 21 avril 2015 SMARC G16

QUELLE DOIT ÊTRE L AMPLEUR DE LA CONSOLIDATION BUDGÉTAIRE POUR RAMENER LA DETTE À UN NIVEAU PRUDENT?

Mesurer son ROI Partie 2

QU EST-CE QUE LE DECISIONNEL?

Comment évaluer une banque?

TABLE DES MATIERES. C Exercices complémentaires 42

Portrait statistique de la population de représentant en épargne collective au Québec

Compte rendu de l examen par le BSIF des coefficients du risque d assurance

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Présentation du sujet de thèse Schémas temporels hybrides fondés sur les SVMs pour l analyse du comportement du conducteur

TMS Enterprise Description des rapports

Comportement client et promesse des marques sur les réseaux sociaux

SOCIAL CRM: DE LA PAROLE À L ACTION

Traitement des données avec Microsoft EXCEL 2010

Modèle d ajustement aux groupes de véhicules CLEAR. Université Laval 16 janvier 2015

Formation e-commerce : Webmarketing

Chapitre 3 : INFERENCE

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

L analyse de la gestion de la clientèle

Connaissance Client et Digital : quels enjeux pour quelles valeurs? Non à la personnalisation bidon! Vente Privée Orange Gan Assurances

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Transcription:

Yoshua Bengio Chaire de Recherche du Canada sur les Algorithmes d Apprentissage Statistique, Université de Montréal Charles Dugas ApSTAT Technologies Inc. Et Aviva Canada SALON INTELLIGENCE D AFFAIRE 8 Novembre 2011, Montréal ANALYSE STATISTIQUE PRÉDICTIVE

Plan de travail Exemple pratique #1 (Charles Dugas, 9 min) Introduction à l analyse statistique prédictive (Yoshua Bengio, 30 min) Exemple pratique #2(Charles Dugas, 9 min) Pause et discussions individuelles (Yoshua Bengio & Charles Dugas, 30 min) Plénière (Charles Dugas & Yoshua Bengio, 40 min) Conclusion (Charles Dugas, 10 min)

La Valeur Économique du Client (VÉC)

Changement de philosophie Focus: produit " Focus: client " Attirer le consommateur" Rétention du consomm. " Transactions" Biens" Profitabilité du produit" Relations" Services" Gestion des clients" Élément essentiel: frais d acquisition (attirer) vs frais de maintien (conserver).! Un impact sur l intelligence d affaires: Intérêt pour la VÉC.!

Définition de la VÉC Aujourd hui Dans 1 mois Dans 2 mois Valeur, en date d aujourd hui, des profits tirés des achats futurs du client.

Définition de la VÉC Tient compte de 3 éléments: 1. Profits (marges) sur les achats (volume) futurs d un client 2. Rétention du client 3. Facteur de valeur présente (1$ aujourd hui vaut plus que 1$ l an prochain) VÉC Profit Réten- tion Valeur présente

Trois véhicules assurés André, 65 ans Bianka, 35 ans Colin, 21 ans Retraité Conduit peu et prudemment Aucun accident en 5 ans Bianka et sa famille. Conducteurs responsables Aucun accident en 5 ans Aime la vitesse 2 accidents à son actif Prime annuelle: 400$ Prime annuelle: 550$ Prime annuelle: 1300$

Calcul du profit Réclamations prédites! André Bianka Colin Prime 400$ 550$ 1300$ Réclamations 250$ 325$ 1000$ Autres frais 100$ 150$ 200$ Profit 50$ 75$ 100$ Profit (5 ans) 250$ 375$ 500$

VÉC: profit x rétention Rétention prédite! André (96%) Bianka (80%) Colin (69%) VÉC an1 50$ 75$ 100$ VÉC an2 48$ 60$ 69$ VÉC an3 46$ 48$ 48$ VÉC an4 44$ 38$ 33$ VÉC an5 42$ 31$ 23$ VÉC Tot. 231$ 252$ 272$

Impact des frais d acquisition Sans frais d acquisition Avec frais d acquisition VÉC 300 250 200 150 100 50 0-50 - 100-150 - 200 1 2 3 4 5 1 2 3 4 5 André Bianka Colin Années Années

VÉC: récapitulation André Bianka Colin Profit 5 ans 250$ 375$ 500$ VÉC (incl. rétention) 231$ 252$ 272$ VÉC (incl. rétention et frais d acquisition) 212$ 170$ 158$ L analyse prédictive nous donne un portrait différent!

Utilisations Solliciter les segments à forte VÉC Meilleure valorisation des segments de marché Identifier les actions qui augmentent la rétention (donc la VÉC) Réagir aux changements (p.ex. suite à un accident, un déménagement, etc.)

Objectifs de l analyse statistique prédictive Outils pour prédire Données pour construire un prédicteur Utiliser le prédicteur sur de nouveaux cas Généraliser le mieux possible sur les nouveaux cas Évaluer et comparer les prédicteurs

Notions Discutées Données, variables: entrées vs cibles Étapes de l analyse prédictive Probabilité et espérance Classification, régression, prédiction de proba Exemples d algorithmes prédictifs Prétraitement des données data plumbing Généralisation à de nouveau cas: erreur de test Sélection de modèles, hyper-paramètres Split des données

Exemple: achat en ligne e.g. t=montant que le client dépensera dans ceee session On commence avec des données e.g. x 1 =temps passé depuis dernier achat (normalisé) x 2 =montant des achats passés (normalisé) x 3 =a déjà visité le site x 4 =vient de Montréal, etc.

Etapes pratiques d un projet d analyse prédictive

Probabilité et Espérance Aléas: achète ou n achète pas? Proba: proportion de succès attendue si on répétait l expérience Variable aléatoire: chaque valeur à probabilité o v.a. discrète: achète (oui) ou pas (non)? o v.a. continue: montant de l achat? Espérance d une v.a.: moyenne des valeurs, pondérée par la probabilité des évènements possibles

Entrées et sorties d un prédicteur Entrée X Sortie f(x) six Cible Y deux!

Apprendre à partir d exemples Image en entrée surprise joie peur Catégorie cible Associe deux types de variables aléatoires, e.g., Entrée = Image (e.g. intensités des pixels) Cible = Catégorie (e.g., émotions à détecter)

Prédire une catégorie Un prédicteur est entraîné à produire à partir d une entrée une sortie qui est une prédiction pour une cible associée à cette entrée Entrée: image predicteur Sortie: Émotion fear prédite = triste anger Cible: Émotion à prédire = colère Erreur=1=1 La sortie (prédiction) est comparée avec la cible pour calculer une erreur (0 ou 1). Le but de l entraînement est de réduire l espérance des erreurs futures.

Prédire une quantité: régression (ici: non linéaire, avec bruit) bruit e.g.: x=montant passé, y = montant futur (ventes)

L algorithme des plus- proches- voisins (k- NN) Pour un point test x: x" [2]" On trouve les k plus proches voisins de x parmi l ensemble d apprentissage (typiquement selon la distance Euclidienne). On associe à x la classe majoritaire parmi ses k voisins Âge du client x? Client n achète pas# k=3 Client achète# k est un hyper-paramètre Montant achats passés x" [1]"

Régression Linéaire Régularisée Régression linéaire: prédiction = combinaison linéaire des entrées. Prédic tion W 0 W 1 âge W 2 achats Apprentissage = trouver les coefficients w Régression linéaire classique: il faut que les entrées ne soient pas corrélées, il faut éviter d avoir trop de variables d entrée Régression linéaire régularisée (pénalité L2): règle ces problèmes (on peut avoir autant d entrées qu on veut mais leurs poids seront forcés à être plus petits par la régularisation). On mesure l erreur quadratique: (prédiction cible) 2

Modèles non- linéaires Algorithmes Tâches Commentaires Réseaux de neurones Classification, régression peut soutenir des millions d exemples (premier choix dans ce cas) Arbres de décision Classification prédiction très rapide Support Vector Machine (SVM) Classification ok jusqu à 100k exemples; linéaire si nombre de variables est immense Boosting Classification peu d hyperparamètres (boutons ajustables) Gaussian Process Regression Régression Premier choix quand moins de 1000 exemples

Prétraitement des données 1. Nettoyage des données (détecter semi-automatiquement et corriger les valeurs bizarres) 2. Imputation de valeurs manquantes 3. Encodage des données (selon l algo d apprentissage) Normalisation des variables réelles (soustraire moyenne, diviser par écart type) Optionellement discrétisation de variables numériques choisies. Représentation one-hot des variables catégoriques onehot5(3) = (0,0,1,0,0)

Généralisation à de nouveaux cas On peut facilement mettre au point un prédicteur qui donne exactement les bonnes réponses sur les données d apprentissage. Pas garanti de bonnes prédictions sur de nouveaux cas, et c est seulement ça qui nous intéresse. L erreur d apprentissage (sur l ensemble de données d apprentissage) est toujours optimiste On veut estimer l erreur de généralisation: ensemble de test (non utilisé pour apprendre). On veut choisir le modèle qui généralise le mieux.

Modélisation: sélection de modèles Plusieurs algos d apprentissage. Pour chaque algo, plusieurs choix de valeurs de ses hyper-paramètres (ex. nb de voisins k dans k-nn, nb de neurones dans un réseau de neurones,...) Pour chaque cas, on va entraîner un modèle puis évaluer sa performance de généralisation (en test).

Sélection de modèle: contrôle de la capacité Les hyper-paramètres des algorithmes permettent de contrôler la capacité du modèle. C est indispensable pour avoir une bonne généralisation. capacité trop faible sous-apprentissage capacité trop élevée sur-apprentissage capacité optimale bonne généralisation La performance sur l ensemble d entraînement n est pas un bon estimé de la généralisation

Split des données Diviser les gros ensembles de données en 3: 1. Données d entraînement pour estimer les paramètres des modèles 2. Données de validation pour évaluer l impact de divers choix de modèles et hyper-paramètres 3. Données de test (jamais utilisées pour autre chose) pour évaluer la généralisation comme sur le terrain Train: 70% Valid: 15% Test: 15%

Sélection de modèle et hyper- paramètres L évaluation de performance finale s effectue sur des données qui n ont servi ni pour l entrainement ni pour la sélection de modèles ou de capacité.

Optimisation de l allocation d effectifs en fonction de la profitabilité

Contexte Chaîne de commerce au détail o Vêtements et/ou accessoires o Plusieurs centaines de boutiques mondialement o Généralement, 5 15 employés en boutique

Plan général Prévision de la courbe de demande Nb optimal d employé/15 min. (fractionnaire) Création des horaires Contraintes ergonomiques Normes du travail Création des quarts de travail Employés spécifiques Préférences des employés 34

Types de données Nb de clients en magasin à chaque moment (compte-personnes)" Nb d employés sur le plancher à chaque moment (données de paye)" Historique des Transactions réalisées" Autres variables: événements spéciaux (boxing day, ventes, grèves), météo (tempêtes, 1 er beau week-end de l année) " 35

Équation du profit Profit Ventes x Marge Salaires 36

Décomposition des ventes (période) Ventes Trafic Nb de clients qui entrent en magasin" 37 Taux de conversion Proportion des clients qui achètent quelque chose" Panier moyen Quantité achetée, sachant qu il y a un achat"

Architecture de modélisation Ventes Profit Employés Trafic Variables Conversion et Panier moyen QoS

Modèles possibles Trafic et panier moyen: problèmes de régression o Réponses approximativement continues pour trafic o Modèles possibles (par ex.): Linéaire, Linéaire généralisé (GLM) Réseau de neurones (non-linéaire) Taux de conversion: estimation de probabilité conditionnelle o Réponse: fraction entre 0 et 1 o Modèles possibles: Régression logistique Réseau de neurones

Optimisation: courbe de demande Profit espéré ($)" Meilleur compromis entre qualité de service et masse salariale" Personne-heures travaillées" 40

Défi: Météo Impact quasi universel sur le commerce au détail Les historiques de météo sont relativement faciles à trouver (et gratuit en général, p.e. Environnement Canada) Plus difficile à trouver: historique des prévisions

Conclusions Ø La conception de l architecture de modélisation dépend des données disponibles Ø On doit s assurer que l analyse prédictive colle au processus opérationnel

Etapes pratiques d un projet d analyse prédictive Vision haut- niveau d un projet complet

Ce qu on peut prédire Probabilité d un évènement oui/non (le client clique, achète, quitte, etc) Probabilité d appartenir à une catégorie (groupe démographique, type de produit acheté) Espérance d une variable continue (temps entre deux évènements, valeur du client, montant payé, montant perdu, ) Densité de probabilité d une variable continue Proportionnelle à la probabilité de trouver environ une certaine valeur, e.g. on peut calculer la probabilité qu une variable continue soit dans un intervalle choisi

QUESTIONNAIRE 1. Secteur de votre organisation pouvant bénéficier? 2. Organisation et accès aux données? 3. Variables d entrée et cible à prédire? 4. Type des variables cible? 5. Utilisation des prédictions? 6. Décisions directes ou prédictions de probabilités? 7. Combien de données? 8. Les données changent dans le temps? 9. Contraintes de temps de calcul? 10. Comment mesurer l utilité économique?

BACKUP

Sous- problèmes Données historiques" Données temps réel" Contraintes de qualité de service Prévision des besoins: Achalandage Temps requis/client Dimensionnement Nb d employés pour répondre au besoin Courbe de demande d effectifs 47

Assurances générales Ratio Sinistres/primes Sinistres / Primes Volume d affaires Total des primes Rétention - pour une fenêtre de temps donnée - pourcentage de renouvellement (env. 90%) - mesure indépendante du client Dépenses, 20% Profits, 5% Sinistres, 75% Mesures rétrospectives vs prédictives. Buts: - identifier les profils des consommateurs fidèles - identifier les actions qui impactent la rétention

Steps towards a CLV model 1 Choose definition - upselling: can you trace a customer s business? - cross selling:is there a unique key across products? - switchers: can you match profiles through time? - new entrants: what do you know of your prospects? 2 Make assumptions - for each client, project - profits or - revenues and expenses important: recognize acquisition expenses - discounting factor based on cost of capital - retention models can be based on survival analysis - horizon, e.g. 5 years

Steps towards a CLV model 3 Build database for survival analysis - initial profile with length of stay (SAS procs: lifetest, lifereg, phreg) - data plumbing : cleaning and encoding unobserved truncated fully observed censored unobserved start end

Steps towards a CLV model 4 Modelling - design modelling experiment - train models - select best performing models 5 Enjoy! - CLV-based comparison of market segments - CLV-based valuation of retention increases - Prioritization of outgoing agent calls - Prioritization of marketing offers

Rétention: analyse prédictive André: 96% Bianka: 80% Colin: 69% Rétention 1 100,0% 100,0% 100,0% Rétention 2 96,0% 80,0% 69,0% Rétention 3 Rétention 4 Rétention 5 92,2% (96%*96% ) 88,5% (92,2%*96%) 84,9% (88,5%*96%) 64,0% 47,6% 51,2% 32,9% 41,0% 22,7%

Frais d acquisition de 250$ André (100$) Bianka (150$) Colin (200$) Frais 1 300$ 350$ 400$ Frais 2 50$ 100$ 150$ Frais 3 50$ 100$ 150$ Frais 4 50$ 100$ 150$ Frais 5 50$ 100$ 150$

Profits André (50$) Bianka (75$) Colin (100$) Frais 1 (150$) (125$) (100$) Frais 2 100$ 125$ 150$ Frais 3 100$ 125$ 150$ Frais 4 100$ 125$ 150$ Frais 5 100$ 125$ 150$

Focus «client»? 1. Autres véhicules du même client p.ex.: le 2e véhicule d André 2. Autres produits d assurance du même client p.ex.: les biens de Colin (assurance habitation) 3. Autres produits financiers: p.ex.: le prêt hypothécaire de Bianka 4. Autres clients du ménage: p.ex.: la voiture du conjoint de Bianka

Avantages du focus client 1. Définir la croissance potentielle de la relation en fonction De notre wallet share actuel Des besoins futurs (Colin vs André) 2. Tenir compte des interactions entre les différents produits La rétention pour un produit est supérieure si d autres produits sont présents. Les consommateurs bougent plusieurs produits en même temps

Défis au niveau des données 1. Bases de données historiques de la clientèle pour estimer la rétention (arrivées et départs des clients). 2. Estimation précise des frais dans le temps et par segment. 3. Croiser les bases de données de différents produits (p.ex.: assurance habitation et automobile). 4. Données externes socio-démo avec Statistique Canada, cotes de crédit FICO, météo avec environnement Canada. social: Facebook, Twitter, Linkedin, etc.

Conclusions 1. La VÉC permet d analyser l ensemble de la relation avec un client, à plus long terme. 2. Deux éléments importants interagissent: Frais d acquisition Rétention 3. La définition du client joue un rôle majeur. 4. L intelligence d affaires devra permettre l intégration efficace d un nombre croissant de sources de données externes.

VÉC: profit x rétention André Bianka Colin VÉC 1 (150$) 50$ (125$) 75$ (100$) 100$ VÉC 2 96$ 48$ 100$ 60$ 104$ 69$ VÉC 3 92$ 46$ 80$ 48$ 71$ 48$ VÉC 4 88$ 44$ 64$ 38$ 49$ 33$ VÉC 5 85$ 42$ 51$ 31$ 34$ 23$ VÉC Tot. 212$ 231$ 170$ 252$ 158$ 272$

Pour la prédiction de séries temporelles: validation séquentielle

Défi: Données de trafic Les données de trafic sont habituellement captées avec des compte-personnes («people counter») Servent aussi à la prévention des vols Fréquent: compteurs unidirectionnels o Impossible de dire si la personne entre ou sort Difficile de déterminer le nombre total de personnes en magasin à chaque moment

Nombre d horaires possibles Le nombre d horaires possibles croît extrêmement rapidement en fonction du nombre d employés" " On ne peut vérifier chaque horaire individuellement." 62