Yoshua Bengio Chaire de Recherche du Canada sur les Algorithmes d Apprentissage Statistique, Université de Montréal Charles Dugas ApSTAT Technologies Inc. Et Aviva Canada SALON INTELLIGENCE D AFFAIRE 8 Novembre 2011, Montréal ANALYSE STATISTIQUE PRÉDICTIVE
Plan de travail Exemple pratique #1 (Charles Dugas, 9 min) Introduction à l analyse statistique prédictive (Yoshua Bengio, 30 min) Exemple pratique #2(Charles Dugas, 9 min) Pause et discussions individuelles (Yoshua Bengio & Charles Dugas, 30 min) Plénière (Charles Dugas & Yoshua Bengio, 40 min) Conclusion (Charles Dugas, 10 min)
La Valeur Économique du Client (VÉC)
Changement de philosophie Focus: produit " Focus: client " Attirer le consommateur" Rétention du consomm. " Transactions" Biens" Profitabilité du produit" Relations" Services" Gestion des clients" Élément essentiel: frais d acquisition (attirer) vs frais de maintien (conserver).! Un impact sur l intelligence d affaires: Intérêt pour la VÉC.!
Définition de la VÉC Aujourd hui Dans 1 mois Dans 2 mois Valeur, en date d aujourd hui, des profits tirés des achats futurs du client.
Définition de la VÉC Tient compte de 3 éléments: 1. Profits (marges) sur les achats (volume) futurs d un client 2. Rétention du client 3. Facteur de valeur présente (1$ aujourd hui vaut plus que 1$ l an prochain) VÉC Profit Réten- tion Valeur présente
Trois véhicules assurés André, 65 ans Bianka, 35 ans Colin, 21 ans Retraité Conduit peu et prudemment Aucun accident en 5 ans Bianka et sa famille. Conducteurs responsables Aucun accident en 5 ans Aime la vitesse 2 accidents à son actif Prime annuelle: 400$ Prime annuelle: 550$ Prime annuelle: 1300$
Calcul du profit Réclamations prédites! André Bianka Colin Prime 400$ 550$ 1300$ Réclamations 250$ 325$ 1000$ Autres frais 100$ 150$ 200$ Profit 50$ 75$ 100$ Profit (5 ans) 250$ 375$ 500$
VÉC: profit x rétention Rétention prédite! André (96%) Bianka (80%) Colin (69%) VÉC an1 50$ 75$ 100$ VÉC an2 48$ 60$ 69$ VÉC an3 46$ 48$ 48$ VÉC an4 44$ 38$ 33$ VÉC an5 42$ 31$ 23$ VÉC Tot. 231$ 252$ 272$
Impact des frais d acquisition Sans frais d acquisition Avec frais d acquisition VÉC 300 250 200 150 100 50 0-50 - 100-150 - 200 1 2 3 4 5 1 2 3 4 5 André Bianka Colin Années Années
VÉC: récapitulation André Bianka Colin Profit 5 ans 250$ 375$ 500$ VÉC (incl. rétention) 231$ 252$ 272$ VÉC (incl. rétention et frais d acquisition) 212$ 170$ 158$ L analyse prédictive nous donne un portrait différent!
Utilisations Solliciter les segments à forte VÉC Meilleure valorisation des segments de marché Identifier les actions qui augmentent la rétention (donc la VÉC) Réagir aux changements (p.ex. suite à un accident, un déménagement, etc.)
Objectifs de l analyse statistique prédictive Outils pour prédire Données pour construire un prédicteur Utiliser le prédicteur sur de nouveaux cas Généraliser le mieux possible sur les nouveaux cas Évaluer et comparer les prédicteurs
Notions Discutées Données, variables: entrées vs cibles Étapes de l analyse prédictive Probabilité et espérance Classification, régression, prédiction de proba Exemples d algorithmes prédictifs Prétraitement des données data plumbing Généralisation à de nouveau cas: erreur de test Sélection de modèles, hyper-paramètres Split des données
Exemple: achat en ligne e.g. t=montant que le client dépensera dans ceee session On commence avec des données e.g. x 1 =temps passé depuis dernier achat (normalisé) x 2 =montant des achats passés (normalisé) x 3 =a déjà visité le site x 4 =vient de Montréal, etc.
Etapes pratiques d un projet d analyse prédictive
Probabilité et Espérance Aléas: achète ou n achète pas? Proba: proportion de succès attendue si on répétait l expérience Variable aléatoire: chaque valeur à probabilité o v.a. discrète: achète (oui) ou pas (non)? o v.a. continue: montant de l achat? Espérance d une v.a.: moyenne des valeurs, pondérée par la probabilité des évènements possibles
Entrées et sorties d un prédicteur Entrée X Sortie f(x) six Cible Y deux!
Apprendre à partir d exemples Image en entrée surprise joie peur Catégorie cible Associe deux types de variables aléatoires, e.g., Entrée = Image (e.g. intensités des pixels) Cible = Catégorie (e.g., émotions à détecter)
Prédire une catégorie Un prédicteur est entraîné à produire à partir d une entrée une sortie qui est une prédiction pour une cible associée à cette entrée Entrée: image predicteur Sortie: Émotion fear prédite = triste anger Cible: Émotion à prédire = colère Erreur=1=1 La sortie (prédiction) est comparée avec la cible pour calculer une erreur (0 ou 1). Le but de l entraînement est de réduire l espérance des erreurs futures.
Prédire une quantité: régression (ici: non linéaire, avec bruit) bruit e.g.: x=montant passé, y = montant futur (ventes)
L algorithme des plus- proches- voisins (k- NN) Pour un point test x: x" [2]" On trouve les k plus proches voisins de x parmi l ensemble d apprentissage (typiquement selon la distance Euclidienne). On associe à x la classe majoritaire parmi ses k voisins Âge du client x? Client n achète pas# k=3 Client achète# k est un hyper-paramètre Montant achats passés x" [1]"
Régression Linéaire Régularisée Régression linéaire: prédiction = combinaison linéaire des entrées. Prédic tion W 0 W 1 âge W 2 achats Apprentissage = trouver les coefficients w Régression linéaire classique: il faut que les entrées ne soient pas corrélées, il faut éviter d avoir trop de variables d entrée Régression linéaire régularisée (pénalité L2): règle ces problèmes (on peut avoir autant d entrées qu on veut mais leurs poids seront forcés à être plus petits par la régularisation). On mesure l erreur quadratique: (prédiction cible) 2
Modèles non- linéaires Algorithmes Tâches Commentaires Réseaux de neurones Classification, régression peut soutenir des millions d exemples (premier choix dans ce cas) Arbres de décision Classification prédiction très rapide Support Vector Machine (SVM) Classification ok jusqu à 100k exemples; linéaire si nombre de variables est immense Boosting Classification peu d hyperparamètres (boutons ajustables) Gaussian Process Regression Régression Premier choix quand moins de 1000 exemples
Prétraitement des données 1. Nettoyage des données (détecter semi-automatiquement et corriger les valeurs bizarres) 2. Imputation de valeurs manquantes 3. Encodage des données (selon l algo d apprentissage) Normalisation des variables réelles (soustraire moyenne, diviser par écart type) Optionellement discrétisation de variables numériques choisies. Représentation one-hot des variables catégoriques onehot5(3) = (0,0,1,0,0)
Généralisation à de nouveaux cas On peut facilement mettre au point un prédicteur qui donne exactement les bonnes réponses sur les données d apprentissage. Pas garanti de bonnes prédictions sur de nouveaux cas, et c est seulement ça qui nous intéresse. L erreur d apprentissage (sur l ensemble de données d apprentissage) est toujours optimiste On veut estimer l erreur de généralisation: ensemble de test (non utilisé pour apprendre). On veut choisir le modèle qui généralise le mieux.
Modélisation: sélection de modèles Plusieurs algos d apprentissage. Pour chaque algo, plusieurs choix de valeurs de ses hyper-paramètres (ex. nb de voisins k dans k-nn, nb de neurones dans un réseau de neurones,...) Pour chaque cas, on va entraîner un modèle puis évaluer sa performance de généralisation (en test).
Sélection de modèle: contrôle de la capacité Les hyper-paramètres des algorithmes permettent de contrôler la capacité du modèle. C est indispensable pour avoir une bonne généralisation. capacité trop faible sous-apprentissage capacité trop élevée sur-apprentissage capacité optimale bonne généralisation La performance sur l ensemble d entraînement n est pas un bon estimé de la généralisation
Split des données Diviser les gros ensembles de données en 3: 1. Données d entraînement pour estimer les paramètres des modèles 2. Données de validation pour évaluer l impact de divers choix de modèles et hyper-paramètres 3. Données de test (jamais utilisées pour autre chose) pour évaluer la généralisation comme sur le terrain Train: 70% Valid: 15% Test: 15%
Sélection de modèle et hyper- paramètres L évaluation de performance finale s effectue sur des données qui n ont servi ni pour l entrainement ni pour la sélection de modèles ou de capacité.
Optimisation de l allocation d effectifs en fonction de la profitabilité
Contexte Chaîne de commerce au détail o Vêtements et/ou accessoires o Plusieurs centaines de boutiques mondialement o Généralement, 5 15 employés en boutique
Plan général Prévision de la courbe de demande Nb optimal d employé/15 min. (fractionnaire) Création des horaires Contraintes ergonomiques Normes du travail Création des quarts de travail Employés spécifiques Préférences des employés 34
Types de données Nb de clients en magasin à chaque moment (compte-personnes)" Nb d employés sur le plancher à chaque moment (données de paye)" Historique des Transactions réalisées" Autres variables: événements spéciaux (boxing day, ventes, grèves), météo (tempêtes, 1 er beau week-end de l année) " 35
Équation du profit Profit Ventes x Marge Salaires 36
Décomposition des ventes (période) Ventes Trafic Nb de clients qui entrent en magasin" 37 Taux de conversion Proportion des clients qui achètent quelque chose" Panier moyen Quantité achetée, sachant qu il y a un achat"
Architecture de modélisation Ventes Profit Employés Trafic Variables Conversion et Panier moyen QoS
Modèles possibles Trafic et panier moyen: problèmes de régression o Réponses approximativement continues pour trafic o Modèles possibles (par ex.): Linéaire, Linéaire généralisé (GLM) Réseau de neurones (non-linéaire) Taux de conversion: estimation de probabilité conditionnelle o Réponse: fraction entre 0 et 1 o Modèles possibles: Régression logistique Réseau de neurones
Optimisation: courbe de demande Profit espéré ($)" Meilleur compromis entre qualité de service et masse salariale" Personne-heures travaillées" 40
Défi: Météo Impact quasi universel sur le commerce au détail Les historiques de météo sont relativement faciles à trouver (et gratuit en général, p.e. Environnement Canada) Plus difficile à trouver: historique des prévisions
Conclusions Ø La conception de l architecture de modélisation dépend des données disponibles Ø On doit s assurer que l analyse prédictive colle au processus opérationnel
Etapes pratiques d un projet d analyse prédictive Vision haut- niveau d un projet complet
Ce qu on peut prédire Probabilité d un évènement oui/non (le client clique, achète, quitte, etc) Probabilité d appartenir à une catégorie (groupe démographique, type de produit acheté) Espérance d une variable continue (temps entre deux évènements, valeur du client, montant payé, montant perdu, ) Densité de probabilité d une variable continue Proportionnelle à la probabilité de trouver environ une certaine valeur, e.g. on peut calculer la probabilité qu une variable continue soit dans un intervalle choisi
QUESTIONNAIRE 1. Secteur de votre organisation pouvant bénéficier? 2. Organisation et accès aux données? 3. Variables d entrée et cible à prédire? 4. Type des variables cible? 5. Utilisation des prédictions? 6. Décisions directes ou prédictions de probabilités? 7. Combien de données? 8. Les données changent dans le temps? 9. Contraintes de temps de calcul? 10. Comment mesurer l utilité économique?
BACKUP
Sous- problèmes Données historiques" Données temps réel" Contraintes de qualité de service Prévision des besoins: Achalandage Temps requis/client Dimensionnement Nb d employés pour répondre au besoin Courbe de demande d effectifs 47
Assurances générales Ratio Sinistres/primes Sinistres / Primes Volume d affaires Total des primes Rétention - pour une fenêtre de temps donnée - pourcentage de renouvellement (env. 90%) - mesure indépendante du client Dépenses, 20% Profits, 5% Sinistres, 75% Mesures rétrospectives vs prédictives. Buts: - identifier les profils des consommateurs fidèles - identifier les actions qui impactent la rétention
Steps towards a CLV model 1 Choose definition - upselling: can you trace a customer s business? - cross selling:is there a unique key across products? - switchers: can you match profiles through time? - new entrants: what do you know of your prospects? 2 Make assumptions - for each client, project - profits or - revenues and expenses important: recognize acquisition expenses - discounting factor based on cost of capital - retention models can be based on survival analysis - horizon, e.g. 5 years
Steps towards a CLV model 3 Build database for survival analysis - initial profile with length of stay (SAS procs: lifetest, lifereg, phreg) - data plumbing : cleaning and encoding unobserved truncated fully observed censored unobserved start end
Steps towards a CLV model 4 Modelling - design modelling experiment - train models - select best performing models 5 Enjoy! - CLV-based comparison of market segments - CLV-based valuation of retention increases - Prioritization of outgoing agent calls - Prioritization of marketing offers
Rétention: analyse prédictive André: 96% Bianka: 80% Colin: 69% Rétention 1 100,0% 100,0% 100,0% Rétention 2 96,0% 80,0% 69,0% Rétention 3 Rétention 4 Rétention 5 92,2% (96%*96% ) 88,5% (92,2%*96%) 84,9% (88,5%*96%) 64,0% 47,6% 51,2% 32,9% 41,0% 22,7%
Frais d acquisition de 250$ André (100$) Bianka (150$) Colin (200$) Frais 1 300$ 350$ 400$ Frais 2 50$ 100$ 150$ Frais 3 50$ 100$ 150$ Frais 4 50$ 100$ 150$ Frais 5 50$ 100$ 150$
Profits André (50$) Bianka (75$) Colin (100$) Frais 1 (150$) (125$) (100$) Frais 2 100$ 125$ 150$ Frais 3 100$ 125$ 150$ Frais 4 100$ 125$ 150$ Frais 5 100$ 125$ 150$
Focus «client»? 1. Autres véhicules du même client p.ex.: le 2e véhicule d André 2. Autres produits d assurance du même client p.ex.: les biens de Colin (assurance habitation) 3. Autres produits financiers: p.ex.: le prêt hypothécaire de Bianka 4. Autres clients du ménage: p.ex.: la voiture du conjoint de Bianka
Avantages du focus client 1. Définir la croissance potentielle de la relation en fonction De notre wallet share actuel Des besoins futurs (Colin vs André) 2. Tenir compte des interactions entre les différents produits La rétention pour un produit est supérieure si d autres produits sont présents. Les consommateurs bougent plusieurs produits en même temps
Défis au niveau des données 1. Bases de données historiques de la clientèle pour estimer la rétention (arrivées et départs des clients). 2. Estimation précise des frais dans le temps et par segment. 3. Croiser les bases de données de différents produits (p.ex.: assurance habitation et automobile). 4. Données externes socio-démo avec Statistique Canada, cotes de crédit FICO, météo avec environnement Canada. social: Facebook, Twitter, Linkedin, etc.
Conclusions 1. La VÉC permet d analyser l ensemble de la relation avec un client, à plus long terme. 2. Deux éléments importants interagissent: Frais d acquisition Rétention 3. La définition du client joue un rôle majeur. 4. L intelligence d affaires devra permettre l intégration efficace d un nombre croissant de sources de données externes.
VÉC: profit x rétention André Bianka Colin VÉC 1 (150$) 50$ (125$) 75$ (100$) 100$ VÉC 2 96$ 48$ 100$ 60$ 104$ 69$ VÉC 3 92$ 46$ 80$ 48$ 71$ 48$ VÉC 4 88$ 44$ 64$ 38$ 49$ 33$ VÉC 5 85$ 42$ 51$ 31$ 34$ 23$ VÉC Tot. 212$ 231$ 170$ 252$ 158$ 272$
Pour la prédiction de séries temporelles: validation séquentielle
Défi: Données de trafic Les données de trafic sont habituellement captées avec des compte-personnes («people counter») Servent aussi à la prévention des vols Fréquent: compteurs unidirectionnels o Impossible de dire si la personne entre ou sort Difficile de déterminer le nombre total de personnes en magasin à chaque moment
Nombre d horaires possibles Le nombre d horaires possibles croît extrêmement rapidement en fonction du nombre d employés" " On ne peut vérifier chaque horaire individuellement." 62