L'intelligence d'affaires: la statistique dans nos vies de consommateurs



Documents pareils
Agenda de la présentation

Introduction au datamining

Accélérer l agilité de votre site de e-commerce. Cas client

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

INF6304 Interfaces Intelligentes

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

1 Modélisation d être mauvais payeur

Travailler avec les télécommunications

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

ICHEC MANAGEMENT SCHOOL

Les datas = le fuel du 21ième sicècle

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Spécificités, Applications et Outils

Apprentissage Automatique

Introduction au Data-Mining

Big Data et Prévisions. Philippe Picard, le 24 juin Page 1

Formation continue. Ensae-Ensai Formation Continue (Cepe)

INTELLIGENCE MARKETING ETUDES DE MARCHE - DATA MINING - CONSEIL EN MARKETING - SYSTEMES D INFORMATION MARKETING

BIG DATA : comment étendre et gérer la connaissance client? François Nguyen SFR Directeur SI décisionnel & Mkt relationnel GP

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Vision prospective et obstacles à surmonter pour les assureurs

Formation e-commerce : Webmarketing

marketing, scoring comportemental & analyse prédictive

LA STRATÉGIE «BIG DATA» DE ROULARTA MEDIA GROUP PREND DE L AMPLEUR GRÂCE À SELLIGENT TARGET

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Application du data mining pour l évaluation de risque en assurance automobile

BIG DATA et données externes dans les modèles de tarification

Bigdata et Web sémantique. les données + l intelligence= la solution

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Gestion de la relation Client (CRM)

STATISTIQUES 2014 APPLICATION MOBILE

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

SAS ENTERPRISE MINER POUR L'ACTUAIRE

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

MÉTHODOLOGIE D ENQUÊTE

Personnalisation: Pour bien démarrer Créer une expérience digitale unique pour chaque visiteur. Par John Carione, Acquia

ANALYSE STATISTIQUE PRÉDICTIVE

Le Baromètre e-commerce des petites entreprises

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

MAÎTRISE ÈS SCIENCES EN GESTION. MICROPROGRAMMES Exploitation de données en intelligence d affaires Analytique d affaires - Énergie 2014 ANNUAIRE

DESCRIPTION DES PRODUITS ET MÉTRIQUES

Big Data et Statistique Publique

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

INTRODUCTION AU DATA MINING

Enjeux mathématiques et Statistiques du Big Data

QLIKVIEW POUR SALESFORCE

25 mars 2014 Hôtel Hyatt Regency, Montréal. Faire des choix stratégiques à l ère du numérique.

À PROPOS DE TALEND...

LOGICIELS DE PRÉVISIONS

Analyse prédictive. L essor et la valeur de l analyse prédictive dans la prise de décisions

GT Big Data. Saison Bruno Prévost (Safran), Marc Demerlé (GDF SUEZ) CRiP Thématique Mise en œuvre du Big Data 16/12/14

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Cinq impératifs prédictifs pour maximiser la valeur client Utilisation des analyses prédictives pour améliorer la gestion de la relation client

BIG DATA : PASSER D UNE ANALYSE DE CORRÉLATION

CONFÉRENCE-ATELIER : BRUNCHEZ VOS AFFAIRES AVEC LA CDEC. Le commerce électronique : un enjeu stratégique pour votre entreprise

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain?

Créer et animer une boutique en ligne avec Wordpress (environnement PC et MAC)

BIG DATA Comment exploiter les données pour maximiser vos investissements en ligne

SOMMAIRE. Portraits des intervenants Portraits des animateurs Conférence, Débat et Échanges #$%&'(!)(*+,!-$*./)(*-(!"0!1,2*!34"0!5!!

Les RH à l ère du Big Data: faites parler vos données! Mesurez et optimisez la performance de vos programmes RH 18 septembre 2013

L olivier Assurances Licence 3 Econométrie Lyon II

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Métriques de performance pour les algorithmes et programmes parallèles

Modélisation aléatoire en fiabilité des logiciels

Ad-exchanges & RTB (avec la participation de Fabien Magalon, La place

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

Optimisation des ressources des produits automobile première

Les défis statistiques du Big Data

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche

Internet et prévention. Communiquer sur la santé sexuelle en direction des jeunes internautes

Surabondance d information

données en connaissance et en actions?

Gérer son image en ligne : besoin réel ou nombrilisme? Albéric Guigou & Juliette Descamps Reputation Squad

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Théorie des Jeux Et ses Applications

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

Les clients puissance cube

VidZone, qu est-ce que c est? INSTALLATION DE VidZone

Méthodes d apprentissage statistique «Machine Learning»

«Cours Statistique et logiciel R»

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Introduction au Data-Mining

La gestion du fichier client. 04/12/2013 Le marketing en soutien aux forces de vente

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Université de Montréal. par Sylvain Pannetier Lebeuf

SE RENDRE VISIBLE EN 2015?

Introduction Big Data

Pourquoi l apprentissage?

Pourquoi OneSolutions a choisi SyselCloud

Transcription:

L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013

Intelligence d affaires [Wikipedia] Business intelligence (BI) is a set of theories, methodologies, processes, architectures, and technologies that transform raw data into meaningful and useful information for business purposes. jfplante.ca/talks/acfas2013.pdf 1

Plan : 1. Une vie dans la journée d un consommateur 2. Présence (cachée?) de la statistique dans cette journée 3. Les défis reliés à l intelligence d affaire 4. Conclusion : importance de l intelligence d affaires 2

Une journée dans la vie d un consommateur 3

1. Lever du bébé il a une fièvre légère et des petits boutons Réflexe moderne : 4

Google TREND Le comportement de la population contient de l information! (Article dans Nature, limites) 5

2. Se rendre au travail Même si on ne parle pas au téléphone en conduisant, on laisse souvent l appareil sous tension. L appareil sous tension se connectera à différentes tours de communications AT&T research : o Estimation de la vitesse des véhicules (et donc du trafic). o Estimation de niveau d utilisation des routes et de l empreinte carbone de différentes communautés. 6

Parlant de cellulaire, ils ont l avantage d être associés au même individu Même avec des données anonymes, on peut donc : Détecter où vous demeurez et où vous travaillez (puisque vous téléphonez le plus souvent de la maison et du travail). Vous classer dans un segment de consommateurs selon votre usage du cellulaire. 7

3. C est la fête de mon épouse, je lui achète des fleurs Je visite le même site de fleuriste, mais il est différent?!? Pourquoi? 8

Plusieurs sites font du «A/B-testing» (c est le terme utilisé en Marketing). Par exemple, en choisissant une femme plutôt qu un homme, DHL augmente son taux de conversion de 15% (source non scientifique)... Ici, il y a une vraie randomisation. On peut élaborer un plan d expérience à plusieurs facteurs et appliquer les tests d hypothèses bien connus. 9

4. Après le lunch : pause YouTube Les vidéos sont rarement des publicités déguisées Pour chaque nouveau vidéo YouTube (1h de nouveau vidéo à chaque minute) : La trame sonore de la vidéo est transcrite automatiquement. Des algorithmes de «Text Mining» transforment le texte en valeurs numériques. Une analyse factorielle permet de réduire le nombre de variable. Une régression logistique est utilisée pour évaluer la probabilité que la vidéo contienne des publicités cachées. La validation croisée permet d évaluer la performance du modèle. Beaucoup de puissance de calcul est requise, mais ce n est pas un problème chez Google, le 4 ème plus important constructeur de serveurs au monde! Ils utilisent des bibliothèques R conçues à l interne pour le calcul parallèle. 10

5. Il faut passer à l épicerie Grâce à ma carte de fidélisation, j obtiens des rabais et des primes! Qu est-ce que le marchant peut bien en retirer? 11

a) Évaluer les effets de l arrivée d un compétiteur (projet supervisé à HEC) : Ouverture d une nouvelle épicerie à proximité. Quel est l effet sur la clientèle? On peut savoir quel type de clients on perd, et donc mieux cibler notre stratégie pour retenir les clients qui sont à risque de quitter. Avec PROC MIXED : o Si le concurrent est SuperC : les clients achetant du congelé sont plus à risque de quitter. o Distance entre le domicile et le compétiteur : plus importante en milieu urbain qu en milieu rural. 12

b) Prédire les achats d un client (Market Basket Analysis) Même sans programme de fidélisation, on peut analyser les articles que les clients ont tendance à acheter simultanément. Des algorithmes ont été développés pour détecter les règles d association (probabilités conditionnelles) les plus fortes. Évidemment, avec le programme de fidélisation on peut vous faire parvenir directement les offres ciblées. Exemples : Target envoie des promotions sur les articles de bébé à une adolescente aux États-Unis. Son père outré ne savait pas qu elle était enceinte. Distributeur de pièces d auto au Québec (projet supervisé à HEC) o En plus du MBA, régression binomiale négative pour évaluer l effet des spéciaux et des promotions. 13

6. En soirée, je peux enfin me reposer un peu Suis-je à l abri de l intelligence d affaires? Étude de l efficacité du placement de produits dans les jeux vidéo (Mémoire à HEC). Jeux en ligne : analyse du comportement des joueurs pour prédire le taux d attrition (churn) et maximiser la rétention. 14

Méthodes statistiques utilisées dans les exemples Analyse factorielle Régression (linéaire, logistique, binomiale négative, etc.) Modèles linéaires mixtes et/ou généralisés Analyse de survie (régression de Cox) Analyse de regroupement (k-means, k-nn, méthodes hiérarchiques, etc.) Autres modèles d apprentissage (svm, arbres de décision, etc.) Bagging, boosting, forêts aléatoires Validation croisée Plans d expérience Analyse de correspondance Courbes ROC, lift charts etc. 15

Défis de l intelligence d affaires Au niveau modélisation : Données massives, peu ou mal structurées. Données d observations (peu de données randomisées). Nettoyage et préparation des données nécessaire. Hypothèses des modèles difficiles à respecter (est-ce si grave)? Changements dans les données (Google Flu). Comparabilité des données (plates-formes mobiles). Au niveau communication : Il faut être capable de communiquer le résultat des modèles et leur qualité a des gens qui n ont pas, ou peu, de formation quantitative. Dans la plupart des contextes, une régression linéaire multiple est déjà un outil sophistiqué. Imaginez une régression de Cox! 16

Mauvais modèle vs modèle optimal Nous sommes entraînés à toujours chercher le meilleur modèle. En pratique, il y a souvent peu de différence entre une solution naïve et une solution optimale. Exemple : Devoir au MBA, choisir 50 vins dans une liste de 500 en se basant sur une régression linéaire ajustée sur un autre échantillon de 1000 vins. La qualité moyenne du vin est de 5,44. Les équipes obtiennent entre 6,44 et 6,46. SAS rapid predictive modeller atteint 6,49 en utilisant des modèles beaucoup plus complexes (et du boosting). Avec un choix au hasard, on aurait en moyenne 5 bons vins dans le top 50. Les équipes en ont toutes 18 ou 19. On aurait aussi 5 mauvais vins parmi les 50 pires. On en obtient 0 ou 1. 17

Concours Netflix : Base de données de 100 480 507 de notes données par 480 189 usagers à 17 770 films. Il faut prévoir la note que les usagers donneront à un nouveau film. Prévision = cote moyenne du film : RMSE = 1.0540 Cinematch (modèle linéaire naïf après beaucoup de nettoyage et de préparation des données) : RMSE = 0.9525 Il y a 1 000 000 $ en jeu pour la première équipe à améliorer le RMSE de Cinematch d un 10 % additionnel (i.e. atteindre 0.8572 sur l échantillon test). Lancement du concours : 2 octobre 2006. Participants : 41 305 équipes de 186 pays. Fin du concours : 21 septembre 2009. 18

Importance de l intelligence d affaires «Big data revolution» Rapport de McKinsey International : La Maison Blanche investit 200 millions $ en recherche. Hal Varian, économiste en chef chez Google : I keep saying that the sexy job in the next 10 years will be statisticians. And I m not kidding., NY Times, août 2009 Programme d intelligence d affaires à HEC Montréal : 19