Data Mining, Data Scien-st, Data Analy-cs, CRM, Modélisa-on et ou-ls mathéma-ques Eclairages et principes



Documents pareils
Introduction au Data Mining et à l apprentissage statistique

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman

TRANSFORMATION DIGITALE : COMMENT INDUSTRIALISER ET PÉRENNISER LA MÉTHODE AGILE À PLUS GRANDE ÉCHELLE

Big Data et Statistique Publique

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

BIG DATA en Sciences et Industries de l Environnement

Introduc)on à l Agile

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL

Intelligence Inventive

Prépara&on Opéra&onnelle à l Emploi de BASYCA (POEB) BASYCA SAS FRANCE - Anzize BADAROU

Baromètre Direct Assurance des cyberconsommateurs

Systèmes de recommandation de produits Projet CADI Composants Avancés pour la DIstribution

Spécificités, Applications et Outils

Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on

#GoSocial. solutions de marketing communautaire & social crm

JSIam Introduction talk. Philippe Gradt. Grenoble, March 6th 2015

Présentation Level5. Editeur de Logiciels. «If it s not monitored, it s not in production» Theo Schlossnagle #velocityconf

CQP 112 Introduc/on à la programma/on. Thème 2 : Architecture d un système informa/que. Département d informa/que

Tout ce que vous avez toujours voulu savoir sur SAP HANA. Sans avoir jamais osé le demander

Introduction au Data-Mining

LE SUPPLIER RELATIONSHIP MANAGEMENT EN PRATIQUE

Offre Azimut CONTENT MARKETING. A l a&en)on de : Date de remise : Version : 3.0

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

LA DIGITALISATION DE LA RELATION CLIENT

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Les 10 étapes clés pour trouver des clients par internet

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Tier 1 / Tier 2 relations: Are the roles changing?

PRÉSENTATION DES RÉSULTATS DU LIVRE BLANC BIG DATA

Speed up your business

Devenez un virtuose de Google. Atelier en informa5que présenté par Dominic P. Tremblay

Cloud (s) Positionnement

Sites Internet : les. tendances. Jeudi 30 janvier 2014 Bordeaux L AGENCE CONNECTÉE À L ENTREPRISE

DIGITAL INSURANCE. A l a&en)on de : Date de remise : Version : 3.0

Les méthodes Agiles. Introduc)on aux méthodes Agiles Exemple : Scrum

EXECUTIVE DOCTORATE IN BUSINESS ADMINISTRATION : LA NÉCESSITÉ DE L'INTÉGRATION DES TIC POUR MANAGER LA DISTANCE

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Trends Every. to Know. Eli Goodman, Media Delphine Gatignol, VP Sales FRANCE. Marché. Numérique en France

OFFRE MIX MARKETING : créateur de consommateurs. A l a&en)on de : Date de remise : Version : 3.0

Apprentissage Statistique

Poli%que ins%tu%onnelle: le numérique au service de la forma%on à l Université Laval CFQCU Paris, 26 mai 2015

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Le Product Backlog, qu est ce c est?

Vérifica(on et Valida(on de Business Process. Ang Chen et Levi Lúcio

STRATÉGIE GRC POUR LE TOURISME INSTITUTIONNEL (une démarche par.cipa.ve & sur mesure)

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

SAUVER LA DISTRIBUTION!

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Vers un Système unique d informa4on na4onale de médicaments au Mexique, dans le cadre du suivi de l OMD 8.13

0,3YDQGLWVVHFXULW\ FKDOOHQJHV 0$,1²0RELOLW\IRU$OO,31HWZRUNV²0RELOH,3 (XUHVFRP:RUNVKRS %HUOLQ$SULO

Empowering small farmers and their organizations through economic intelligence

OPTIMISER SA STRATÉGIE SEA DANS UNE LOGIQUE DE VENTE

Le marketing appliqué: Instruments et trends

UNIVERSITÉ DE MONTRÉAL DÉPARTEMENT DE SOCIOLOGIE ************* Cours de niveau gradué en méthodes quantitatives *************

La démarche Omnicanal Outils d'aide à l'amélioration de l'expérience client Avec le partenaire SKema Alumni

Introduction au datamining

Les formations. calipia. novembre 2014 à mai 2015

TABLE DES MATIERES. C Exercices complémentaires 42

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

Big data, digital studies, un nouveau nominalisme. Bruno Bachimont Université de Technologie de Compiègne

Concepon et réalisaon

Face Recognition Performance: Man vs. Machine

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

Dans une agence de location immobilière...

Le secteur de la Mutualité. Présenta*on des organismes Structure et caractéris*ques des emplois Zoom sur les mé*ers

MTI820 Entrepôts de données et intelligence d affaires. Gouvernance des données et ges1on des données de référence

We make your. Data Smart. Data Smart

Introduction au Data-Mining

Institut français des sciences et technologies des transports, de l aménagement

Agenda de la présentation

H2PS engage ses compétences auprès des entreprises et des parculiers par la mise en place de soluons d accompagnements et de services.

Master Exploration Informatique des données Data Mining & Business Intelligence. Evelyne CHARIFOU Priscillia CASSANDRA

Modélisation aléatoire en fiabilité des logiciels

Retail One Stop Shop. Conseil en S.I. Métier

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

Présentation UBO 12/2008 Présentation des méthodes agiles

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Simplifiez la ges-on de votre parc informa-que

Cloud Computing: de la technologie à l usage final. Patrick CRASSON Oracle Thomas RULMONT WDC/CloudSphere Thibault van der Auwermeulen Expopolis

1 ère Partie Stratégie et Directions Stockage IBM

VOTRE POLITIQUE D'ARCHIVAGE EST-ELLE ADAPTÉE? Démarche projet. Alain Le Corre, Responsable de Marché, Gestion de l information

BENCHMARK CONCURRENTIEL PERMANENT : PRIX, CONDITIONS, PROMOTIONS, INNOVATIONS

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Lettre de prospective n 48 janvier 2015

BIG DATA : comment étendre et gérer la connaissance client? François Nguyen SFR Directeur SI décisionnel & Mkt relationnel GP

Dr. Prosper Bernard Tel: // portable

Déployer des tablettes en classe de LVE: les points clés. Rennes, le 26 août 2014

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

ESSEC Business School Mai *La réponse est en vous - Panorama des programmes

Big- Data: Les défis éthiques et juridiques. Copyright 2015 Digital&Ethics

Atelier Symposium MicroStrategy

L offre Stockage et serveurs System x / BladeCenter F.Libier, Business Partner Technical Manager

Nom du client. Date. Client Logo or project name

Transcription:

Data Mining, Data Scien-st, Data Analy-cs, CRM, Modélisa-on et ou-ls mathéma-ques Eclairages et principes Michel Béra Professeur du Cnam (Chaire de Modélisa-on sta-s-que du risque) Cours STA201

Comment fait- on de la modélisa0on prédic0ve? - On cherche à répondre à des ques0ons simples, par des modèles : partant d un jeu de variables d entrées, mesurées sur un ensemble d observa0ons, un modèle calcule des variables de sor0e qui cons0tuent la réponse à une ques0on - On établit (automa0quement?)la formule mathéma0que (ou informa0que (code)) du modèle à par0r des observa0ons dont on dispose - On cherche à ce que le modèle soit «bien adapté» à la ques0on que l on se pose

Qu est- ce qu un modèle bien adapté à la ques0on que l on se pose? Il doit donner de son mieux les bonnes réponses pour les observa0ons dont on dispose (fit) Il doit garder un comportement stable de ce fit sur de nouvelles données inconnues (robustesse) Il doit permejre par son équa0on mathéma0que de mieux comprendre, voire commencer à prouver, la nature profonde des phénomènes sous- jacents (inférence)

Les principaux modèles concrets u0lisés en CRM Classifica0on : on ajend du modèle une réponse du type «oui» ou «non» (exemple : «mon client est- il en train de frauder») Score : la ques0on posée est du type «combien» : exemple : «combien ce client va- t- il rapporter de CA l an prochain» Segmenta0ons : observe- t- on des comportements homogènes de sous groupes dans les observa0ons Réseaux sociaux : comment s organisent mes clients dans leurs rela0ons directes/indirectes entre eux? Moteurs de Recommanda0ons (Amazon, etc.) Séries temporelles : quelle est la valeur suivante d une séquence de valeurs?

La Nature a horreur du vide (Aristote) Pour mejre en place des modèles, il faut des observa0ons, décrites par des variables : autrement dit, il faut des données Il y a de plus en plus (croissance exponen0elle) de données disponibles, c est l ère numérique qui s installe dans toute notre vie (digitalisa0on des observa0ons) : les données de comportement Il faut que les données soient «propres» (gros problème en modélisa0on prédic0ve)

La Loi de Moore (composants)

La Loi de Moore (rappel)

Capacité de stockage des disques durs : évolu0on et prévision

L explosion des données hier (2006) What has happened? Source: Andrew Moore, KDD 2006

Les données hier (2007) The volume of data has exploded In the 90s Today Web transac0ons Fayyad, KDD 2007 At Yahoo! Around 16 B events / day 425 M visitors / month 10 Tb data / day RFID Jiawei, Adma 2006 A retailer with 3,000 stores, selling 10,000 items a day per store 300 million events per day (aher redundancy removal) Social network Kleinberg, KDD 07 4.4- million- node network of declared friendships on blogging community LiveJournal 240- million- node network of all IM communica0on over one month on Microsoh Instant Messenger Cellular networks A telecom carrier generates hundreds of millions of CDRs / day The network generates technical data : 40 M events / day in a large city

Qu appelle- t- on Big Data De nouveaux types de données, provenant notamment de la bioinforma0que et de l imagerie, mais aussi des risques industriels Un volume de données qui oblige à repenser l architecture machines et logiciel pour les modéliser Un «hype» du monde du marke0ng Un danger éthique terrible, et une opportunité totalement nouvelle

Les données hier (2012)

L évolu0on historique de la modélisa0on prédic0ve

Les deux piliers de l histoire de la sta0s0que Empirical Methods of conjuration (PCA,NN,Bayes) Watch out! High dimensional problems malediction (s) Cramer, Kendall, etc. Fisher 2001: Start of the internet era, Millions of records & thousands of variables 1995 Support Vector Machines (Vapnik) 1980 SRM (Vapnik) 1974 VC Dimension 1960: Mainframe. Huge Datasets start appearing (Dr Strangelove modeling requests). 1950 1930 GO! Theory of ill-posed problems Kolmogorov-Smirnov STOP! Hypothesis Driven «model data (H0), then test» Data Driven «no need to study distributions»

La synthèse actuelle U0liser le meilleur des deux approches Data driven : chercher les variables Ne pas hésiter à impliquer le maximum de variables, y compris des variables calculées à par0r des existantes (agrégats, polynômes, etc.) Réduire le nombre de variables dans un premier temps pour la probléma0que retenue (score, classifieur) Hypothesis driven : vers l Evidence Based Construire une expérimenta0on à par0r des variables récentes Recueillir les preuves par les tests sta0s0ques tradi0onnels

Fit et robustesse : la négocia0on fondamentale en modélisa0on prédic0ve Un modèle trop précis (fit) sur les données se comporte de manière instable sur de nouvelles données : phénomène de l overfit Un modèle trop rigide (robuste) ne donnera pas un bon fit sur les données In medio stat virtus (Horace)

Eviter l overfit : un exemple 1.5 1 Example: Polynomial regression Target: a 10 th degree polynomial + noise Learning machine: y=w 0 +w 1 x + w 2 x 2 + w 10 x 10 0.5 0-0.5-10 -8-6 -4-2 0 2 4 6 8 10

Eviter l overfit : un exemple 1.5 d=10, r=1e+002 r=1e+003 r=1e+004 r=1e+005 r=1e+006 r=1e+007 r=1e+008 0.01 0.1 10 1 1 0.5 Example: Polynomial regression Target: a 10 th degree polynomial + noise Learning machine: y=w 0 +w 1 x + w 2 x 2 + w 10 x 10 0-0.5-10 -8-6 -4-2 0 2 4 6 8 10

Vitesse de convergence du modèle % erreur (fit) Intervalle de Confiance Données de Test Données d Observations Taille de l échantillon: L

La prépara0on des données Types de données : Structurées/non structurées. Tout peut- être transformé en numérique La ges0on des valeurs manquantes 2010+ : la ges0on parcimonieuse des données s impose La prépara0on des données peut également être data driven

La rasoir d Ockham Un principe formulé par William d Ockham au 14ème siècle : Pluralitas non est ponenda sine neccesitate. Si deux théories de modélisa0ons donnent la même qualité de modèle, prendre la plus simple. Re0rer les variables qui ne servent à rien dans un modèle.

L ou0l de mesure du CRM : La courbe de lih Customers ordered according to f(x); selection of the top ranking customers. KI = M O KR = 1 G O 100% Fraction of good customers selected G O Ideal Lift M Fraction of customers selected CV lift 100%

Un exemple concret de modèle prédic0f Census : expliquer ce qui fait qu un individu gagne plus ou moins de $50000/an, à par0r de quelques variables de recensement (aux US) Démonstra0on (Kxen)