Data Mining, Data Scien-st, Data Analy-cs, CRM, Modélisa-on et ou-ls mathéma-ques Eclairages et principes Michel Béra Professeur du Cnam (Chaire de Modélisa-on sta-s-que du risque) Cours STA201
Comment fait- on de la modélisa0on prédic0ve? - On cherche à répondre à des ques0ons simples, par des modèles : partant d un jeu de variables d entrées, mesurées sur un ensemble d observa0ons, un modèle calcule des variables de sor0e qui cons0tuent la réponse à une ques0on - On établit (automa0quement?)la formule mathéma0que (ou informa0que (code)) du modèle à par0r des observa0ons dont on dispose - On cherche à ce que le modèle soit «bien adapté» à la ques0on que l on se pose
Qu est- ce qu un modèle bien adapté à la ques0on que l on se pose? Il doit donner de son mieux les bonnes réponses pour les observa0ons dont on dispose (fit) Il doit garder un comportement stable de ce fit sur de nouvelles données inconnues (robustesse) Il doit permejre par son équa0on mathéma0que de mieux comprendre, voire commencer à prouver, la nature profonde des phénomènes sous- jacents (inférence)
Les principaux modèles concrets u0lisés en CRM Classifica0on : on ajend du modèle une réponse du type «oui» ou «non» (exemple : «mon client est- il en train de frauder») Score : la ques0on posée est du type «combien» : exemple : «combien ce client va- t- il rapporter de CA l an prochain» Segmenta0ons : observe- t- on des comportements homogènes de sous groupes dans les observa0ons Réseaux sociaux : comment s organisent mes clients dans leurs rela0ons directes/indirectes entre eux? Moteurs de Recommanda0ons (Amazon, etc.) Séries temporelles : quelle est la valeur suivante d une séquence de valeurs?
La Nature a horreur du vide (Aristote) Pour mejre en place des modèles, il faut des observa0ons, décrites par des variables : autrement dit, il faut des données Il y a de plus en plus (croissance exponen0elle) de données disponibles, c est l ère numérique qui s installe dans toute notre vie (digitalisa0on des observa0ons) : les données de comportement Il faut que les données soient «propres» (gros problème en modélisa0on prédic0ve)
La Loi de Moore (composants)
La Loi de Moore (rappel)
Capacité de stockage des disques durs : évolu0on et prévision
L explosion des données hier (2006) What has happened? Source: Andrew Moore, KDD 2006
Les données hier (2007) The volume of data has exploded In the 90s Today Web transac0ons Fayyad, KDD 2007 At Yahoo! Around 16 B events / day 425 M visitors / month 10 Tb data / day RFID Jiawei, Adma 2006 A retailer with 3,000 stores, selling 10,000 items a day per store 300 million events per day (aher redundancy removal) Social network Kleinberg, KDD 07 4.4- million- node network of declared friendships on blogging community LiveJournal 240- million- node network of all IM communica0on over one month on Microsoh Instant Messenger Cellular networks A telecom carrier generates hundreds of millions of CDRs / day The network generates technical data : 40 M events / day in a large city
Qu appelle- t- on Big Data De nouveaux types de données, provenant notamment de la bioinforma0que et de l imagerie, mais aussi des risques industriels Un volume de données qui oblige à repenser l architecture machines et logiciel pour les modéliser Un «hype» du monde du marke0ng Un danger éthique terrible, et une opportunité totalement nouvelle
Les données hier (2012)
L évolu0on historique de la modélisa0on prédic0ve
Les deux piliers de l histoire de la sta0s0que Empirical Methods of conjuration (PCA,NN,Bayes) Watch out! High dimensional problems malediction (s) Cramer, Kendall, etc. Fisher 2001: Start of the internet era, Millions of records & thousands of variables 1995 Support Vector Machines (Vapnik) 1980 SRM (Vapnik) 1974 VC Dimension 1960: Mainframe. Huge Datasets start appearing (Dr Strangelove modeling requests). 1950 1930 GO! Theory of ill-posed problems Kolmogorov-Smirnov STOP! Hypothesis Driven «model data (H0), then test» Data Driven «no need to study distributions»
La synthèse actuelle U0liser le meilleur des deux approches Data driven : chercher les variables Ne pas hésiter à impliquer le maximum de variables, y compris des variables calculées à par0r des existantes (agrégats, polynômes, etc.) Réduire le nombre de variables dans un premier temps pour la probléma0que retenue (score, classifieur) Hypothesis driven : vers l Evidence Based Construire une expérimenta0on à par0r des variables récentes Recueillir les preuves par les tests sta0s0ques tradi0onnels
Fit et robustesse : la négocia0on fondamentale en modélisa0on prédic0ve Un modèle trop précis (fit) sur les données se comporte de manière instable sur de nouvelles données : phénomène de l overfit Un modèle trop rigide (robuste) ne donnera pas un bon fit sur les données In medio stat virtus (Horace)
Eviter l overfit : un exemple 1.5 1 Example: Polynomial regression Target: a 10 th degree polynomial + noise Learning machine: y=w 0 +w 1 x + w 2 x 2 + w 10 x 10 0.5 0-0.5-10 -8-6 -4-2 0 2 4 6 8 10
Eviter l overfit : un exemple 1.5 d=10, r=1e+002 r=1e+003 r=1e+004 r=1e+005 r=1e+006 r=1e+007 r=1e+008 0.01 0.1 10 1 1 0.5 Example: Polynomial regression Target: a 10 th degree polynomial + noise Learning machine: y=w 0 +w 1 x + w 2 x 2 + w 10 x 10 0-0.5-10 -8-6 -4-2 0 2 4 6 8 10
Vitesse de convergence du modèle % erreur (fit) Intervalle de Confiance Données de Test Données d Observations Taille de l échantillon: L
La prépara0on des données Types de données : Structurées/non structurées. Tout peut- être transformé en numérique La ges0on des valeurs manquantes 2010+ : la ges0on parcimonieuse des données s impose La prépara0on des données peut également être data driven
La rasoir d Ockham Un principe formulé par William d Ockham au 14ème siècle : Pluralitas non est ponenda sine neccesitate. Si deux théories de modélisa0ons donnent la même qualité de modèle, prendre la plus simple. Re0rer les variables qui ne servent à rien dans un modèle.
L ou0l de mesure du CRM : La courbe de lih Customers ordered according to f(x); selection of the top ranking customers. KI = M O KR = 1 G O 100% Fraction of good customers selected G O Ideal Lift M Fraction of customers selected CV lift 100%
Un exemple concret de modèle prédic0f Census : expliquer ce qui fait qu un individu gagne plus ou moins de $50000/an, à par0r de quelques variables de recensement (aux US) Démonstra0on (Kxen)