L'industrialisation des analyses Besoins, outils & applications

Documents pareils

Remboursement d un emprunt par annuités constantes

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

Editions ENI. Project Collection Référence Bureautique. Extrait

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

Les jeunes économistes

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

Montage émetteur commun

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

STATISTIQUE AVEC EXCEL

Dirigeant de SAS : Laisser le choix du statut social

Mesure avec une règle

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

COMPARAISON DE MÉTHODES POUR LA CORRECTION

Système solaire combiné Estimation des besoins énergétiques

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

Le Prêt Efficience Fioul

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

Terminal numérique TM 13 raccordé aux installations Integral 33

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

hal , version 1-14 Aug 2009

TD 1. Statistiques à une variable.

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

Interface OneNote 2013

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

ErP : éco-conception et étiquetage énergétique. Les solutions Vaillant. Pour dépasser la performance. La satisfaction de faire le bon choix.

Des solutions globales fi ables et innovantes.

Parlons. retraite. au service du «bien vieillir» L Assurance retraite. en chiffres* retraités payés pour un montant de 4,2 milliards d euros

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

Paquets. Paquets nationaux 1. Paquets internationaux 11

Stéganographie Adaptative par Oracle (ASO)

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

La Quantification du Risque Opérationnel des Institutions Bancaires

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

Exercices d Électrocinétique

Pour plus d'informations, veuillez nous contacter au ou à

Prise en compte des politiques de transport dans le choix des fournisseurs

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

1. Les enjeux de la prévision du risque de défaut de paiement

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

P R I S E E N M A I N R A P I D E O L I V E 4 H D

Analyse des Performances et Modélisation d un Serveur Web

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr

Faire des régimes TNS les laboratoires de la protection sociale de demain appelle des évolutions à deux niveaux :

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

CATALOGUE EXCLUSIF TOUCH MEDIA CATALOGUE DE SITES FORMATS GLOSSAIRE. Notre sélection de supports en représentation exclusive au Maroc

santé Les arrêts de travail des séniors en emploi

Et pour vos clients, bénéficiez de services

INTERNET. Initiation à

LeanConcept. La solution déploiement du Lean Manufacturing. Stockage Logistique Ergonomie Environnement Aménagement Services

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

MINISTERE DE L ECONOMIE ET DES FINANCES

Pro2030 GUIDE D UTILISATION. Français

Be inspired. Numéro Vert. Via Caracciolo Milano tel fax

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

Créer ou reprendre une entreprise, Guide de la création et de la reprise d entreprise 1er semestre 2009

Grandeur physique, chiffres significatifs

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

G estionnaire d espaces

Prêt de groupe et sanction sociale Group lending and social fine

TRAVAUX PRATIQUES SPECTRO- COLORIMETRIE

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

GUIDE D ÉLABORATION D UN PLAN D INTERVENTION POUR LE RENOUVELLEMENT DES CONDUITES D EAU POTABLE, D ÉGOUTS ET DES CHAUSSÉES

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

Performances de la classification par les Séparateurs à Vaste Marge (SVM): application au diagnostic vibratoire automatisé

Projet de fin d études

EURIsCO. Cahiers de recherche. Cahier n L épargne des ménages au Maroc : Une analyse macroéconomique et microéconomique.

Table des Matières RÉSUMÉ ANALYTIQUE... 1 I. CONTEXTE La dette publique du Gouvernement Contexte institutionnel de gestion de la

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

Pratique de la statistique avec SPSS

PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)

Driss HARRIZI. MOTS CLES : contrôle de gestion - système d'éducation et de formation système d information - établissement public.

Ecole Polytechnique de Montréal C.P. 6079, succ. Centre-ville Montréal (QC), Canada H3C3A7

Mots-clés : Système multicapteurs, Réseau local, Réseaux de neurones, Supervision, Domotique. xigences système d'une nouvelle

Généralités sur les fonctions 1ES

Séparation de Sources par lissage cepstral des masques binaires

Une analyse économique et expérimentale de la fraude à l assurance et de l audit

Professionnel de santé équipé de Médiclick!

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

The new Art of Smart. Loewe Art. La nouvelle intelligence télévisuelle.

Afflux de capitaux, taux de change réel et développement financier : évidence empirique pour les pays du Maghreb

Surveillance temps-réel des systèmes Homme-Machine. Application à l assistance à la conduite automobile

Qualité de service 7. Ordonnanceurs de paquets. Contexte. Intégration de services. Plan. Multiplexage. FIFO/DropTail. Priorités

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

Transcription:

L'ndustralsaton des analyses Besons, outls & applcatons Françose Fogelman-Soulé, Erk Marcadé KXEN, 5 qua Gallén, 9 158 SURESNES Cedex, France Francose@kxen.com, Erk.Marcade@kxen.com Résumé. Le data mnng est aujourd hu de plus en plus utlsé dans les entreprses les plus compéttves. Ce développement, rendu possble par la dsponblté grandssante de masses de données mportantes, pose des contrantes tant théorques (quels algorthmes utlser pour produre des modèles d analyses explotant des mllers de varables pour des mllons d exemples) qu opératonnelles (comment mettre en producton et contrôler le bon fonctonnement de centanes de modèles). Je présentera ces contrantes ssues des besons des entreprses ; je montrera comment exploter des résultats théorques (provenant des travaux de Vladmr Vapnk) pour produre des modèles robustes; je donnera des exemples d applcatons réelles en geston de la relaton clent. Nous verrons ans comment l est possble d ndustralser le data mnng et en fare ans un composant faclement explotable dès qu on dspose de données. Abstract. Today data mnng s more and more extensvely used by very compettve enterprses. Ths development, brought by the ncreasng avalablty of massve datasets, s only possble f challenges, both theoretc and operatonal, are met : whch algorthms should be used to produce models when datasets have thousands of varables and mllons of observatons; how to run and control the correct executon of hundreds of models. I wll present these constrants n ndustral contexts; I wll show how to explot theoretcal results (comng from Vapnk s work) to produce robust models; I wll gve examples of real-lfe applcatons n customer relatonshp management. I wll thus demonstrate that t s ndeed possble to ndustralze data mnng so as to turn t nto an easy-to-use component whenever data s avalable. Mots-clés. Data Mnng. Robustesse. Passage à l échelle. Text Mnng. 1 Le data mnng 1.1 Un peu d hstore Le data mnng est une dscplne qu a émergé progressvement de la convergence de pluseurs domanes : de 1900 à 1990, la statstque (Fsher, Cramer, Bayes, Kolmogorov-Smrnoff ) ; de 1940 à 1970, cybernétque (Wener et von Neumann, perceptron de Rosenblatt, Mnsky et Papert) ; de 1970 à 1990, machne learnng : ntellgence artfcelle, reconnassance des formes, arbres de décson (Breman, Fredman) et réseaux de neurones (Hopfeld, Kohonen, Rumelhart, LeCun, ), théore statstque de l apprentssage (Vapnk) : lors de l Ecole Modulad de 1996 [5], nous avons montré les lens étrots entre statstque et réseaux de neurones. Depus, le développement du data mnng n a fat que s amplfer, grâce auss à l nformatque qu fournt les moyens matérels ndspensables aux tratements de grandes masses de données (ordnateurs rapdes, mémore, dsques durs, bases de données). Revue MODULAD, 008-140 - Numéro 38

Nous montrerons c comment nous avons exploté les travaux théorques (Statstcal Learnng Theory, Structural Rsk Mnmzaton) de Vladmr Vapnk (arrvé aux Bell Labs en 1991) pour mettre en œuvre une soluton ndustrelle de data mnng. 1. Le data mnng aujourd hu Aujourd hu, le data mnng dspose de nombreuses technques [8] permettant de trater des problèmes de grande talle : cependant, en pratque, les entreprses restent souvent ncapables d exploter l ntégralté de leurs données en produsant tous les modèles nécessares [9], ce qu s explque par la fable productvté des outls actuels, utlsables seulement par un expert [10], mposant, selon Gartner, un mode de développement «artsanal» des applcatons data mnng (Fgure 1-1). Les besons.1 Le constat Fgure 1-1 Analyses du Gartner (d après [9] à gauche et [10] à drote) Les sources de données sont aujourd hu très nombreuses et les volumes générés crossent exponentellement : par exemple, le Web génère chez Yahoo! envron 16 mllards de transactons par jour, sot 10 Tera Octets [4] ; les tags RFID, bentôt attachés à tous les produts, génèrent déjà aujourd hu chez un grand dstrbuteur (3 000 magasns) de l ordre de 300 mllons d événements par jour [14] ; les réseaux socaux ont des mllons de nœuds : 4,4 sur la communauté blog LveJournal et 40 sur Mcrosoft Instant Messenger [15] ; les réseaux de téléphone moble génèrent des centanes de mllons de données d appel (CDR) par jour et des mllons de données technques, par exemple 40 mllons par jour avec 1000 varables sur une seule grande vlle amércane [7] Cependant, la consttuton d une base de données représente un coût très mportant : ntégrer l ensemble des données reste un problème dffcle, car les sources sont nombreuses, et les formats hétérogènes, non cohérents. Par alleurs, les utlsateurs souhatent de plus en plus maîtrser les outls leur permettant de répondre par eux-mêmes à leurs questons, sans dépendre d experts (n être oblgés d en devenr eux-mêmes!) Les besons d analyses augmentent, parce que les décsons opératonnelles ou stratégques que dovent prendre les utlsateurs sont de plus en plus nombreuses ; évdemment, la qualté des décsons prses dépend des analyses menées et la vtesse à laquelle on peut produre l analyse est un facteur clé pour la qualté perçue par l utlsateur. Comme on le vot sur la Fgure 1-1, le volume des données augmente exponentellement, le nombre de modèles devrat augmenter de la même manère de façon à ader à fournr la bonne décson pour chaque acton entreprse : s cec n est pas possble, les gaps ndqués représentent une perte sgnfcatve pour l entreprse. La mse en œuvre ndustrelle du data mnng dot donc vser à rédure ces gaps. Revue MODULAD, 008-141 - Numéro 38

. Les données Comme on l a vu, les sources de données sont nombreuses dans l entreprse et l effort nécessare pour construre un datawarehouse les ntégrant est très sgnfcatf. On peut toutefos commencer à travaller les données dsponbles sans avor encore consoldé un datawarehouse global, en explotant les bases thématques dsponbles, en acquérant éventuellement des données extéreures (données INSEE, géomarketng, comportementales ) Les analyses permettront alors d obtenr des résultats explotables rapdement, d avor une premère évaluaton de la qualté des données dsponbles et de la valeur des données externes. On peut ans consttuer un busness case étayé par des premers bénéfces : l entreprse peut alors valder l utlté de collecter et stocker les varables utlsées dans les analyses et établr une évaluaton des bénéfces apportés par chaque varable. Ben entendu, les données sont crtques pour toute applcaton de data mnng : pas de données, pas de modèle!..1 Collecte des données Le processus de collecte de données est complexe : l faut dentfer l ensemble des sources, mettre en place les mécansmes de collecte, défnr un référentel et des règles de geston pour mettre les données en cohérence, manpuler et transformer les données pour consttuer le fcher sur lequel seront réalsées les analyses et qu on appelle l Analytcal Data Set ADS : la Fgure -1 llustre ce processus dans le cas d analyses de connassance clent. Comme on l a vu, on peut consttuer un ADS sans passer par un datawarehouse ; ce sera toutefos ndspensable, à terme, s les besons d analyses sont très mportants... Préparaton des données Fgure -1 La collecte des données Le datawarehouse est la plupart du temps une base mult-domane, contenant un hstorque de l ensemble des données de l entreprse. Pour réalser des analyses data mnng, on dot d abord chosr dans le datawarehouse les varables qu on souhate ntégrer dans l ADS. On réalse auss souvent des transformatons «méter» : champs calculés (nouvelles varables calculées à partr de varables exstantes, comme par exemple des agrégats, le nombre de jours entre l émsson de la facture et le paement, le proft : prx d achat - coût de fabrcaton ). On peut ensute étuder la qualté des données : leurs dstrbutons, les valeurs manquantes (blancs, espaces, nuls), les outlers, les corrélatons Ensute, selon les algorthmes et les outls utlsés, on dot coder les varables (recodage des varables contnues, catégorques ). Revue MODULAD, 008-14 - Numéro 38

..3 Qualté des données La qualté des données dot être auss bonne que possble : données exactes, non redondantes, complètes Cependant, en pratque, la qualté des données n est jamas parfate : les valeurs remontées ne sont pas correctes (erreurs de sase), l y a des doublons, des données manquantes Une bonne technque data mnng devra donc être robuste par rapport à ces problèmes de qualté. Le tratement des données manquantes, en partculer, peut se fare de pluseurs façons : en élmnant toutes les observatons non remples complètement (on rsque évdemment d en élmner beaucoup!), ou en remplaçant les données manquantes en mputant des valeurs estmées (catégore la plus fréquente, moyenne), ce qu pose le problème des valeurs qu ne sont pas MAR (mssng at random) ; c est pourquo KXEN crée une valeur spécale KxMssng...4 Type de données On utlse aujourd hu prncpalement les données structurées dsponbles dans les bases de données, les fchers plats, les fchers Excel Cependant, de plus en plus, on dsposera de sources de données non structurées : texte (pages web, SMS, emals, flux RSS, ), vore multmeda (vdeo, MMS, musque). Le volume des données non structurées représente déjà plus de 50% des données dsponbles dans l entreprse et pourtant ces données restent peu ntégrées au datawarehouse [16]. On dot donc envsager des technques data mnng permettant de prendre en compte ces données non structurées au même ttre que les données structurées. Par alleurs, la plupart des analyses aujourd hu commence par extrare les données de la base de données en «mettant à plat» varables et observatons dans un fcher d analyse, l ADS (Fgure -1). On perd donc la structure qu pouvat exster entre les varables. On n explote pas non plus la structure des observatons : par exemple, le réseau socal des nteractons entre clents est mplcte dans les données de communcaton que recuelle l opérateur téléphonque ; toutefos ces nformatons ne sont généralement aujourd hu pas extrates et ntégrées dans les analyses data mnng : les travaux exstants [11] montrent cependant que ces données ont un mpact très sgnfcatf sur les performances des modèles..3 Le cycle de ve des études Aujourd hu le cycle de ve d une étude data mnng (Fgure -) permet en moyenne de répondre au beson en 6 semanes. Pour beaucoup d applcatons, cette durée est trop grande, encore plus s on dot produre des centanes de modèles. Il faut donc essayer de raccourcr ce cycle. Pour cela, on peut rapprocher les équpes (en regroupant les compétences IT et études au sen du département marketng) ; ndustralser la mse à dsposton des données (datawarehouse d entreprse, accès par les utlsateurs à des «vues» méter) ; smplfer le processus études (automatsaton des analyses smples, utlsaton d outls orentés «utlsateurs» et pas seulement «statstcen»). Fgure - Cycle de ve des études Revue MODULAD, 008-143 - Numéro 38

Dans ce derner cas, le statstcen devent l expert de référence (l ntervent pour trater les problèmes complexes, valder les résultats crtques pour l entreprse) et l utlsateur méter exécute tout seul les analyses dont l a beson, quand l en a beson..4 Qu apportent les analyses? Les analyses data mnng permettent de répondre à de très nombreuses questons et ans gagner en effcacté. Par exemple, s on veut lancer une campagne marketng, on fera un modèle qu permettra de rédure la talle de la cble (et donc les coûts) par rapport à une campagne non cblée, tout en augmentant le nombre de réponses (vor un exemple 4). On peut ans être amené à devor développer un grand nombre de modèles. Ans, par exemple, dans l assurance, s on a des clents sur 0 régons géographques, réparts en 10 segments clents et 0 produts, et qu on souhate réalser 10 types de scores : appétence (nouveaux clents, cross-sellng et up-sellng), attrton (remboursement antcpé, refnancement, fn de contrat), fraude (déclaraton de snstre, souscrpton), performances commercales (prévson des performances), satsfacton clent On aboutt ans à 0 x 10 x 0 x 10 = 40 000 modèles fns. La capacté de fare des modèles fns permet d augmenter la performance des modèles (chaque sous-populaton est homogène), de réalser des cbles plus rédutes (on est donc plus pertnent dans le message, qu est meux personnalsé), de rédure la presson commercale, de rédure les coûts (les volumes étant plus petts, les temps de calculs sont réduts, les coûts de l opératon marketng plus fables et la logstque des opératons smplfée). Par exemple, Vodafone D réalse aujourd hu, pour ses campagnes marketng, 700 modèles par an (sur une base Teradata) [6]. Aujourd hu, la plupart des entreprses ont un «gap» dans leur capacté à produre des modèles ou à lancer des actons les explotant (Fgure 1-1). Cependant, la capacté à produre de façon ndustrelle des analyses data mnng est un facteur de compéttvté majeur : ans, T. Davenport [3] montre comment les entreprses qu sont des «analytcal compettors» sont auss celles qu sont leaders sur leur marché. Les entreprses dovent donc, pour assurer leur compéttvté, mettre en œuvre un processus de producton ndustrelle d analyses data mnng (la socété Netflx ctée par Davenport produt par exemple 1 Mllard de prévsons par jour!).5 La vtesse La vtesse est un facteur clé de performance. Un déla rédut pour produre un modèle (depus la concepton à la mse en producton) permet d amélorer la productvté des équpes (produre un modèle en jours au leu de 6 semanes permet de fare plus de modèles) ; amélorer les performances (les données utlsées pour la modélsaton sont récentes, le marché n a pas changé et la performance du modèle en producton est celle attendue par le modèle) ; amélorer le «tme-to-market» (c'est-à-dre que la réactvté à une offre de la concurrence est plus rapde). C est en fat souvent cette réducton du tme-to-market qu est consdéré par les entreprses comme le gan majeur en productvté..6 L usne à modèles L usne à modèles (cf Fgure 1-1), c est la capacté de trater des masses de données (10-100 mllons de clents, 5 000 varables) ce qu demande un algorthme lnéare (ou presque), une manpulaton des données mnmum, avec seulement quelques passes pour lre les données sans duplcaton ; la capacté de produre des masses de projets (100-1000 projets par an, semane, jour) ce qu demande la possblté d automatser la réalsaton du modèle, la faclté à exporter / ntégrer le modèle en producton ; la capacté de produre les modèles très rapdement (en quelques jours ou heures) ce qu demande un outl convval (utlsable par des utlsateurs méter), avec automatsaton des tâches lourdes (codage des données, sélecton des algorthmes, exécuton du modèle par exemple drectement dans la base de données) ; la capacté de produre des modèles «automatquement» (ndustralser la producton, l export et l exécuton du modèle) ce qu demande d automatser le codage des Revue MODULAD, 008-144 - Numéro 38

varables, de dsposer d un langage de scrpt et de pouvor exporter vers tous formats ; l effcacté sur la manpulaton des données (gros volumes, éventuellement dspersés). L usne à modèles permet alors d augmenter la productvté (plus de modèles, produts plus vte par mons de personnes mons qualfées) ; d augmenter les bénéfces (on peut fare des modèles pour chaque problème même ceux pour lesquels on n avat pas le temps) ; d augmenter la vtesse («tme-to-market» rédut, données plus récentes). Nous allons mantenant montrer comment nous avons pu, en nous appuyant sur les théores de Vapnk, développer un outl permettant de mettre en œuvre des usnes à modèles. 3 La mse en œuvre de KXEN 3.1 Le cadre mathématque 3.1.1 Les notatons 1 1 n n On dspose de données d apprentssage ( x, y ), ( x, y ),..., ( x, y ) observaton et y est l étquette ou la cble assocée. où x ( x x,..., x ) = est une 1, y peut être une varable dscrète (classfcaton) ou contnue (régresson). Nous ferons l hypothèse que, dans la «base d apprentssage», tous les ( ) connus. Les x, y sont supposés être un échantllon de trages..d. ssus d une dstrbuton fxe mas P X, Y nconnue ( ) On se donne une classe de fonctons Φ = { f (., W, θ ), W ℵ} θ. Par exemple la classe des polynômes de degré θ, la classe des MLP (réseaux de neurones mult-couches) avec θ neurones cachés. Un y = f x,w,θ modèle ssu de cette classe produt donc pour chaque observaton x une sorte ( ) 1 1 n n A partr des données ( x, y ), ( x, y ),..., ( x, y ) p y sont, on cherche le «melleur» modèle ˆ f ( x, W ˆ,θ ) y =, produt par un certan algorthme ou prncpe d nférence et qu correspond donc au «melleur» paramètre W ˆ. 3.1. Coût et rsque On se donne une foncton de perte [ y, f ( x, W,θ )] valeur y par la valeur calculée f ( x,w,θ ) L[ y, f ( x, W, θ )] = [ y f ( x, W, θ )] L qu mesure le coût qu l y a à remplacer la vrae. Par exemple, on utlse classquement comme coût l écart quadratque (1) L erreur en apprentssage ou rsque emprque est alors défn comme le coût moyen sur l ensemble n 1 d apprentssage Remp ( W, θ ) = L[ y, f ( x, W, θ )] () n = 1 Dans le cas du coût quadratque, le rsque emprque est l écart quadratque moyen MSE (Mean Square n 1 Error) Remp ( W, θ ) = [ y f ( x, W, θ )] (3) n L erreur en généralsaton est défne par R Gen ( W, ) L[ y, f ( x, W, θ )] dp( x, y = 1 θ = ) (4) C est le coût moyen théorque sur l ensemble de la populaton, c est à dre l erreur attendue sur de nouvelles données. Revue MODULAD, 008-145 - Numéro 38

Notre prncpe d nférence est la mnmsaton du rsque emprque (Emprcal Rsk Mnmzaton ou ERM) Wˆ θ = arg mn Remp ( W,θ ) (5) W Dans le cas du rsque quadratque, le prncpe ERM n est autre que la règle des mondres carrés LMSE n Wˆ 1 θ = arg mn [ y f ( x, W, θ )] W (Least Mean Square Error) n = 1 (6) Cette étape ERM permet de détermner le melleur W ˆ (data ft), elle ne dt pas comment on chost θ. 3.1.3 Qu attendons-nous d un modèle 1 1 n n A partr d un ensemble d apprentssage ( x, y ), ( x, y ),..., ( x, y ), on vent de vor que le prncpe d nférence ERM consstat à mnmser le rsque emprque, c'est-à-dre de maxmser la précson sur l ensemble d apprentssage. Il exste évdemment beaucoup de modèles qu mnmsent : le ( ) lproblème de la détermnaton du modèle f x,w,θ à partr de l échantllon fn donné est un problème mal posé [5]. La Fgure 3-1 montre pluseurs modèles possbles pour les observatons 1 1 n n ( x, y ), ( x, y ),..., ( x, y ); le prncpe ERM nous amènerat à chosr, parm ceux-là, le derner, qu a la melleure précson. R emp t x y Fgure 3-1 La précson de quelques modèles f sur de nouvelles données (ensemble de test) : la Fgure 3- montre comment les modèles précédents se comportent sur de nouvelles données. On vot que s on veut prvléger la robustesse, c'est-à-dre la qualté du modèle sur de nouvelles données, on sera cette fos amener à chosr, parm les modèles représentés, le deuxème modèle. On peut alors se demander comment va se comporter le modèle ( x,w,θ ) Fgure 3- La robustesse des modèles On vot donc que le prncpe ERM seul ne peut pas garantr précson et robustesse. Revue MODULAD, 008-146 - Numéro 38

3.1.4 Dmenson de Vapnk Chervonenks La dmenson de Vapnk Chervonenks ou VC dmenson mesure la capacté de modélsaton de la classe de fonctons Φ θ. Nous présentons ce concept dans le cas d une classfcaton en classes. La généralsaton au cadre général de la classfcaton ou de la régresson est smlare [ 17]. 1 n Etant donné un échantllon de n observatons ( x, x,..., x ) en p varables : x ( x x,..., x ) façons de séparer ces n observatons en classes. On dt que la famlle de fonctons Φ = { f (., W, θ ), W ℵ} =. Il y a n 1, θ pulvérse l échantllon s toutes les n séparatons sont réalsables (avec un Wˆθ ben chos). On dt que la famlle Φ θ est de VC dmenson hθ s hθ est le nombre maxmum de ponts qu peut être pulvérsé par Φ θ : Il exste au mons un échantllon de Aucun échantllon de hθ observatons qu peut être pulvérsé par hθ +1 observatons ne peut être pulvérsé par Par exemple, s on utlse la famlle des drotes de cette famlle est 3 : R, la Φ θ Φθ Fgure 3-3 montre que la VC dmenson de Il y a au mons un échantllon de 3 ponts qu peut être pulvérsé par les drotes Aucun échantllon de 4 ponts ne peut être pulvérsé par les drotes (n 4 ponts en poston générale, n 4 ponts en poston partculère) p 3.1.5 Statstcal Learnng Theory Fgure 3-3 Echantllons de 3 et 4 ponts de La «Statstcal Learnng Theory» de Vapnk [17, 18] est une théore générale qu utlse la VC dmenson et repose sur 4 prncpes : Consstence (robustesse) : capacté à généralser correctement sur de nouvelles données ; Vtesse de convergence : capacté à généralser de meux en meux quand le nombre de données d apprentssage augmente ; Contrôle de la capacté de généralsaton : stratége qu permet de contrôler la capacté de généralsaton à partr des seules données d apprentssage ; Stratége pour obtenr de bons algorthmes : stratége qu permet de garantr et mesurer la capacté de généralsaton du modèle que l algorthme produt 3.1.5.1 Consstence On dt que le prncpe d nférence ERM est consstent pour la classe de fonctons Φ = { f (., W, θ ), W ℵ} θ R θ convergent vers la même lmte quand la θ s et seulement s R ( ) et ( ) talle de l échantllon n tend vers l nfn. emp Gen R Revue MODULAD, 008-147 - Numéro 38

Vapnk a démontré [17] que c est le cas s et seulement s la famlle 3.1.5. Vtesse de convergence V. Vapnk a démontré [17] le théorème suvant : Quel que sot η [ 0, 1], alors, avec probablté η avec ε ( n h) ( n ) Φ θ est de VC dmenson 1 R ( θ ) R ( θ ) + ε ( n h Gen emp, ) h θ fne. (7) 1+ ln h ln η, = (8) n n h Ce résultat est ndépendant de la dstrbuton P ( X, Y ) de ( Y ) X, : l démontre que, s n est assez grand, ε 0 et donc l erreur en généralsaton est du même ordre que l erreur en apprentssage, c'est-à-dre que le modèle est robuste (Fgure 3-4 à gauche) Fgure 3-4 Consstence du prncpe d nférence ERM (à gauche) & Contrôle de la capacté de généralsaton (à drote) 3.1.5.3 Contrôle de la capacté de généralsaton En pratque, on ne peut pas rendre n auss grand que nécessare : n est la talle de la base dont on dspose. On vot donc, dans l équaton (7) c-dessus qu on a deux cas possbles : Quand n h est grand, on mnmse le rsque emprque R et on est assuré que est du même emp RGen ordre ; Quand n est pett, on dot mnmser les deux termes : et h emp ε n,h. La Fgure 3-4 (à drote) * montre que, à n fxé, quand h augmente, l écart ε + et donc, à partr d une VC dmenson h l erreur en généralsaton R se met à croître et devent de plus en plus dfférente de R. Gen R ( ) * Le pont h du mnmum de R correspond au melleur comproms entre précson ( R pett) et robustesse ( pett). R Gen 3.1.5.4 Stratége pour obtenr de bons algorthmes Nous venons de vor qu l exstat une valeur * optmale h qu réalse le melleur comproms entre précson et robustesse : l nous faut une stratége qu nous permette de l obtenr. Vapnk [ 17] ntrodut pour cela la SRM (Structural Rsk Mnmzaton) : on utlse des famlles de fonctons emboîtées Gen Revue MODULAD, 008-148 - Numéro 38 emp emp

Φθ Φ... Φ 1 θ θk... de VC dmenson crossante : h 1 < h <... < hk <... (Fgure 3-5). Fgure 3-5 Structural Rsk Mnmzaton L algorthme pour détermner le modèle est alors le suvant : on découpe l ensemble de données en deux partes, l une est dte ensemble d estmaton et l autre l ensemble de valdaton (on découpe quelquefos en tros partes, en ajoutant de plus un ensemble de test, qu on n utlsera pas pour produre le modèle, mas unquement pour mesurer fnalement les performances du modèle produt). On va utlser l erreur en valdaton comme estmateur de l erreur en généralsaton : 1. Commencer avec Φ θ 1. Ft des données : pour chaque Φ θk, fare : Sur l ensemble d estmaton (ou échantllon d apprentssage), produre le «melleur» modèle de, c est à dre chosr ˆ = arg mn R W θ (9) Φ ( ) θ k W k θ emp, W Mesurer l erreur sur l ensemble de valdaton (ou échantllon de généralsaton) R Val S R ( Wˆ ) R ( ˆ ) Val θ nval ( Wˆ 1 ) = L[ y, f ( x, Wˆ, θ ) f W k 1 Val θ k 3. Chox du modèle θ k θk k ] (10) nval = 1 alors fare k = k + 1 et aller à ; snon stop et fare θ = θ Le melleur modèle est celu qu correspond à θ k* k* La SRM est une façon d mplémenter le prncpe du rasor d Occam. Plus précsément, alors que le rasor d Occam utlse comme mesure de la complexté la complexté du modèle, SRM utlse la complexté de la famlle de fonctons. 3.1.6 Concluson La Statstcal Learnng Theory de Vapnk apporte un ensemble de résultats permettant de contrôler la classe de modèles où on recherche la soluton et la VC dmenson h de la classe retenue ; la SRM est une méthode de contrôle qu garantt le melleur comproms précson / robustesse du modèle obtenu. Les résultats étant ndépendants de la dstrbuton des données, on s affrancht de la nécessté de connaître cette dstrbuton, de l estmer : en effet, estmer la dstrbuton nécesste de résoudre un problème plus complexe que de smplement détermner le modèle. Notons que la SRM ne donne aucune ndcaton sur la «bonne» classe de modèles, sauf que sa VC dmenson dot être fne. La SRM est utlsée dans de nombreux technques de data mnng. Par exemple, pour les réseaux multcouches, on peut défnr une structure emboîtée de SRM [] : Par l archtecture : en augmentant progressvement le nombre de neurones de la couche cachée (Fgure 3-6) k k Revue MODULAD, 008-149 - Numéro 38

Fgure 3-6 Famlle emboîtée de MLP { W λ } Par l algorthme d apprentssage : prenons la classe = f ( x W, λ ) Φ ;, des réseaux λ 1 < λ <... < λ h < < λk < mult-couches dont les pods W sont bornés, avec λ L... La soluton optmale dans Φ λ est celle qu mnmse : où C R n 1 k k ( W, ) = [ y f ( x ; W, λ )] + C λ W j (11) n k= 1 j dépend de λ, le paramètre de contrôle de la pulvérsaton. On retrouve le weght decay. 3. La SRM en pratque dans KXEN KXEN utlse la méthode de Structural Rsk Mnmzaton de Vapnk. On découpe l ADS en tros sousensembles (Fgure 3-7) pour l estmaton (ft des données), la valdaton (chox du modèle) et le test (s on veut mesurer les performances du modèle fnal; cet ensemble est optonnel et n est ben sûr pas utlsé pour détermner le melleur modèle).. Fgure 3-7 Mse en oeuvre de la SRM dans KXEN On utlse une famlle emboîtée de polynômes de degré donné d : d θ { f ( x W, θ ) W Φ = ;, θ } (1) où f est un polynôme de degré d et coeffcents W bornés avec θ θ < θ h < L < θ... 1 < k < d On détermne le vecteur optmal de coeffcents W dans Φ θ en utlsant l ensemble d estmaton 1 1 n n ( x, y ), ( x, y ),..., ( x, y ) comme : 1 n * k k W = arg m n [ y f ( x ; W, λ )] (13) W n k = 1 sous la contrante W λ. Ce qu est équvalent (en utlsant le Lagrangen) à mnmser : Revue MODULAD, 008-150 - Numéro 38

où C R n 1 k k ( W, ) = [ y f ( x ; W, λ )] + C λ W j (14) n k= 1 j est le coeffcent de Lagrange (ou rdge) qu dépend de λ. On vot donc c que cette approche R W λ est le rsque régularsé. KXEN peut donc être consdéré comme une méthode de régresson polynomale régularsée rdge. est équvalente à une méthode de régularsaton et (, ) Le paramètre θ * optmal est obtenu par la méthode décrte au 3.1.5.4 avec l ensemble de valdaton. Enfn, KXEN utlse comme foncton de perte non pas l écart quadratque (1) ou le nombre d erreurs de classfcaton, mas KI KXEN Informaton Indcator le rapport entre l are sous la courbe de lft et l are sous la courbe du modèle parfat. A partr d un modèle ( ) x;w,λ f, notons C le classfeur au seul s : C s ( x) = 1 s f ( x W,λ) s = 0 snon () () = f ( x, W, λ). dp() x s, (15) S on note G s la proporton des observatons dont le score est supéreur à s : et () s G s + s α la sensblté du classfeur : C ( s ) = VP nbvp s (16) α (17) où VP est le nombre d exemples postfs (vrae classe 1) correctement classfés et nbvp le nombre d exemples réellement postfs ; alors la courbe de lft ( Fgure 3-8) représente α en foncton de G. α ( s) G ( s) Fgure 3-8 Courbe de lft S on note β () s = VN nbvn la spécfcté, où VN est le nombre d exemples négatfs correctement classfés et nbvn le nombre d exemples réellement négatfs, alors l are sous la courbe ROC, AUC () [ ()] est défn par : AUC = α s. d 1 β s (18) + Et on vot faclement que KI n est autre que l ndex de Gn, relé à AUC par : KI = AUC 1 (19) Revue MODULAD, 008-151 - Numéro 38

L écart entre les erreurs sur l ensemble d apprentssage et l ensemble de valdaton est alors mesurée par : ε = KI KI = 1 KR (0) Vald Estm où KIVald, KI Estm représentent respectvement les ndces KI pour les ensembles d estmaton et de valdaton. S KR est proche de 1, on est donc assuré que le modèle sera robuste, c'est-à-dre qu l généralsera correctement sur de nouvelles données. Par contre s KR est fable ( KR vare entre 0 et 1), le modèle peut produre de mauvases performances sur de nouvelles données : la Fgure 3-8 (à drote) montre, par exemple, les courbes de lft pour les ensembles d estmaton, de valdaton et de test dans le cas d un échantllon où KR est pett et donc la qualté du modèle est mauvase (comme l atteste la dégradaton des performances observée sur l ensemble test). KXEN utlse également la SRM pour coder automatquement les varables. Pour réalser une régresson (une classfcaton ou une segmentaton supervsée), on code les varables une par une de la façon suvante (Fgure 3-9) : Pour chaque varable x j, j = 1,..., p, On construt une famlle emboîtée de codages : o S o S x j est une varable contnue, on la découpe en P ntervalles (par défaut P = 0 ) et on regroupe progressvement les ntervalles ; x j est une varable nomnale ou ordnale, on regroupe progressvement les valeurs Fgure 3-9 Codage des varables On produt, pour chaque codage le modèle explquant la cble par cette seule varable, et on chost, par la méthode SRM habtuelle, le melleur modèle. Chaque varable a donc ses coeffcents KI et KR ndvduels, qu représentent sa capacté à explquer, seule, la varable cble. Le codage produt est non lnéare et dépend du modèle (la cble) : par exemple, la Fgure 3-10 montre le codage de varables contnues pour un modèle prédctf («gagner plus de 50 k$ par an») pour la base Adult ntrodute dans [13]. On vot que, pour la varable Age, les chances de gagner plus de 50 k$ augmentent progressvement jusque vers 55 ans, pour décroître ensute ; pour la varable Captal-Gan, on a un effet de seul : l faut que les gans en bourse soent assez grands pour avor des chances de gagner plus de 50 k$. Ce codage dépend de la cble : ans, s on construt, avec les mêmes varables, un modèle pour prévor Age, on vot que la varable Captal-Gan est codée dfféremment (Fgure 3-10 à drote) : le gan en bourse crot avec l âge. Revue MODULAD, 008-15 - Numéro 38

Fgure 3-10 Codage des varables contnues age et captal-gan dans la base Adult Fgure 3-11 Codage des varables educaton, martal-status et captal-gan (base Adult) Les catégores des varables nomnales sont regroupées en foncton de la cble : par exemple, la Fgure 3-11 montre le codage de varables nomnales pour le même modèle que précédemment. Les 14 catégores de la varable educaton ont été regroupées en 7 groupes, et les 7 catégores de martal-status en 3. La Fgure 3-11 (à drote) montre auss les catégores de la varable captal-gan avec le seul calculé par le codage (5 178), on y vot également que le codage a créé une catégore KxMssng pour coder les données manquantes de cette varable (c est la stratége qu a chose KXEN) : cette valeur est regroupée avec les fortes valeurs de captal-gan, une ndcaton que la donnée n est certanement pas MAR Mssng At Random (une des rasons pour lesquelles KXEN n utlse pas de méthode d mputaton pour trater les données manquantes) Les ndcateurs de performance sont KI = 0,807 et KR = 0,987 : le modèle est donc de bonne qualté et robuste. La courbe de lft du modèle construt est celle de la Fgure 3-8 à gauche. En général, les non-lnéartés sont toutes prses en compte par le codage, s ben qu ensute on peut se d Φ θ = { f ( x ; W, θ ) } contenter d un polynôme d ordre 1 (vor équaton, W θ (1), c'est-à-dre que KXEN réalse une régresson lnéare rdge dans l espace des varables codées. L explotaton de la SRM permet ans de coder automatquement les varables (en produsant un codage robuste), d automatser la producton du modèle (l utlsateur n a beson de fxer aucun hyperparamètre) et d obtenr un modèle robuste, avec un ndcateur KR mesurant la confance sur les performances en généralsaton du modèle. La classe des modèles proposés est lmtée aux polynômes : l utlsateur n a donc pas beson de comparer pluseurs algorthmes. Cette automatsaton permet de rédure les temps de producton des modèles d un facteur 10 en moyenne, notamment en rédusant massvement la phase d exploraton et recodage des données. Revue MODULAD, 008-153 - Numéro 38

4 Quelques exemples De très nombreux clents utlsent aujourd hu KXEN (vor le ste http://www.kxen.com/). Nous allons c décrre deux exemples llustrant les ponts ntroduts au ; tous les résultats décrts c ont été développés avec le logcel KXEN Analytc Framework. Nous termnerons par un exemple ntégrant du text mnng. 4.1 Le logcel KXEN Analytc Framework Le logcel ntègre les théores de Vapnk comme nous l avons décrt au 3 et comprend les modules suvants (Fgure 4-1) : Des modules de préparaton de données : KEL, KSC et KTC ; Un module de codage automatque : KC ; Des modules de modélsaton : KR, KS, KTS et KAR Un module d export du modèle : KMX Fgure 4-1 KXEN Analytc Framework Comme on le vot, KXEN ne propose pas une bblothèque d algorthmes, mas des «fonctons d analyse» conformément aux standards JDM (Java Data Mnng) [1]. 4. Crédt Lyonnas L offre bancare de LCL Le Crédt Lyonnas englobe toute la gamme de produts et servces bancares, les produts de geston d actfs et d assurance, et la geston de patrmone, sot quelques 400 produts. LCL lance chaque année plus de 130 actons de marketng drect, sur toute la France, par le bas d emalngs, de malngs ou d envos par SMS, pour un total d envron 10 mllons de contacts sur des clents ou des prospects. Avant le déploement de KXEN, les équpes de marketng drect de LCL réalsaent leurs campagnes marketng à partr d une dzane de scores généralstes, parm lesquels «Fare fructfer son captal», «Percevor des Revenus», «S assurer au quotden». Le département marketng opératonnel voulat dsposer de scores plus précs, en foncton des spécfctés propres aux offres ntégrées dans les grandes famlles de produts, et faclements évolutfs. Avec les outls exstants, entre deux et cnq jours étaent nécessares pour construre de tels scores, délas jugés ben trop longs par le responsable cblages et analyses de résultat chez LCL. De plus, cette méthode ne permettat pas d affner les scores. Revue MODULAD, 008-154 - Numéro 38

Un projet plote sur une opératon grandeur réelle vsant à promouvor une assurance multrsques habtaton a été effectué pour évaluer les prncpales offres du marché, parm lesquelles KXEN. Pour cela, deux groupes ont été consttués, le premer utlsant les scores KXEN, l autre utlsant le score d affnté spécfque aux produts de la famlle «S assurer au quotden». Le taux de retour sur le projet plote utlsant les scores KXEN a été,5 fos supéreur au groupe de référence, sur une cble de 50 000 clents. Remarquons que, statstquement, on devat ben s attendre à ce qu un score spécfque celu réalsé c avec KXEN produse un melleur résultat qu un score générque regroupant pluseurs produts. De plus, la soluton KXEN Analytc Framework a perms d élaborer un score d appétence opératonnel en une dem-journée au leu de pluseurs jours habtuellement. Aujourd hu, 160 modèles sont créés par an au leu d une dzane auparavant avec les technques tradtonnelles pour 130 campagnes de marketng drect sur l année. Utlsée au quotden, la soluton KXEN s est notamment démarquée par sa capacté à trater les volumes mportants de données et à s ntégrer de façon transparente dans le système d nformaton décsonnel de LCL. Cette caractérstque technque permet aux utlsateurs qu ont été formés à la soluton KXEN de préparer les données drectement dans l envronnement UNIX exstant sans avor à effectuer de fastdeux transferts de données vers les postes de traval. KXEN faclte la lsblté et la compréhenson des cblages de campagnes : les fches de scores obtenus sont transmses aux chefs de projets marketng qu s occupent de chaque campagne, ans qu aux chefs de produts qu partcpent aux réunons de cblage. Les résultats, quant à eux, sont dffusés de façon plus large va des rapports plus graphques et mons technques. Les ntervenants dans les réunons de cblage ont plébscté l outl, ls sont mantenant souvent à l ntatve de la créaton de nouveaux scores. 4.3 Sears Comme tous les dstrbuteurs aujourd hu, Sears, le trosème groupe de dstrbuton amércan, fat face à une concurrence féroce et une évoluton rapde de son marché. Pour mantenr sa poston, Sears s est concentré sur la réducton des coûts et l améloraton de la productvté. En partculer, dans son méter de vente à dstance (sur catalogue), Sears a développé depus longtemps une expertse de modélsaton qu lu permet d optmser ses promotons et ses offres en cblant les clents les plus susceptbles d y répondre favorablement. Cependant, l envronnement analytque, largement orenté grands systèmes, devenat de plus en plus lourd à exploter et à connecter aux bases de données, les ressources nformatques spécalsées nécessares devenant de plus très dffcles à trouver. Sears lance alors un projet [1] vsant à rendre son système de marketng drect plus productf, plus réactf, avec mons de ressources. Le projet s est déroulé en tros phases : 1. Intégraton des sources de données mult-canal (grands magasns, vente en lgne, catalogue), multmarques (Sears, Orchard Supply Hardware, Lands' End), donénes crédt, démographques, Le data mart ncluant ces données comprend plus de 900 attrbuts et Sears l ntègre alors au datawarehouse Teradata de l entreprse, permettant à l équpe catalogue de rédure ses coûts opératonnels.. Intégraton de KXEN pour automatser le processus d analyse. Sears a ans automatsé la préparaton des données, y comprs le codage des varables nomnales et la descrpton des mportances relatves des attrbuts. 3. Utlsaton de KXEN pour le déploement : on génère automatquement le code SQL et UDF du modèle dans Teradata et on peut ans scorer dans la base, sans avor à extrare les données. Alors que dans l ancen envronnement, l fallat des semanes pour créer un modèle, et pluseurs heures Revue MODULAD, 008-155 - Numéro 38

pour scorer la base, Sears crée aujourd hu des modèles robustes en quelques heures et score 75 mllons de clents en 30 mnutes. 4.4 Text mnng En 006, la compétton Data Mnng Cup http://www.data-mnng-cup.com a attré 580 partcpants : ebay Allemagne a fourn les données de 8000 enchères d une parte de son ste (celles concernant les ventes d Pod Apple). La tâche assgnée est de construre un modèle permettant, à un vendeur, de prévor s le prx de vente fnal de son produt est supéreur au prx moyen dans la catégore du produt. Ce modèle dot fournr au vendeur les éléments lu permettant de déposer son enchère pour réussr à vendre au plus fort prx. Ces données comprennent deux champs lstng_ttle et lstng_subttle, qu sont des champs que le vendeur peut remplr en texte lbre pour décrre son produt. Le module de codage textuel de KXEN, KTC, fonctonne de la façon suvante (Fgure 4-) : L ensemble des mots du texte sont extrats et les ndcateurs habtuels calculés (comptage, tf, tf-df) On applque ensute des stop lsts qu permettent d élmner les «mots vdes» ; On applque ensute des règles de lemmatsaton pour extrare les racnes des mots ; Ces racnes consttuent des colonnes qu sont ajoutées à l ADS Fgure 4- Codage de texte Nous avons utlsé KTC pour extrare les racnes des deux champs textuels, pus avons produt dvers modèles de prévson de la varable gms_greater_avg, qu vaut 1 s le prx fnal gms est plus grand que le prx moyen de la catégore category_avg_gms. Nous avons réalsé les modèles suvants : KR : on exécute un codage automatque KC, suv d une régresson KR ; KR + données supplémentares. On peut calculer des varables supplémentares à partr des données fournes. Par exemple, nous avons ajouté des varables ndquant le mos de l année, le jour du mos ; le jour de la semane où l enchère commence ou fnt (lstng_end_monthofyear, lstng_start_monthofyear, lstng_end_dayofmonth, lstng_start_monday ) ; KTC German : on exécute KTC, suv de KC et KR sur les varables ntales complétées des varables textuelles extrates : KTC avec langage DMC : on peut partcularser le langage en prenant en compte des mots spécfques du domane ; KTC avec DMC et un modèle polynomal d ordre Revue MODULAD, 008-156 - Numéro 38

La Fgure 4-3 montre les résultats de ces modèles en mesurant le score obtenu sur la base test fourne par la compétton Data Mnng Cup : comme on le vot, les données textuelles apportent beaucoup d nformaton, et, avec un modèle polynomal de degré, on obtent fnalement un score supéreur à celu du gagnant de la coupe. On vot ben que les varables textuelles apportent beaucoup d nformaton, d autant plus s on utlse un langage «méter» qu ncorpore quelques éléments spécfques du contexte de la compétton DMC. Expérence Score Rang KR 30 139 KR + données complémentares 85 13 KTC German 43 68 KTC avec langage dédé DMC 4408 44 DMC (le gagnant) 500 1 KTC DMC KR order 5356 Fgure 4-3 Résultats sur la Data Mnng Cup 006 5 Concluson Nous avons montré comment les entreprses, qu collectent volumes crossants de données, sont confrontées, pour la réalsaton d un nombre crossant d analyses data mnng, à la nécessté de mettre en place des usnes à modèles capables d ndustralser le processus de modélsaton. Nous avons ensute présenté le cadre théorque de la théore de l apprentssage statstque de Vladmr Vapnk, en montrant que la mnmsaton structurelle du rsque apporte une méthode contrôlée pour produre des modèles robustes. Nous avons ensute décrt comment KXEN a ms en œuvre ces résultats théorques pour produre un outl logcel KXEN Analytcal Framework qu répond aux besons de producton ndustrelle des utlsateurs. Nous avons enfn donné quelques exemples de réalsatons pratques llustrant les apports de l approche usnes à modèles : capacté à trater de grands volumes de données, à produre de nombreux modèles, très rapdement, presqu automatquement, avec des utlsateurs méter, ce qu permet à l entreprse d augmenter sa productvté. Nous pensons que de telles approches se développeront de plus en plus, les besons des entreprses ne fasant que croître alors que leurs ressources restent lmtées. Enfn, l utlsaton de nouvelles sources de données (textes, réseaux socaux, ) sera de plus en plus répandue. 6 Références 1- Bbler, Paul and Bryan, Doug Sears: A Lesson n Dong More Wth Less. TM Tplne. (sept. 005) http://ga1.org/tmgroup/notce-descrpton.tcl?newsletter_d=1960075&r=#6 - Bottou, L. La mse en oeuvre des dées de VladmrN. Vapnk. In Statstques et méthodes neuronales. Ecole Modulad, Montpeller. S. Thra, O. Gascuel, Y. lechevaller, S. Canu eds. Dunod, Pars, 6-74, (1997) 3- Davenport, T. H., Harrs, J. G. : Competng on Analytcs: The New Scence of Wnnng. Harvard Busness School Press. (007) 4- Fayyad, U. A Data Mner s Story Gettng to Know the Grand Challenges, Invted Talk, KDD 07. (007). http://vdeolectures.net/kdd07_fayyad_dms/ 5- Fogelman Soulé, F. Réseaux de neurones et Statstques, une ntroducton. In Statstques et méthodes neuronales. Ecole Modulad, Montpeller. S. Thra, O. Gascuel, Y. lechevaller, S. Canu eds. Dunod, Pars, 1-19, (1997) Revue MODULAD, 008-157 - Numéro 38

6- Fogelman Soulé, F. Data Mnng n the real world. What do we need and what do we have? KDD 06, Phladelpha, August 0, 006. Workshop on Data Mnng for Busness Applcatons. 49-53, (006). http://labs.accenture.com/kdd006_workshop/dmba_proceedngs.pdf 7- Fogelman Soulé, F., Bryan, D. Data mnng for qualty mprovement. KDD 07, Second Workshop on Data Mnng Case Studes and Success Stores, (007) 8- Hand, D., Mannla, H., Smyth, P. Prncples of Data Mnng. MIT Press. (001) 9- Herschel, G. : CRM Analytcs Scenaro : The Emergence of Integrated Insght. Gartner Customer Relatonshp Management Summt (006) 10- Herschel, G. Customer Data Mnng: Golden Nuggets, Not Slver Bullets. Gartner Customer Relatonshp Management Summt (006) 11- Hll, S., Provost, F. and Volnsky, C. Network-Based Marketng: Identfyng Lkely Adopters va Consumer Networks. Statstcal Scence, Vol. 1, No., 56 76. (006) http://pages.stern.nyu.edu/~fprovost/ 1- Hornck, M.F., Marcade, E., Venkayala, S. Java Data Mnng. Strategy, Standard, and Practce. A practcal gude for archtecture, desgn, and mplementaton. Morgan Kaufmann seres n data management systems. Elsever. (007) 13- Kohav, R. Scalng Up the Accuracy of Nave-Bayes Classfers: a Decson-Tree Hybrd, In Proceedngs of the Second Internatonal Conference on Knowledge Dscovery and Data Mnng, (1996) ftp://ftp.cs.uc.edu/pub/machne-learnng-databases/adult/ 14- Jawe Han, Warehousng and Mnng Massve RFID Data Sets, adma'06 (006) http://www.tee.uq.edu.au/~adma06/jawe_adma06_rfd.pdf 15- Klenberg, J. Challenges n Socal Network Data: Processes, Prvacy and Paradoxes, KDD 07. (007). http://vdeolectures.net/kdd07_klenberg_csnd/ 16- Russom, P (007) BI Search & Text Analytcs. TDWI Best Practces Report. (007). http://www.tdw.org/publcatons/whatworks/dsplay.aspx?d=8449 17- Vapnk, V.N. : The Nature of Statstcal Learnng Theory. Sprnger Verlag. (1995). 18- Vapnk, V.N. : Unversal learnng Technology : Support Vector Machnes. NEC Journal of Advanced Technology, Vol., No. Sprng 005. 137-144. (005) http://www.nec.co.jp/techrep/en/r_and_d/a05/a05-no/a137.pdf Revue MODULAD, 008-158 - Numéro 38