Machine Learning : Quelles applications pour les entreprises? PROGRAMME Quel est le point commun entre la voiture autonome de Google et la traduction de conversations vocales en quasi-temps réel par Skype? Toutes ces expériences s'appuient sur l'apprentissage automatique (Machine Learning) pour effectuer des tâches difficiles pour les algorithmes classiques. Longtemps réservé aux domaines pointus, le machine learning se démocratise. Dans un contexte où les données produites et traitées par les entreprises explosent, le machine learning est un moyen de rendre plus intelligible le Big Data et de pallier à l absence de compétences spécifiques pour traiter ces mêmes datas. L application du machine learning dans les processus métiers représente un véritable changement de paradigme, avec des machines capables de comprendre et d appliquer des algorithmes de façon autonome. Qu est-ce que le machine learning? Comment expliquer l'engouement actuel pour cette technologie? Quels sont les cas concrets d application du machine learning? De quelles manières peut-il rendre service aux entreprises qui possèdent une quantité volumineuse de données? Quelles sont les compétences requises pour mettre en place le machine learning et le rendre davantage "scalable"? Intervenants : INOVENALTENOR, Guillaume Champion, Senior Manager LOKAD, Joannes Vermorel, Fondateur et CEO MICROSOFT, Damien Cudel, Senior Marketing Manager NETWAVE, Jean-Pierre Malle, Conseiller Scientifique OSCARO, Nils Grunwald, Responsable R&D Données et Processus PREDICSIS, Bertrand Grèzes-Besset, Président et Co-fondateur Animateur : TELECOM PARISTECH, Charles Miglietti, Responsable des Séminaires Big Data
Introduction Par Charles Miglietti, TELECOM PARISTECH On peut très bien faire du Big Data sans procéder à du machine learning. Ces deux notions doivent être appréhendées indépendamment l'une de l'autre. Le machine learning est une science de l'intelligence artificielle qui cherche à faire prendre des décisions par des machines ; il s'agit d'automatiser des process que des humains ont l'habitude d'effectuer. Le fer de lance du machine learning, c'est l'algorithme, qui se nourrit lui-même des données. Qui dit algorithme dit modélisation d'une situation permettant à une machine d'apprendre à partir d'informations existantes. Les applications les plus connues du machine learning concernent par exemple la reconnaissance des caractères manuscrits (les adresses postales, les formulaires administratifs, etc.) Présentation des intervenants : Oscaro.com est l'un des dix premiers commerçants pure players français. Je suis en charge de la data et de la R&D, les deux notions étant très liées pour un site comme le nôtre. L'objectif consiste à adopter des process permettant d'utiliser des techniques à la pointe afin d'optimiser nos opérations. Il s'agit également de faire la promotion de ces nouveaux outils auprès de tous les métiers. Lokad reçoit les données des distributeurs et leur propose des optimisations sur les prix, les niveaux de stock, etc. Cette problématique assez ancienne a pu être revisitée avec des technologies de machine learning, qui permettent d'obtenir davantage d'automatisation et de performance. Bertrand Grèzes-Besset, PREDICSIS Predicsis est une société créée en 2013 et spécialisée dans le machine learning, au sens où nous valorisons des algorithmes in memory. Schématiquement, nous aidons nos clients à garder leurs clients Cela passe par une observation et une anticipation des comportements visant à identifier un certain nombre de signaux faibles nécessitant la mise en place d'actions personnalisées. InnovenAltenor est spécialisée dans l'accompagnement des clients dans leur transformation (digitale, organisationnelle, etc.) Nous sommes le pont entre le SI et les métiers, avec des expertises techniques et des expertises métiers. Nous apportons des conseils sur les projets de machine learning. Le machine learning va entraîner de très nombreux changements dans les métiers de demain, les machines apprenantes remplaçant de plus en plus des fonctions dites "intelligentes". Jean-Pierre Malle, NETWAVE Je travaille au croisement de l'informatique, de la psychologie cognitive et de la psycho-sociologie, puisque je conçois des algorithmes qui tiennent compte de la personnalité de chacun des individus. Il s'agit de comprendre dans quelle situation évoluent les individus, puisqu'elle dicte leurs comportements. 2
Microsoft voit le machine learning comme un véritable accélérateur de l'innovation. Nous l'utilisons déjà pour nos propres besoins, à très larges échelles, pour innover dans nos produits. Par exemple, les filtres anti-spam des messageries Microsoft utilisent ce type de technologie. Il en est de même pour le dispositif de jeu vidéo "Kinect", ou pour les systèmes de traduction en temps réel. Derrière, nous avons pour ambition de développer une économie de la data-science. *** Comment avez-vous mis en place l'infrastructure adéquate pour que les métiers et les prestataires aient pu bâtir les bonnes applications? Un des gros intérêts du machine learning, c'est de multiplier les paramètres. Les algorithmes peuvent assimiler des centaines et des centaines de paramètres sur les événements qui se produisent et sauront ignorer par eux-mêmes ceux qui n'ont pas la moindre importance. Il n'est nul besoin de procéder à une pré-sélection et il n'y a aucun a priori sur l'éventuelle utilité d'une donnée. Ainsi, l'entreprise doit être en mesure d'aller chercher de la donnée partout, dans tous les métiers. Il convient de fournir non seulement de la data, mais aussi de l'explication sur celle-ci : c'est un travail de normalisation et de documentation qui s'impose au préalable. C'est en cela qu'a consisté ma mission chez Oscaro, en prenant pour base les informations relatives aux commandes et au trafic Web. Comment faire en sorte que la valeur du machine learning vienne de la compréhension des besoins métiers et du quotidien du client? Bertrand Grèzes-Besset, PREDICSIS Predicsis ne conçoit pas des algorithmes sur mesure, mais dispose d'un algorithme générique permettant de faire de la classification avec un très grand nombre de variables explicatives (des centaines de milliers de variables sur des nœuds très répartis). La phase de découverte mutuelle entre le consommateur et l'entreprise correspond bien souvent à une phase "déceptive". La probabilité est grande que le nouveau client soit mécontent du service ; de même, une certaine lassitude s'installe lorsqu'une entreprise est confrontée à un client atypique Si on franchit cette phase de désespérance, on entre dans la phase de fidélisation, et c'est là que se crée la valeur. Il a été démontré que si vous augmentez de 10% votre base, vous augmentez de 10% la valeur de votre entreprise ; si vous diminuez l'attrition client de 10%, vous améliorez la valeur de votre entreprise de 30%. La véritable customer life time value se marque dans la durée. C'est là que le machine learning doit entrer en jeu. Il s'agit d'identifier les clients qui sont en train de vous délaisser. Les modèles identifiés sont appliqués aux données actuelles et permettent de repérer des signaux faibles : si aujourd'hui le client à tel comportement, c'est qu'il pourrait être amené à vous quitter bientôt. Il faut donc agir dès l'identification de ces signaux faibles. 3
Nous sommes intervenus chez un client qui subissait une lourde transformation de SI et de processus métiers. Nous avons eu l'idée d'injecter du machine learning dans le département Finance. Les bonnes données ont été identifiées et intégrées au produit Predicsis. Sur le pattern que l'on voulait détecter, le taux de prédiction était de 70%. Comment faut-il démarrer un projet de machine learning? Jean-Pierre Malle, NETWAVE J'avais par exemple constitué un processeur temps réel destiné à analyser les navigations afin de proposer de la recommandation. Ce processeur (qui intégrait tous les types de comportements de l'internaute) permettait de remonter jusqu'à la situation de l'individu. Lorsque l'on a un certain nombre d'informations, il est possible de procéder à de l'analyse contextuelle. C'est ce que fait Amazon. Si on s'intéresse au comportement, on se concentre sur la manière dont la personne regarde un produit. Il existe une multitude de manières de structurer son champ de conscience. Si on a une idée de ces chaînes cognitives, le vendeur peut adapter son discours. L'analyse situationnelle donne du sens à tout cela : si on s'intéresse uniquement au contexte, uniquement au comportement, uniquement au profil, l'information reste très parcellaire. La notion de situation réunit tous ces éléments et permet de fournir une réponse bien plus ciblée. Même si le machine learning est relativement nouveau, nous avons tenu à nous attaquer aux problématiques fondamentales auxquelles se trouve confrontée la grande distribution : quel produit choisir? où le placer? à quel prix? en quelle quantité? Notre point de départ pour démarrer un projet de machine learning consiste à identifier les objectifs finaux. Par exemple, aucun distributeur ne dispose d'estimation très fiable sur ce que serait le coût d'une rupture de stock sur un produit phare. Pour démarrer un projet de machine learning, il faut parvenir à se mettre d'accord sur ce que coûtent les choses. Quelle est votre stratégie pour engager un maximum d'acteurs de l'entreprise autour de tels projets? Identifier un sujet est bien souvent la phase la plus difficile! Certains de nos clients ont du mal exprimer les bonnes questions et voient le machine learning comme un "coup de baguette magique". Notre vision chez Microsoft consiste à soutenir l'état d'esprit de l'expérimentation, en prenant conscience qu'innover c'est accepter de se tromper. Pour réduire les coûts de l'erreur, nous envisageons de proposer un paiement à l'usage des technologies à travers le Cloud : le Cloud permet de déployer des infrastructures pour tester un scénario à moindres coûts. Lorsqu'un scénario business émerge, il s'agit de s'appuyer sur des technologies qui sont largement déployées Il s'agit de promouvoir, à travers le Cloud, cette vision du "Fast IT". 4
Comment faire la transition entre la phase de prototypage et la phase d'industrialisation? Cela dépend de nombreux paramètres : l'organisation, la taille de l'entreprise, la complexité des processus, la complexité du SI Dans l'exemple évoqué plus haut, c'est la facilité d'usage de l'outil de Predicsis qui constitue le meilleur argument pour faciliter l'itération. L'intérêt des outils actuels, c'est qu'il n'y a pas de phase de sélectivité à effectuer en amont. Au contraire, on se tromperait en choisissant de manière abrupte les données "qui comptent" Les outils ont considérablement évolué et permettent d'avoir les deux fonctions : earn et predict. Tout l'enjeu consiste à bien connecter ces web services aux bons endroits, en utilisant les bonnes informations. Le machine learning coûte globalement assez cher. Je constate, du côté éditeur, que l'on évolue vers des solutions "one click". A Lokad, il y a réseau d'éditeurs de logiciels de gestion de commerces, dans lesquels on peut récupérer l'intégralité de la donnée (travail en amont). Ces outils sont de plus en plus "packagés". Les projets de catégorisation sont souvent assez faciles à mener en POC, à partir du moment où on dispose d'une bonne source de donnée. Ce modèle s'applique typiquement aux dispositifs anti-fraude, puisque l'on dispose d'un solide historique. Le POC convient à ce genre de cas, puisque l'on peut travailler de manière indépendante pour retraiter les données du passé. Sur tout ce qui concerne les systèmes opérationnels, les projets se révèlent bien plus difficiles à mettre en œuvre, puisqu'il n'y a pas de vérification possible. Par exemple, sur la personnalisation de la navigation client, on ne peut faire de POC sans mettre quelque chose en production. L'intuition et la connaissance métiers restent centrales dans ces cas-là, car il faut savoir prendre des risques. Lorsque les problématiques sont normées, on peut apporter des réponses "préparées" (pas forcément besoin d'un data-scientist pour adapter l'algorithme). Par exemple, pour la notion de recommandation, Microsoft veut mettre à disposition une place de marché sur laquelle des algorithmes se trouvent prêts à l'emploi. Il s'agit de mettre à disposition certaines données de vente et d'intégrer le dispositif sur votre site Web. Cette façon de capitaliser sur l'expertise des acteurs du marché permet d'avancer rapidement. Il y a aussi une autre façon de faire de l'industrialisation, comme en témoigne notre solution "Azure Machine Learning" : une fois que le modèle est prêt, la mise en production s'effectue en quelques clics et en quelques minutes. L'algorithme est directement exploitable, après qu'il ait été ajusté et entraîné. Le dernier volet de l'industrialisation, c'est le passage à l'échelle. Il faut alors avoir les compétences en interne pour gérer les infrastructures. C'est là que le Cloud peut représenter une aide : le fournisseur apporte cette partie infrastructure. Jean-Pierre Malle, NETWAVE Nous générons un processeur qui n'utilise pas de modèle préétabli, il peut évoluer de minute en minute. Les temps de réponse sont assez rapides, compte tenu du volume de données manipulées. On atteint 56 ms de temps de réponse. Pour un site qui fait un million de visites par jour, on obtient 80 000 situations différentes Il est impossible de concevoir des scénarii sur tous ces éléments, d'autant que l'humain ne peut pas penser à tout et quantité de choses lui échappent. 5
La machine ne stocke pas les données, elle se contente de les traiter "au fil de l'eau", à l'instant présent. Petit à petit, on procède à de l'abstraction, de façon à repérer les structurations cognitives et à agir immédiatement, et pas le lendemain (car il y a de nombreux phénomènes qui font qu'une personne ne se comporte pas de la même manière aujourd'hui et demain!) Bertrand Grèzes-Besset, PREDICSIS La base, c'est de se poser la question de la contribution : quelle est la question business à laquelle il faut répondre? Citons l'exemple d'un opérateur télécom qui rencontrait un problème de perte de clients sur un segment particulier. En 24 heures, nous sommes capables d'établir un modèle et de détecter la population fragile. Il est apparu que dans la population adressée, il y avait 7 fois plus de churners que dans une prise aléatoire Le ROI est rapidement démontré et une campagne publicitaire peut être lancée dans la semaine. Le système "One click" est plutôt destiné aux acteurs du commerce en ligne. Il s'agit de capter les signaux faibles de façon encore plus automatique. Il suffit de mettre la clef API sur notre site et, 24 heures plus tard, vous recevez la liste de vos clients à risque pour activer vos campagnes au plus vite. Comment avez-vous construit votre équipe capable de traiter la donnée de machine learning? Quel est l'impact sur les ressources humaines? A Oscaro, l'objectif était de monter un Pôle datas à même d'intervenir partout. Une des premières questions que l'on peut se poser est celle-ci : faut-il que ma collecte de données soit interne ou externe? Oscaro a fait le choix de l'interne, avec son propre traqueur de clics. Globalement, je pense qu'une équipe datas qui fonctionne est une équipe assez diverse, avec des profils techniques de bon niveau et rigoureux, car rien n'est pire qu'un système qui corrompt la donnée. L'équipe datas ne doit pas devenir une tour d'ivoire, des data-scientists/devéloppeurs doivent être "distillés" dans les métiers. Lorsque l'on aborde des problématiques métiers relativement simples, il ne faut pas forcément aller bien loin dans la découverte de l'algorithmie. Les profils de mathématiciens ne sont donc pas absolument indispensables. Il faut avant tout avoir des personnes qui sont en capacité de manipuler de gros volumes de datas. On ne traite pas un milliard de lignes historiques (notion de volume) de la même manière que le visiteur qui vient d'arriver sur le site Web (notion de célérité). Il faut être à même d'évoluer dans ces deux mondes. Il faut à la fois un profil technique, scientifique et business avec un double rôle : apporter l'explication à l'équipe sur les enjeux et évangéliser auprès de l'organisation ce qui a été trouvé. Le management a un rôle à jouer sur la manière de mettre en œuvre ce qui est proposé, et qui peut aller à l'encontre des a priori. Cet état d'esprit est clef sur l'adoption du machine learning. 6
QUESTION DE LA SALLE : Avec l'avènement du "One click", quelle est votre vision de l'avenir de la datascience dans l'entreprise? Les data-scientists seront toujours plus nécessaires à l'entreprise. Leur nombre va augmenter, notamment pour les acteurs du e-commerce. Il y aura aussi tout un écosystème d'éditeurs plus ou moins spécialisés. Le "One click" est intéressant en termes de POC, mais il y aura toujours des hyper-paramètres à placer. Il faut savoir où aller chercher les données, comment les normaliser, etc. Tout cela relève de la sensibilité et de la réflexion humaine. De ce point de vue, il y aura toujours besoin de cet effort de modélisation, car la donnée n'existe pas "en soi". Ne mélangeons pas l'outil et les compétences, ce sont deux notions bien distinctes. Prendre les variables et les transformer permet d'être plus efficace dans la prédiction. On parle de "l'art du Feature engineering", qui est aussi lié à une expérience et à un certain savoir. Cela n'a rien n'à voir avec le "clicodrome". QUESTION DE LA SALLE : Chez Oscaro, quel est le poids de la préparation de données vs l'algorithme? Dans le meilleur des cas, c'est 70% de préparation et 30% d'algorithme. La difficulté consiste à amener les bonnes données aux bons endroits de manière régulière. En cela, la part de préparation des données est majoritaire. Il faut toutefois que cette part très coûteuse diminue en permanence. QUESTION DE LA SALLE : Avez-vous en tête un exemple d'utilisation du machine learning pour monitorer les problèmes de qualité de données? Bertrand Grèzes-Besset, PREDICSIS Même sans avoir les algorithmes avancés, il est possible de faire de la corrélation à la cible. Dans le cadre d'une analyse supervisée, dès qu'un flux de données arrive, il s'agit de regarder s'il y a des informations à joindre entre la cible et la source. On le fait systématiquement, puisque l'on a un machine learning capable de sortir des courbes de lift. Dès que l'on est au-dessus de l'aléatoire, cela siginifie qu'il y a un signal. QUESTION DE LA SALLE : Quelle est votre vision de l'avenir du machine learning du point de vue de la taille des entreprises qui le proposent? Microsoft a vraiment pour ambition de démocratiser le sujet : toutes les entreprises doivent pouvoir utiliser ces services. Il n'y a aujourd'hui pas forcément des très gros volumes de données à traiter et un certain nombre de start-ups commencent à lever des fonds. Je pense donc que l'on va assister à un foisonnement autour de ces problématiques. 7
95% des flux de datas aujourd'hui dans le monde vont aux Etats-Unis et en Chine. Ce qui nourrit le machine learning s'échappant de l'europe, il faut se poser des questions sur notre capacité à utiliser ces données-là. QUESTION DE LA SALLE : En termes d'algorithmie, quelles ont été les innovations récentes qui apportent une réelle valeur ajoutée? Il y a eu un pivot statistique à la toute fin des années 1990, c'est la théorie de Vapnik-Chervonenkis. Le deuxième pivot est apparu quelques années plus tard, lorsque les gens qui ont fourni des approches plus "packagées" sur cette théorie : Support Vector Machine, Ramdom Forests 8