Ne cherchez plus, soyez informés! Robert van Kommer
Le sommaire La présentation du contexte applicatif Le mariage: Big Data et apprentissage automatique Dialogues - interactions - apprentissages 2
Le contexte applicatif Hautes Ecoles Alliance PME His research activity focuses on the theory of wavelets and their applications, signal processing for telecommunications, communication systems and multimedia, and sensor networks. But: développer des produits et des services informatiques dans les domaines des multimédia, photographie et vidéo digitales (digital imagery), 3
Le mariage: données et apprentissage «Large-scale Machine Learning» pour extraire l information des données Big Data Information 4
40000 coéfficients Le principe d apprentissage semi-supervisé La société de l information et le journaliste de demain Dans la société d information, les nouveaux moyens de communication facilitent une diffusion instantanée de l information depuis n importe quel point du globe vers l ensemble de la toile. Aujourd hui, l information peut être capturée sous toutes ses formes et diffusée par l intermédiaire La société de l information et le journaliste de demain d un simple téléphone mobile. La conséquence inévitable est Dans la société d information, les nouveaux moyens de une explosion de la quantité des données publiées et la difficulté communication facilitent une diffusion instantanée de pour tout journaliste de prétendre maîtriser une vue d ensemble. l information depuis n importe quel point du globe vers Comment traiter et qualifier ces quantités phénoménales l ensemble de la toile. Aujourd hui, l information peut être d information tout en tenant compte, si possible, de l intérêt et de capturée sous toutes ses formes et diffusée par l intermédiaire chaque individu? La société Quel de sera l information le nouveau et visage le journaliste du journaliste de demain d un simple téléphone mobile. La conséquence inévitable est demain? Dans Sera-t-il la société un être d information, virtuel nourri par les nouveaux l intermédiaire moyens de son de une explosion de la quantité des données publiées et la difficulté réseau social communication et la propriété facilitent privée une d un diffusion consommateur instantanée de pour tout journaliste de prétendre maîtriser une vue d ensemble. particulier? l information Aujourd hui, depuis quelle n importe est l efficacité quel point réelle du des globe systèmes vers Comment traiter et qualifier ces quantités phénoménales de traitement l ensemble automatique de la toile. de l information Aujourd hui, et l information quelles sont peut leurs être d information tout en tenant compte, si possible, de l intérêt et de possibilités capturée de fournir sous une toutes information ses formes personnalisée? et diffusée par l intermédiaire chaque individu? Quel sera le nouveau visage du journaliste de d un simple téléphone mobile. La conséquence inévitable est demain? Sera-t-il un être virtuel nourri par l intermédiaire de son une explosion de la quantité des données publiées et la difficulté réseau social et la propriété privée d un consommateur Les réseaux pour sociaux tout journaliste : les règles de prétendre du jeu maîtriser une vue d ensemble. particulier? Aujourd hui, quelle est l efficacité réelle des systèmes La révolution Comment des réseaux traiter et sociaux qualifier entraine ces quantités une profusion phénoménales de de traitement automatique de l information et quelles sont leurs données d information personnelles tout décrivant en tenant les individus compte, et si possible, leur vie privée. de l intérêt et de possibilités de fournir une information personnalisée? Comment chaque les systèmes individu? de traitement Quel sera le de nouveau l information visage peuvent-ils du journaliste de exploiter demain ces données? Sera-t-il et quelles un être sont virtuel les recommandations nourri par l intermédiaire de son nécessaires réseau pour social prévenir et la l irréparable propriété privée violation d un de consommateur la sphère Les réseaux sociaux : les règles du jeu privée. Quelles-sont particulier? les Aujourd hui, règles du quelle jeu? est l efficacité réelle des systèmes La révolution des réseaux sociaux entraine une profusion de de traitement automatique de l information et quelles sont leurs données personnelles décrivant les individus et leur vie privée. possibilités de fournir une information personnalisée? Comment les systèmes de traitement de l information peuvent-ils exploiter ces données et quelles sont les recommandations nécessaires pour prévenir l irréparable violation de la sphère Les réseaux sociaux : les règles du jeu privée. Quelles-sont les règles du jeu? La révolution des réseaux sociaux entraine une profusion de données personnelles décrivant les individus et leur vie privée. Comment les systèmes de traitement de l information peuvent-ils exploiter ces données et quelles sont les recommandations nécessaires pour prévenir l irréparable violation de la sphère privée. Quelles-sont les règles du jeu? Extraction des vecteurs Apprentissage interactif J aime J aime pas Vecteurs 5
La plateforme «Big Data» d Alliance Les données: EPFL PME suisses Moteur de recherche Étendre l échelle HES-SO Vous Autres Newsletters Notifications 6
Datasets sources L architecture «Big Data» Company data Web sites crawler Multi-core search engine, Solr Web Site Company public data Market place datasets Data Ingest Gateway Compute Cluster Large-Scale Distributed Storage & Processing NoSQL data storage, HBase API Customer Interactions Value Inter/ intra EPFL data Social networks MapReduce Batch Gateway Hints System Software: Access Control, Operation, Monitoring Software Application : Hadoop ecosystem, Data Processing, Analytics, Machine Learning 7
Correct classification Quelle est l efficacité? Avec 10 interactions, la qualité de l information est améliorée d un facteur 10 Transductive text classification of Reuters articles: "corporate acquisitions" 100.00% 95.00% 90.00% 85.00% 80.00% 75.00% 70.00% 65.00% 60.00% 55.00% 50.00% 2 5 10 20 40 80 160 320 640 Number of positive and negative labelled training articles out of 2000 that are used in the transductive SVM 8
En résumé et pour conclure Moteur de recherche basé sur un apprentissage semi-supervisé Génération de newsletters personnalisées L objectif ultime: Etre informé, sans avoir la nécessité de rechercher l information 9
Merci pour votre attention! 10