Apprentissage Automatique, Big Data et Data Science Thierry Artières
Le machine learning : un paradigme de programmation Quel algorithme?
L Apprentissage Automatique: un paradigme de programmation Quel algorithme? [Farabet et al., IEEE PAMI, 2012]
L Apprentissage Automatique: un paradigme de programmation Quel algorithme? Epilepsie / Pas d épilepsie
Le cas Jeopardy : Jeu télévisé On nous donne une réponse, on doit trouver la question Exemple de réponse : Stendhal Question à trouver : Qui a écrit le Rouge et le Noir? IBM DeepQA program (QA = Question Answering) A gagné à Jeopardy (2011) Peut être étendu à d autres domaines Domaine médical, juridique etc
L Apprentissage Automatique Adapté pour tout type de tâches de décision, de prédiction Pour lesquelles on ne connait pas d algorithme Pour lesquelles on ne veut pas passer par une étape de formalisation Champs d applications Réflexion : Intelligence Artificielle et jeux Interprétation textuelle : Recherche d information, résumé automatique, traduction automatique, analyse de sentiment, analyse de réputation Robotique et systèmes autonomes Taches perceptives : images, vidéos, parole, musique, gestes Recommandation et personnalisation Inférence sur des données relationnelles (sociales) et graphes, web advertising
Contexte de la société de l information Les Vs La data-isation Et puis?
Contexte de la société de l information Les Vs La data-isation L or noir n est qu un produit brut Et puis?
Contexte de la société de l information Les Vs La data-isation Et puis? L or noir n est qu un produit brut Bienvenue dans la data science!
L Apprentissage Automatique et la science des données Informatique Programmation Complexité Bases de données Apprentissage Automatique Fondamental Mathématiques Statistiques
L Apprentissage Automatique et la science des données Informatique Programmation Complexité Bases de données Fondamental Mathématiques Statistiques Data science Hacking Ingénierie des données Calcul GPU et // Web Applicatif Expertise de domaine
L Apprentissage Automatique et la science des données Informatique Programmation Complexité Bases de données Fondamental Mathématiques Statistiques Hacking Data science Raffiner l or noir Applicatif Ingénierie des données Calcul GPU et // Web Expertise de domaine
Kaggle Site de rencontre entre entreprises et datascientists Gros succès en termes de participation Hétérogénéité des participants Rendu possible par l apparition de nombreux toolkits de ML gratuits (Weka, Scikit-learn) et payants Matthieu S. (UPMC 2013) 127th /219,547
Ce que le big data change (en AA) Nombreux problèmes «tous les jours» Nouvelles tâches à inventer Changement profond dans la manière de résoudre une tâche N=All Qualité variable et amoindrie des données
Ce que le big data change Approche traditionnelle Approche «Big Data» Problème clairement identifié Besoins multiples Sélection limitée de données représentatives Examen rendu aisé par la taille limitée Collection la plus large de données Utilisation de méthodes statistiques Estimation d un modèle
L exemple des réseaux de neurones 1980-1990 : Vague des RNs Irrigue tous les domaines de la Reconnaissance Des Formes 2005-Aujourd hui : Renouveau / Apprentissage profond Algorithmes (modérément) nouveaux Usage massif de données d entrainement Avancées majeures sur divers problèmes réels durs (Vision, Parole, Texte)
L exemple de la Traduction Automatique 1990 IBM fait une avancée majeure La traduction vue comme un TRES gros problème statistique Espace Phrases en Anglais -> Phrases en Français Ressources importantes (transcriptions parlement canadien Fr/En) mais limitées : Millions de documents 2000 Google Énorme corpus Milliards de documents diverses qualités plus ou moins alignés Cela fonctionne beaucoup mieux