Apprentissage Statistique Master DAC - Université Paris 6, patrick.gallinari@lip6.fr, http://www-connex.lip6.fr/~gallinar/ Année 2014-2015 Partie 1
Introduction
Apprentissage Automatique Problématique : Nous souhaitons avoir des ordinateurs intelligents adaptatifs avec un comportement robuste Programmer de tels comportement est souvent impossible Par exemple : Intelligence artificielle dans les jeux (scripts) Solution : Faire un ordinateur capable de se programmer lui-m^eme a partir d'exemples (apprentissage classique / par imitation) a partir de son "experience" (apprentissage par renforcement) 3
Exemple 4
Exemple 5
Exemple 6
Exemple 7
Exemple 8
Exemple 9
Exemple 10
Quand utiliser l apprentissage Il n'y a pas d'expert humain L'utilisation d'un expert humain est trop couteuse ou trop peu performante La quantité de données est telle qu'une analyse manuelle est impossible Les données évoluent rapidement dans le temps Les modelés doivent être adaptes a l'utilisateur Les systèmes doivent s'adapter facilement a des conditions opérationnelles différentes 11
Apprentissage à partir d'exemples 3 ingrédients de base Données {z 1,..., z N } Machine F θ Critère C (apprentissage et évaluation) But Extraire de l'information à partir des données Information pertinente pour la tâche étudiée pour d'autres données du même type Utilisation Inférence sur de nouvelles données Type d'apprentissage : Supervisé Non supervisé Semi supervisé Renforcement 12
Exemples - problèmes d'apprentissage Parole / Ecriture Données : (signal, (transcription)) But : reconnaître signal Critère : # mots correctement reconnus Conduite véhicule autonome Données : (images routes, (commande volant)) e.g. S. Thrun Darpa Challenge + Google car But : suivre route Critère : distance parcourue Recherche d'information textuelle Données : (texte + requête, (information pertinente)) corpus d apprentissage But : extraire l'information correspondant à la requête Critère : Rappel / Précision Diagnostic dans systèmes complexes Données : (état capteurs + alarmes, (diagnostic)) But : diagnostic correct Critère :? 13
Exemples - problèmes d'apprentissage Modélisation d'utilisateur Données : (Traces utilisateur) But : analyser/ modéliser le comportement de l'utilisateur Exemples : ciblage clientèle, aide navigation, publicité, recommandation, assistants personnels e.g. Google now Critère :? Evaluation :? Example Google Now Google Now keeps track of searches, calendar events, locations, and travel patterns. It then synthesizes all that info and alerts you either through notifications in the menu bar or cards on the search screen of transit alerts for your commute, box scores for your favorite sports team, nearby watering holes, and more. You can assume it will someday suggesta lot more. 14
Exemples - problèmes d'apprentissage Plus difficile : Traduction Extraction d information (e.g. Never-Ending Language/ Image Learning) Compréhension de texte / scène visuelle extraction de sens Découverte dans bases de données ou bases de connaissances... Données : i.e. représenter l'information?? But?? Critère?? Evaluation?? 15
Données : diversité 16
Données: quantités Yahoo! Data A league of its own U. Fayyad KDD 07 Millions of Events Processed Per Day Terrabytes of Warehoused Data 14,000 5,000 50 120 225 2,000 25 49 94 100 500 1,000 SABRE VISA NYSE Y! Panama Y! Data Highway Amazon Korea Telecom AT&T Y! LiveStor Y! Panama Warehouse Walmart Y! Main warehouse GRAND CHALLENGE PROBLEMS OF DATA PROCESSING TRAVEL, CREDIT CARD PROCESSING, STOCK EXCHANGE, RETAIL, INTERNET Y! PROBLEM EXCEEDS OTHERS BY 2 ORDERS OF MAGNITUDE 17
Données: quantités Petabytes(10^15) (chiffres 2012) Google processes about 24 petabytes of data per day Google Street View Has Snapped 20 Petabytes of Street Photos Telecoms: AT&T transfers about 30 petabytes of data through its networks each day Physics: The experiments in the Large Hadron Collider produce about 15 petabytes of data per year Neurology: It is estimated that the human brain's ability to store memories is equivalent to about 2.5 petabytes of binary data 18
BigData: Volume, Velocity, Variety, and Veracity http://www-01.ibm.com/software/data/bigdata/ Volume: terabytes, petabytes Turn 12 terabytes of Tweets created each day into improved product sentiment analysis Convert 350 billion annual meter readings to better predict power consumption Velocity: streams Scrutinize 5 million trade events created each day to identify potential fraud Analyze 500 million daily call detail records in real-time to predict customer churn faster Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together. Monitor 100 s of live video feeds from surveillance cameras to target points of interest Exploit the 80% data growth in images, video and documents to improve customer satisfaction Veracity: Establishing trust in big data presents a huge challenge as the variety and number of sources grows. 19
Gartner Hype Cycle: Big Data 20
21
Data science (Wikipedia 2013) Data science incorporates varying elements and builds on techniques and theories from many fields, including mathematics,statistics,data engineering,pattern recognition and learning,advanced computing,visualization,uncertainty modeling,data warehousing, and high performance computing with the goal of extracting meaning from data and creating data products...data science seeks to use all available and relevant data to effectively tell a story. Data science is the practice of deriving valuable insights from data. Data science is emerging to meet the challenges of processing very large data sets i.e. "Big Data" consisting of structured, unstructured or semistructured data that large enterprises produce. A domain at center stage of data science is the explosion of new data generated from smart devices, web, mobile and social media. data scientists rely heavily upon elements of statistics, machine learning, text retrieval and natural language processing to analyze data and interpret results. 22
Place de l apprentissage L apprentissage constitue une brique dans le processus de fouille / traitement de données qui arrive souvent à la fin du processus qui est intégré dans une application ou dans le SI de l entreprise Les différentes étapes de l analyse des données Collecte des données / stockage Prétraitement des données, étiquetage éventuel Analyses des données par des techniques exploratoires Mise au point et test de différents modèles d apprentissage Evaluation 23
Domaines d application en Data Mining Exemples Web recherche d'information, filtrage d'information extraction d'information textuelle : e.g. recherche, bibliothèques virtuelles, veille technologique, Question Answering,... Multi-média image + son, vidéo Données d entreprise infos produits, infos clients, ciblage clientèle... Analyse comportement e.g. telecoms : serveurs web, accès services commerciaux, internet - intranet, aide accès information, publicité Distribué Mobiles : personnalisation, accès information Capteurs distribués, objets connectés Biologie - analyse de séquences, de structures Automobile... 24
Challenges de l apprentissage Passage à l échelle Quantité de données, taille données Dynamicité Flux Distribué Complexité des données et des problèmes Données structurées standards (XML, RDF, SMIL, ), taxonomies Web2.0 : découverte / analyse de relations!! Nouveaux problèmes, nouveaux usages Adaptation rapide outils existants et création de nouveaux outils 25
Plan du cours Introduction/Perceptron Cadre formel de l apprentissage => Deep Learning Méthodes à noyaux Apprentissage non supervisé et EM Apprentissage semi-supervisé et modèles de graphes Apprentissage de représentations Apprentissage séquentiel (bandit et renforcement) Théorie de l apprentissage 26
4 Familles d algorithmes 27
Données dans la pratique de l apprentissage Distinguer les ensembles d apprentissage Mettre au point le modèle de test Evaluer les performances du modèle appris de validation Apprentissage de méta-paramètres Remarque On fera en général l hypothèse que toutes les données sont générées suivant une même loi 28
Apprentissage supervisé Ensemble d'apprentissage Constitué de couples (entrée, sortie désirée),,,, But Au moyen d'un algorithme d'apprentissage, découvrir l association = () En utilisant les données d appprentissage Qui offre une bonne généralisation i.e. = () si hors de l'ensemble d'apprentissage mais généré par le même phénomène Utilisation discrimination, identification, prévision, approximation 29
Apprentissage non supervisé Ensemble d'apprentissage Uniquement des données d entrée,, But Regrouper les données similaires Modéliser les données Découvrir des relations non spécifiées à l avance entre les données Utilisation estimation de densité, extraction de similarités 30
Apprentissage semi supervisé Ensemble d apprentisage étiquetés faible quantité,,,, non étiquetés grande quantité,, But Extraire l information des exemples non étiquetés utile pour l étiquetage Apprendre conjointement à partir des deux ensembles d exemples Utilisation grandes masses de données où l étiquetage est possible mais trop coûteux données qui évoluent implémentation rapide de systèmes génériques pour différentes instances d un problème 31
Apprentissage par Renforcement Ensemble d'apprentissage Couples (entrée, sortie désirée qualitative),,,, Les x i peuvent être des séquences (temporal credit assignment), les d i sont des réponses qualitatives (e.g. 0,1), déterministes ou stochastiques. But Apprendre des actions optimales Utilisation commande, décision séquentielle, robotique, jeux, programmation dynamique, applications web ou sociales,... 32
Exemple introductif : Perceptron 33
Un exemple : Perceptron (1960 Rosenblatt) (image from Perceptrons, Minsky and Papert 1969) Cellules d association Cellule de décision Le perceptron est utilisé pour la discrimination La cellule de décision calcule une fonction à seuil : = ( + ) = ( ) avec = 1 Classe 1 : { = +1} Classe 2 : { = 1} 34
L'algorithme du perceptron (2 classes) Données Output base d apprentissage (, # ), $ = 1.. &, (, # 1,1 classifieur ) (, décision = ( ) Initialiser w (0) Répeter (t) choisir un exemple, ( *, #(*)) Si #(*) ) *. * 0 alors ) * + 1 = ) * + 1#(*). * Jusqu'à convergence C'est un algorithme à correction d'erreur si ε est constant : règle à incrément fixe si ε est fonction du temps : règle à incrément variable 35
Fonction discriminante linéaire = ). + = avec = 1 Surface de décision: hyperplan F(x) = 0 Quelques propriétés : w est le vecteur normal de l'hyperplan, il défini son orientation distance de x à H : 2 = ()/ ) w0 = 0 : H passe par l'origine 36
Géométrie de la discrimination linéaire F(x) > 0 ( x F(x) = 0 F ) w W F(x) < 0 37
Le perceptron effectue une descente de gradient Fonction de coût 4 =,5 678 987::é ).. # gradient 2<# ) 4 = => => B =>,, avec = =? @ =? A =?,5 678 987::é. # C Règle d apprentissage ) = ) 1 2<# ) 4 Demo http://lcn.epfl.ch/tutorial/english/ 38