Apprentissage Statistique



Documents pareils
BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Apprentissage Automatique

TRAVAUX DE RECHERCHE DANS LE

Bigdata et Web sémantique. les données + l intelligence= la solution

Le MDM (Master Data Management) Pierre angulaire d'une bonne stratégie de management de l'information

Introduction au Data-Mining

Introduction au Data-Mining

Les datas = le fuel du 21ième sicècle

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data?

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

Big Data et Graphes : Quelques pistes de recherche

Eléments de statistique

Introduction au datamining

RAPID Prenez le contrôle sur vos données

Big Data et Graphes : Quelques pistes de recherche

Pourquoi l apprentissage?

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Data Mining, Data Scien-st, Data Analy-cs, CRM, Modélisa-on et ou-ls mathéma-ques Eclairages et principes

Atelier Progress Rollbase

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

Objectif et contexte business : piliers du traitement efficace des données -l exemple de RANK- Khalid MEHL Jean-François WASSONG 10 mars 2015

Spécificités, Applications et Outils

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes

Instructions Mozilla Thunderbird Page 1

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Contrôle d'accès Access control. Notice technique / Technical Manual

EN UNE PAGE PLAN STRATÉGIQUE

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

Institut français des sciences et technologies des transports, de l aménagement

Moteurs de recherche: origines, évolution et perspectives Aissam Mezhoud, Search Advertising Lead, Microsoft

WEB page builder and server for SCADA applications usable from a WEB navigator

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

Anticiper et prédire les sinistres avec une approche Big Data

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

Bienvenue. #TwitterMobile

RFID: Middleware et intégration avec le système d'information Olivier Liechti

How to Login to Career Page

WiFi Security Camera Quick Start Guide. Guide de départ rapide Caméra de surveillance Wi-Fi (P5)

DOCUMENTATION - FRANCAIS... 2

AUDIT COMMITTEE: TERMS OF REFERENCE

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

Editing and managing Systems engineering processes at Snecma

Surmonter les 5 défis opérationnels du Big Data

Face Recognition Performance: Man vs. Machine

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Provide supervision and mentorship, on an ongoing basis, to staff and student interns.

Cedric Dumoulin (C) The Java EE 7 Tutorial

Paxton. ins Net2 desktop reader USB

Introduction à MapReduce/Hadoop et Spark

Big Data & Analytics Leviers de transformation Métier. Retours d expérience. Laurence CHRETIEN Valérie PERHIRIN Mars 2015

Fiche produit ifinance v4

Programme de formation

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

MANUEL MARKETING ET SURVIE PDF

CEST POUR MIEUX PLACER MES PDF

ADHEFILM : tronçonnage. ADHEFILM : cutting off. ADHECAL : fabrication. ADHECAL : manufacturing.

SAP SNC (Supply Network Collaboration) Web Package. (Français / English) language. Edition 2013 Mars

Monitor LRD. Table des matières

Small Businesses support Senator Ringuette s bill to limit credit card acceptance fees

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Monitoring elderly People by Means of Cameras

Entreprise et Big Data

Spécialité IAD. Master de Sciences et technologie de l UPMC. Mention informatique. Partenaires : ENST, ENSTA. Responsables : T. Artières, C.

Compléter le formulaire «Demande de participation» et l envoyer aux bureaux de SGC* à l adresse suivante :

SAP Runs SAP Reporting Opérationnel & BI avec HANA et SAP Analytics. Pierre Combe, Enterprise Analytics Juin, 2015

POSITION DESCRIPTION DESCRIPTION DE TRAVAIL

Once the installation is complete, you can delete the temporary Zip files..

UML : Unified Modeling Language

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

La rencontre du Big Data et du Cloud

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

ELCA Forum 2014 BIG DATA

Empowering small farmers and their organizations through economic intelligence

Les défis statistiques du Big Data

Township of Russell: Recreation Master Plan Canton de Russell: Plan directeur de loisirs

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Gestion de la relation Client (CRM)

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Nouveautés printemps 2013

Stratégie DataCenters Société Générale Enjeux, objectifs et rôle d un partenaire comme Data4

THE EVOLUTION OF CONTENT CONSUMPTION ON MOBILE AND TABLETS

Le nouveau visage de la Dataviz dans MicroStrategy 10

SOCIAL INTELLIGENCE BUSINESS RESULTS

Apprentissage statistique dans les graphes et les réseaux sociaux

Polar. Nouveautés Polar

Transcription:

Apprentissage Statistique Master DAC - Université Paris 6, patrick.gallinari@lip6.fr, http://www-connex.lip6.fr/~gallinar/ Année 2014-2015 Partie 1

Introduction

Apprentissage Automatique Problématique : Nous souhaitons avoir des ordinateurs intelligents adaptatifs avec un comportement robuste Programmer de tels comportement est souvent impossible Par exemple : Intelligence artificielle dans les jeux (scripts) Solution : Faire un ordinateur capable de se programmer lui-m^eme a partir d'exemples (apprentissage classique / par imitation) a partir de son "experience" (apprentissage par renforcement) 3

Exemple 4

Exemple 5

Exemple 6

Exemple 7

Exemple 8

Exemple 9

Exemple 10

Quand utiliser l apprentissage Il n'y a pas d'expert humain L'utilisation d'un expert humain est trop couteuse ou trop peu performante La quantité de données est telle qu'une analyse manuelle est impossible Les données évoluent rapidement dans le temps Les modelés doivent être adaptes a l'utilisateur Les systèmes doivent s'adapter facilement a des conditions opérationnelles différentes 11

Apprentissage à partir d'exemples 3 ingrédients de base Données {z 1,..., z N } Machine F θ Critère C (apprentissage et évaluation) But Extraire de l'information à partir des données Information pertinente pour la tâche étudiée pour d'autres données du même type Utilisation Inférence sur de nouvelles données Type d'apprentissage : Supervisé Non supervisé Semi supervisé Renforcement 12

Exemples - problèmes d'apprentissage Parole / Ecriture Données : (signal, (transcription)) But : reconnaître signal Critère : # mots correctement reconnus Conduite véhicule autonome Données : (images routes, (commande volant)) e.g. S. Thrun Darpa Challenge + Google car But : suivre route Critère : distance parcourue Recherche d'information textuelle Données : (texte + requête, (information pertinente)) corpus d apprentissage But : extraire l'information correspondant à la requête Critère : Rappel / Précision Diagnostic dans systèmes complexes Données : (état capteurs + alarmes, (diagnostic)) But : diagnostic correct Critère :? 13

Exemples - problèmes d'apprentissage Modélisation d'utilisateur Données : (Traces utilisateur) But : analyser/ modéliser le comportement de l'utilisateur Exemples : ciblage clientèle, aide navigation, publicité, recommandation, assistants personnels e.g. Google now Critère :? Evaluation :? Example Google Now Google Now keeps track of searches, calendar events, locations, and travel patterns. It then synthesizes all that info and alerts you either through notifications in the menu bar or cards on the search screen of transit alerts for your commute, box scores for your favorite sports team, nearby watering holes, and more. You can assume it will someday suggesta lot more. 14

Exemples - problèmes d'apprentissage Plus difficile : Traduction Extraction d information (e.g. Never-Ending Language/ Image Learning) Compréhension de texte / scène visuelle extraction de sens Découverte dans bases de données ou bases de connaissances... Données : i.e. représenter l'information?? But?? Critère?? Evaluation?? 15

Données : diversité 16

Données: quantités Yahoo! Data A league of its own U. Fayyad KDD 07 Millions of Events Processed Per Day Terrabytes of Warehoused Data 14,000 5,000 50 120 225 2,000 25 49 94 100 500 1,000 SABRE VISA NYSE Y! Panama Y! Data Highway Amazon Korea Telecom AT&T Y! LiveStor Y! Panama Warehouse Walmart Y! Main warehouse GRAND CHALLENGE PROBLEMS OF DATA PROCESSING TRAVEL, CREDIT CARD PROCESSING, STOCK EXCHANGE, RETAIL, INTERNET Y! PROBLEM EXCEEDS OTHERS BY 2 ORDERS OF MAGNITUDE 17

Données: quantités Petabytes(10^15) (chiffres 2012) Google processes about 24 petabytes of data per day Google Street View Has Snapped 20 Petabytes of Street Photos Telecoms: AT&T transfers about 30 petabytes of data through its networks each day Physics: The experiments in the Large Hadron Collider produce about 15 petabytes of data per year Neurology: It is estimated that the human brain's ability to store memories is equivalent to about 2.5 petabytes of binary data 18

BigData: Volume, Velocity, Variety, and Veracity http://www-01.ibm.com/software/data/bigdata/ Volume: terabytes, petabytes Turn 12 terabytes of Tweets created each day into improved product sentiment analysis Convert 350 billion annual meter readings to better predict power consumption Velocity: streams Scrutinize 5 million trade events created each day to identify potential fraud Analyze 500 million daily call detail records in real-time to predict customer churn faster Variety: Big data is any type of data - structured and unstructured data such as text, sensor data, audio, video, click streams, log files and more. New insights are found when analyzing these data types together. Monitor 100 s of live video feeds from surveillance cameras to target points of interest Exploit the 80% data growth in images, video and documents to improve customer satisfaction Veracity: Establishing trust in big data presents a huge challenge as the variety and number of sources grows. 19

Gartner Hype Cycle: Big Data 20

21

Data science (Wikipedia 2013) Data science incorporates varying elements and builds on techniques and theories from many fields, including mathematics,statistics,data engineering,pattern recognition and learning,advanced computing,visualization,uncertainty modeling,data warehousing, and high performance computing with the goal of extracting meaning from data and creating data products...data science seeks to use all available and relevant data to effectively tell a story. Data science is the practice of deriving valuable insights from data. Data science is emerging to meet the challenges of processing very large data sets i.e. "Big Data" consisting of structured, unstructured or semistructured data that large enterprises produce. A domain at center stage of data science is the explosion of new data generated from smart devices, web, mobile and social media. data scientists rely heavily upon elements of statistics, machine learning, text retrieval and natural language processing to analyze data and interpret results. 22

Place de l apprentissage L apprentissage constitue une brique dans le processus de fouille / traitement de données qui arrive souvent à la fin du processus qui est intégré dans une application ou dans le SI de l entreprise Les différentes étapes de l analyse des données Collecte des données / stockage Prétraitement des données, étiquetage éventuel Analyses des données par des techniques exploratoires Mise au point et test de différents modèles d apprentissage Evaluation 23

Domaines d application en Data Mining Exemples Web recherche d'information, filtrage d'information extraction d'information textuelle : e.g. recherche, bibliothèques virtuelles, veille technologique, Question Answering,... Multi-média image + son, vidéo Données d entreprise infos produits, infos clients, ciblage clientèle... Analyse comportement e.g. telecoms : serveurs web, accès services commerciaux, internet - intranet, aide accès information, publicité Distribué Mobiles : personnalisation, accès information Capteurs distribués, objets connectés Biologie - analyse de séquences, de structures Automobile... 24

Challenges de l apprentissage Passage à l échelle Quantité de données, taille données Dynamicité Flux Distribué Complexité des données et des problèmes Données structurées standards (XML, RDF, SMIL, ), taxonomies Web2.0 : découverte / analyse de relations!! Nouveaux problèmes, nouveaux usages Adaptation rapide outils existants et création de nouveaux outils 25

Plan du cours Introduction/Perceptron Cadre formel de l apprentissage => Deep Learning Méthodes à noyaux Apprentissage non supervisé et EM Apprentissage semi-supervisé et modèles de graphes Apprentissage de représentations Apprentissage séquentiel (bandit et renforcement) Théorie de l apprentissage 26

4 Familles d algorithmes 27

Données dans la pratique de l apprentissage Distinguer les ensembles d apprentissage Mettre au point le modèle de test Evaluer les performances du modèle appris de validation Apprentissage de méta-paramètres Remarque On fera en général l hypothèse que toutes les données sont générées suivant une même loi 28

Apprentissage supervisé Ensemble d'apprentissage Constitué de couples (entrée, sortie désirée),,,, But Au moyen d'un algorithme d'apprentissage, découvrir l association = () En utilisant les données d appprentissage Qui offre une bonne généralisation i.e. = () si hors de l'ensemble d'apprentissage mais généré par le même phénomène Utilisation discrimination, identification, prévision, approximation 29

Apprentissage non supervisé Ensemble d'apprentissage Uniquement des données d entrée,, But Regrouper les données similaires Modéliser les données Découvrir des relations non spécifiées à l avance entre les données Utilisation estimation de densité, extraction de similarités 30

Apprentissage semi supervisé Ensemble d apprentisage étiquetés faible quantité,,,, non étiquetés grande quantité,, But Extraire l information des exemples non étiquetés utile pour l étiquetage Apprendre conjointement à partir des deux ensembles d exemples Utilisation grandes masses de données où l étiquetage est possible mais trop coûteux données qui évoluent implémentation rapide de systèmes génériques pour différentes instances d un problème 31

Apprentissage par Renforcement Ensemble d'apprentissage Couples (entrée, sortie désirée qualitative),,,, Les x i peuvent être des séquences (temporal credit assignment), les d i sont des réponses qualitatives (e.g. 0,1), déterministes ou stochastiques. But Apprendre des actions optimales Utilisation commande, décision séquentielle, robotique, jeux, programmation dynamique, applications web ou sociales,... 32

Exemple introductif : Perceptron 33

Un exemple : Perceptron (1960 Rosenblatt) (image from Perceptrons, Minsky and Papert 1969) Cellules d association Cellule de décision Le perceptron est utilisé pour la discrimination La cellule de décision calcule une fonction à seuil : = ( + ) = ( ) avec = 1 Classe 1 : { = +1} Classe 2 : { = 1} 34

L'algorithme du perceptron (2 classes) Données Output base d apprentissage (, # ), $ = 1.. &, (, # 1,1 classifieur ) (, décision = ( ) Initialiser w (0) Répeter (t) choisir un exemple, ( *, #(*)) Si #(*) ) *. * 0 alors ) * + 1 = ) * + 1#(*). * Jusqu'à convergence C'est un algorithme à correction d'erreur si ε est constant : règle à incrément fixe si ε est fonction du temps : règle à incrément variable 35

Fonction discriminante linéaire = ). + = avec = 1 Surface de décision: hyperplan F(x) = 0 Quelques propriétés : w est le vecteur normal de l'hyperplan, il défini son orientation distance de x à H : 2 = ()/ ) w0 = 0 : H passe par l'origine 36

Géométrie de la discrimination linéaire F(x) > 0 ( x F(x) = 0 F ) w W F(x) < 0 37

Le perceptron effectue une descente de gradient Fonction de coût 4 =,5 678 987::é ).. # gradient 2<# ) 4 = => => B =>,, avec = =? @ =? A =?,5 678 987::é. # C Règle d apprentissage ) = ) 1 2<# ) 4 Demo http://lcn.epfl.ch/tutorial/english/ 38