11 Objectifs et principes du Machine Learning

Documents pareils
Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Enjeux mathématiques et Statistiques du Big Data

Introduction au Data-Mining

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Introduction au Data-Mining

Programmation linéaire

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

La classification automatique de données quantitatives

Méthodes d apprentissage statistique «Machine Learning»

Machine Learning 9:HSMBKA=\WU\YX: Big Data et machine learning. Manuel du data scientist. InfoPro

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

MABioVis. Bio-informatique et la

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Communications immersives : Enjeux et perspectives

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

L apprentissage automatique

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Le Cloud au LIG? Pierre Neyron PimLIG

données en connaissance et en actions?

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Coup de Projecteur sur les Réseaux de Neurones

INF6304 Interfaces Intelligentes

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Agenda de la présentation


Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Business Intelligence avec Excel, Power BI et Office 365

Agrégation des portefeuilles de contrats d assurance vie

Accélérer l agilité de votre site de e-commerce. Cas client

Formation continue. Ensae-Ensai Formation Continue (Cepe)

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Table des matières. I Mise à niveau 11. Préface

Bases de données documentaires et distribuées Cours NFE04

Introduction au datamining

Représentation d un entier en base b

Démarches d urbanisation : réorganiser le Système d Information en structurant ses fonctions dans des blocs fonctionnels communicants.

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Résolvez vos problèmes d énergie dédiée à l informatique

Cours d Analyse. Fonctions de plusieurs variables

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Big Data et Graphes : Quelques pistes de recherche

Urbanisation des Systèmes d Information Architecture d Entreprise. 04 Architecture du SI : identifier et décrire les services, structurer le SI

Pourquoi l apprentissage?

DATA QUERY : MODÉLISATION AVANCÉE DE VOS DONNÉES

Resolution limit in community detection


Modélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

ITIL Gestion de la capacité

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

CHAPITRE 5. Stratégies Mixtes

WEBANALYTICS Sur le chemin de l excellence

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Business Intelligence

Traitement numérique de l'image. Raphaël Isdant

Algorithmes d'apprentissage

Initiation à l algorithmique

Continuité d une fonction de plusieurs variables

DOCM Solutions officielles = n 2 10.

1 Description générale de VISFIELD

Arbres binaires de décision

Entreprise et Big Data

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Logiciel XLSTAT version rue Damrémont PARIS

Programmation C. Apprendre à développer des programmes simples dans le langage C

L informatique en BCPST

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Novembre Regard sur service desk

SAS ENTERPRISE MINER POUR L'ACTUAIRE

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

Cours de Master Recherche

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Cryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

LOGICIELS DE PRÉVISIONS

Figure 3.1- Lancement du Gambit

Surmonter les 5 défis opérationnels du Big Data

Programmation Linéaire - Cours 1

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Une dérivation du paradigme de réécriture de multiensembles pour l'architecture de processeur graphique GPU

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

EXERCICES DE REVISIONS MATHEMATIQUES CM2

Technologie 125 Khz pour une performance optimale en en environnement industriel. Création des badges. Programmation des badges

Mathcad Ces capacités font de Mathcad l outil de calcul technique le plus utilisé au monde.

Rappel sur les bases de données

Stratégie d assurance retraite

(51) Int Cl.: H04L 29/06 ( ) G06F 21/55 ( )

Agrégation de liens xdsl sur un réseau radio

SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE

Conception d une infrastructure «Cloud» pertinente

Quatrième partie IV. Test. Test 15 février / 71

Canevas théoriques du projet sur le poker Partie A

Transcription:

Big Data : Informatique pour les données et calculs massifs 11 Objectifs et principes du Machine Learning Stéphane Vialle Stephane.Vialle@centralesupelec.fr http://www.metz.supelec.fr/~vialle Objectifs du «Machine Learning» Evaluation et métriques de performances Problèmes liés à la grande dimension 2 1

Objectifs du Machine Learning Le Machine Learning (ML) est un ensemble : d outils statistiques, d algorithmes informatiques et d outils informatiques qui permettent d automatiser la construction d une fonction de prédiction f à partir d un ensemble d observations (l ensemble d apprentissage) Le ML est une discipline hybride à cheval sur les mathématiques (statistiques essentiellement) et l informatique (algorithmique, codage performant et large échelle) 3 Objectifs du Machine Learning Un modèle de Machine Learning est un algorithme qui permet de construire une fonction de prédiction f à partir d un jeu de données d apprentissage : La construction de f constitue l apprentissage ou l entrainement du modèle Une prédiction correspond à l évaluation de la fonction de prédiction sur les variables prédictives d une observation x : f(x) 4 2

Objectifs du Machine Learning L objectif du Machine Learning est de trouver des corrélations : L objectif n est pas de trouver des causes en examinant une chronologie (comme dans une démarche scientifique) Mais d identifier des corrélations pertinentes entre les variables prédictives des observations et les variables cibles Rien n impose qu une variable prédictive soit la cause d un phénomène décrit par une variable cible Par exemple,il y a une corrélation entre : la couleur des dents d un fumeur (variable prédictive, observation) et le taux de goudron dans ses poumons (variable cible) Mais la couleur de ses dents n est pas la cause de l état de ses poumons! 5 Objectifs du Machine Learning L objectif du Machine Learning est de trouver des corrélations : Certains modèles peuvent expliquer leur processus «Expliquer leur raisonnement» (ex : arbre de décisions) Mais la plupart du temps il faut se contenter de détection de corrélations sans explications, car le ML ne cherche pas des relations de cause à effet (en fait il ne raisonne pas!). 6 3

Objectifs du Machine Learning Compétences et rôle du data scientist : Avoir une double connaissance pour choisir un bon modèle : Connaissance du problème métier que l on veut modéliser Connaissance des hypothèses présupposées par chaque algorithme Etre capable de guider le processus d apprentissage : En explorant et préparant les données En choisissant certaines variables prédictives plus significatives La visualisation des données est souvent primordiale 7 Objectifs du Machine Learning Qualités d un bon algorithme de ML en environnement industriel Proposition de Ted Dunning, MapR, congrès Big Data, Paris 2014 Déployabilité : être capable de passer à l échelle sur un environnement distribué Un algorithme complexe qui ne passe pas à l échelle ne sera probablement pas utile! Robustesse : supporter des données incohérentes et incomplètes, des données du monde réel. Les algorithmes très pointus mais très sensibles aux données «sales» ne seront pas applicable facilement. Ne pas être trop sensible aux données aberrantes est un atout si on ne peut pas bien préparer les données. Transparence Adéquation aux compétences disponibles 8 Proportionnalité 4

Objectifs du Machine Learning Qualités d un bon algorithme de ML en environnement industriel Proposition de Ted Dunning, MapR, congrès Big Data, Paris 2014 Déployabilité Robustesse Transparence : détecter automatiquement une dégradation des performances de l application quand le processus d apprentissage progresse! Reboucler avec une évaluation globale de l application pas simple. Très utile pour les algorithmes d apprentissage continu «online» Adéquation aux compétences disponibles : ne pas exiger d expertise trop poussée pour l implantation et l optimisation Les statisticiens/data scientists ne sont pas des informaticiens, et réciproquement! Si un algorithme nécessite des compétences pointues en Math et en Informatique, il va coûter cher Même pb en HPC Proportionnalité 9 Objectifs du Machine Learning Qualités d un bon algorithme de ML en environnement industriel Proposition de Ted Dunning, MapR, congrès Big Data, Paris 2014 Déployabilité Robustesse Transparence Adéquation aux compétences disponibles Proportionnalité : le temps et l argent investis dans un algorithme de ML ou son optimisation doivent être proportionnels au gain obtenu Souci classique, mais révélateur de mauvaises expériences! Ces «qualités» en environnement industriel révèlent les difficultés / mauvaises surprises déjà rencontrées. L analyse de données (Big Data) est toujours très prometteuse, mais la période utopique est terminée. 10 5

Objectifs du «Machine Learning» Evaluation et métriques de performances Problèmes liés à la grande dimension 11 Deux axes de classement des algorithmes de ML Le mode d apprentissage : algorithmes supervisés et non supervisés Le type de problème traité pour les algorithmes supervisés algorithmes de régression et de classification Algorithme Mode d apprentissage Type de problème Régressions linéaires, Supervisé Régression polynomiales et régularisés Naïve Bayes Supervisé Classification Arbre de décision Supervisé Régression ou classification Clustering hiérarchique Non supervisé (classification). 12 6

Mode d apprentissage supervisé : Les données sont des ensembles de couples entrée sortie Les sorties peuvent être des mesures observées (ex. sorties de capteurs) des indications d experts (ex. insuffisant/superficiel/maitrisé/expert) Ces algorithmes cherchent à mettre au point/à apprendre une fonction de prédiction qui associe les entrées aux sorties 13 Mode d apprentissage supervisé : Ex. : des individus de coordonnées 2D (x,y) forment 2 groupes bien identifiables et disjoints x2 On va introduire une variable de plus : l Id du groupe de sortie (0 ou 1) gr 1 Et l algorithme «apprendra» des gr 0 x1 couples : ((x1,x2), grid) L algorithme mettra au point une fonction de prédiction f : (x1,x2) grid qui tentera de répondre correctement pour tous les points sur lesquels on l aura entraîné, mais aussi sur d autres points 14 7

Mode d apprentissage non supervisé : Les données sont uniquement des ensembles d entrées Les algorithmes cherchent à organiser tous seuls les données en groupes Ces algorithmes cherchent aussi à mettre au point / à apprendre une fonction de prédiction d un groupe de sortie Certains décident seuls du nombre de groupes, d autres peuvent être contraint pour construire k groupes ou des groupes d un rayon maximal Rmq : ici l apprentissage ne se fait plus à partir d une indication fournie par un expert, mais seulement à partir de fluctuations dans les valeurs d entrée 15 Mode d apprentissage non supervisé : Ex. : des individus de coordonnées 2D (x,y) forment 2 groupes bien identifiables et disjoints x2 gr 0 gr 1 x1 On n introduit aucune variable supplémentaire Et l algorithme construira tout seul des groupes de points d entrée à partir de leurs seules coordonnées (x1, x2) L algorithme mettra toujours au point une fonction de prédiction f : (x,y) grid qui tentera de répondre correctement pour tous les points sur lesquels on l aura entraîné, mais aussi sur d autres points 16 8

Algorithmes supervisés de régression et de classification Dans le cas des algorithmes supervisés de régression la sortie peut prendre une infinité de valeurs (réelles) Dans le cas des algorithmes supervisés de classification la sortie peut prendre un ensemble fini de valeurs (ex : {1, k}) (ce sont les «étiquettes» des valeurs d entrée) Décision Admis m² Prix(taille en m²) Problème de régression pour estimer le prix Refusé Note d examen Décision(note d examen) Problème de classification pour décider l admission ou le refus 17 Objectifs du «Machine Learning» Evaluation et métriques de performances Problèmes liés à la grande dimension 18 9

Segmentation de l ensemble des observations disponibles Approche de base : Soit m l ensemble des observations disponibles On le coupe en deux : m entrainement : 70% de m m test : 30% de m On entraine le modèle sur m entrainement, et on le teste sur m test Mais en fait on entre dans une boucle d optimisation : m entrainement entrainement m test test réglage modèle on optimise le modèle en affinant ses paramètres 19 Segmentation de l ensemble des observations disponibles Approche de base : m entrainement entrainement m test test réglage modèle On risque d optimiser le modèle pour les observations de test (m test )!! 20 10

Segmentation de l ensemble des observations disponibles Approche améliorée : Soit m l ensemble des observations disponibles On le coupe en trois : m entrainement : 60% de m m test : 20% de m Pour la boucle d optimisation m validation : 20% de m Une fois le modèle optimisé et entrainé, on valide (ou non) sa généricité sur un jeu de données encore jamais utilisé m entrainement m test m validation entrainement test validation réglage modèle 21 Segmentation de l ensemble des observations disponibles Approche par validation croisée : On coupe toujours l ensemble des observations en trois : m entrainement : 60% de m m test : 20% de m Pour la boucle d optimisation m validation : 20% de m On isole les données de m test, mais on utilise les autres données pour participer tantôt à m entrainement et tantot à m validation m entrainement m test m validation entrainement test validation réglage modèle 22 11

Segmentation de l ensemble des observations disponibles Approche par validation croisée : «leave k out cross validation» m test : 20% de m m entrainement : 80% de m k observations m validation : k observations On réalise toutes les combinaisons possibles : N = C k 80% Les N erreurs calculées sont utilisées pour évaluer la performance globale du modèle Approche méthodique mais longue! m entrainement m test m validation entrainement test validation réglage modèle 23 Segmentation de l ensemble des observations disponibles Approche par validation croisée : «k fold cross validation» m test : 20% de m 80% de m découpés aléatoirement en k paquets de même taille m entrainement : k 1 paquets m validation : 1 paquet On teste toutes les combinaisons possibles de paquets : k possibilités Les k erreurs calculées sont utilisées pour évaluer la performance globale du modèle Approche moins systématique mais plus rapide! m entrainement m test m validation entrainement test validation réglage modèle 24 12

Objectifs du «Machine Learning» Evaluation et métriques de performances Exemples pour les méthodes de régression Exemples pour les méthodes de classification Problèmes liés à la grande dimension 25 Evaluation des régressions Métriques de performances pour les problèmes de régression Valeurs observées : ( i ) Valeurs prédites par le modèle : ( i ) Prévision naïve de référence : moyenne des observations : ( ) Erreur de prédiction du modèle : Erreur de prédiction naïve : Erreur moyenne absolue : MAE Racine de la moyenne du carré des erreurs : Signale plus sévèrement les grandes erreurs RMSE 26 13

Evaluation des régressions Métriques de performances pour les problèmes de régression Valeurs observées : ( i ) Valeurs prédites par le modèle : ( i ) Prévision naïve de référence : moyenne des observations : ( ) Erreur de prédiction du modèle : Erreur de prédiction naïve : Coefficient de détermination (R²) : 1 Taux de fluctuation du au modèle «Mesure de l adéquation du modèle aux données observées» 0 1: R² proche de 1 adéquation parfaite R² proche de 0 adéquation nulle 27 Objectifs du «Machine Learning» Evaluation et métriques de performances Exemples pour les méthodes de régression Exemples pour les méthodes de classification Problèmes liés à la grande dimension 28 14

Evaluation des classifications Matrice de confusion : exemple sur une classification binaire Prédictions + Vrais positifs (VP) Faux négatifs (FN) Total + Total Total des vrais positifs observés (VP+FN) Observations Faux positifs (FP) Vrais négatifs (VN) Total des vrais négatifs observés (FP+VN) Positifs prédits (VP+FP) Négatifs prédits (FN+VN) Total des échantillons (N) 29 Evaluation des classifications Matrice de confusion : déduction d indicateurs de performance Prédictions + 250 (VP) 50 (FN) Observations + Total 150 (FP) 550 (VN) 400 (VP+FP) 600 (FN+VN) Total 300 700 1000 Taux d erreurs : (FP+FN)/N Rappel, recall ou sensibilité : VP/(VP+FN) Taux de vrais positifs Précision : VP/(VP+FP) 30 15

Evaluation des classifications Matrice de confusion : déduction d indicateurs de performance Prédictions + 250 (VP) 50 (FN) Observations + Total 150 (FP) 550 (VN) 400 (VP+FP) 600 (FN+VN) Total 300 700 1000 Taux d erreurs : (FP+FN)/N : 20% Rappel, recall ou sensibilité : VP/(VP+FN) : 83% Précision : VP/(VP+FP) : 63% 31 Evaluation des classifications Matrice de confusion : exemple sur une classification binaire Observations + Total + 250 (VP) 150 (FP) 400 50 (FN) 550 (VN) 600 Total 300 700 1000 F1 score : indicateur agrégé de la précision et du rappel agrégation de ratios par moyenne harmonique moyenne de la précision et du rappel F1 = 2 x (1/(1/precision + 1/rappel)) F1 = 2 x (precision*rappel)/(precision+rappel) F1 = 2.VP/(2.VP + FP + FN), 0 F1 score 1 Le facteur 2x permet d avoir un F1 score de 1 quand à la fois la précision et le rappel valent 1 32 Prédictions 16

Evaluation des classifications Qualité d un clustering : Regroupement automatique de données dans un espace de dimension n, en k clusters (voir chapitre «clustering») X2 Critère de similarité intra cluster X1 Un cluster de points, de centre Rayon = Diamètre =. On cherche habituellement à minimiser ces Rayon ou Diamètres Pout obtenir les clusters les plus compacts possibles 33 Evaluation des classifications Qualité d un clustering : Regroupement automatique de données dans un espace de dimension n, en k clusters (voir chapitre «clustering») X2 Critère de dissimilarité inter clusters Soit deux clusters et, on calcule une distance inter cluster que l on cherche à maximiser : Ex : D(, ) = ou : D(, ) = ou.,. min, X1 34 17

Objectifs du «Machine Learning» Evaluation et métriques de performances Problèmes liés à la grande dimension 35 Problèmes de la grande dimension La malédiction de la dimension Richard Belleman, 1961. Le volume englobant les données augmente exponentiellement avec la dimension de l espace des données Souvent les données deviennent éparses dans un espace en grande dimension Les modèles de régression deviennent moins pertinents : On peut expliquer un nuage de point épars par de nombreux modèles! Une fluctuation dans une variable peut entraîner de gros changements dans le modèle qui devient instable Les modèles de classification sont également perturbés par des données éparses (plus complexe) 36 18

Problèmes de la grande dimension De plus en plus de caractéristiques encodées dans chaque donnée Problème des caractéristiques corrélées (partiellement ou fortement) Problème des caractéristiques non pertinentes pour l analyse Complique l utilisation d un modèle 37 Problèmes de la grande dimension Des volumes de données énormes Si les données ne sont pas éparses, alors leur volume devient vraiment énorme Problèmes de stockage, d interrogation en temps limité, de chargement en RAM Et de plus en plus de difficultés à représenter les données et à les visualiser 38 19

Objectifs et principes du Machine Learning 39 20