11 Objectifs et principes du Machine Learning

Big Data : Informatique pour les données et calculs massifs 11 Objectifs et principes du Machine Learning Stéphane Vialle Stephane.Vialle@centralesupelec.fr http://www.metz.supelec.fr/~vialle Objectifs du «Machine Learning» Evaluation et métriques de performances Problèmes liés à la grande dimension 2 1

Objectifs du Machine Learning Le Machine Learning (ML) est un ensemble : d outils statistiques, d algorithmes informatiques et d outils informatiques qui permettent d automatiser la construction d une fonction de prédiction f à partir d un ensemble d observations (l ensemble d apprentissage) Le ML est une discipline hybride à cheval sur les mathématiques (statistiques essentiellement) et l informatique (algorithmique, codage performant et large échelle) 3 Objectifs du Machine Learning Un modèle de Machine Learning est un algorithme qui permet de construire une fonction de prédiction f à partir d un jeu de données d apprentissage : La construction de f constitue l apprentissage ou l entrainement du modèle Une prédiction correspond à l évaluation de la fonction de prédiction sur les variables prédictives d une observation x : f(x) 4 2

Objectifs du Machine Learning L objectif du Machine Learning est de trouver des corrélations : L objectif n est pas de trouver des causes en examinant une chronologie (comme dans une démarche scientifique) Mais d identifier des corrélations pertinentes entre les variables prédictives des observations et les variables cibles Rien n impose qu une variable prédictive soit la cause d un phénomène décrit par une variable cible Par exemple,il y a une corrélation entre : la couleur des dents d un fumeur (variable prédictive, observation) et le taux de goudron dans ses poumons (variable cible) Mais la couleur de ses dents n est pas la cause de l état de ses poumons! 5 Objectifs du Machine Learning L objectif du Machine Learning est de trouver des corrélations : Certains modèles peuvent expliquer leur processus «Expliquer leur raisonnement» (ex : arbre de décisions) Mais la plupart du temps il faut se contenter de détection de corrélations sans explications, car le ML ne cherche pas des relations de cause à effet (en fait il ne raisonne pas!). 6 3

Objectifs du Machine Learning Compétences et rôle du data scientist : Avoir une double connaissance pour choisir un bon modèle : Connaissance du problème métier que l on veut modéliser Connaissance des hypothèses présupposées par chaque algorithme Etre capable de guider le processus d apprentissage : En explorant et préparant les données En choisissant certaines variables prédictives plus significatives La visualisation des données est souvent primordiale 7 Objectifs du Machine Learning Qualités d un bon algorithme de ML en environnement industriel Proposition de Ted Dunning, MapR, congrès Big Data, Paris 2014 Déployabilité : être capable de passer à l échelle sur un environnement distribué Un algorithme complexe qui ne passe pas à l échelle ne sera probablement pas utile! Robustesse : supporter des données incohérentes et incomplètes, des données du monde réel. Les algorithmes très pointus mais très sensibles aux données «sales» ne seront pas applicable facilement. Ne pas être trop sensible aux données aberrantes est un atout si on ne peut pas bien préparer les données. Transparence Adéquation aux compétences disponibles 8 Proportionnalité 4

Objectifs du Machine Learning Qualités d un bon algorithme de ML en environnement industriel Proposition de Ted Dunning, MapR, congrès Big Data, Paris 2014 Déployabilité Robustesse Transparence : détecter automatiquement une dégradation des performances de l application quand le processus d apprentissage progresse! Reboucler avec une évaluation globale de l application pas simple. Très utile pour les algorithmes d apprentissage continu «online» Adéquation aux compétences disponibles : ne pas exiger d expertise trop poussée pour l implantation et l optimisation Les statisticiens/data scientists ne sont pas des informaticiens, et réciproquement! Si un algorithme nécessite des compétences pointues en Math et en Informatique, il va coûter cher Même pb en HPC Proportionnalité 9 Objectifs du Machine Learning Qualités d un bon algorithme de ML en environnement industriel Proposition de Ted Dunning, MapR, congrès Big Data, Paris 2014 Déployabilité Robustesse Transparence Adéquation aux compétences disponibles Proportionnalité : le temps et l argent investis dans un algorithme de ML ou son optimisation doivent être proportionnels au gain obtenu Souci classique, mais révélateur de mauvaises expériences! Ces «qualités» en environnement industriel révèlent les difficultés / mauvaises surprises déjà rencontrées. L analyse de données (Big Data) est toujours très prometteuse, mais la période utopique est terminée. 10 5

Objectifs du «Machine Learning» Evaluation et métriques de performances Problèmes liés à la grande dimension 11 Deux axes de classement des algorithmes de ML Le mode d apprentissage : algorithmes supervisés et non supervisés Le type de problème traité pour les algorithmes supervisés algorithmes de régression et de classification Algorithme Mode d apprentissage Type de problème Régressions linéaires, Supervisé Régression polynomiales et régularisés Naïve Bayes Supervisé Classification Arbre de décision Supervisé Régression ou classification Clustering hiérarchique Non supervisé (classification). 12 6

Mode d apprentissage supervisé : Les données sont des ensembles de couples entrée sortie Les sorties peuvent être des mesures observées (ex. sorties de capteurs) des indications d experts (ex. insuffisant/superficiel/maitrisé/expert) Ces algorithmes cherchent à mettre au point/à apprendre une fonction de prédiction qui associe les entrées aux sorties 13 Mode d apprentissage supervisé : Ex. : des individus de coordonnées 2D (x,y) forment 2 groupes bien identifiables et disjoints x2 On va introduire une variable de plus : l Id du groupe de sortie (0 ou 1) gr 1 Et l algorithme «apprendra» des gr 0 x1 couples : ((x1,x2), grid) L algorithme mettra au point une fonction de prédiction f : (x1,x2) grid qui tentera de répondre correctement pour tous les points sur lesquels on l aura entraîné, mais aussi sur d autres points 14 7

Mode d apprentissage non supervisé : Les données sont uniquement des ensembles d entrées Les algorithmes cherchent à organiser tous seuls les données en groupes Ces algorithmes cherchent aussi à mettre au point / à apprendre une fonction de prédiction d un groupe de sortie Certains décident seuls du nombre de groupes, d autres peuvent être contraint pour construire k groupes ou des groupes d un rayon maximal Rmq : ici l apprentissage ne se fait plus à partir d une indication fournie par un expert, mais seulement à partir de fluctuations dans les valeurs d entrée 15 Mode d apprentissage non supervisé : Ex. : des individus de coordonnées 2D (x,y) forment 2 groupes bien identifiables et disjoints x2 gr 0 gr 1 x1 On n introduit aucune variable supplémentaire Et l algorithme construira tout seul des groupes de points d entrée à partir de leurs seules coordonnées (x1, x2) L algorithme mettra toujours au point une fonction de prédiction f : (x,y) grid qui tentera de répondre correctement pour tous les points sur lesquels on l aura entraîné, mais aussi sur d autres points 16 8

Algorithmes supervisés de régression et de classification Dans le cas des algorithmes supervisés de régression la sortie peut prendre une infinité de valeurs (réelles) Dans le cas des algorithmes supervisés de classification la sortie peut prendre un ensemble fini de valeurs (ex : {1, k}) (ce sont les «étiquettes» des valeurs d entrée) Décision Admis m² Prix(taille en m²) Problème de régression pour estimer le prix Refusé Note d examen Décision(note d examen) Problème de classification pour décider l admission ou le refus 17 Objectifs du «Machine Learning» Evaluation et métriques de performances Problèmes liés à la grande dimension 18 9

Segmentation de l ensemble des observations disponibles Approche de base : Soit m l ensemble des observations disponibles On le coupe en deux : m entrainement : 70% de m m test : 30% de m On entraine le modèle sur m entrainement, et on le teste sur m test Mais en fait on entre dans une boucle d optimisation : m entrainement entrainement m test test réglage modèle on optimise le modèle en affinant ses paramètres 19 Segmentation de l ensemble des observations disponibles Approche de base : m entrainement entrainement m test test réglage modèle On risque d optimiser le modèle pour les observations de test (m test )!! 20 10

Segmentation de l ensemble des observations disponibles Approche améliorée : Soit m l ensemble des observations disponibles On le coupe en trois : m entrainement : 60% de m m test : 20% de m Pour la boucle d optimisation m validation : 20% de m Une fois le modèle optimisé et entrainé, on valide (ou non) sa généricité sur un jeu de données encore jamais utilisé m entrainement m test m validation entrainement test validation réglage modèle 21 Segmentation de l ensemble des observations disponibles Approche par validation croisée : On coupe toujours l ensemble des observations en trois : m entrainement : 60% de m m test : 20% de m Pour la boucle d optimisation m validation : 20% de m On isole les données de m test, mais on utilise les autres données pour participer tantôt à m entrainement et tantot à m validation m entrainement m test m validation entrainement test validation réglage modèle 22 11

Segmentation de l ensemble des observations disponibles Approche par validation croisée : «leave k out cross validation» m test : 20% de m m entrainement : 80% de m k observations m validation : k observations On réalise toutes les combinaisons possibles : N = C k 80% Les N erreurs calculées sont utilisées pour évaluer la performance globale du modèle Approche méthodique mais longue! m entrainement m test m validation entrainement test validation réglage modèle 23 Segmentation de l ensemble des observations disponibles Approche par validation croisée : «k fold cross validation» m test : 20% de m 80% de m découpés aléatoirement en k paquets de même taille m entrainement : k 1 paquets m validation : 1 paquet On teste toutes les combinaisons possibles de paquets : k possibilités Les k erreurs calculées sont utilisées pour évaluer la performance globale du modèle Approche moins systématique mais plus rapide! m entrainement m test m validation entrainement test validation réglage modèle 24 12

Objectifs du «Machine Learning» Evaluation et métriques de performances Exemples pour les méthodes de régression Exemples pour les méthodes de classification Problèmes liés à la grande dimension 25 Evaluation des régressions Métriques de performances pour les problèmes de régression Valeurs observées : ( i ) Valeurs prédites par le modèle : ( i ) Prévision naïve de référence : moyenne des observations : ( ) Erreur de prédiction du modèle : Erreur de prédiction naïve : Erreur moyenne absolue : MAE Racine de la moyenne du carré des erreurs : Signale plus sévèrement les grandes erreurs RMSE 26 13

Evaluation des régressions Métriques de performances pour les problèmes de régression Valeurs observées : ( i ) Valeurs prédites par le modèle : ( i ) Prévision naïve de référence : moyenne des observations : ( ) Erreur de prédiction du modèle : Erreur de prédiction naïve : Coefficient de détermination (R²) : 1 Taux de fluctuation du au modèle «Mesure de l adéquation du modèle aux données observées» 0 1: R² proche de 1 adéquation parfaite R² proche de 0 adéquation nulle 27 Objectifs du «Machine Learning» Evaluation et métriques de performances Exemples pour les méthodes de régression Exemples pour les méthodes de classification Problèmes liés à la grande dimension 28 14

Evaluation des classifications Matrice de confusion : exemple sur une classification binaire Prédictions + Vrais positifs (VP) Faux négatifs (FN) Total + Total Total des vrais positifs observés (VP+FN) Observations Faux positifs (FP) Vrais négatifs (VN) Total des vrais négatifs observés (FP+VN) Positifs prédits (VP+FP) Négatifs prédits (FN+VN) Total des échantillons (N) 29 Evaluation des classifications Matrice de confusion : déduction d indicateurs de performance Prédictions + 250 (VP) 50 (FN) Observations + Total 150 (FP) 550 (VN) 400 (VP+FP) 600 (FN+VN) Total 300 700 1000 Taux d erreurs : (FP+FN)/N Rappel, recall ou sensibilité : VP/(VP+FN) Taux de vrais positifs Précision : VP/(VP+FP) 30 15

Evaluation des classifications Matrice de confusion : déduction d indicateurs de performance Prédictions + 250 (VP) 50 (FN) Observations + Total 150 (FP) 550 (VN) 400 (VP+FP) 600 (FN+VN) Total 300 700 1000 Taux d erreurs : (FP+FN)/N : 20% Rappel, recall ou sensibilité : VP/(VP+FN) : 83% Précision : VP/(VP+FP) : 63% 31 Evaluation des classifications Matrice de confusion : exemple sur une classification binaire Observations + Total + 250 (VP) 150 (FP) 400 50 (FN) 550 (VN) 600 Total 300 700 1000 F1 score : indicateur agrégé de la précision et du rappel agrégation de ratios par moyenne harmonique moyenne de la précision et du rappel F1 = 2 x (1/(1/precision + 1/rappel)) F1 = 2 x (precision*rappel)/(precision+rappel) F1 = 2.VP/(2.VP + FP + FN), 0 F1 score 1 Le facteur 2x permet d avoir un F1 score de 1 quand à la fois la précision et le rappel valent 1 32 Prédictions 16

Evaluation des classifications Qualité d un clustering : Regroupement automatique de données dans un espace de dimension n, en k clusters (voir chapitre «clustering») X2 Critère de similarité intra cluster X1 Un cluster de points, de centre Rayon = Diamètre =. On cherche habituellement à minimiser ces Rayon ou Diamètres Pout obtenir les clusters les plus compacts possibles 33 Evaluation des classifications Qualité d un clustering : Regroupement automatique de données dans un espace de dimension n, en k clusters (voir chapitre «clustering») X2 Critère de dissimilarité inter clusters Soit deux clusters et, on calcule une distance inter cluster que l on cherche à maximiser : Ex : D(, ) = ou : D(, ) = ou.,. min, X1 34 17

Objectifs du «Machine Learning» Evaluation et métriques de performances Problèmes liés à la grande dimension 35 Problèmes de la grande dimension La malédiction de la dimension Richard Belleman, 1961. Le volume englobant les données augmente exponentiellement avec la dimension de l espace des données Souvent les données deviennent éparses dans un espace en grande dimension Les modèles de régression deviennent moins pertinents : On peut expliquer un nuage de point épars par de nombreux modèles! Une fluctuation dans une variable peut entraîner de gros changements dans le modèle qui devient instable Les modèles de classification sont également perturbés par des données éparses (plus complexe) 36 18

Problèmes de la grande dimension De plus en plus de caractéristiques encodées dans chaque donnée Problème des caractéristiques corrélées (partiellement ou fortement) Problème des caractéristiques non pertinentes pour l analyse Complique l utilisation d un modèle 37 Problèmes de la grande dimension Des volumes de données énormes Si les données ne sont pas éparses, alors leur volume devient vraiment énorme Problèmes de stockage, d interrogation en temps limité, de chargement en RAM Et de plus en plus de difficultés à représenter les données et à les visualiser 38 19

Objectifs et principes du Machine Learning 39 20