11 Objectifs et principes du Machine Learning
|
|
- Virgile Beauchamp
- il y a 6 ans
- Total affichages :
Transcription
1 Big Data : Informatique pour les données et calculs massifs 11 Objectifs et principes du Machine Learning Stéphane Vialle Stephane.Vialle@centralesupelec.fr Objectifs du «Machine Learning» Evaluation et métriques de performances Problèmes liés à la grande dimension 2 1
2 Objectifs du Machine Learning Le Machine Learning (ML) est un ensemble : d outils statistiques, d algorithmes informatiques et d outils informatiques qui permettent d automatiser la construction d une fonction de prédiction f à partir d un ensemble d observations (l ensemble d apprentissage) Le ML est une discipline hybride à cheval sur les mathématiques (statistiques essentiellement) et l informatique (algorithmique, codage performant et large échelle) 3 Objectifs du Machine Learning Un modèle de Machine Learning est un algorithme qui permet de construire une fonction de prédiction f à partir d un jeu de données d apprentissage : La construction de f constitue l apprentissage ou l entrainement du modèle Une prédiction correspond à l évaluation de la fonction de prédiction sur les variables prédictives d une observation x : f(x) 4 2
3 Objectifs du Machine Learning L objectif du Machine Learning est de trouver des corrélations : L objectif n est pas de trouver des causes en examinant une chronologie (comme dans une démarche scientifique) Mais d identifier des corrélations pertinentes entre les variables prédictives des observations et les variables cibles Rien n impose qu une variable prédictive soit la cause d un phénomène décrit par une variable cible Par exemple,il y a une corrélation entre : la couleur des dents d un fumeur (variable prédictive, observation) et le taux de goudron dans ses poumons (variable cible) Mais la couleur de ses dents n est pas la cause de l état de ses poumons! 5 Objectifs du Machine Learning L objectif du Machine Learning est de trouver des corrélations : Certains modèles peuvent expliquer leur processus «Expliquer leur raisonnement» (ex : arbre de décisions) Mais la plupart du temps il faut se contenter de détection de corrélations sans explications, car le ML ne cherche pas des relations de cause à effet (en fait il ne raisonne pas!). 6 3
4 Objectifs du Machine Learning Compétences et rôle du data scientist : Avoir une double connaissance pour choisir un bon modèle : Connaissance du problème métier que l on veut modéliser Connaissance des hypothèses présupposées par chaque algorithme Etre capable de guider le processus d apprentissage : En explorant et préparant les données En choisissant certaines variables prédictives plus significatives La visualisation des données est souvent primordiale 7 Objectifs du Machine Learning Qualités d un bon algorithme de ML en environnement industriel Proposition de Ted Dunning, MapR, congrès Big Data, Paris 2014 Déployabilité : être capable de passer à l échelle sur un environnement distribué Un algorithme complexe qui ne passe pas à l échelle ne sera probablement pas utile! Robustesse : supporter des données incohérentes et incomplètes, des données du monde réel. Les algorithmes très pointus mais très sensibles aux données «sales» ne seront pas applicable facilement. Ne pas être trop sensible aux données aberrantes est un atout si on ne peut pas bien préparer les données. Transparence Adéquation aux compétences disponibles 8 Proportionnalité 4
5 Objectifs du Machine Learning Qualités d un bon algorithme de ML en environnement industriel Proposition de Ted Dunning, MapR, congrès Big Data, Paris 2014 Déployabilité Robustesse Transparence : détecter automatiquement une dégradation des performances de l application quand le processus d apprentissage progresse! Reboucler avec une évaluation globale de l application pas simple. Très utile pour les algorithmes d apprentissage continu «online» Adéquation aux compétences disponibles : ne pas exiger d expertise trop poussée pour l implantation et l optimisation Les statisticiens/data scientists ne sont pas des informaticiens, et réciproquement! Si un algorithme nécessite des compétences pointues en Math et en Informatique, il va coûter cher Même pb en HPC Proportionnalité 9 Objectifs du Machine Learning Qualités d un bon algorithme de ML en environnement industriel Proposition de Ted Dunning, MapR, congrès Big Data, Paris 2014 Déployabilité Robustesse Transparence Adéquation aux compétences disponibles Proportionnalité : le temps et l argent investis dans un algorithme de ML ou son optimisation doivent être proportionnels au gain obtenu Souci classique, mais révélateur de mauvaises expériences! Ces «qualités» en environnement industriel révèlent les difficultés / mauvaises surprises déjà rencontrées. L analyse de données (Big Data) est toujours très prometteuse, mais la période utopique est terminée. 10 5
6 Objectifs du «Machine Learning» Evaluation et métriques de performances Problèmes liés à la grande dimension 11 Deux axes de classement des algorithmes de ML Le mode d apprentissage : algorithmes supervisés et non supervisés Le type de problème traité pour les algorithmes supervisés algorithmes de régression et de classification Algorithme Mode d apprentissage Type de problème Régressions linéaires, Supervisé Régression polynomiales et régularisés Naïve Bayes Supervisé Classification Arbre de décision Supervisé Régression ou classification Clustering hiérarchique Non supervisé (classification). 12 6
7 Mode d apprentissage supervisé : Les données sont des ensembles de couples entrée sortie Les sorties peuvent être des mesures observées (ex. sorties de capteurs) des indications d experts (ex. insuffisant/superficiel/maitrisé/expert) Ces algorithmes cherchent à mettre au point/à apprendre une fonction de prédiction qui associe les entrées aux sorties 13 Mode d apprentissage supervisé : Ex. : des individus de coordonnées 2D (x,y) forment 2 groupes bien identifiables et disjoints x2 On va introduire une variable de plus : l Id du groupe de sortie (0 ou 1) gr 1 Et l algorithme «apprendra» des gr 0 x1 couples : ((x1,x2), grid) L algorithme mettra au point une fonction de prédiction f : (x1,x2) grid qui tentera de répondre correctement pour tous les points sur lesquels on l aura entraîné, mais aussi sur d autres points 14 7
8 Mode d apprentissage non supervisé : Les données sont uniquement des ensembles d entrées Les algorithmes cherchent à organiser tous seuls les données en groupes Ces algorithmes cherchent aussi à mettre au point / à apprendre une fonction de prédiction d un groupe de sortie Certains décident seuls du nombre de groupes, d autres peuvent être contraint pour construire k groupes ou des groupes d un rayon maximal Rmq : ici l apprentissage ne se fait plus à partir d une indication fournie par un expert, mais seulement à partir de fluctuations dans les valeurs d entrée 15 Mode d apprentissage non supervisé : Ex. : des individus de coordonnées 2D (x,y) forment 2 groupes bien identifiables et disjoints x2 gr 0 gr 1 x1 On n introduit aucune variable supplémentaire Et l algorithme construira tout seul des groupes de points d entrée à partir de leurs seules coordonnées (x1, x2) L algorithme mettra toujours au point une fonction de prédiction f : (x,y) grid qui tentera de répondre correctement pour tous les points sur lesquels on l aura entraîné, mais aussi sur d autres points 16 8
9 Algorithmes supervisés de régression et de classification Dans le cas des algorithmes supervisés de régression la sortie peut prendre une infinité de valeurs (réelles) Dans le cas des algorithmes supervisés de classification la sortie peut prendre un ensemble fini de valeurs (ex : {1, k}) (ce sont les «étiquettes» des valeurs d entrée) Décision Admis m² Prix(taille en m²) Problème de régression pour estimer le prix Refusé Note d examen Décision(note d examen) Problème de classification pour décider l admission ou le refus 17 Objectifs du «Machine Learning» Evaluation et métriques de performances Problèmes liés à la grande dimension 18 9
10 Segmentation de l ensemble des observations disponibles Approche de base : Soit m l ensemble des observations disponibles On le coupe en deux : m entrainement : 70% de m m test : 30% de m On entraine le modèle sur m entrainement, et on le teste sur m test Mais en fait on entre dans une boucle d optimisation : m entrainement entrainement m test test réglage modèle on optimise le modèle en affinant ses paramètres 19 Segmentation de l ensemble des observations disponibles Approche de base : m entrainement entrainement m test test réglage modèle On risque d optimiser le modèle pour les observations de test (m test )!! 20 10
11 Segmentation de l ensemble des observations disponibles Approche améliorée : Soit m l ensemble des observations disponibles On le coupe en trois : m entrainement : 60% de m m test : 20% de m Pour la boucle d optimisation m validation : 20% de m Une fois le modèle optimisé et entrainé, on valide (ou non) sa généricité sur un jeu de données encore jamais utilisé m entrainement m test m validation entrainement test validation réglage modèle 21 Segmentation de l ensemble des observations disponibles Approche par validation croisée : On coupe toujours l ensemble des observations en trois : m entrainement : 60% de m m test : 20% de m Pour la boucle d optimisation m validation : 20% de m On isole les données de m test, mais on utilise les autres données pour participer tantôt à m entrainement et tantot à m validation m entrainement m test m validation entrainement test validation réglage modèle 22 11
12 Segmentation de l ensemble des observations disponibles Approche par validation croisée : «leave k out cross validation» m test : 20% de m m entrainement : 80% de m k observations m validation : k observations On réalise toutes les combinaisons possibles : N = C k 80% Les N erreurs calculées sont utilisées pour évaluer la performance globale du modèle Approche méthodique mais longue! m entrainement m test m validation entrainement test validation réglage modèle 23 Segmentation de l ensemble des observations disponibles Approche par validation croisée : «k fold cross validation» m test : 20% de m 80% de m découpés aléatoirement en k paquets de même taille m entrainement : k 1 paquets m validation : 1 paquet On teste toutes les combinaisons possibles de paquets : k possibilités Les k erreurs calculées sont utilisées pour évaluer la performance globale du modèle Approche moins systématique mais plus rapide! m entrainement m test m validation entrainement test validation réglage modèle 24 12
13 Objectifs du «Machine Learning» Evaluation et métriques de performances Exemples pour les méthodes de régression Exemples pour les méthodes de classification Problèmes liés à la grande dimension 25 Evaluation des régressions Métriques de performances pour les problèmes de régression Valeurs observées : ( i ) Valeurs prédites par le modèle : ( i ) Prévision naïve de référence : moyenne des observations : ( ) Erreur de prédiction du modèle : Erreur de prédiction naïve : Erreur moyenne absolue : MAE Racine de la moyenne du carré des erreurs : Signale plus sévèrement les grandes erreurs RMSE 26 13
14 Evaluation des régressions Métriques de performances pour les problèmes de régression Valeurs observées : ( i ) Valeurs prédites par le modèle : ( i ) Prévision naïve de référence : moyenne des observations : ( ) Erreur de prédiction du modèle : Erreur de prédiction naïve : Coefficient de détermination (R²) : 1 Taux de fluctuation du au modèle «Mesure de l adéquation du modèle aux données observées» 0 1: R² proche de 1 adéquation parfaite R² proche de 0 adéquation nulle 27 Objectifs du «Machine Learning» Evaluation et métriques de performances Exemples pour les méthodes de régression Exemples pour les méthodes de classification Problèmes liés à la grande dimension 28 14
15 Evaluation des classifications Matrice de confusion : exemple sur une classification binaire Prédictions + Vrais positifs (VP) Faux négatifs (FN) Total + Total Total des vrais positifs observés (VP+FN) Observations Faux positifs (FP) Vrais négatifs (VN) Total des vrais négatifs observés (FP+VN) Positifs prédits (VP+FP) Négatifs prédits (FN+VN) Total des échantillons (N) 29 Evaluation des classifications Matrice de confusion : déduction d indicateurs de performance Prédictions (VP) 50 (FN) Observations + Total 150 (FP) 550 (VN) 400 (VP+FP) 600 (FN+VN) Total Taux d erreurs : (FP+FN)/N Rappel, recall ou sensibilité : VP/(VP+FN) Taux de vrais positifs Précision : VP/(VP+FP) 30 15
16 Evaluation des classifications Matrice de confusion : déduction d indicateurs de performance Prédictions (VP) 50 (FN) Observations + Total 150 (FP) 550 (VN) 400 (VP+FP) 600 (FN+VN) Total Taux d erreurs : (FP+FN)/N : 20% Rappel, recall ou sensibilité : VP/(VP+FN) : 83% Précision : VP/(VP+FP) : 63% 31 Evaluation des classifications Matrice de confusion : exemple sur une classification binaire Observations + Total (VP) 150 (FP) (FN) 550 (VN) 600 Total F1 score : indicateur agrégé de la précision et du rappel agrégation de ratios par moyenne harmonique moyenne de la précision et du rappel F1 = 2 x (1/(1/precision + 1/rappel)) F1 = 2 x (precision*rappel)/(precision+rappel) F1 = 2.VP/(2.VP + FP + FN), 0 F1 score 1 Le facteur 2x permet d avoir un F1 score de 1 quand à la fois la précision et le rappel valent 1 32 Prédictions 16
17 Evaluation des classifications Qualité d un clustering : Regroupement automatique de données dans un espace de dimension n, en k clusters (voir chapitre «clustering») X2 Critère de similarité intra cluster X1 Un cluster de points, de centre Rayon = Diamètre =. On cherche habituellement à minimiser ces Rayon ou Diamètres Pout obtenir les clusters les plus compacts possibles 33 Evaluation des classifications Qualité d un clustering : Regroupement automatique de données dans un espace de dimension n, en k clusters (voir chapitre «clustering») X2 Critère de dissimilarité inter clusters Soit deux clusters et, on calcule une distance inter cluster que l on cherche à maximiser : Ex : D(, ) = ou : D(, ) = ou.,. min, X
18 Objectifs du «Machine Learning» Evaluation et métriques de performances Problèmes liés à la grande dimension 35 Problèmes de la grande dimension La malédiction de la dimension Richard Belleman, Le volume englobant les données augmente exponentiellement avec la dimension de l espace des données Souvent les données deviennent éparses dans un espace en grande dimension Les modèles de régression deviennent moins pertinents : On peut expliquer un nuage de point épars par de nombreux modèles! Une fluctuation dans une variable peut entraîner de gros changements dans le modèle qui devient instable Les modèles de classification sont également perturbés par des données éparses (plus complexe) 36 18
19 Problèmes de la grande dimension De plus en plus de caractéristiques encodées dans chaque donnée Problème des caractéristiques corrélées (partiellement ou fortement) Problème des caractéristiques non pertinentes pour l analyse Complique l utilisation d un modèle 37 Problèmes de la grande dimension Des volumes de données énormes Si les données ne sont pas éparses, alors leur volume devient vraiment énorme Problèmes de stockage, d interrogation en temps limité, de chargement en RAM Et de plus en plus de difficultés à représenter les données et à les visualiser 38 19
20 Objectifs et principes du Machine Learning 39 20
Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Plus en détailEnjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailCommunications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes
Loris MARCHAL Laboratoire de l Informatique du Parallélisme Équipe Graal Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes Thèse réalisée sous la direction
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailProgrammation linéaire
1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détail$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailMéthodes d apprentissage statistique «Machine Learning»
Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours
Plus en détailMachine Learning 9:HSMBKA=\WU\YX: Big Data et machine learning. Manuel du data scientist. InfoPro
type d ouvrage se former retours d expérience Pirmin Lemberger, Marc Batty Médéric Morel, Jean-Luc Raffaëlli Management des systèmes d information applications métiers études, développement, intégration
Plus en détailDes données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox
Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.
Plus en détailMABioVis. Bio-informatique et la
MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailCommunications immersives : Enjeux et perspectives
Journée Futur et Ruptures Communications immersives : Enjeux et perspectives Béatrice Pesquet-Popescu Télécom ParisTech, Département TSI 5 mars 2015 Institut Mines-Télécom Tendances actuelles Plus, plus,
Plus en détailCours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques
Université de Provence Topologie 2 Cours3. Applications continues et homéomorphismes 1 Rappel sur les images réciproques Soit une application f d un ensemble X vers un ensemble Y et soit une partie P de
Plus en détail3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr http://www.metz.supelec.
3A-IIC - Parallélisme & Grid Stéphane Vialle Stephane.Vialle@supelec.fr http://www.metz.supelec.fr/~vialle Principes et Objectifs Evolution Leçons du passé Composition d une Grille Exemple d utilisation
Plus en détailL apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailLa programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique
La programmation linéaire : une introduction Qu est-ce qu un programme linéaire? Qu est-ce qu un programme linéaire? Exemples : allocation de ressources problème de recouvrement Hypothèses de la programmation
Plus en détailLe Cloud au LIG? Pierre Neyron PimLIG - 2013-04-14
Le Cloud au LIG? Pierre Neyron PimLIG - 2013-04-14 Cloud = buzz word Employé à toutes les sauces... http://www.youtube.com/watch?v=rdkbo2qmyjq (pub SFR) tout le monde fait du cloud? Qui fait du cloud au
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailAgenda de la présentation
Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining
Plus en détailPréface Dunod Toute reproduction non autorisée est un délit. Les raisons de l émergence du Big Data sont bien connues. Elles sont d abord économiques et technologiques. La chute exponentielle des coûts
Plus en détailExercices Alternatifs. Une fonction continue mais dérivable nulle part
Eercices Alternatifs Une fonction continue mais dérivable nulle part c 22 Frédéric Le Rou (copleft LDL : Licence pour Documents Libres). Sources et figures: applications-continues-non-derivables/. Version
Plus en détailExercices Alternatifs. Une fonction continue mais dérivable nulle part
Eercices Alternatifs Une fonction continue mais dérivable nulle part c 22 Frédéric Le Rou (copyleft LDL : Licence pour Documents Libres). Sources et figures: applications-continues-non-derivables/. Version
Plus en détailBusiness Intelligence avec Excel, Power BI et Office 365
Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10
Plus en détailAgrégation des portefeuilles de contrats d assurance vie
Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l
Plus en détailAccélérer l agilité de votre site de e-commerce. Cas client
Accélérer l agilité de votre site de e-commerce Cas client L agilité «outillée» devient nécessaire au delà d un certain facteur de complexité (clients x produits) Elevé Nombre de produits vendus Faible
Plus en détailFormation continue. Ensae-Ensai Formation Continue (Cepe)
CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat
Plus en détailL'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
Plus en détailTable des matières. I Mise à niveau 11. Préface
Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3
Plus en détailBases de données documentaires et distribuées Cours NFE04
Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailReprésentation d un entier en base b
Représentation d un entier en base b 13 octobre 2012 1 Prérequis Les bases de la programmation en langage sont supposées avoir été travaillées L écriture en base b d un entier est ainsi défini à partir
Plus en détailDémarches d urbanisation : réorganiser le Système d Information en structurant ses fonctions dans des blocs fonctionnels communicants.
Plan du chapitre Master Informatique et Systèmes Urbanisation des Systèmes d Information Architecture d Entreprise 04 Architecture du SI : identifier et décrire les services, structurer le SI 1 2 3 4 5
Plus en détailGrandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test
Grandes lignes Analyseur Statique de logiciels Temps RÉel Embarqués École Polytechnique École Normale Supérieure Mercredi 18 juillet 2005 1 Présentation d 2 Cadre théorique de l interprétation abstraite
Plus en détailRésolvez vos problèmes d énergie dédiée à l informatique
Résolvez vos problèmes d énergie dédiée à l informatique GRÂCE À UNE SOLUTION ENERGY SMART DE DELL Surmonter les défis énergétiques des datacenters Les responsables informatiques ont un problème urgent
Plus en détailCours d Analyse. Fonctions de plusieurs variables
Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Plus en détailUrbanisation des Systèmes d Information Architecture d Entreprise. 04 Architecture du SI : identifier et décrire les services, structurer le SI
Plan du chapitre Master Informatique et Systèmes Urbanisation des Systèmes d Information Architecture d Entreprise 04 Architecture du SI : identifier et décrire les services, structurer le SI 1 2 3 1.1
Plus en détailPourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Plus en détailDATA QUERY : MODÉLISATION AVANCÉE DE VOS DONNÉES
Online Intelligence Solutions DATA QUERY : MODÉLISATION AVANCÉE DE VOS DONNÉES Marion JOFFRE, Chef de produit marketing WHITE PAPER Table des matières CONTEXTE 3 Un suivi précis et détaillé de l ensemble
Plus en détailResolution limit in community detection
Introduction Plan 2006 Introduction Plan Introduction Introduction Plan Introduction Point de départ : un graphe et des sous-graphes. But : quantifier le fait que les sous-graphes choisis sont des modules.
Plus en détailLicence ST Université Claude Bernard Lyon I LIF1 : Algorithmique et Programmation C Bases du langage C 1 Conclusion de la dernière fois Introduction de l algorithmique générale pour permettre de traiter
Plus en détailModélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005
Modélisation et simulation du trafic Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005 Plan de la présentation! Introduction : modèles et simulations définition
Plus en détailFONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières
FONDEMENTS MATHÉMATIQUES 12 E ANNÉE Mathématiques financières A1. Résoudre des problèmes comportant des intérêts composés dans la prise de décisions financières. [C, L, RP, T, V] Résultat d apprentissage
Plus en détailMaster IMA - UMPC Paris 6 RDMM - Année 2009-2010 Fiche de TP
Master IMA - UMPC Paris 6 RDMM - Année 2009-200 Fiche de TP Préliminaires. Récupérez l archive du logiciel de TP à partir du lien suivant : http://www.ensta.fr/~manzaner/cours/ima/tp2009.tar 2. Développez
Plus en détailITIL Gestion de la capacité
ITIL Sommaire 1 GENERALITES 3 2 PERIMETRE DE LA GESTION DES CAPACITES 3 3 ACTIVITES ET LIVRABLES DE LA GESTION DES CAPACITES 4 3.1 ACTIVITES ITERATIVES OU GESTION DE PERFORMANCES : 4 3.2 GESTION DE LA
Plus en détailDOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?
DOSSIER SOLUTION CA ERwin Modeling Comment gérer la complexité des données et améliorer l agilité métier? CA ERwin Modeling fournit une vue centralisée des définitions de données clés afin de mieux comprendre
Plus en détailThéorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France
Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes
Plus en détailData 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients
Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients Frédérick Vautrain, Dir. Data Science - Viseo Laurent Lefranc, Resp. Data Science Analytics - Altares
Plus en détailCHAPITRE 5. Stratégies Mixtes
CHAPITRE 5 Stratégies Mixtes Un des problèmes inhérents au concept d équilibre de Nash en stratégies pures est que pour certains jeux, de tels équilibres n existent pas. P.ex.le jeu de Pierre, Papier,
Plus en détailWEBANALYTICS Sur le chemin de l excellence
WEBANALYTICS Sur le chemin de l excellence Une démarche centrée sur l évaluation de sa propre performance! 2004-2008 Philippe FLOC H Strategic Consulting Tous droits réservés Reproduction interdite WEBMETRICS
Plus en détailL ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
Plus en détailBusiness Intelligence
avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................
Plus en détailTraitement numérique de l'image. Raphaël Isdant - 2009
Traitement numérique de l'image 1/ L'IMAGE NUMÉRIQUE : COMPOSITION ET CARACTÉRISTIQUES 1.1 - Le pixel: Une image numérique est constituée d'un ensemble de points appelés pixels (abréviation de PICture
Plus en détailAlgorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Plus en détailInitiation à l algorithmique
Informatique S1 Initiation à l algorithmique procédures et fonctions 2. Appel d une fonction Jacques TISSEAU Ecole Nationale d Ingénieurs de Brest Technopôle Brest-Iroise CS 73862-29238 Brest cedex 3 -
Plus en détailContinuité d une fonction de plusieurs variables
Chapitre 2 Continuité d une fonction de plusieurs variables Maintenant qu on a défini la notion de limite pour des suites dans R n, la notion de continuité s étend sans problème à des fonctions de plusieurs
Plus en détailDOCM 2013 http://docm.math.ca/ Solutions officielles. 1 2 10 + 1 2 9 + 1 2 8 = n 2 10.
A1 Trouvez l entier positif n qui satisfait l équation suivante: Solution 1 2 10 + 1 2 9 + 1 2 8 = n 2 10. En additionnant les termes du côté gauche de l équation en les mettant sur le même dénominateur
Plus en détail1 Description générale de VISFIELD
Guide d utilisation du logiciel VISFIELD Yann FRAIGNEAU LIMSI-CNRS, Bâtiment 508, BP 133 F-91403 Orsay cedex, France 11 décembre 2012 1 Description générale de VISFIELD VISFIELD est un programme écrit
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailEntreprise et Big Data
Entreprise et Big Data Christophe Favart Chef Architecte, SAP Advanced Development, Business Information Technology Public Juin 2013 Agenda SAP Données d Entreprise Big Data en entreprise Solutions SAP
Plus en détailReconstruction de bâtiments en 3D à partir de nuages de points LIDAR
Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains
Plus en détailSouad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Plus en détailLogiciel XLSTAT version 7.0. 40 rue Damrémont 75018 PARIS
Logiciel XLSTAT version 7.0 Contact : Addinsoft 40 rue Damrémont 75018 PARIS 2005-2006 Plan Présentation générale du logiciel Statistiques descriptives Histogramme Discrétisation Tableau de contingence
Plus en détailProgrammation C. Apprendre à développer des programmes simples dans le langage C
Programmation C Apprendre à développer des programmes simples dans le langage C Notes de cours sont disponibles sur http://astro.u-strasbg.fr/scyon/stusm (attention les majuscules sont importantes) Modalités
Plus en détailL informatique en BCPST
L informatique en BCPST Présentation générale Sylvain Pelletier Septembre 2014 Sylvain Pelletier L informatique en BCPST Septembre 2014 1 / 20 Informatique, algorithmique, programmation Utiliser la rapidité
Plus en détail1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données
1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données Votre interlocuteur Didier Gaultier Directeur Data Science Business & Decision Professeur de Statistique à l
Plus en détailNovembre 2013. Regard sur service desk
Novembre 2013 Regard sur service desk édito «reprenez le contrôle grâce à votre service desk!» Les attentes autour du service desk ont bien évolué. Fort de la riche expérience acquise dans l accompagnement
Plus en détailSAS ENTERPRISE MINER POUR L'ACTUAIRE
SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de
Plus en détailALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE
ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE P. Baudet, C. Azzaro-Pantel, S. Domenech et L. Pibouleau Laboratoire de Génie Chimique - URA 192 du
Plus en détailCours de Master Recherche
Cours de Master Recherche Spécialité CODE : Résolution de problèmes combinatoires Christine Solnon LIRIS, UMR 5205 CNRS / Université Lyon 1 2007 Rappel du plan du cours 16 heures de cours 1 - Introduction
Plus en détailMéthodes de quadrature. Polytech Paris-UPMC. - p. 1/48
Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation
Plus en détailCryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur www.matthieuamiguet.
: Espoirs et menaces Matthieu Amiguet 2005 2006 Objectifs 2 Obtenir une compréhension de base des principes régissant le calcul quantique et la cryptographie quantique Comprendre les implications sur la
Plus en détailL écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13
L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,
Plus en détailLOGICIELS DE PRÉVISIONS
Pour vos appels d offre Mars 2014 LGICIELS DE PRÉVISINS 4 e ÉDITIN SAS INSTITUTE SAS Forecast Server SupplyChainMagazine.fr 19, rue Saint-Georges - 94700 Maisons-Alfort 1. NM de l'éditeur SAS Institute
Plus en détailFigure 3.1- Lancement du Gambit
3.1. Introduction Le logiciel Gambit est un mailleur 2D/3D; pré-processeur qui permet de mailler des domaines de géométrie d un problème de CFD (Computational Fluid Dynamics).Il génère des fichiers*.msh
Plus en détailSurmonter les 5 défis opérationnels du Big Data
Surmonter les 5 défis opérationnels du Big Data Jean-Michel Franco Talend Connect 9 octobre 2014 Talend 2014 1 Agenda Agenda Le Big Data depuis la découverte jusqu au temps réel en passant par les applications
Plus en détailProgrammation Linéaire - Cours 1
Programmation Linéaire - Cours 1 P. Pesneau pierre.pesneau@math.u-bordeaux1.fr Université Bordeaux 1 Bât A33 - Bur 265 Ouvrages de référence V. Chvátal - Linear Programming, W.H.Freeman, New York, 1983.
Plus en détailFORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis
FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis Joseph Salmon Télécom ParisTech Jeudi 6 Février Joseph Salmon (Télécom ParisTech) Big Data Jeudi 6 Février 1 / 18 Agenda Contexte et opportunités
Plus en détailUne dérivation du paradigme de réécriture de multiensembles pour l'architecture de processeur graphique GPU
Une dérivation du paradigme de réécriture de multiensembles pour l'architecture de processeur graphique GPU Gabriel Antoine Louis Paillard Ce travail a eu le soutien de la CAPES, agence brésilienne pour
Plus en détailEtude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Plus en détailEXERCICES DE REVISIONS MATHEMATIQUES CM2
EXERCICES DE REVISIONS MATHEMATIQUES CM2 NOMBRES ET CALCUL Exercices FRACTIONS Nommer les fractions simples et décimales en utilisant le vocabulaire : 3 R1 demi, tiers, quart, dixième, centième. Utiliser
Plus en détailTechnologie 125 Khz pour une performance optimale en en environnement industriel. Création des badges. Programmation des badges
CC AXKEF LA RFID SECURISEE DANS L ENVIRONNEMENT INDUSTRIEL TERTIAIRE Technologie 125 Khz pour une performance optimale en en environnement industriel Création des badges La technologie AXKEF intègre notre
Plus en détailMathcad 15.0. Ces capacités font de Mathcad l outil de calcul technique le plus utilisé au monde.
Mathcad 15.0 Création et documentation de calculs techniques Grâce à Mathcad, plus de 250 000 professionnels dans le monde peuvent effectuer, documenter, gérer et partager des calculs et des tâches de
Plus en détailRappel sur les bases de données
Rappel sur les bases de données 1) Généralités 1.1 Base de données et système de gestion de base de donnés: définitions Une base de données est un ensemble de données stockées de manière structurée permettant
Plus en détailStratégie d assurance retraite
Stratégie d assurance retraite Département de Formation INDUSTRIELLE ALLIANCE Page 1 Table des matières : Stratégie d assurance retraite Introduction et situation actuelle page 3 Fiscalité de la police
Plus en détail(51) Int Cl.: H04L 29/06 (2006.01) G06F 21/55 (2013.01)
(19) TEPZZ 8 8 4_A_T (11) EP 2 838 241 A1 (12) DEMANDE DE BREVET EUROPEEN (43) Date de publication: 18.02.1 Bulletin 1/08 (1) Int Cl.: H04L 29/06 (06.01) G06F 21/ (13.01) (21) Numéro de dépôt: 141781.4
Plus en détailAgrégation de liens xdsl sur un réseau radio
Agrégation de liens xdsl sur un réseau radio Soutenance TX Suiveur: Stéphane Crozat Commanditaire: tetaneutral.net/laurent Guerby 1 02/02/212 Introduction 2 Introduction: schéma 3 Définition d un tunnel
Plus en détailSOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE
SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE 1 Factures de doit p. 9 Processus 1 2 Réductions sur factures de doit p. 11 Processus 1 3 Frais accessoires sur factures p. 13 Processus 1 4 Comptabilisation
Plus en détailConception d une infrastructure «Cloud» pertinente
Conception d une infrastructure «Cloud» pertinente Livre blanc d ENTERPRISE MANAGEMENT ASSOCIATES (EMA ) préparé pour Avocent Juillet 2010 RECHERCHE EN GESTION INFORMATIQUE, Sommaire Résumé........................................................
Plus en détailQuatrième partie IV. Test. Test 15 février 2008 1 / 71
Quatrième partie IV Test Test 15 février 2008 1 / 71 Outline Introduction 1 Introduction 2 Analyse statique 3 Test dynamique Test fonctionnel et structurel Test structurel Test fonctionnel 4 Conclusion
Plus en détailCanevas théoriques du projet sur le poker Partie A
Partie A Dans une partie de poker, particulièrement au Texas Hold em Limit, il est possible d effectuer certains calculs permettant de prendre la meilleure décision. Quelques-uns de ces calculs sont basés
Plus en détail