Apprentissage statistique Stratégie du Data-Mining
|
|
- Claire Flavie Marion
- il y a 8 ans
- Total affichages :
Transcription
1 Apprentissage statistique Stratégie du Data-Mining Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID / 14
2 Apprentissage Statistique - Objectifs Phénomène physique, biologique, financier, etc trop complexe pour être décrit de manière déterministe. = Utilisation de techniques statistiques d apprentissage. Exemple : Reconnaissance de la parole, d images, prédiction de données climiques, du comportement d un client... Techniques statistiques basées sur des modèles faisant intervenir des variables explicatives des variables à expliquer une composante de bruit statistique But du statisticien : estimer au mieux des paramètres du modèle pour obtenir la meilleure fiabilité de prédiction Mots clefs : Machine Learning, Reconnaissance de formes, Intelligence Artificielle H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID / 14
3 Problématique Apprentissage Supervisé Variable Y à expliquer, décrite par n individus dont on connaît p variables explicatives synthétisées dans X. Ensemble d apprentissage D Train = {(X 1, Y 1 ),, (X n, Y n )}. Connaissant D Train, on cherche φ fonction des p prédicteurs telle que la variable Y s explique au mieux en fonction des p prédicteurs : Y = φ(x) + ɛ. L apprentissage est SUPERVISE puique conditionnée par la donnée d étiquettes (labels, valeurs...) pour chacun des n individus : les Y i. Exemples classiques : Modèle de régression simple, multiple, arbre binaire de classifications, réseaux de neurones, support vector machine, k plus proche voisins... Aprentissage Non-Supervisé Pas de variable Y à expliquer, mais toujours n individus décrits par p variables chacun. Objectif : recherche d une taxinomie (caractéristiques communes) des observations. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID / 14
4 Modélisation versus Apprentissage Modélisation La notion de modèle est centrale avec une finalité explicative. But : approcher la réalité, le vrai modèle, supposé existé, éventuellement basé sur une théorie physique, économique... sous-jacente. Le choix du modèle est alors guidé par des critères d ajustement et les décisions de validité, de présence d effets, basées sur des tests reposant eux-mêmes sur des hypothèses probabilistes. L interprétation du rôle de chaque variable explicative est prépondérante dans la démarche. Aprentissage But : prédiction. Le meilleur modèle n est pas nécessairement celui qui ajusterait le mieux le vrai modèle. Choix basés sur des critères de qualité de prévision visant à la recherche de modèles parcimonieux, i.e. de complexité (nombre de paramètres ou flexibilité limitée) dont l interprétabilité passe au second plan. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID / 14
5 Discrimination versus Régression Différents types de variables statistiques considérées qualitatives à valeurs dans un ensemble de cardinal fini, quantitatives à valeurs réelles. Certaines méthodes d apprentissage ou de modélisation s adaptent à tout type de variables explicatives tandis que d autres sont spécialisées. Si Y à expliquer est qualitative, on parle de discrimination, classification ou reconnaissance de forme, si Y est quantitative, on parle de régression. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID / 14
6 Statistique, informatique, taille des données n petit ou modèle statistique des échantillons connu (hypothèses relatives au modèle et aux distributions vérifiées) : utilisation des techniques classiques comme modèle linéaire génralisé, vraisemenblance,... optimale Dans le cas contraire, d autres méthodes viennent concurrencer l approche statistique classique. ( Exemple : Y = φ X 1,, X p) + ɛ. Si φ linéaire et p petit : classique. Si φ non-linéaire et n grand : possible d estimer précisément un nombre plus important de paramètres et donc d envisager des modèles plus sophistiqués. Dans le cas d un modèle gaussien usuel, le cas le plus simple d un modèle polynômial devient vite problématique : pour φ linéaire et p = 10, il y a 2 10 choix de modèles. Si en plus considération des intéractions en variable, vite un nombre astronomique de modèles possibles : explosion combinatoire! H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID / 14
7 Statistique, informatique, taille des données D où l implication de l informatique dans cette problématique. Le souci de calculabilité l emporte sur la définition mathématique du problème qui se ramène à l optimisation d un critère d ajustement de φ sur un ensemble plus ou moins riche. Méthodes souvent développées dans une autre discipline : informatique, intelligence artificielle... k plus proches voisins, réseaux de neurones, arbres de décisions, support vector machine : alternatives crédibles si n grand ou si p très important. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID / 14
8 Stratégies de choix - Choix de méthode Il n y a pas de "meilleure méthode"! Chacune est plus ou moins adaptée au problème posé, à la nature des données ou encore aux propriétés de φ à approcher ou à estimer. Important de savoir comparer des méthodes afin de choisir la plus pertinente. Comparaison par estimation d une erreur (de régression ou de classement) : pas toujours simple à faire... H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID / 14
9 Stratégies de choix - Choix de méthode EQUILIBRE BIAIS/VARIANCE Importance capitale : construire un modèle parcimonieux : nombre de variables explicatives nombre de feuilles dans un arbre nombre de neurones dans une couche cachée Seuls les algorihtmes de combinaison de modèles (bagging, boosting) contournent cette étape au prix d un accroissement sensible des calculs et surtout de l interprétabilité des résultats obtenus. Plus le modèle est complexe et meilleur sera l ajustement aux données : erreur faible d ajustement. MAIS un tel modèle peut s avérer défaillant lors de prévisions ou de généralisations. Plus le modèle est simple et plus la variance du modèle sera faible. MAIS un tel modèle induit une mauvaise qualité d ajustement. Objectif : optimiser un dosage entre biais et variance en contrôlant l ajustement aux données et la complexité du modèle. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID / 14
10 Stratégie du Data-Mining Nous disposons d un ensemble d observations. Les caractéristiques ou variables X = (X 1,..., X p ) dites explicatives ont été observées sur un ensemble de n objets, individus ou unités statistiques. Premier travail : mener une exploration statistique des données. allure des distributions, présence de données atypiques, corrélations et cohérence, transformations éventuelles des données, description multidimensionnelle, classification. Deuxième travail : modélisation statistique ou encore d apprentissage pour la prédiction d un variable cible Y par les variables explicatives (X 1,..., X p ). L enchaînement de ces étapes (exploration puis apprentissage) constitue le fondement de la fouille de données. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID / 14
11 Stratégie du Data-Mining But : Déterminer la stratégie à mettre en oeuvre pour aboutir au bon apprentissage ou au bon modèle prédictif à partir des données observées. Contrairement à une démarche statistique traditionnelle dans laquelle l observation des données est intégrée à la méthodologie (plannification expérimentale), les données sont ici préalable à l analyse. Néanmoins, il est clair que les préoccupations liées à leur analyse et à son objectif doivent intervenir le plus en amont possible pour s assurer quelques chances de succès. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID / 14
12 Stratégie du Data-Mining Étapes de la fouille de données 1 Extraction des données avec ou sans apprentissage : techniques de sondage appliquées ou applicables à des bases de données. 2 Exploration des données pour la détection de valeurs aberrantes ou seulement atypiques, d incohérences, pour l étude des distributions, des structures de corrélation, recherche de typologies, pour des transformations de données. 3 Partition aléatoire de l échantillon (apprentissage, validation, test) en fonction de sa taille et des techniques qui seront utilisées pour estimer une erreur de prédiction en vue des choix de modèles, choix et certification de méthode. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID / 14
13 Stratégie du Data-Mining Étapes de la fouille de données (suite) 4. Pour chacune des méthodes considérées : modèle linéaire général (gaussien, binomial ou poissonien), discrimination paramétrique (linéaire ou quadratique) ou non-paramétrique, k plus proches voisins, arbre, réseau de neurones (perceptron), support vecteur machine, combinaison de modèles (bagging, boosting) estimer le modèle pour une valeur donnée d un paramètre de complexité : nombre de variables, de voisins, de feuilles, de neurones, durée d apprentissage, largeur de fenêtre... optimiser ce paramètre (sauf pour les combinaisons de modèles affranchies des problèmes de sur-apprentissage) en fonction de la technique d estimation de l erreur retenue : échantillon de validation, validation croisée, approximation par pénalisation de l erreur d ajustement. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID / 14
14 Stratégie du Data-Mining Étapes de la fouille de données (suite et fin) 5. Comparaison des modèles optimaux obtenus (un par méthode) par estimation de l erreur de prédiction sur l échantillon test ou, si la présence d un échantillon test est impossible, sur le critère de pénalisation de l erreur (Akaike par exemple) s il en existe une version pour chacune des méthodes considérées. 6. Itération éventuelle de la démarche précédente (validation croisée), si l échantillon test est trop réduit, depuis l étape 3. Partitions aléatoires successives de l échantillon pour moyenner sur plusieurs cas l estimation finale de l erreur de prédiction et s assurer de la robustesse du modèle obtenu. 7. Choix de la méthode retenue en fonction de ses capacités de prédiction, de sa robustesse mais aussi, éventuellement, de l interprétabilité du modèle obtenu. H. Milhem (IMT, INSA Toulouse) Apprentissage statistique IUP SID / 14
Introduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailApprentissage Statistique :
Apprentissage Statistique Apprentissage Statistique : modélisation, prévision et data mining PHILIPPE BESSE & BÉATRICE LAURENT 5ème année GMM - MMS Équipe de Statistique et Probabilités Institut de Mathématiques
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailPROBABILITES ET STATISTIQUE I&II
PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits
Plus en détailIntroduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailAgenda de la présentation
Le Data Mining Techniques pour exploiter l information Dan Noël 1 Agenda de la présentation Concept de Data Mining ou qu est-ce que le Data Mining Déroulement d un projet de Data Mining Place du Data Mining
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détailAnalyse de grandes bases de données en santé
.. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.
Plus en détailIntelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Plus en détailOrganisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.
2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle
Plus en détailData mining II. Modélisation Statistique & Apprentissage
Publications du Laboratoire de Statistique et Probabilités Data mining II. Modélisation Statistique & Apprentissage Philippe BESSE Version janvier 2003 mises à jour : www.lsp.ups-tlse.fr/besse Laboratoire
Plus en détailL utilisation d un réseau de neurones pour optimiser la gestion d un firewall
L utilisation d un réseau de neurones pour optimiser la gestion d un firewall Réza Assadi et Karim Khattar École Polytechnique de Montréal Le 1 mai 2002 Résumé Les réseaux de neurones sont utilisés dans
Plus en détailArbres binaires de décision
1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailChapitre 6 Apprentissage des réseaux de neurones et régularisation
Chapitre 6 : Apprentissage des réseaux de neurones et régularisation 77 Chapitre 6 Apprentissage des réseaux de neurones et régularisation Après une introduction rapide aux réseaux de neurones et à la
Plus en détailIntroduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours
Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP
Plus en détailMéthodes d apprentissage statistique «Machine Learning»
Méthodes d apprentissage statistique «Machine Learning» Fabrice TAILLIEU, Sébastien DELUCINGE, Rémi BELLINA Le marché de l assurance a rarement été marqué par un environnement aussi difficile qu au cours
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailData Mining et Statistique
Data Mining et Statistique Philippe Besse, Caroline Le Gall, Nathalie Raimbault & Sophie Sarpy Résumé Cet article propose une introduction au Data Mining. Celle-ci prend la forme d une réflexion sur les
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détail4.2 Unités d enseignement du M1
88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter
Plus en détailLes algorithmes de fouille de données
Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités
Plus en détailData Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Plus en détailTechniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit
Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit Adil Belhouari HEC - Montréal - Journées de l Optimisation 2005-09 Mai 2005 PLAN DE LA PRÉSENTATION
Plus en détailL apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
Plus en détailESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring
ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des
Plus en détailLaboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
Plus en détailData mining 1. Exploration Statistique
PUBLICATIONS DU LABORATOIRE DE STATISTIQUE ET PROBABILITÉS Data mining 1 Exploration Statistique ALAIN BACCINI & PHILIPPE BESSE Version septembre 2004 mises à jour : wwwlspups-tlsefr/besse Laboratoire
Plus en détailDéroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI
1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage
Plus en détailTransmission d informations sur le réseau électrique
Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en
Plus en détailAméliorer les performances du site par l'utilisation de techniques de Web Mining
Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire
Plus en détailPanorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle
Panorama des problématiques de traitement de l information Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle Conduite d une étude statistique Larbi Aït Hennani, maître de conférences en mathématiques
Plus en détailFormation Actuaire Data Scientist. Programme au 24 octobre 2014
Formation Actuaire Data Scientist Programme au 24 octobre 2014 A. Eléments logiciels et programmation Python 24h Objectif : Introduction au langage Python et sensibilisation aux grandeurs informatiques
Plus en détailEnjeux mathématiques et Statistiques du Big Data
Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris
Plus en détailOptimisation de la compression fractale D images basée sur les réseaux de neurones
Optimisation de la compression fractale D images basée sur les réseaux de neurones D r BOUKELIF Aoued Communication Networks,Architectures and Mutimedia laboratory University of S.B.A aoued@hotmail.com
Plus en détailSpécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining
Plus en détailStéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 27/01/2009 Stéphane Tufféry - Data Mining - http://data.mining.free.fr
Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Présentation de l auteur En charge de la statistique et du data mining dans un grand groupe bancaire Enseigne le data mining en Master 2 à l Université
Plus en détailWorkflow/DataWarehouse/DataMining. 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1
Workflow/DataWarehouse/DataMining 14-09-98 LORIA - Université d automne 1998 - Informatique décisionnelle - L. Mirtain 1 plan Workflow DataWarehouse Aide à la décision DataMinig Conclusion 14-09-98 LORIA
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détailAmélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons
Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons Ahmad OSMAN 1a, Valérie KAFTANDJIAN b, Ulf HASSLER a a Fraunhofer Development Center
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détail23. Interprétation clinique des mesures de l effet traitement
23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d
Plus en détailMasters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»
Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance» Introduction au Data Mining K. EL HIMDI elhimdi@menara.ma 1 Sommaire du MODULE Partie 1 : Introduction au Data Mining Partie 2 :
Plus en détailTravaux pratiques avec RapidMiner
Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel
Plus en détailSolutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision
Solutions Décisionnelles SPAD La maîtrise des données, l'art de la décision SPAD, la référence en Analyse de Données et Data Mining La solution logicielle SPAD permet de tirer le meilleur parti de tous
Plus en détailQue fait SAS Enterprise Miner?
Développez une connaissance plus précise avec un processus data mining plus productif La transformation de données brutes en informations utiles reste une problématique pour les entreprises. Pour apporter
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailScénario: Score d appétence de la carte visa premier
Scénario: Score d appétence de la carte visa premier Résumé Cette aventure reprend rapidement l exploration des données bancaires avant d aborder systématiquement la construction de modèles de prévision
Plus en détailMaster IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1
Master IMEA Calcul Stochastique et Finance Feuille de T.D. n o Corrigé exercices8et9 8. On considère un modèle Cox-Ross-Rubinstein de marché (B,S) à trois étapes. On suppose que S = C et que les facteurs
Plus en détail1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données
1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données Votre interlocuteur Didier Gaultier Directeur Data Science Business & Decision Professeur de Statistique à l
Plus en détailAlgorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Plus en détailMODÈLE CROP DE CALIBRATION DES PANELS WEB
MODÈLE CROP DE CALIBRATION DES PANELS WEB 550, RUE SHERBROOKE OUEST MONTRÉAL (QUÉBEC) H3A 1B9 BUREAU 900 TOUR EST T 514 849-8086, POSTE 3064 WWW.CROP.CA Le Protocole CROP de calibration des panels en ligne
Plus en détailCHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle
CHAPITRE I Modélisation de processus et estimation des paramètres d un modèle I. INTRODUCTION. Dans la première partie de ce chapitre, nous rappelons les notions de processus et de modèle, ainsi que divers
Plus en détailLes simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences
Plus en détailK. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau
Apport des modèles de krigeage à la simulation numérique K Ammar, F Bachoc, JM Martinez CEA-Saclay, DEN, DM2S, F-91191 Gif-sur-Yvette, France Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des
Plus en détailAPPLICATION DE RESEAUX DE NEURONES ARTIFICIELS A LA RECONNAISSANCE AUTOMATIQUE DE CARACTERES MANUSCRITS
Faculté Polytechnique de Mons Dissertation originale présentée pour l obtention du grade de Docteur en Sciences Appliquées par Bernard GOSSELIN APPLICATION DE RESEAUX DE NEURONES ARTIFICIELS A LA RECONNAISSANCE
Plus en détailRenforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.
Master Mathématiques et Applications Spécialité : Ingénierie mathématique et modélisation Parcours : Mathématique et Informatique : Statistique, Signal, Santé (MI3S) 2015-2016 RÉSUMÉ DES COURS : (dernière
Plus en détailDruais Cédric École Polytechnique de Montréal. Résumé
Étude de load balancing par un réseau de neurones de types HME (Hierarchical Mixture of s). Druais Cédric École Polytechnique de Montréal Résumé Cet article tente d introduire le principe de load balancing
Plus en détailApprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière
Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière Nicolas Saunier INRETS Télécom Paris Sophie Midenet INRETS Alain Grumbach Télécom Paris Conférence
Plus en détailL'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
Plus en détailGestion de la Relation Client (GRC)
Techniques de DM pour la GRC dans les banques Page 2 I.1 Introduction La gestion de la relation client est devenue un processus essentiel dans les institutions bancaires. Ils essaient toujours d améliorer
Plus en détailDes données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox
Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.
Plus en détailClassification Automatique de messages : une approche hybride
RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,
Plus en détailI.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.
EPITA SCIA PROMO 2005 14-16 rue Voltaire 94270 Kremlin-Bicêtre I.D.S. Systèmes de détection d intrusion - Link Analysis Juillet 2004 par: DEVÈZE BENJAMIN FOUQUIN MATHIEU responsable: AKLI ADJAOUTE TABLE
Plus en détail$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
Plus en détailClassification non supervisée
AgroParisTech Classification non supervisée E. Lebarbier, T. Mary-Huard Table des matières 1 Introduction 4 2 Méthodes de partitionnement 5 2.1 Mesures de similarité et de dissimilarité, distances.................
Plus en détailQU EST-CE QUE LE DECISIONNEL?
La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce
Plus en détailProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection
ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection Nicolas HEULOT (CEA LIST) Michaël AUPETIT (CEA LIST) Jean-Daniel FEKETE (INRIA Saclay) Journées Big Data
Plus en détailApprentissage par renforcement (1a/3)
Apprentissage par renforcement (1a/3) Bruno Bouzy 23 septembre 2014 Ce document est le chapitre «Apprentissage par renforcement» du cours d apprentissage automatique donné aux étudiants de Master MI, parcours
Plus en détailMesure agnostique de la qualité des images.
Mesure agnostique de la qualité des images. Application en biométrie Christophe Charrier Université de Caen Basse-Normandie GREYC, UMR CNRS 6072 Caen, France 8 avril, 2013 C. Charrier NR-IQA 1 / 34 Sommaire
Plus en détailFOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS
FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS 550, RUE SHERBROOKE OUEST MONTRÉAL (QUÉBEC) H3A 1B9 BUREAU 900 TOUR EST T 514 849-8086, POSTE 3064 Réflexions méthodologiques Depuis des années,
Plus en détailAnnexe au dossier du cursus CMI SID Licence - Master en Ingénierie. Syllabus L3 et Master SID Statistique et Informatique Décisionnelle
Annexe au dossier du cursus CMI SID Licence - Master en Ingénierie Syllabus L3 et Master SID Statistique et Informatique Décisionnelle Toulouse 3 14 février 2013 1 I - Licence 3 Semestre 5 4 I-1. Concepts
Plus en détailIntervention en Formation Gestion de Projet
Intervention en Formation Gestion de Projet Micheline Debain 1 Apprendre les techniques de gestion de projet Que faut-il pour maitriser un projet? Comprendre les enjeux Savoir collecter les besoins Modaliser
Plus en détailMaster Informatique Aix-Marseille Université
Aix-Marseille Université http://masterinfo.univ-mrs.fr/ Département Informatique et Interactions UFR Sciences Laboratoire d Informatique Fondamentale Laboratoire des Sciences de l Information et des Systèmes
Plus en détailMagister INFORMATIQUE. Présenté par. Soutenu en Février 2011 devant la commission du jury composée de :
REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE ABOUBEKR BELKAID-TLEMCEN FACULTE DES SCIENCES DEPARTEMENT D INFORMATIQUE
Plus en détailStructure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données
Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques
Plus en détailCAPTEURS - CHAINES DE MESURES
CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,
Plus en détailPhilippe BESSE*, Hélène MILHEM*, Olivier MESTRE*,**, Anne DUFOUR***, Vincent-Henri PEUCH*** Résumé
Comparaison de techniques de «Data Mining» pour lʼadaptation statistique des prévisions dʼozone du modèle de chimie-transport MOCAGE A comparison of Data Mining techniques for the statistical adaptation
Plus en détailExtraction d informations stratégiques par Analyse en Composantes Principales
Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction
Plus en détailAXES DE RECHERCHE - DOMAINE D'INTERET MAJEUR LOGICIELS ET SYSTEMES COMPLEXES
1 AXES DE RECHERCHE - DOMAINE D'INTERET MAJEUR LOGICIELS ET SYSTEMES COMPLEXES 2 Axes de recherche L activité du DIM LSC concerne la méthodologie de la conception et le développement de systèmes à forte
Plus en détailPréparée au Laboratoire d'analyse et d'architecture des Systèmes du CNRS. Spécialité : Systèmes Automatiques. Par CLAUDIA VICTORIA ISAZA NARVAEZ
Année 2007 THÈSE Préparée au Laboratoire d'analyse et d'architecture des Systèmes du CNRS En vue de l'obtention du titre de Docteur de l'université de Toulouse, délivré par l Institut National des Sciences
Plus en détailFilière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.
Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.fr Plan Motivations Débouchés Formation UVs spécifiques UVs connexes Enseignants
Plus en détailChaînes de Markov au lycée
Journées APMEP Metz Atelier P1-32 du dimanche 28 octobre 2012 Louis-Marie BONNEVAL Chaînes de Markov au lycée Andreï Markov (1856-1922) , série S Problème 1 Bonus et malus en assurance automobile Un contrat
Plus en détailReprésentation des Nombres
Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...
Plus en détailApplication de la méthode de surface de réponse stochastique à l analyse de stabilité d un tunnel pressurisé
Application de la méthode de surface de réponse stochastique à l analyse de stabilité d un tunnel pressurisé Guilhem Mollon 1, Daniel Dias 2, Abdul-Hamid Soubra 3 1 Doctorant, Laboratoire de Génie Civil
Plus en détailJade. Projet Intelligence Artificielle «Devine à quoi je pense»
Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges
Plus en détailLes apports de l informatique. Aux autres disciplines
Les apports de l informatique Aux autres disciplines Le statut de technologie ou de sous-discipline est celui de l importation l et de la vulgarisation Le statut de science à part entière est lorsqu il
Plus en détailSyllabus du cours de musique. Maternelle. enseigné par Joël Chiasson
Syllabus du cours de musique Maternelle enseigné par Joël Chiasson DESCRIPTION DU COURS Le programme de musique permet aux élèves d explorer leurs idées, leurs expériences et leurs émotions et de développer
Plus en détailUniversité de Montréal. par Sylvain Pannetier Lebeuf
Université de Montréal Prédiction de l attrition en date de renouvellement en assurance automobile avec l aide de processus gaussiens par Sylvain Pannetier Lebeuf Département de mathématiques et statistiques
Plus en détailConception d un lecteur de musique intelligent basé sur l apprentissage automatique.
Université de Mons Faculté des Sciences Institut d Informatique Service d Algorithmique Conception d un lecteur de musique intelligent basé sur l apprentissage automatique. Mémoire réalisé par Xavier DUBUC
Plus en détailL analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :
La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.
Plus en détailStages de Formation en Statistique Appliquée et Logistique
Stages de Formation en Statistique Appliquée et Logistique Un aperçu de nos stages Titre Avec PC Durée Info Visualisation de données de laboratoire avec Excel oui 2 jours p. 3 Analyse de données de laboratoire
Plus en détailLoi binomiale Lois normales
Loi binomiale Lois normales Christophe ROSSIGNOL Année scolaire 204/205 Table des matières Rappels sur la loi binomiale 2. Loi de Bernoulli............................................ 2.2 Schéma de Bernoulli
Plus en détailLaboratoire d Informatique, de Traitement de l Information et des Systèmes EA 4108. 3 établissements T. Paquet D. Olivier T. Lecroq A.
Laboratoire d Informatique, de Traitement de l Information et des Systèmes EA 4108 3 établissements T. Paquet D. Olivier T. Lecroq A. Benshrair 7 équipes Disciplines 27-61, 25-26-43-64 L. Heutte DocApp
Plus en détailEXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE
ème Colloque National AIP PRIMECA La Plagne - 7- avril 7 EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE Bruno Agard Département de Mathématiques et de Génie Industriel, École
Plus en détailAnnexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Plus en détailAICp. Vincent Vandewalle. To cite this version: HAL Id: inria-00386678 https://hal.inria.fr/inria-00386678
Sélection prédictive d un modèle génératif par le critère AICp Vincent Vandewalle To cite this version: Vincent Vandewalle. Sélection prédictive d un modèle génératif par le critère AICp. 41èmes Journées
Plus en détail