Initiation à la fouille de données et à l apprentissage automatiq

Dimension: px
Commencer à balayer dès la page:

Download "Initiation à la fouille de données et à l apprentissage automatiq"

Transcription

1 Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence magnan 1 Extrait du cours de François Denis

2 Plan du cours 1 Informations générales 2 3

3 Plan 1 Informations générales 2 3

4 Organisation du cours 8 séances de 3 heures (Lundi 14h-17h) 4 séances de cours, 4 séances de TP Deux objectifs ; Bases de l apprentissage automatique Manipulation du logiciel SAS Enterprise Miner 1 examen écrit (12), 1 projet sur machine (8)

5 Informations et documents Infos sur le planning Documents Fichiers de données pour les TP magnan Section enseignement 2007/2008 Data Mining

6 Informations et documents

7 Plan 1 Informations générales 2 3

8 Schéma général

9 Définitions «L extraction de connaissances à partir de données (Data Mining) est un processus non trivial d identification de structures inconnues, valides et potentiellement exploitables dans les bases de données»

10 Définitions L apprentissage automatique (Machine Learning) : le «moteur» de la fouille de données tirer des règles générales à partir d observations particulières aussi appelé apprentissage à partir d exemples un des domaines d étude de l intelligence artificielle discipline très vaste très «à la mode»

11 Premier exemple Vous arrivez sur une île inconnue, vous apercevez un mouton noir. Quelles conclusions en tirer? Il y a un mouton noir sur cette île (fait) Il y a un et un seul mouton noir sur l île (overfitting, apprentissage par coeur) Certains moutons sont noirs sur l île Tous les moutons sont noirs sur l île (surgénéralisation)

12 Définitions «L apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine (au sens large) d évoluer grâce à un processus d apprentissage, et ainsi de remplir des tâches qu il est difficile ou impossible de remplir par des moyens algorithmiques plus classiques.»(wikipedia)

13 Apprentissage à partir d exemples Plusieurs catégories Une similarité : apprendre à classer des données de X dans un ensemble Y à partir d exemples

14 Régression Y est continu (ex : réels) : Prévision de la température, de la pression atmosphérique ou de la vitesse du vent en fonction de divers paramètres. Associer à un mail la probabilité que ce mail soit un SPAM. Prédire le temps restant à vivre à un malade en fonction d informations sur le patient et sur la maladie. etc... le terme régression vient du statisticien Galton

15 Classification Y est discret : Diagnostic médical Reconnaissance de caractères, de chiffres, de visages Filtrer les spams Fonction d une protéine Décision de l accord d un prêt bancaire etc... on distingue deux types de classification : supervisée et non supervisée

16 Classification non supervisée Y est discret et inconnu, on parle aussi de clustering : Etablir des profils de clients, d utilisateurs de transports, de spectateurs,... Distinguer des catégories de news séparer des individus selon leurs caractéristiques en lots homogènes cours de Master 1 de M.C. Roubaud (hiérarchie, cluster)

17 Classification supervisée Y est discret et connu : Mail : régulier ou spam Demandeur de prêt bancaire : à risque ou fiable Image numérisée d un caractère : quel caractère? Champignon : comestibles ou vénéneux etc... cours de cette année

18 Domaines d application de l apprentissage commercial, biologie, medecine, industrie pharmaceutique, finance, bourse, banque, web, sondage, diagnostic, analyse de texte, reconnaissance de formes, de sons, d images, prise de décision, traitement de signaux, détection de pannes, prévision (météo), analyse de documents, de mails, d articles, différencier des catégories, sciences cognitives, géographie, gestion, etc...

19 L apprentissage? Vous connaissez très bien... Nombreux domaines et applications de la vie courante Vous le cotoyez quotidiennement Quelques exemples?

20 Radars automatiques... Reconnaissance de la plaque puis des caractères sur la photo prise par le radar (par Sagem)

21 Tri automatique du courrier Reconnaissance automatique du code postal manuscrit

22 Google News

23 Google News

24 Google News : par thème (France) et par sujet

25 Amazon (et autres)

26 Amazon (et autres)

27 Ouvrages de référence Apprentissage artificiel par Antoine Cornuéjols et Laurent Miclet. Complet et pédagogique (et un des seuls en français!). Machine Learning de Tom Mitchell. Référence classique. The Elements of Statistical Learning par Hastie, Tibshirani, et Friedman. Excellente référence.

28 Plan 1 Informations générales 2 3

29 Point de départ : données classées S = {(x 1, y 1 ),..., (x l, y l )} observé i {1,..., l}, x i X, avec X un espace de description i {1,..., l}, y i Y, avec Y un ensemble de classes Exemple : X = mails, Y = régulier, spam Exemple : X = caractéristiques de patients, Y = maladies Exemple : X = contenu de pages web, Y = commercial, privé Exemple : X = articles scientifiques, Y = disciplines etc...

30 Espace de description Un ensemble de description X = X 1... X n où chaque X i est le domaine (ensemble des valeurs possibles) d un attribut symbolique, numérique ou structuré. les exemples sont décrits par des éléments de X exemple champignon : taille, couleur, odeur, etc... x = (x 1,..., x n ) X, x i X i et c est la valeur de la description (attribut) i de x Choix des attributs et choix de la représentation des descriptions primordial

31 Exemple : patient X = {X 1, X 2 } avec X 1 = { Température } X 2 = { Gorge irritée, Gorge non irritée } X = {X 1, X 2 } avec X 1 = { Basse, Normale, Haute } X 2 = { Gorge irritée, Gorge non irritée } X = {X 1, X 2, X 3 } avec X 1 = { Température } X 2 = { Gorge irritée, Gorge non irritée } X 3 = { âge } etc...

32 de la classification supervisée Un ensemble fini de classes Y Exemple patient : malade, sain Une variable aléatoire Z = (X, Y ) à valeurs dans X Y Les exemples d apprentissage de S sont des couples (x, y) X Y tirés selon la distribution jointe P(Z = (x, y)) = P(X = x)p(y = y X = x). Un échantillon S est un ensemble fini d exemples {(x 1, y 1 ),..., (x l, y l )} i.i.d. selon P.

33 de la classification supervisée Objectif : à partir de l échantillon S, construire (calculer) une fonction f : X Y, appelée classifieur, qui approche au mieux la relation existante entre les descriptions de X et les classes de Y Contrainte : la relation entre X et Y est fixe mais inconnue, on ne dispose que de l échantillon S comme information partielle sur cette relation f doit posséder de bonnes capacités de généralisation.

34 de la classification supervisée (suite) Classifieur : f : X Y. Fonction de perte (loss function) { 0 si y = f (x) L(y, f (x)) = 1 sinon. La fonction risque (ou erreur) : espérance mathématique de la fonction de perte. R(f ) = L(y, f (x))dp(x, y) = dp(x, y) = P(y f (x)). y f (x) Le problème général de la classification supervisée : étant donné un échantillon S = {(x 1, y 1 ),..., (x l, y l )}, trouver un classifieur f qui minimise le risque R(f ).

35 Mais... étant donné un échantillon S = {(x 1, y 1 ),..., (x l, y l )}, trouver un classifieur f qui minimise le risque R(f ). Contrainte : dans la plupart des cas, le risque n est pas calculable car on ne dispose pas d assez d information sur la distribution P sur X Y

36 de la classification supervisée (suite) X : domaine des descriptions Y : ensemble des classes étiquetage p(x) distribution inconnue x non déterministe y z p(y x) S = {(x 1, y 1 ),..., (x l, y l )} tiré selon p(x, y) = p(x)p(y x) Objectif : trouver f : X Y dont l erreur R(f) = P (y f(x)) soit la plus petite possible.

37 Remarques 1 Le modèle est non déterministe : le problème cible peut être réellement non déterministe ; le problème peut être bruité ; l espace de descriptions peut ne décrire qu incomplètement une situation complexe. 2 Le problème est non déterministe mais on en cherche une solution déterministe. 3 Le modèle est non paramétrique : aucun modèle spécifique de génération de données n est présupposé ; aucune contrainte sur l ensemble des fonctions que l on doit considérer ni sur le type de dépendances entre fonctions et paramètres. 4 D autres fonctions de pertes peuvent être considérées. En particulier, on peut envisager des coûts différents selon les erreurs commises.

Classification, Apprentissage, Décision

Classification, Apprentissage, Décision Classification, Apprentissage, Décision Rémi Eyraud remi.eyraud@lif.univ-mrs.fr http://www.lif.univ-mrs.fr/~reyraud/ Cours inspiré par ceux de François Denis et Laurent Miclet. Plan général du cours Introduction

Plus en détail

Apprentissage automatique

Apprentissage automatique Apprentissage automatique François Denis, Hachem Kadri, Cécile Capponi Laboratoire d Informatique Fondamentale de Marseille LIF - UMR CNRS 7279 Equipe QARMA francois.denis@lif.univ-mrs.fr 2 Chapitre 1

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée

Contenu. Sources et références. Classification supervisée. Classification supervisée vs. non-supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2012-2013 B. Derbel L. Jourdan A. Liefooghe Contenu Classification

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

Fouille de données et aide à la décision.

Fouille de données et aide à la décision. Fouille de données et aide à la décision. Introduction au datamining. Anne-Claire Haury M2 Informatique Université Denis Diderot Second semestre 2014-2015 1 Introduction 2 Outline 1 Peut-on faire dire

Plus en détail

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012

Data Mining. Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 Data Mining Exposés logiciels, systèmes et réseaux. Damien Jubeau IR3 Lundi 19 novembre 2012 2 Plan Data mining : définition, utilisations et concepts Wolfram Alpha : extraction de données d'un compte

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

Sélection- validation de modèles

Sélection- validation de modèles Sélection- validation de modèles L. Rouvière laurent.rouviere@univ-rennes2.fr JANVIER 2015 L. Rouvière (Rennes 2) 1 / 77 1 Quelques jeux de données 2 Sélection-choix de modèles Critères de choix de modèles

Plus en détail

Ce qu est le Data Mining

Ce qu est le Data Mining Data Mining 1 Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Mallette du Dirigeant

Mallette du Dirigeant Mallette du Dirigeant Durée : Dates : Horaires : Lieu : Public : Tarif : Effectif : 3 jours (21 heures) de formation collective et 4h d individuel soit 25h au total. Jour 1 : 22 septembre 2014 (7h) Jour

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Université Ibn Zohr Faculté des Sciences Juridiques, Économiques et Sociales Exposé sous le thème : Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Plan : Introduction : L

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Apprentissage statistique Stratégie du Data-Mining

Apprentissage statistique Stratégie du Data-Mining Apprentissage statistique Stratégie du Data-Mining Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Apprentissage statistique

Plus en détail

Support Vector Machines

Support Vector Machines Support Vector Machines Séparateurs à vaste marge Arnaud Revel revel.arnaud@gmail.com Plan 1 Introduction 2 Formalisation 3 Utilisation des noyaux 4 Cas multi-classes 5 Applications des SVM 6 Bibliographie

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 WEKA : c est quoi? Brigitte Bigi LPL - Équipe C3I 15 février 2011 Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 Introduction 1 Introduction 2 Classification supervisée 3 WEKA

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Cours Fouille de données avancée

Cours Fouille de données avancée Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Mohamed Khider - Biskra Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie Département d Informatique

Plus en détail

TP DE DATA MINING 2 : MODELISATION AVEC SPSS CLEMENTINE

TP DE DATA MINING 2 : MODELISATION AVEC SPSS CLEMENTINE TP DE DATA MINING 2 : MODELISATION AVEC SPSS CLEMENTINE EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET TP n 2 de DATA MINING : Modélisation 1 Jeu de données

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes STA108 Enquêtes et sondages Sondages àplusieurs degrés et par grappes Philippe Périé, novembre 2011 Sondages àplusieurs degrés et par grappes Introduction Sondages à plusieurs degrés Tirage des unités

Plus en détail

Poker. A rendre pour le 25 avril

Poker. A rendre pour le 25 avril Poker A rendre pour le 25 avril 0 Avant propos 0.1 Notation Les parties sans * sont obligatoires (ne rendez pas un projet qui ne contient pas toutes les fonctions sans *). Celles avec (*) sont moins faciles

Plus en détail

La version 12 de PaperPort s est enrichie de nombreuses fonctions qui vont vous aider à gérer encore plus efficacement l ensemble de vos documents.

La version 12 de PaperPort s est enrichie de nombreuses fonctions qui vont vous aider à gérer encore plus efficacement l ensemble de vos documents. Bienvenue! Nuance PaperPort est un logiciel de gestion documentaire qui vous permet de numériser, d organiser, de consulter, de manipuler et de partager vos documents papier et vos fichiers numériques

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Beamex. Calibration White Paper. www.beamex.com info@beamex.com. Configuration et étalonnage des instruments intelligents

Beamex. Calibration White Paper. www.beamex.com info@beamex.com. Configuration et étalonnage des instruments intelligents Beamex Calibration White Paper info@beamex.com Configuration et étalonnage des instruments intelligents Configuration et étalonnage des instruments intelligents Les instruments intelligents sont de plus

Plus en détail

UNIVERSITE DE LORRAINE CALCIUM

UNIVERSITE DE LORRAINE CALCIUM UNIVERSITE DE LORRAINE CALCIUM Outil pour la gestion des dossiers médicaux des étudiants dans les services universitaires de médecine préventive Table des matières CALCIUM... 0 I. L INFORMATION GÉRÉE PAR

Plus en détail

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique.

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique. I INTRODUCTION Les pages de phishing sont l un des problèmes majeurs de sécurité sur internet. La majorité des attaques utilisent des méthodes sophistiquées comme les fausses pages pour tromper les utilisateurs

Plus en détail

Un logiciel open source pour l enseignement et la recherche

Un logiciel open source pour l enseignement et la recherche Un logiciel open source pour l enseignement et la recherche Ricco RAKOTOMALALA Laboratoire ERIC Université Lumière Lyon 2 http://chirouble.univ-lyon2.fr/~ricco/tanagra/ 1 sur 23 PLAN 1. Objectifs du projet

Plus en détail

INTRODUCTION AU DATA MINING. Cina MOTAMED

INTRODUCTION AU DATA MINING. Cina MOTAMED INTRODUCTION AU DATA MINING Cina MOTAMED 2 Data Mining : contexte Âge numérique : explosion des volumes de données Transactions commerciales Opérations bancaires Navigation Internet Indicateurs démographiques

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Méthodes d apprentissage :

Méthodes d apprentissage : Méthodes d apprentissage : application au tri de complexes protéines-protéines Jérôme Azé Apprentissage: tâches Apprentissage non supervisé (Eisen, ) Apprentissage supervisé (arbres de décision, k-ppv,

Plus en détail

Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année

Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année 1 / 20 Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année Cours : Jérôme Azé Université Paris-Sud LRI 2009-2010 2 / 20 Outline 1 Présentation de A q Algorithme Défauts

Plus en détail

But du cours. Sources & références. Sources & références. Sources & références. Plan. La fouille de données (ou data mining) Principe (postulat...

But du cours. Sources & références. Sources & références. Sources & références. Plan. La fouille de données (ou data mining) Principe (postulat... But du cours Vocabulaire, principes et techniques du Data Mining Méthodes et Algorithmes Interprétation des résultats. Data Mining : Concepts and Techniques J. Han, M. Kamber Morgan Kaufmann Le Data Mining

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

SPLEX Statistiques pour la classification et fouille de données en

SPLEX Statistiques pour la classification et fouille de données en SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB Pierre-Henri WUILLEMIN DEcision, Système Intelligent et Recherche opérationnelle LIP6 pierre-henri.wuillemin@lip6.fr

Plus en détail

Data Mining, fouille de données: Concepts et techniques. Marius Fieschi Faculté de Médecine de Marseille

Data Mining, fouille de données: Concepts et techniques. Marius Fieschi Faculté de Médecine de Marseille Data Mining, fouille de données: Concepts et techniques Marius Fieschi Faculté de Médecine de Marseille Data Mining, fouille de données: Concepts et techniques Ce cours est très proche du cours diffusé

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

Lois de probabilité. Anita Burgun

Lois de probabilité. Anita Burgun Lois de probabilité Anita Burgun Problème posé Le problème posé en statistique: On s intéresse à une population On extrait un échantillon On se demande quelle sera la composition de l échantillon (pourcentage

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Analyse et modélisation de visages

Analyse et modélisation de visages Analyse et modélisation de visages Pascal Bourdon Laboratoire XLIM-SIC (UMR CNRS 7252) / Université de Poitiers pascal.bourdon@univ-poitiers.fr Analyse et modélisation de visages Plan Introduction Outils

Plus en détail

Apprentissage Automatique Numérique

Apprentissage Automatique Numérique Apprentissage Automatique Numérique Loïc BARRAULT Laboratoire d Informatique de l Université du Maine (LIUM) loic.barrault@lium.univ-lemans.fr 16 septembre 2015 1/42 Problème classique Automatique Autre

Plus en détail

Les zones à environnement contrôlé : conception, mise en place et maintien de zones à environnement contrôlé :

Les zones à environnement contrôlé : conception, mise en place et maintien de zones à environnement contrôlé : Les zones à environnement contrôlé : conception, mise en place et maintien de zones à environnement contrôlé : partie II : Les exigences du contrôle de qualité Prof. P.ODOU Institut de Pharmacie du CHRU

Plus en détail

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation Premières classifications : apprentissage et évaluation L objectif de ce TP est double : prise en main de la bibliothèque scikit-learn de Python, dédiée à l apprentissage automatique, sensibilisation à

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

MASTER INFORMATIQUE Parcours INFORMATIQUE DECISIONNELLE

MASTER INFORMATIQUE Parcours INFORMATIQUE DECISIONNELLE MASTER INFORMATIQUE Parcours INFORMATIQUE DECISIONNELLE Responsable du parcours: Prof Hoai An LE THI Département d Informatique, UFR MIM Tel. 03 87 31 54 41, email lethi@univ-metz.fr Informatique décisionnelle

Plus en détail

V ERSION EXPERIMENTALE

V ERSION EXPERIMENTALE V ERSION EXPERIMENTALE Cette version de Sipina v 3.0 n est pas, et ne sera jamais, définitive, elle sert d outil de recherche, elle a plus une vocation d outil d expérimentation que de logiciel dédié au

Plus en détail

Les mathématiques à Toulouse

Les mathématiques à Toulouse Université de Toulouse (INSA, INPT, ISAE, Universités Toulouse I, Toulouse II et Toulouse III) Une multitude de parcours pour tous les niveaux Des secteurs variés Industries aérospatiale, pharmaceutique,

Plus en détail

1. L évolution de la compétitivité de l entreprise... 1. 2. Le contexte de la nouvelle gestion de production... 4

1. L évolution de la compétitivité de l entreprise... 1. 2. Le contexte de la nouvelle gestion de production... 4 Sommaire Chapitre 1 Introduction 1. L évolution de la compétitivité de l entreprise... 1 2. Le contexte de la nouvelle gestion de production... 4 3. La gestion de production et les flux... 5 4. Gestion

Plus en détail

Facturation. JMB Informatique, une équipe à votre service depuis 1989. JMB Informatique : 76 route Nationale - 69330 Pusignan - France

Facturation. JMB Informatique, une équipe à votre service depuis 1989. JMB Informatique : 76 route Nationale - 69330 Pusignan - France Progilift Technique & Facturation JMB Informatique, une équipe à votre service depuis 1989 JMB Informatique : 76 route Nationale - 69330 Pusignan - France Tél. : +33 Toutes (0)4 les 78 informations 31

Plus en détail

Méthodes d apprentissage statistique («Machine Learning»)

Méthodes d apprentissage statistique («Machine Learning») Méthodes d apprentissage statistique («Machine Learning») Journées d Etudes IARD Niort, 21 Mars 2014 Fabrice TAILLIEU Sébastien DELUCINGE Rémi BELLINA 2014 Milliman. All rights reserved Sommaire Introduction

Plus en détail

EVOLUTIONS EXOGENES. REVER S.A. Belgique Tél : +32 71 20 71 61 http://www.rever.eu

EVOLUTIONS EXOGENES. REVER S.A. Belgique Tél : +32 71 20 71 61 http://www.rever.eu EVOLUTIONS EXOGENES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas être considérés comme un engagement

Plus en détail

Introduction à l Intelligence Artificielle

Introduction à l Intelligence Artificielle Introduction à l Intelligence Artificielle p. 1/41 Introduction à l Intelligence Artificielle Cyril Terrioux Laboratoire des Sciences de l Information et des Systèmes LSIS - UMR CNRS 6168 Introduction

Plus en détail

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux Plan Motivations Débouchés Formation UVs spécifiques UVs connexes Enseignants et partenaires Motivations de la filière fouille de données

Plus en détail

COURS DE STATISTIQUES (24h)

COURS DE STATISTIQUES (24h) COURS DE STATISTIQUES (24h) Introduction Statistiques descriptives (4 h) Rappels de Probabilités (4 h) Echantillonnage(4 h) Estimation ponctuelle (6 h) Introduction aux tests (6 h) Qu est-ce que la statistique?

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

Ingénierie de Systèmes Intelligents

Ingénierie de Systèmes Intelligents Ingénierie de Systèmes Intelligents p. 1/? Ingénierie de Systèmes Intelligents Maria Malek maria.malek@eisti.fr Ecole Internationale des Sciences de Traitement de l Information (EISTI) http://www.eisti.fr/

Plus en détail

GIND5439 Systèmes Intelligents. Septembre 2004

GIND5439 Systèmes Intelligents. Septembre 2004 GIND5439 Systèmes Intelligents Septembre 2004 Contenu du cours Introduction aux systèmes experts Intelligence artificielle Représentation des connaissances Acquisition de connaissances Systèmes à base

Plus en détail

Programme détaillé des enseignements

Programme détaillé des enseignements Programme détaillé des enseignements SEMESTRE S1 STATISTIQUES Méthodes d'estimation ponctuelle (méthodes des moments, du maximum de vraisemblances, bayésienne) et par intervalles de confiance. Statistiques

Plus en détail

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Technologie et biologie (TB) Discipline : Informatique Première et seconde années Programme d informatique

Plus en détail

CHAPITRE 6. Capteurs intelligents

CHAPITRE 6. Capteurs intelligents CHAPITRE 6 Capteurs intelligents Gwenaëlle TOULMINET asi 2002-2003 1 Introduction Développement industriel nécessite une instrumentation coûteuse Maîtrise des procédés de fabrication. Maîtrise de la qualité

Plus en détail

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme

Distance et classification. Cours 4: Traitement du signal et reconnaissance de forme Distance et classification Cours 4: Traitement du signal et reconnaissance de forme Plan Introduction Pré-traitement Segmentation d images Morphologie mathématique Extraction de caractéristiques Classification

Plus en détail

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Incertitude et variabilité : la nécessité de les intégrer dans les modèles Incertitude et variabilité : la nécessité de les intégrer dans les modèles M. L. Delignette-Muller Laboratoire de Biométrie et Biologie Evolutive VetAgro Sup - Université de Lyon - CNRS UMR 5558 24 novembre

Plus en détail

Analyse exploratoire de données

Analyse exploratoire de données Analyse exploratoire de données Françoise Fessant TECH/SUSI 28/09/2006 Sommaire Analyse exploratoire de données Cartes de kohonen Analyse des usages ADSL p2 Analyse exploratoire de données Construction

Plus en détail

Intelligence Artificielle. Dorra BEN AYED

Intelligence Artificielle. Dorra BEN AYED Intelligence Artificielle Dorra BEN AYED Chapitre 1 Introduction et Présentation Générale Sommaire Introduction Historique Définitions de l IAl Domaines d applicationd Les approches de l IA cognitive,

Plus en détail

Le data mining met en œuvre un ensemble de techniques issues des statistiques, de l analyse de données et de l informatique pour explorer les données.

Le data mining met en œuvre un ensemble de techniques issues des statistiques, de l analyse de données et de l informatique pour explorer les données. COURS DE DATA MINING 3 : MODELISATION PRESENTATION GENERALE EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET Phase 4 : Modelisation 1 Classement des techniques

Plus en détail

Arbres de décisions et évaluation d un classifieur

Arbres de décisions et évaluation d un classifieur Programmation orientée objet L2 Info 211A Arbres de décisions et évaluation d un classifieur M1 option RDF janvier 2011 Ce TP comporte trois parties dont l objectif est i) d utiliser un arbre de décision

Plus en détail

Apprendre la stratégie de l adversaire

Apprendre la stratégie de l adversaire M1 Master d informatique 28/29 Apprentissage à Partir d Exemples janvier 29 Apprendre la stratégie de l adversaire 1 But Soit un jeu à deux joueurs quelconque. Supposons que l un des deux joueurs suive

Plus en détail

Plan. Entreprise Guide ou comment rendre presque séduisantes les procédures statistiques de SAS. Tirer un échantillon d'une table existante (1)

Plan. Entreprise Guide ou comment rendre presque séduisantes les procédures statistiques de SAS. Tirer un échantillon d'une table existante (1) Entreprise Guide ou comment rendre presque séduisantes les procédures statistiques de SAS Présentation au Club des Utilisateurs SAS de Québec 30 octobre 2006 Jean Hardy Services Conseils Hardy Plan Tirer

Plus en détail

Organisation et gestion de données cycle 3

Organisation et gestion de données cycle 3 Organisation et gestion de données cycle 3 Clarifier les enjeux de cet enseignement Formation d enseignants de cycle 3 Circonscription de Grenoble 2 Positionnement de la pratique. En classe, comment travaillez-

Plus en détail

Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif

Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif Séminaire DIXIT - Les nouvelles frontières de la «data intelligence» : content analytics, machine-learning, prédictif 13 avril 2015 LES INNOVATIONS DANS LA SOCIAL MEDIA INTELLIGENCE Expérience informationnelle

Plus en détail

Analyse de données électroniques et intelligence d affaires

Analyse de données électroniques et intelligence d affaires Analyse de données électroniques et intelligence d affaires Valoriser les données internes et externes 3 avril 2014 Ordre du jour UNE INTRODUCTION À L ANALYSE DE DONNÉES Analyse de données et l intelligence

Plus en détail

SCI03 - Analyse de données expérimentales

SCI03 - Analyse de données expérimentales SCI03 - Analyse de données expérimentales Introduction à la statistique Thierry Denœux 1 1 Université de Technologie de Compiègne tél : 44 96 tdenoeux@hds.utc.fr Automne 2014 Qu est ce que la statistique?

Plus en détail

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel PLAN DE COURS «ANALYSE DE DONNEES TEXTUELLES» Trois approches pour l analyse de textes Analyse qualitative Analyse quantitative Fouille de textes Introduction au logiciel QDA Miner Introduction et gestion

Plus en détail

DECHARGEMENT ET CHARGEMENT MASSIF DES DONNEES

DECHARGEMENT ET CHARGEMENT MASSIF DES DONNEES DECHARGEMENT ET CHARGEMENT MASSIF DES DONNEES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas être

Plus en détail

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

Ingénierie d aide à la décision

Ingénierie d aide à la décision Ingénierie d aide à la décision Maria Malek 1 er septembre 2009 1 Objectifs et débouchés Nous proposons dans cette option deux grands axes pour l aide à la décision : 1. La recherche opérationnelle ; 2.

Plus en détail

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Modèles à Événements Discrets. Réseaux de Petri Stochastiques Modèles à Événements Discrets Réseaux de Petri Stochastiques Table des matières 1 Chaînes de Markov Définition formelle Idée générale Discrete Time Markov Chains Continuous Time Markov Chains Propriétés

Plus en détail

ENSIIE - Intelligence Artificielle (RIIA) - 1er cours

ENSIIE - Intelligence Artificielle (RIIA) - 1er cours ENSIIE - Intelligence Artificielle (RIIA) - 1er cours Benjamin PIWOWARSKI 28 septembre 2015 Benjamin PIWOWARSKI IA - 1er cours 28 septembre 2015 1 / 53 Introduction Plan 1 Introduction 2 Définitions 3

Plus en détail

Problèmes et Algorithmes Fondamentaux III Algorithme distribué probabiliste

Problèmes et Algorithmes Fondamentaux III Algorithme distribué probabiliste Problèmes et Algorithmes Fondamentaux III Algorithme distribué probabiliste Arnaud Labourel Université de Provence 12 avril 2012 Arnaud Labourel (Université de Provence) Problèmes et Algorithmes Fondamentaux

Plus en détail

Support du cours de Probabilités IUT d Orléans, Département d informatique

Support du cours de Probabilités IUT d Orléans, Département d informatique Support du cours de Probabilités IUT d Orléans, Département d informatique Pierre Andreoletti IUT d Orléans Laboratoire MAPMO (Bât. de Mathématiques UFR Sciences) - Bureau 126 email: pierre.andreoletti@univ-orleans.fr

Plus en détail

Ingénierie de Systèmes Intelligents

Ingénierie de Systèmes Intelligents Ingénierie de Systèmes Intelligents p. 1/ Ingénierie de Systèmes Intelligents Application : Web Intelligent Maria Malek EISTI Ingénierie de Systèmes Intelligents p. 2/ Objectif Traitement Intelligent des

Plus en détail

Sébastien Mignot. Encadrant : Michèle Sebag Laboratoire de Recherche en Informatique Université Paris Sud

Sébastien Mignot. Encadrant : Michèle Sebag Laboratoire de Recherche en Informatique Université Paris Sud Stratégies de décision dans les arbres de recherche pour jeux basées sur des informations incomplètes Application au bridge : Apprentissage statistique des enchères et jeu de la carte optimal Sébastien

Plus en détail

Simulation d un système d assurance automobile

Simulation d un système d assurance automobile Simulation d un système d assurance automobile DESSOUT / PLESEL / DACHI Plan 1 Introduction... 2 Méthodes et outils utilisés... 2.1 Chaines de Markov... 2.2 Méthode de Monte Carlo... 2.3 Méthode de rejet...

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail