Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse

Dimension: px
Commencer à balayer dès la page:

Download "Classification par des méthodes de data mining. Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse"

Transcription

1 Classification par des méthodes de data mining Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse

2 Plan: Le processus métier Présentation des 3 méthodes étudiées: Arbres de décision Machines à vecteurs de support (SVM) Régression logistique Prétraitement des données Mise en pratique sur des données réelles

3 Le Processus Métier : Principales Etapes Définition des objectifs Préparation des données Adaptation au modèle Construction du modèle Validation du modèle Itérations des étapes Modèle final

4 Arbres de décision I Classifier un élément - suite de tests sur ses attributs. A partir d un ensemble d apprentissage. Définir une mesure pour trouver le meilleur attribut à tester: mesure = entropie croisée I( ω, a) = p( u, v)log2 p( u, v) p( u) p( ) u, v D v ω D a

5 Arbres de décision II

6 Arbres de décision III Algorithme C4.5 Elagage d un arbre trop précis: sur-apprentissage sous-apprentissage. Comment gérer les attributs à valeurs continue? Comment gérer les champs vides?

7 SVM I Déterminer la frontière entre deux classes d éléments: Hyperplan T h( x) = ω x + ω 0

8 SVM II Forme primale Maximiser Sous cont. 1 2 ω 2 T ui ( ω xi + ω0) 1, i = 1,..., m Forme duale, Multiplicateurs de Lagrange Hyperplan optimal: m * * h( x) = α u.( x. x ) + ω i= 1 i i i 0

9 SVM III Passage dans un espace de redescription F R x X R x = = 3 2 ) φ( F R x X R x = = 3 2 ) φ( = + = m i i i i x x u x h 1 * 0 * ) ( ). (. ) ( ω φ φ α

10 SVM IV Fonctions noyau K: i= Exemple: Soit et φ( x ) = ( x1, x2, x1x2, x1x2. Le produit scalaire φ m * * h( x) = α u K( x, x ) + ω i i donne: φ( x ). φ( x') = x1 x' 1 + 2x1x2 x' 1 x' 2+ x2 x' 2 = ( x. x' ) On peut donc calculer le produit scalaire sans connaitre φ i x = x 1, x ) ) ( 2 ( x). φ( x') 0

11 Régression logistique I Modélisation d une variable dépendante Y binaire (qualitative) en fonction d une variable explicative X. )... ( ) ( ) ( ) 1 ( k k T x x F x F x p x X Y P β β β β = = = = =

12 Régression logistique Modèle linéaire généralisé (GLM). F 1 ( p( x)) T = β x La fonction F choisie est la fonction de répartition de la distribution logistique. logit( p( x)) = log( p( x) /1 p( x)) = β + β x β k x k

13 Prétraitement des données : Suppression des redondances education education-num relationship sex Bachelors Not-in-family Male Some-college Husband Male 11th Husband Male Masters Wife Female Bachelors Own-child Female 9th Not-in-family Female 9th Husband Male Suppression des colonnes similaires Regroupement des modalités education-num relationship sex Not-in-family Male Married Male Married Male Married Female Own-child Female Not-in-family Female Married Male

14 Prétraitement des données Transformation des données Relationship qualitatives Wife Own-child Husband Not-in-family Other-relative Unmarried Création de vecteurs indicateurs pour chaque modalité Own-child Married Not-in-family Other-relative Unmarried

15 Prétraitement des données Normalisation des données quantitatives age Division par l'écart-type age

16 Prétraitement des données Egalisation des modalités Suppression des modalités très peu représentées Regroupement des modalités entre elles Exemple : 49 modalités pour les différents pays => regroupés par continent

17 Résultats - Arbres de décision Algorithme CART : pas de prétraitement notions de pureté d'un noeud

18 Résultats - Arbres de décision Données d'apprentissage (réel) >50K (réel) <=50K précisions (prédiction) >50K a=4025 b=1247 a/(a+b)=79.35% (prédiction) <=50K c=3816 d=23473 d/(c+d)=86.01% rappels a/(a+c)=51.33% d/(b+d)=94.95% (a+d)/(a+b+c+d)=84.45% Données de test (réel) >50K (réel) <=50K précisions (prédiction) >50K a=1945 b=630 a/(a+b)=75.53% (prédiction) <=50K c=1901 d=11805 d/(c+d)=86.13% rappels a/(a+c)=50.57% d/(b+d)=94.93% (a+d)/(a+b+c+d)=84.45%

19 Résultats - Arbres de décision données apprentissage (22560 ind.) Avant élagage Après élagage Taille de l'arbre Erreurs 1779 (7.9%) 2441 (13.1%) données test (10001 ind.) Avant élagage Après élagage Taille de l'arbre Erreurs 1571 (15.7%) 1369 (13.7%) CONCLUSION : - Meilleurs résultats de l'algorithme C4.5 par rapport à l'algorithme CART SOURCES DES RESULTATS : - CART : paquetage rpart de R - C4.5 : extension de l'algorithme ID3 conçu par Quinlan

20 Résultats - SVMs Utilisation de la fonction svm sous R Jeu de données adult (dimension 14) K ( u,v) = e γ u v Meilleur noyau : gaussien (précision de 84%) 2 Influence de gamma sur la qualité du modèle Maximum de précision (83.4%) : gamma = 0.04

21 Résultats - SVMs Utilisation du logiciel SVMLight fourni : Effets du prétraitement sur les résultats : - élimination de la redondance => premiers résultats obtenus en un temps raisonnable - éclatement des données qualitatives en vecteurs indicateurs => légère amélioration de la précision (~75%) mais doublement du temps de calcul - normalisation par l'ecart type => amélioration significative des résultats (passage de la précision à 85.5%) - regroupement en classes & élimination des valeurs à zéro => réduction du temps de calcul en deçà d'une minute. Paramètre gamma optimal : 0,16 (précision obtenue = 85.47%) CONCLUSION : - Résultats identiques pour les 2 implémentations choisies (R & SVMLight). - Légèrement moins précis que les arbres de décisions.

22 Résultats Régression logistique Régression logistique binomiale Données adult (data mining) (réel) >50K (réel) <=50K précisions (prédiction) >50K a=6805 b=95 a/(a+b)=98.62% (prédiction) <=50K c=1550 d=808 d/(c+d)=34.26% rappels a/(a+c)=81.44% d/(b+d)=89.48% (a+d)/(a+b+c+d)=82.23%

Classification dans des bases de données par des méthodes de datamining

Classification dans des bases de données par des méthodes de datamining Classification dans des bases de données par des méthodes de datamining Yawo Eli Amesefe Guillaume Cernier Christophe Labrousse Introduction L utilisation généralisée de l informatique ces dernières dizaines

Plus en détail

Introduction aux Support Vector Machines (SVM)

Introduction aux Support Vector Machines (SVM) Introduction aux Support Vector Machines (SVM) Olivier Bousquet Centre de Mathématiques Appliquées Ecole Polytechnique, Palaiseau Orsay, 15 Novembre 2001 But de l exposé 2 Présenter les SVM Encourager

Plus en détail

SPLEX Statistiques pour la classification et fouille de données en

SPLEX Statistiques pour la classification et fouille de données en SPLEX Statistiques pour la classification et fouille de données en génomique Classification Linéaire Binaire CLB Pierre-Henri WUILLEMIN DEcision, Système Intelligent et Recherche opérationnelle LIP6 pierre-henri.wuillemin@lip6.fr

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

Apprentissage supervisé

Apprentissage supervisé Apprentissage supervisé 1 Apprendre aux ordinateurs à apprendre Objectif : appliquer la démarche de l apprentissage par l exemple à l ordinateur. Montrer des exemples à l ordinateur en lui disant de quoi

Plus en détail

Apprentissage statistique:

Apprentissage statistique: Apprentissage statistique: Arbre de décision binaire et Random Forest 1 Plan 1. Introduction 2. 3. Application à l apprentissage supervisé 4. Forêt Aléatoire (Random Forest) 2 1 Plan 1. Introduction 2.

Plus en détail

SVM : Machines à Vecteurs de Support ou Séparateurs à Vastes Marges

SVM : Machines à Vecteurs de Support ou Séparateurs à Vastes Marges SVM : Machines à Vecteurs de Support ou Séparateurs à Vastes Marges Mohamadally Hasan Fomani Boris BD Web, ISTY3 Versailles St Quentin, France hmohamad@isty-info.uvsq.fr bfomanik@isty-info.uvsq.fr 16 janvier

Plus en détail

Méthodes avancées en décision

Méthodes avancées en décision Méthodes avancées en décision Support vector machines - Chapitre 2 - Principes MRE et MRS Principe MRE. Il s agit de minimiser la fonctionnelle de risque 1 P e (d) = y d(x;w, b) p(x, y) dxdy. 2 La densité

Plus en détail

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé

DATA MINING 2 Réseaux de Neurones, Mélanges de classifieurs, SVM avancé I. Réseau Artificiel de Neurones 1. Neurone 2. Type de réseaux Feedforward Couches successives Récurrents Boucles de rétroaction Exemples de choix pour la fonction : suivant une loi de probabilité Carte

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Analyse et modélisation de visages

Analyse et modélisation de visages Analyse et modélisation de visages Pascal Bourdon Laboratoire XLIM-SIC (UMR CNRS 7252) / Université de Poitiers pascal.bourdon@univ-poitiers.fr Analyse et modélisation de visages Plan Introduction Outils

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Comparaison d approches statistiques pour la classification de textes d opinion. Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM)

Comparaison d approches statistiques pour la classification de textes d opinion. Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM) Comparaison d approches statistiques pour la classification de textes d opinion Michel Plantié, Gérard Dray, Mathieu Roche (LGI2P/EMA LIRMM) Caractéristiques des traitements Approche identique pour les

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

Les arbres de décision

Les arbres de décision Les arbres de décision 25 Septembre 2007 Datamining 1 2007-2008 Plan 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining 2 2007-2008 Les données du Titanic Le partitionnement

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

Support Vector Machines

Support Vector Machines Support Vector Machines Séparateurs à vaste marge Arnaud Revel revel.arnaud@gmail.com Plan 1 Introduction 2 Formalisation 3 Utilisation des noyaux 4 Cas multi-classes 5 Applications des SVM 6 Bibliographie

Plus en détail

TP DE DATA MINING 2 : MODELISATION AVEC SPSS CLEMENTINE

TP DE DATA MINING 2 : MODELISATION AVEC SPSS CLEMENTINE TP DE DATA MINING 2 : MODELISATION AVEC SPSS CLEMENTINE EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET TP n 2 de DATA MINING : Modélisation 1 Jeu de données

Plus en détail

INTERPRÉTATION DES RÉSULTATS DE SVM

INTERPRÉTATION DES RÉSULTATS DE SVM INTERPRÉTATION DES RÉSULTATS DE SVM Thanh-Nghi Do & François Poulet {dothanh poulet}@esiea-ouest.fr ESIEA Recherche 38, rue des Docteurs Calmette et Guérin Parc Universitaire de Laval-Changé 53000-Laval

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

TECH. INFOTECH # 34 Solvabilité 2 : Le calcul du capital économique dans le cadre d un modèle interne. Introduction

TECH. INFOTECH # 34 Solvabilité 2 : Le calcul du capital économique dans le cadre d un modèle interne. Introduction INFO # 34 dans le cadre d un modèle interne Comment les méthodes d apprentissage statistique peuvent-elles optimiser les calculs? David MARIUZZA Actuaire Qualifié IA Responsable Modélisation et Solvabilité

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Analyse des données individuelles groupées

Analyse des données individuelles groupées Analyse des données individuelles groupées Analyse des Temps de Réponse Le modèle mixte linéaire (L2M) Y ij, j-ième observation continue de l individu i (i = 1,, N ; j =1,, n) et le vecteur des réponses

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 R est un langage de programmation. L objet de base est un vecteur de données. C est un «vrai» langage c.-à-d. types

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Bouchekif Abdesselam 11 mars 2012

Bouchekif Abdesselam 11 mars 2012 Expériences sur les données du répertoire de données de UCI avec une boîte à outils Bouchekif Abdesselam 11 mars 2012 Résumé Les dix dernières années ont été témoin de grands progrès réalisés dans le domaine

Plus en détail

Analyse d un système de freinage récupératif d un véhicule électrique

Analyse d un système de freinage récupératif d un véhicule électrique Analyse d un système de freinage récupératif d un véhicule électrique Par Mohamed Amine Bey, Gabriel Georges, Pascal Jacq, Doha Hadouni, Roxane Duroux, Erwan Scornet, Encadré par Alexis Simonnet 1 Compréhension

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Quantification Vectorielle

Quantification Vectorielle Quantification Vectorielle Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 14 Décembre 2012 M. Cagnazzo Quantification Vectorielle 1/65 Plan Introduction 1 Introduction

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Informatique visuelle - Vision par ordinateur. Pré-traitement d images

Informatique visuelle - Vision par ordinateur. Pré-traitement d images Informatique visuelle - Vision par ordinateur Pré-traitement d images Elise Arnaud elise.arnaud@imag.fr cours inspiré par X. Descombes, J. Ros, A. Boucher, A. Manzanera, E. Boyer, M Black, V. Gouet-Brunet

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32

WEKA : c est quoi? Brigitte Bigi. 15 février 2011. LPL - Équipe C3I. Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 WEKA : c est quoi? Brigitte Bigi LPL - Équipe C3I 15 février 2011 Brigitte Bigi (LPL - Équipe C3I) WEKA : c est quoi? 15 février 2011 1 / 32 Introduction 1 Introduction 2 Classification supervisée 3 WEKA

Plus en détail

L'apprentissage supervisé. (Classification, Régression)

L'apprentissage supervisé. (Classification, Régression) L'apprentissage supervisé (Classification, Régression) Le problème L'apprentissage supervisé = apprentissage à partir d'exemples Exemples E1 S1 E2 S2 E3 S2 En Sn Entrées f Sortie On imagine les exemples

Plus en détail

Marketing quantitatif M2-MASS

Marketing quantitatif M2-MASS Marketing quantitatif M2-MASS Francois.Kauffmann@unicaen.fr UCBN 2 décembre 2012 Francois.Kauffmann@unicaen.fr UCBN Marketing quantitatif M2-MASS 2 décembre 2012 1 / 61 Première partie I Analyse Analyse

Plus en détail

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr Une classification hiérarchique de variables discrètes basée sur l information mutuelle en pré-traitement d un algorithme de sélection de variables pertinentes. Hélène Desmier ab, Pascale Kuntz a & Ivan

Plus en détail

Classification supervisée de documents

Classification supervisée de documents Classification supervisée de documents 1. Introduction La classification automatique supervisée de document devient nécessaire à cause du volume de documents échangés et stockés sur support électronique.

Plus en détail

Cours Fouille de données avancée

Cours Fouille de données avancée Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Mohamed Khider - Biskra Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie Département d Informatique

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

1. Les fondements de l informatique 13

1. Les fondements de l informatique 13 Introduction à l'algorithmique 1. Les fondements de l informatique 13 1.1 Architecture de Von Neumann 13 1.2 La machine de Turing 17 1.3 Représentation interne des instructions et des données 19 1.3.1

Plus en détail

Méthodes de la Recherche Opérationnelle pour l analyse de données

Méthodes de la Recherche Opérationnelle pour l analyse de données Méthodes de la Recherche Opérationnelle pour l analyse de données Julien Darlay G-SCOP 27 janvier 2011 Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 1 / 20 Plan Analyse

Plus en détail

Identification de nouveaux membres dans des familles d'interleukines

Identification de nouveaux membres dans des familles d'interleukines Identification de nouveaux membres dans des familles d'interleukines Nicolas Beaume Jérôme Mickolajczak Gérard Ramstein Yannick Jacques 1ère partie : Définition de la problématique Les familles de gènes

Plus en détail

Intelligence Artificielle

Intelligence Artificielle Intelligence Artificielle p. 1/1 Intelligence Artificielle Les arbres de décisions Maria Malek Département Systèmes Informatiques Formels & Intelligents Intelligence Artificielle p. 2/1 Extraire les connaissances

Plus en détail

Calculatrice vocale basée sur les SVM

Calculatrice vocale basée sur les SVM Calculatrice vocale basée sur les SVM Zaïz Fouzi *, Djeffal Abdelhamid *, Babahenini MohamedChaouki*, Taleb Ahmed Abdelmalik**, * Laboratoire LESIA, Département d Informatique, Université Mohamed Kheider

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 7 - Data

BI = Business Intelligence Master Data-ScienceCours 7 - Data BI = Business Intelligence Master Data-Science Cours 7 - Data Mining Ludovic DENOYER - UPMC 30 mars 2015 Ludovic DENOYER - Typologie des méthodes de Data Mining Différents types de méthodes : Méthodes

Plus en détail

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation Premières classifications : apprentissage et évaluation L objectif de ce TP est double : prise en main de la bibliothèque scikit-learn de Python, dédiée à l apprentissage automatique, sensibilisation à

Plus en détail

Introduction au Data Mining

Introduction au Data Mining Cours GMM Introduction au Data Mining 1.0 DT_GMM3 Décembre 2009 Légende Table des matières 3 4 Introduction Ce support de cours est un complément au cours magistral et n'est en aucun cas autosuffisant.

Plus en détail

Formation Actuaire Data-Scientist PROGRAMME

Formation Actuaire Data-Scientist PROGRAMME Formation Actuaire Data-Scientist PROGRAMME 15 Septembre 2014 Arthur Charpentier, Romuald Élie & Jérémie Jakubowicz 15914 Programme Séance inaugurale : révolu-on numérique besoins des entreprises cadre

Plus en détail

Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année

Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année 1 / 20 Polytech Paris-Sud Département informatique Formation par Apprentissage, 3ème année Cours : Jérôme Azé Université Paris-Sud LRI 2009-2010 2 / 20 Outline 1 Présentation de A q Algorithme Défauts

Plus en détail

Les techniques d exploitation de données (Data Mining)

Les techniques d exploitation de données (Data Mining) Les techniques d exploitation de données (Data Mining) 1 Présenté par : Emer Mestiri, M.sc Finance, Data Scientist Conseiller Gestion de risque de crédit, Mouvement Desjardins Sommaire 2 I. Logiciel SAS

Plus en détail

Table des matières I La programmation linéaire en variables continues 1 Présentation 3 1 Les bases de la programmation linéaire 5 1.1 Formulation d'un problème de programmation linéaire........... 5 1.2

Plus en détail

UTFPR. Nada Benlahbib. [DATA MINING] Fertility Data Set

UTFPR. Nada Benlahbib. [DATA MINING] Fertility Data Set UTFPR [DATA MINING] Fertility Data Set Sommaire Introduction... 2 1. Description de la base de données... 3 1.1. Origine de la base... 3 1.2. Description des attributs... 3 1.3. Exploration des données...

Plus en détail

Didacticiel Études de cas

Didacticiel Études de cas 1 Objectif Déploiement des modèles prédictifs avec R. L industrialisation est l étape ultime du data mining. Dans le cadre prédictif, l objectif est de classer un individu à partir de sa description. Pour

Plus en détail

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry

Outils mathématiques pour le datamining. http://www.elseware.fr/univevry Outils mathématiques pour le datamining http://wwwelsewarefr/univevry Géométrie Distance Distance entre parties Matrice de variance/covariance Inertie Minimisation Probabilités Définition Théorème de Bayes

Plus en détail

avec w ij poids liant le neurone j au neurone i vec w.vec xi = 0 vec xi vec xi

avec w ij poids liant le neurone j au neurone i vec w.vec xi = 0 vec xi vec xi Exemple pour un perceptrion à deux classes (1 unité de sortie) -> 1/-1 Si w i x 0 la réponse est 1 Si w i x 0 la réponse est -1 Donc la discrimination se fait pour des entrés (les x ). Cet hyperplan a

Plus en détail

Un logiciel open source pour l enseignement et la recherche

Un logiciel open source pour l enseignement et la recherche Un logiciel open source pour l enseignement et la recherche Ricco RAKOTOMALALA Laboratoire ERIC Université Lumière Lyon 2 http://chirouble.univ-lyon2.fr/~ricco/tanagra/ 1 sur 23 PLAN 1. Objectifs du projet

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Heidi WECHTLER. Octobre 2005

Heidi WECHTLER. Octobre 2005 Heidi WECHTLER Le support aux analyses de données Séminaire GREGOR Octobre 2005 Support aux analyse de données du GREGOR Le poste Chargée d étude statistiques au GREGOR, bureau B126 (wechtler.iae@univ-paris1.fr)

Plus en détail

Programme détaillé des enseignements

Programme détaillé des enseignements Programme détaillé des enseignements SEMESTRE S1 STATISTIQUES Méthodes d'estimation ponctuelle (méthodes des moments, du maximum de vraisemblances, bayésienne) et par intervalles de confiance. Statistiques

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Le data mining met en œuvre un ensemble de techniques issues des statistiques, de l analyse de données et de l informatique pour explorer les données.

Le data mining met en œuvre un ensemble de techniques issues des statistiques, de l analyse de données et de l informatique pour explorer les données. COURS DE DATA MINING 3 : MODELISATION PRESENTATION GENERALE EPF 4/ 5 ème année - Option Ingénierie d Affaires et de Projets - Finance Bertrand LIAUDET Phase 4 : Modelisation 1 Classement des techniques

Plus en détail

Thomas André Manuel Brisville. Data Mining. Compte-rendu de l activité d évaluation 11/02/2015 UTFPR

Thomas André Manuel Brisville. Data Mining. Compte-rendu de l activité d évaluation 11/02/2015 UTFPR Thomas André Manuel Brisville Data Mining Compte-rendu de l activité d évaluation 11/02/2015 UTFPR 1 Table des matières 2 Introduction... 2 3 La base de données utilisée... 3 3.1 Origine de la base...

Plus en détail

Cours 2 6 octobre. 2.1 Maximum de vraisemblance pour une loi Gaussienne multivariée

Cours 2 6 octobre. 2.1 Maximum de vraisemblance pour une loi Gaussienne multivariée Introduction aux modèles graphiques 2010/2011 Cours 2 6 octobre Enseignant: Francis Bach Scribe: Nicolas Cheifetz, Issam El Alaoui 2.1 Maximum de vraisemblance pour une loi Gaussienne multivariée Soit

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Ingénierie d aide à la décision

Ingénierie d aide à la décision Ingénierie d aide à la décision Maria Malek 1 er septembre 2009 1 Objectifs et débouchés Nous proposons dans cette option deux grands axes pour l aide à la décision : 1. La recherche opérationnelle ; 2.

Plus en détail

ENSIIE - Intelligence Artificielle (RIIA) - 1er cours

ENSIIE - Intelligence Artificielle (RIIA) - 1er cours ENSIIE - Intelligence Artificielle (RIIA) - 1er cours Benjamin PIWOWARSKI 28 septembre 2015 Benjamin PIWOWARSKI IA - 1er cours 28 septembre 2015 1 / 53 Introduction Plan 1 Introduction 2 Définitions 3

Plus en détail

Évaluation de la classification et segmentation d'images en environnement incertain

Évaluation de la classification et segmentation d'images en environnement incertain Évaluation de la classification et segmentation d'images en environnement incertain EXTRACTION ET EXPLOITATION DE L INFORMATION EN ENVIRONNEMENTS INCERTAINS / E3I2 EA3876 2, rue F. Verny 29806 Brest cedex

Plus en détail

Les Réseaux de Neurones avec

Les Réseaux de Neurones avec Les Réseaux de Neurones avec Au cours des deux dernières décennies, l intérêt pour les réseaux de neurones s est accentué. Cela a commencé par les succès rencontrés par cette puissante technique dans beaucoup

Plus en détail

téléphone sur l'exposition de la tête»

téléphone sur l'exposition de la tête» «Analyse statistique de l'influence de la position du téléphone sur l'exposition de la tête» A.Ghanmi 1,2,3 J.Wiart 1,2, O.Picon 3 1 Orange Labs R&D 2 WHIST LAB (http://whist.institut-telecom.fr), 3 Paris

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique.

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique. I INTRODUCTION Les pages de phishing sont l un des problèmes majeurs de sécurité sur internet. La majorité des attaques utilisent des méthodes sophistiquées comme les fausses pages pour tromper les utilisateurs

Plus en détail

Sélection- validation de modèles

Sélection- validation de modèles Sélection- validation de modèles L. Rouvière laurent.rouviere@univ-rennes2.fr JANVIER 2015 L. Rouvière (Rennes 2) 1 / 77 1 Quelques jeux de données 2 Sélection-choix de modèles Critères de choix de modèles

Plus en détail

Projet : Plan Assurance Qualité

Projet : Plan Assurance Qualité Projet : Document : Plan Assurance Qualité 2UP_SPEC_DEV1 VERSION 1.00 Objet Ce document a pour objectif de définir la démarche d analyse et de conception objet ainsi les activités liées. Auteur Eric PAPET

Plus en détail

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC THÈSE PRÉSENTÉE À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC THÈSE PRÉSENTÉE À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC THÈSE PRÉSENTÉE À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE COMME EXIGENCE PARTIELLE À L OBTENTION DU DOCTORAT EN GÉNIE Ph.D. PAR JONATHAN MILGRAM CONTRIBUTION

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Méthodes d apprentissage statistique («Machine Learning»)

Méthodes d apprentissage statistique («Machine Learning») Méthodes d apprentissage statistique («Machine Learning») Journées d Etudes IARD Niort, 21 Mars 2014 Fabrice TAILLIEU Sébastien DELUCINGE Rémi BELLINA 2014 Milliman. All rights reserved Sommaire Introduction

Plus en détail

Principes généraux de codage entropique d'une source. Cours : Compression d'images Master II: IASIG Dr. Mvogo Ngono Joseph

Principes généraux de codage entropique d'une source. Cours : Compression d'images Master II: IASIG Dr. Mvogo Ngono Joseph Principes généraux de codage entropique d'une source Cours : Compression d'images Master II: IASIG Dr. Mvogo Ngono Joseph Table des matières Objectifs 5 Introduction 7 I - Entropie d'une source 9 II -

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html R est un langage de programmation. L objet de base est un vecteur de données. C est un «vrai» langage c.-à-d. types

Plus en détail

SAS ENTERPRISE MINER POUR L'ACTUAIRE

SAS ENTERPRISE MINER POUR L'ACTUAIRE SAS ENTERPRISE MINER POUR L'ACTUAIRE Conférence de l Association des Actuaires I.A.R.D. 07 JUIN 2013 Sylvain Tremblay Spécialiste en formation statistique SAS Canada AGENDA Survol d Enterprise Miner de

Plus en détail

Optimisation de requêtes. I3009 Licence d informatique 2015/2016. Traitement des requêtes

Optimisation de requêtes. I3009 Licence d informatique 2015/2016. Traitement des requêtes Optimisation de requêtes I3009 Licence d informatique 2015/2016 Cours 5 - Optimisation de requêtes Stéphane.Gançarski Stephane.Gancarski@lip6.fr Traitement et exécution de requêtes Implémentation des opérateurs

Plus en détail

Sujet 6: Dualité interpretations intuitives

Sujet 6: Dualité interpretations intuitives Sujet 6: Dualité interpretations intuitives MHT 423: Modélisation et optimisation Andrew J. Miller Dernière mise à jour: March 31, 2010 Dans ce sujet... 1 L analyse de sensibilité 2 1 L analyse de sensibilité

Plus en détail

Prototypes et k plus proches voisins (kppv (knn))

Prototypes et k plus proches voisins (kppv (knn)) Prototypes et k plus proches voisins (kppv (knn)) Université Grenoble 1 - Lab. Informatique Grenbole / MRIM Learning Vector Quantization (1) Algorithme en ligne (on-line) dans lequel des prototypes sont

Plus en détail

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout)

Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) 1 Regroupement (clustering) Bruno Pinaud (basé sur le support de Sofian Maabout) C est quoi? Regroupement (Clustering): construire une collection d objets Similaires au sein d un même groupe Dissimilaires

Plus en détail

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Le data mining et l assurance Mai 2004. Charles Dugas Président Marianne Lalonde Directrice, développement des affaires Le data mining et l assurance Mai 2004 Charles Dugas Président Marianne Lalonde Directrice, développement des affaires AGENDA Qu est-ce que le data mining? Le projet et les facteurs de réussite Les technologies

Plus en détail

Théorie et codage de l information

Théorie et codage de l information Théorie et codage de l information Les codes linéaires - Chapitre 6 - Principe Définition d un code linéaire Soient p un nombre premier et s est un entier positif. Il existe un unique corps de taille q

Plus en détail

Séance 8 : Régression Logistique

Séance 8 : Régression Logistique Séance 8 : Régression Logistique Sommaire Proc LOGISTIC : Régression logistique... 2 Exemple commenté : Achat en (t+1) à partir du sexe et du chiffre d affaires de la période précédente. 4 La régression

Plus en détail

Probabilités 5. Simulation de variables aléatoires

Probabilités 5. Simulation de variables aléatoires Probabilités 5. Simulation de variables aléatoires Céline Lacaux École des Mines de Nancy IECL 27 avril 2015 1 / 25 Plan 1 Méthodes de Monte-Carlo 2 3 4 2 / 25 Estimation d intégrales Fiabilité d un système

Plus en détail

Apprentissage statistique Stratégie du Data-Mining

Apprentissage statistique Stratégie du Data-Mining Apprentissage statistique Stratégie du Data-Mining Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Apprentissage statistique

Plus en détail

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7

Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques. Elec 2311 : S7 Les méthodes d optimisation appliquées à la conception de convertisseurs électromécaniques Elec 2311 : S7 1 Plan du cours Qu est-ce l optimisation? Comment l optimisation s intègre dans la conception?

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Choix de modèle en régression linéaire

Choix de modèle en régression linéaire Master pro Fouille de données Philippe Besse 1 Objectif Choix de modèle en régression linéaire La construction d un score d appétence sur les données bancaires correspond au choix et à l estimation d un

Plus en détail

Analyse en composantes principales

Analyse en composantes principales Analyse en composantes principales Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire LITIS Analyse en composantes principales p. 1/18 Introduction Objectifs Soit {x i } i=1,,l

Plus en détail

Apprendre à programmer

Apprendre à programmer Christophe Dabancourt Apprendre à programmer Algorithmes et conception objet 2 e édition Groupe Eyrolles, 2008, ISBN : 978-2-212-12350-0 Table des matières Avant-propos.................................................

Plus en détail