Méthodes de la Recherche Opérationnelle pour l analyse de données

Documents pareils
Introduction au Data-Mining

Cours de Master Recherche

Programmation linéaire

Introduction au Data-Mining

Système de contrôle du trafic d une ligne de métro Dossier de tests

Introduction au datamining

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires

Programmation Linéaire - Cours 1

Laboratoire 4 Développement d un système intelligent

données en connaissance et en actions?

Méthodes d apprentissage statistique «Machine Learning»

INTRODUCTION AU DATA MINING

Arbres binaires de décision

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

La classification automatique de données quantitatives

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Pourquoi l apprentissage?

4.2 Unités d enseignement du M1

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Big Data et Graphes : Quelques pistes de recherche

Cours de recherche opérationnelle I

VI. Tests non paramétriques sur un échantillon

Résolution de systèmes linéaires par des méthodes directes

Contexte et motivations Les techniques envisagées Evolution des processus Conclusion

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Big Data et Graphes : Quelques pistes de recherche

Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France

Mathématiques Première L, ES, S, Concours Post-Bac Equations et inéquations du second degré FORMAV

Algorithmes d'apprentissage

Principe de symétrisation pour la construction d un test adaptatif

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

1 Modélisation d être mauvais payeur

Chapitre 3. Les distributions à deux variables

Cours Optimisation Partie Optimisation Combinatoire. Année scolaire Gérard Verfaillie ONERA/DCSD/CD, Toulouse

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Débuter avec EXPRESS. Alain Plantec. 1 Schema 2

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

L apprentissage automatique

TARIFICATION EN ASSURANCE COMPLEMENTAIRE SANTE: il était une fois, un statisticien, un actuaire, un économiste de la santé

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

Encryptions, compression et partitionnement des données

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Valeur ajoutée relative basée sur les comparaisons indirectes Giens 2008, TR 5

Rétablissement d un réseau cellulaire après un désastre

MABioVis. Bio-informatique et la

Apprentissage Automatique

Enjeux mathématiques et Statistiques du Big Data

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Intégration de la dimension sémantique dans les réseaux sociaux

Commande Prédictive des. Convertisseurs Statiques

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Analyse Combinatoire

Apprentissage incrémental par sélection de données dans un flux pour une application de sécurité routière

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Mesurer les performances (CPU) sous Linux

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Info0804. Cours 6. Optimisation combinatoire : Applications et compléments

I.D.S. Systèmes de détection d intrusion - Link Analysis. par: FOUQUIN MATHIEU. responsable: AKLI ADJAOUTE DEVÈZE BENJAMIN.

Calcul de développements de Puiseux et application au calcul du groupe de monodromie d'une courbe algébrique plane

Vers une Optimisation de l Algorithme AntTreeStoch

INF6304 Interfaces Intelligentes

Optimisation des ressources des produits automobile première

Conception d une Plateforme Open Source d Extraction et de Gestion des Connaissances

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Classification non supervisée

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

L exclusion mutuelle distribuée

Coup de Projecteur sur les Réseaux de Neurones

La nouvelle planification de l échantillonnage

Présentation du sujet de thèse Schémas temporels hybrides fondés sur les SVMs pour l analyse du comportement du conducteur

Laboratoire d Automatique et Productique Université de Batna, Algérie

Conception de Médicament

Cours Base de données relationnelles. M. Boughanem, IUP STRI

ANALYSE STATISTIQUE PRÉDICTIVE

LES MODELES DE SCORE

Exercices sur le chapitre «Probabilités»

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Problèmes d ordonnancement dans les systèmes de production. Journée Automatique et Optimisation Université de Paris Mars 2003

Introduction aux outils BI de SQL Server Fouille de données avec SQL Server Analysis Services (SSAS)

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Programmation Par Contraintes

chapitre 4 Nombres de Catalan

ET 24 : Modèle de comportement d un système Boucles de programmation avec Labview.

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Modélisation du comportement habituel de la personne en smarthome

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

4 Exemples de problèmes MapReduce incrémentaux

Apprentissage. Intelligence Artificielle NFP106 Année Plan. Apprentissage. Apprentissage

Qu est-ce qu une probabilité?

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

Gestion des Clés Publiques (PKI)

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Transcription:

Méthodes de la Recherche Opérationnelle pour l analyse de données Julien Darlay G-SCOP 27 janvier 2011 Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 1 / 20

Plan Analyse de données Définitions Liens avec l optimisation Principale différence Analyse Combinatoire de Données Définitions et concepts Schéma d apprentissage Modèles d optimisation Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 2 / 20

Analyse de données Extraire à partir d un large volume de données, des connaissances originales par des méthodes semi-automatiques. Applications : Identifier des pathologies (sarcoidose, connectivite...) Prédire le temps avant la prochaine panne Partitionner des observations en groupes homogènes Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 3 / 20

Analyse de données Un problème d optimisation Données : Un ensemble d observations Ω Des attributs décrivant l observation X X Une valeur à prédire c(x ) C Id class dyspnea surgery pain antec. age 1 neg 0 1 0 0 76 2 neg 0 1 0 1 45 3 neg 1 1 0 0 44 4 neg 1 0 1 0 52 5 pos 1 0 1 0 61 6 pos 1 1 1 1 75 7 pos 1 0 1 1 54 8 pos 0 1 1 1 80 9 pos 1 1 0 1 48 Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 4 / 20

Analyse de données Un problème d optimisation Objectif : Trouver une fonction h : X C Parmi un ensemble d hypothèses H Minimisant une fonction d erreur l(h, X ) min l(h, X )dx h H X X Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 5 / 20

Analyse de données Exemple 1 0.8 0.6 0.4 X = (x 1, x 2 ) C = {+, x} H = {x 1 + ax 2 + b = 0} 0.2 0 0 0.2 0.4 0.6 0.8 1 Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 6 / 20

Analyse de données Exemple 1 0.8 0.6 0.4 X = (x 1, x 2 ) C = {+, x} H = {x 1 + ax 2 + b = 0} 0.2 0 0 0.2 0.4 0.6 0.8 1 h(x ) γ si c(x ) = x h(y ) γ si c(y ) = + Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 6 / 20

Analyse de données Exemple 1 0.8 0.6 0.4 X = (x 1, x 2 ) C = {+, x} H = {x 1 + ax 2 + b = 0} 0.2 0 0 0.2 0.4 0.6 0.8 1 h(x ) + e X γ si c(x ) = x h(y ) e Y γ si c(y ) = + e 0 Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 6 / 20

Analyse de données Exemple 1 0.8 0.6 0.4 X = (x 1, x 2 ) C = {+, x} H = {x 1 + ax 2 + b = 0} 0.2 0 0 0.2 0.4 0.6 0.8 1 min a,b,e i Ω e i s.c. h(x ) + e X γ 0 si c(x ) = x h(y ) e Y + γ 0 si c(y ) = + e 0 Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 6 / 20

Analyse de données Surapprentissage Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 7 / 20

Analyse de données Surapprentissage 2 solutions : Utiliser des bornes théoriques [Vapnik, 95] Utiliser des données externes Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 7 / 20

Analyse de données Surapprentissage Utiliser des données externes Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 8 / 20

Analyse de données Surapprentissage Utiliser des données externes Collecter de nouvelles données Couteux Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 8 / 20

Analyse de données Surapprentissage Utiliser des données externes Collecter de nouvelles données Couteux N utiliser qu une partie de la base Dépend de la partition Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 8 / 20

Analyse de données Surapprentissage Utiliser des données externes Collecter de nouvelles données Couteux N utiliser qu une partie de la base Dépend de la partition Utiliser la validation croisée Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 8 / 20

Analyse de données Quelques méthodes classiques Support Vector Machine Réseaux de neurones Probabilité bayesienne Arbre de décision Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 9 / 20

Analyse de données Quelques méthodes classiques Support Vector Machine Réseaux de neurones Probabilité bayesienne Arbre de décision Analyse combinatoire de données Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 9 / 20

Analyse Combinatoire de Données Logical Analysis of Data [Crama, Hammer, Ibaraki, 88] Repose sur des techniques d optimisation combinatoire Extension de fonctions booléennes partiellement définies Cadre d apprentissage particulier C = {0, 1} X {0, 1} m H : fonctions booléennes Hypothèses facilement interprétables Qualité prouvée sur de nombreuses applications Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 10 / 20

Analyse Combinatoire de Données Les différentes étapes 1 Binarisation des attributs 2 Sélection d un support 3 Génération de motifs 4 Construction d un modèle Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 11 / 20

Analyse Combinatoire de Données Binarisation Transformer les attributs en attributs binaires Binaires (Homme, Femme) = Homme Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 12 / 20

Analyse Combinatoire de Données Binarisation Transformer les attributs en attributs binaires Binaires (Homme, Femme) = Homme Catégories (Rouge, Vert, Bleu) = Rouge, = Vert, = Bleu Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 12 / 20

Analyse Combinatoire de Données Binarisation Transformer les attributs en attributs binaires Binaires (Homme, Femme) = Homme Catégories (Rouge, Vert, Bleu) = Rouge, = Vert, = Bleu Ordonnés (Faible, Moyen, Fort) Moyen, Fort Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 12 / 20

Analyse Combinatoire de Données Binarisation Transformer les attributs en attributs binaires Binaires (Homme, Femme) = Homme Catégories (Rouge, Vert, Bleu) = Rouge, = Vert, = Bleu Ordonnés (Faible, Moyen, Fort) Moyen, Fort Numériques (1, 2.5, 15, 20) < 1.75, < 8.75, < 17.5 Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 12 / 20

Analyse Combinatoire de Données Binarisation Transformer les attributs en attributs binaires Binaires (Homme, Femme) = Homme Catégories (Rouge, Vert, Bleu) = Rouge, = Vert, = Bleu Ordonnés (Faible, Moyen, Fort) Moyen, Fort Numériques (1, 2.5, 15, 20) < 1.75, < 8.75, < 17.5 Génération d un grand nombre d attributs binaires Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 12 / 20

Analyse Combinatoire de Données Sélection d un support Objectif Trouver un sous ensemble minimal d attributs Séparant les observations de classes différentes Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 13 / 20

Analyse Combinatoire de Données Sélection d un support Objectif Trouver un sous ensemble minimal d attributs Séparant les observations de classes différentes Modélisation en problème de set-cover [Hammer et al., 88] min z i z i s.c. i 1 (X i Y i )z i 1 X Ω +, Y Ω z {0, 1} m Résolution en PLNE, ou par approche gloutonne Id class dyspnea surgery pain antec. age > 65 1 neg 0 1 0 0 1 2 neg 0 1 0 1 0 5 pos 0 0 1 0 1 6 pos 1 1 0 1 1 Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 13 / 20

Analyse Combinatoire de Données Sélection d un support Objectif Trouver un sous ensemble minimal d attributs Séparant les observations de classes différentes Modélisation en problème de set-cover [Hammer et al., 88] min z i z i s.c. i 1 (X i Y i )z i 1 X Ω +, Y Ω z {0, 1} m Résolution en PLNE, ou par approche gloutonne Id class dyspnea surgery pain antec. age > 65 1 neg 0 1 0 0 1 2 neg 0 1 0 1 0 5 pos 0 0 1 0 1 6 pos 1 1 0 1 1 Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 13 / 20

Analyse Combinatoire de Données Motifs Un motif est une conjonction de conditions sur les attributs dyspnea = 1 & pain = 1 Associé à une classe pos class dysp. pain neg 0 0 neg 0 0 neg 1 0 neg 1 1 pos 1 1 pos 1 1 pos 1 1 pos 0 1 pos 1 0 Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 14 / 20

Analyse Combinatoire de Données Motifs Un motif est une conjonction de conditions sur les attributs dyspnea = 1 & pain = 1 Associé à une classe pos Couverture observations vérifiant le motif class dysp. pain neg 0 0 neg 0 0 neg 1 0 neg 1 1 pos 1 1 pos 1 1 pos 1 1 pos 0 1 pos 1 0 Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 14 / 20

Analyse Combinatoire de Données Motifs Un motif est une conjonction de conditions sur les attributs dyspnea = 1 & pain = 1 Associé à une classe pos Couverture observations vérifiant le motif Homogénéité proportion d obs. de la bonne classe dans la couverture h = 3 4 class dysp. pain neg 0 0 neg 0 0 neg 1 0 neg 1 1 pos 1 1 pos 1 1 pos 1 1 pos 0 1 pos 1 0 Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 14 / 20

Analyse Combinatoire de Données Motifs Un motif est une conjonction de conditions sur les attributs dyspnea = 1 & pain = 1 Associé à une classe pos Couverture observations vérifiant le motif Homogénéité proportion d obs. de la bonne classe dans la couverture h = 3 4 Prévalence proportion d obs. de la bonne classe couvertes p = 3 5 class dysp. pain neg 0 0 neg 0 0 neg 1 0 neg 1 1 pos 1 1 pos 1 1 pos 1 1 pos 0 1 pos 1 0 Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 14 / 20

Analyse Combinatoire de Données Motifs Un motif est une conjonction de conditions sur les attributs dyspnea = 1 & pain = 1 Associé à une classe pos Couverture observations vérifiant le motif Homogénéité proportion d obs. de la bonne classe dans la couverture h = 3 4 Prévalence proportion d obs. de la bonne classe couvertes p = 3 5 Degré nombre de conditions dans le motif d = 2 class dysp. pain neg 0 0 neg 0 0 neg 1 0 neg 1 1 pos 1 1 pos 1 1 pos 1 1 pos 0 1 pos 1 0 Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 14 / 20

Analyse Combinatoire de Données Motifs Un motif est une conjonction de conditions sur les attributs dyspnea = 1 & pain = 1 Associé à une classe pos Couverture observations vérifiant le motif Homogénéité proportion d obs. de la bonne classe dans la couverture h = 3 4 Prévalence proportion d obs. de la bonne classe couvertes p = 3 5 Degré nombre de conditions dans le motif d = 2 Générer des motifs en respectant des conditions sur h, p, d class dysp. pain neg 0 0 neg 0 0 neg 1 0 neg 1 1 pos 1 1 pos 1 1 pos 1 1 pos 0 1 pos 1 0 Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 14 / 20

Analyse Combinatoire de Données Génération de motifs Différentes approches classiques Exhaustive, en pratique d 3 Glouton [Boros et al., 00] top-down ou bottom-up PLNE successifs [Ryoo et al., 08] [Boros, D. 10] Algorithme aléatoire avec garantie de qualité Fonctions booléennes duales Réduction de la complexité : une sélection aléatoire des observations Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 15 / 20

Analyse Combinatoire de Données Sélection d un modèle Modèle Sous ensemble minimal de motifs Permettant d expliquer toutes les observations Modélisation en problème de set-cover [Hammer et al., 88] min z i z i s.c. i cov(m i, X )z i 1 z {0, 1} M X Ω Résolution en PLNE ou par approche gloutonne Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 16 / 20

Analyse Combinatoire de Données Discriminant Traiter une nouvelle observation O = cov(p, O) P M + N M cov(n, O) Attribution de la classe en fonction de > 0 classe Pos < 0 classe Neg Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 17 / 20

Analyse Combinatoire de Données Discriminant Traiter une nouvelle observation O = cov(p, O) P M + N M cov(n, O) Attribution de la classe en fonction de > 0 classe Pos < 0 classe Neg Approche par génération de colonnes [Hansen, 09] Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 17 / 20

Applications médicales Improved screening for growth hormone deficiency using logical analysis of data [Lemaire et al. 09] Final height and gonad function after total body irradiation during childhood [Couto-Silva et al. 06] High-resolution computed tomography to differentiate chronic diffuse interstitial lung diseases with predominant ground-glass pattern using logical analysis of data [Grivaud Martin S. et al. 10] Logical Analysis of Computed Tomography Data to Differentiate Entities of Idiopathic Interstitial Pneumonias [Brauner et al. 07] Logical analysis of survival data : prognostic survival models by detecting high-degree interactions in right-censored data [Kronek et al. 08] Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 18 / 20

Conclusion Analyse de données Un problème d optimisation particulier Utilisant des techniques de RO Source de problèmes en RO et en optimisation combinatoire Analyse combinatoire de données Fonctions booléennes Modèles d optimisation classiques Sorties facilement interprétables Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 19 / 20

Perspectives Application médicale Algorithmes de génération de motifs Utiliser les bornes théoriques sur l erreur [Anthony, 11] Utilisation de l analyse de données en RO Julien Darlay (G-SCOP) Méthodes de RO pour l analyse de données 27 janvier 2011 20 / 20