Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables.

Dimension: px
Commencer à balayer dès la page:

Download "Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables."

Transcription

1 Préparation non paramétrique des données pour la fouille de données multi-tables Dhafer Lahbib To cite this version: Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables. Other. Université de Cergy Pontoise, French. <NNT : 2012CERG0616>. <tel v1> HAL Id: tel https://tel.archives-ouvertes.fr/tel v1 Submitted on 26 Aug 2013 (v1), last revised 27 Jan 2014 (v3) HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

2 École Doctorale Sciences et Ingénierie Préparation non paramétrique des données pour la fouille de données multi-tables THÈSE présentée et soutenue publiquement le 6 décembre 2012 pour l obtention du Doctorat en Sciences de l université de Cergy-Pontoise (spécialité STIC) par Dhafer LAHBIB Composition du jury Rapporteurs : Nicolas LACHICHE MCF HDR Université Louis Pasteur Bruno CRÉMILLEUX Professeur Université de Caen Examinateurs : Christel VRAIN Professeur Université d Orléans Karine ZEITOUNI Professeur Université de Versailles Saint-Quentin-en-Yvelines Directeur de thèse : Dominique LAURENT Professeur Université de Cergy-Pontoise Co-Encadrant : Marc BOULLÉ Docteur Orange Labs, Lannion Equipe Traitement de l Information et Systèmes (ETIS) UMR CNRS 8051

3

4

5 Table des matières Introduction Générale 1 Contexte Industriel Objectifs Contributions Organisation du document État de l art Introduction Fouille de Données Multi-Tables Format Attribut-Valeur Fouille de Données Structurées Formalisation du problème et Terminologie Enjeux de la Fouille de données Multi-Tables Travaux Majeurs Programmation Logique Inductive Apprentissage Logique Probabiliste Modèles Probabilistes Arbres de Décision Relationnels Approches à base de distance Méthodes à noyaux Pré-traitement Conclusion Principe de l Approche : Cas d une Variable Secondaire Binaire Introduction Approche Critère d évaluation Distribution a priori des modèles Vraisemblance des modèles Critère Optimisation de la Grille Bivariée Heuristique gloutonne Complexité Extension du Bayésien naïf Estimation de la Probabilité Conditionnelle Univariée Bayésien Naïf Sélectif i

6 Table des matières Table des matières 2.6 Expérimentations Protocole Données artificielles Base de données Stulong Conclusion Extension aux Variables Secondaires Catégorielles et Numériques Introduction Variable catégorielle avec peu de valeurs Approche Critère Algorithme d optimisation Variable catégorielle avec groupement de valeurs Critère Optimisation Variable Secondaire Numérique Approche Critère Algorithme d optimisation Expérimentations Jeux de données Résultats Données synthétiques Données Réelles Conclusion Pré-traitement multivarié des variables secondaires Introduction Motivation Approche Évaluation d itemsets de variables secondaires Coût de construction d un itemset Évaluation de la variable secondaire associée à l itemset Critère d évaluation global Induction d itemsets de variables secondaires Conclusion Bilan et perspectives 101 ii

7 Introduction Générale Les progrès réalisés dans les technologies d acquisition, de stockage et de distributions des données ont entraîné une croissance rapide de la taille des bases de données disponibles. En effet, la quantité de données est estimée doubler presque chaque année, d où l intérêt croissant de valoriser ces données. Par conséquent, un des plus grands défis auxquels sont confrontées plusieurs organisations et entreprises est de savoir comment transformer leur volume de données qui ne cesse d augmenter en des connaissances utiles et exploitables. Les travaux qui ont abordé cette problématique relèvent de domaines très variés tels que les statistiques, l intelligence artificielle, l apprentissage automatique, les bases de données... Ces travaux ont donné lieu à un nouveau domaine de recherche très actif connu sous le terme de Fouille de Données. La Fouille de Données (en anglais, Data Mining) est généralement mentionnée dans un cadre plus large, celui de l Extraction de Connaissances à partir de Données ECD (en anglais, Knowledge Discovery in Databases KDD). Elle se rapporte au processus d extraction d informations originales auparavant inconnues, et potentiellement exploitables dans les bases de données [Usama M. Fayyad et al., 1996]. Elle propose d utiliser un ensemble de techniques et algorithmes qui ont pour objet la découverte de motifs et des connaissances à partir de grandes quantités de données [Berry et Gordon S. Linoff, 2011]. La plupart des algorithmes de fouille de données disponibles aujourd hui sont basés sur une représentation sous forme d un tableau attribut-valeur, où les instances de données sont représentées par des vecteurs d attribut-valeur de taille fixe et qui sont supposées être identiquement et indépendamment distribués (hypothèse i.i.d). L utilisation de ces algorithmes se limite alors aux bases de données stockées sous ce format «à plat». Cependant, dans des applications réelles, les données sont beaucoup plus riches en structure et se présentent souvent stockées dans des bases de données relationnelles composées de plusieurs tables. Afin de pouvoir utiliser les algorithmes classiques de fouille de données, l analyste de données doit alors projeter cette représentation relationnelle initiale vers une représentation simplifiée monotable attribut-valeur, ce qui est une tâche coûteuse en temps et critique pour la qualité des résultats. En effet, cette mise à plat passe par la construction d agrégats afin de résumer l information contenue dans les différentes tables nécessitant ainsi une grande expertise et connaissance du domaine. Par ailleurs, l opération d agrégation va non seulement engendrer une perte d information par rapport à la représentation initiale naturellement compacte mais elle risque également d intro- 1

8 Introduction Générale duire des biais statistiques, notamment à cause des dépendances qui peuvent exister entre les variables nouvellement créées. Afin de résoudre ces problèmes un nouveau paradigme de fouille de données a été proposé dans la littérature : la Fouille de Données Multi-Tables. La Fouille de Données Multi-Tables FDMT (en anglais Multi-Relational Data Mining) a été définie par [Džeroski, 2003] comme l extraction de connaissances et de motifs à partir d une base de données relationnelle. Contrairement aux approches mono-table classique, la FDMT a pour objectif d apprendre des connaissances en se basant sur des données stockées sur plusieurs tables. Notre travail se situe dans ce cadre particulier. Il est motivé par les besoins métiers ainsi que les données disponibles dans le contexte industriel dans lequel se situe cette thèse. Contexte Industriel La Fouille de données chez Orange couvre des domaines d application très divers tels que le marketing, le web mining, la caractérisation du trafic réseau... Les données disponibles se présentent souvent dans l état brut dans des datastores (banques de données). Ces datastores possèdent une structure très complexe composée de nombreuses tables et leur volume peut atteindre quelques dizaines de Téraoctets dans le domaine du marketing client par exemple. Dans des domaines applicatifs particuliers, à partir de ces données, des entrepôts de données (Data Warehouse) sont construits pour des besoins métiers spécifiques. Le schéma typique de ces entrepôts de données est un schéma en étoile où chaque individu (l unité statistique) du domaine applicatif est stocké au moyen d une table cible (principale) et de plusieurs tables secondaires en relation un-à-plusieurs. Par exemple, un client est caractérisé par les services auxquels il a souscrit, par l historique de ses détails de communication et par l ensemble de ses interactions avec les services après-vente d Orange. Ces données présentent plusieurs caractéristiques : La structure est intrinsèquement composée de plusieurs tables d une base de données relationnelle, d où l intérêt de la fouille de données multi-tables pour valoriser ces données. Grande volumétrie : le nombre d instances est de l ordre de 10 5 dans la table cible en apprentissage, et de 10 6 à 10 8 en déploiement. Dans les tables secondaires, chaque individu est relié à des centaines voire des milliers d enregistrements. Différents types de variables : numériques, catégorielles (avec un nombre de valeurs très grand). Données bruitées, éventuellement incomplètes. Distribution de la variable cible (dans le cas d un problème de classification) souvent fortement déséquilibrée, etc. Nous citons ci-dessous deux exemples qui illustrent des contextes applicatifs différents étudiés au sein d Orange. 2

9 Exemple 0.1. Gestion de la relation client (en anglais, Customer Relationship Management CRM). Le CRM a pour objectif de permettre à l entreprise de mieux comprendre ses clients pour adapter et personnaliser ses produits ou ses services. Les données sont stockées dans des bases de données relationnelles. Les informations permettent de dresser un profil précis et complet des clients. Pour cela, typiquement, les données sont centrées sur une table principale : la table Client qui est en relation un-à-plusieurs avec des tables secondaires. Chacune de ces tables comporte des informations précises concernant les clients : la liste des produits commandés, la liste des services auxquels ils ont souscrit, la liste des détails de communication, etc. Exemple 0.2. Le ciblage comportemental (en anglais, Behavioral Targeting BT). Le BT est une technique de publicité qui consiste à personnaliser les contenus promotionnels, en fonction de la navigation des internautes et de l identification de leurs centres d intérêt. Les données comportementales recueillies pour le ciblage publicitaire sont intrinsèquement structurées sur plusieurs entités : les utilisateurs, identifiés par des cookies, la liste de leurs sessions de navigation, la liste des pages Web visitées lors de chaque session, etc. La façon la plus intuitive de représenter ces informations (généralement stockées dans des logs d usage) serait un schéma relationnel centré sur une table Utilisateur. Au sein d Orange, le traitement des données multi-tables est actuellement réalisé dans le cadre du projet PAC (Plate-forme d Analyse Client). C est un projet mené dans les Orange Labs qui a pour objet l industrialisation du processus Data Mining pour les très grandes bases de données relationnelles. Ce processus se décompose en deux étapes : 1. La première étape consiste à effectuer une mise à plat du modèle relationnel afin d avoir une représentation classique mono-table, attribut valeur. Ceci est réalisé en construisant de nouvelles variables à partir d une bibliothèque de règles de calcul prédéfinies (moyenne, écart type, tendance, etc.). Ces nouvelles variables constituent des agrégations plus ou moins complexes des variables qui se trouvent dans les tables secondaires. Par exemple, une requête «moyenne des durées d appel sur téléphone fixe par mois (12 mois), jour de la semaine (7 jours) et type d appel (local, national, international)» permet de construire 252 = variables. 2. La deuxième étape consiste à utiliser des techniques d apprentissage performantes afin d exploiter cette représentation (techniques implémentées dans l outil Khiops [Boullé, 2007a]). 3

10 Introduction Générale L opération de mise à plat effectuée dans PAC est une tâche coûteuse en temps pour l analyste, et qui nécessite une grande expertise métier. L espace de représentation généré est de très grande taille : de l ordre de 10 7 instances avec 10 4 variables. Notre objectif dans le cadre de cette thèse est d utiliser directement la représentation multi-tables afin d éviter la mise à plat. Ce choix est motivé par les observations suivantes : La représentation relationnelle augmente considérablement l expressivité du formalisme des individus à analyser. Ceci permet de simplifier ou même de se passer de la tâche de recherche d une bonne représentation faisant appel à l analyste de données, Ce formalisme offre la possibilité d ouverture vers de nouvelles méthodes statistiques, ce qui permettrait une amélioration potentielle des résultats. Pour ce faire, il serait nécessaire d automatiser le processus de recherche d une représentation efficace pour des données structurées sous forme d un modèle relationnel, en privilégiant les méthodes non paramétriques. L objectif, par la suite, est de concevoir des algorithmes permettant le passage à l échelle, sur de grandes volumétries. Objectifs Après avoir montré l intérêt de la fouille de données multi-tables dans le cadre général de l extraction de connaissance à partir des données ainsi que dans le contexte industriel dans lequel se situe cette thèse, nous précisons les objectifs auxquels nous nous intéressons dans notre contribution. Apprentissage supervisé multi-tables Dans le contexte de la fouille de données, on se réfère à deux problématiques distinctes. La première consiste à déterminer la classe, parmi un ensemble préalablement fixé, à laquelle appartient une donnée ou un exemple. Il s agit d entraîner un processus sur des données dont l appartenance à une classe est déterminée (généralement, il s agit de la valeur de l un des attributs) pour engendrer un modèle. Ce modèle sera par la suite utilisé, soit pour la compréhension des classes, soit pour la classification de nouvelles données dont la classe est inconnue. La seconde activité, appelée clustering en anglais, consiste à regrouper les données en des sous-ensembles cohérents, selon leur ressemblance. L apprentissage dans la première catégorie de méthode est dit supervisé. Dans la seconde il est dit non supervisé [Michalski, 1993]. Notre travail se situe dans le cadre supervisé. Lorsque les données sont relationnelles, un individu à classer correspond à un seul enregistrement d une table cible en relation un-à-plusieurs avec des tables secondaires. La classe ou la variable à expliquer n est autre qu un attribut particulier de la table cible. La nouveauté par rapport au cas mono-table classique est de considérer les variables explicatives qui se trouvent dans les tables secondaires pour décrire ou prédire la classe. La difficulté provient 4

11 principalement de la présence des relations un-à-plusieurs. En effet, un individu ne possède pas une seule valeur par variable (comme dans le cas attribut-valeur usuel), mais plutôt un ensemble de valeurs par variable secondaire. Notre objectif est de qualifier et d exploiter le pouvoir prédictif de ce genre de variable pour une tâche de classification. Ce problème est intrinsèquement difficile. Nous procédons alors à une simplification de celui-ci en proposant un prétraitement des variables secondaires afin d obtenir une représentation qui permet de mieux les prendre en compte. Prétraitement des variables secondaires La phase de prétraitement de données constitue une phase importante dans le processus global de data mining. Elle vise à rechercher une représentation des données informative afin d améliorer la qualité des résultats de la fouille. Typiquement cette phase comporte des opérations de nettoyage (suppression de bruit, de valeurs aberrantes, etc), réduction des données (sélection d instances, de variables explicatives pertinentes), et de transformation des données (discrétisation des variables numériques, construction de nouvelles variables, etc.). Dans le contexte de la fouille de données relationnelle, nous nous intéressons en particulier au problème de préparation des variables secondaires, à savoir, la discrétisation dans le cas numérique et le partitionnement en groupes de valeurs dans le cas catégoriel. Nous cherchons également à évaluer l informativité d une variable secondaire pour exploiter sa contribution dans la prédiction de la classe. Cette évaluation permet en outre de définir un critère de sélection de variable de type filtre [Guyon et Elisseeff, 2003] ou encore elle peut servir de préparation pour des classifieurs comme le Bayésien Naïf ou les arbres de décision. Afin de résoudre ces deux problématiques, nous nous sommes fixés certains critères de qualité qui sont imposés par le contexte dans lequel se situe notre travail : Efficacité. Nous nous intéressons à des bases de données avec une grande volumétrie. Cette contrainte s exprime à différents niveaux : nombre d individus dans la table cible, nombre d enregistrements dans les tables secondaires, nombre de variables secondaires... Les algorithmes que nous proposons doivent prendre en compte cette contrainte. Paramétrage. Nous privilégions les approches sans paramètre afin de réduire au maximum l intervention humaine dans le processus de prétraitement. Généricité. Il est préférable que l approche soit générique, dans la mesure où elle est applicable dans des contextes différents. Cette généricité peut s exprimer sur plusieurs axes : la taille de la base de données (petite, grande), le domaine d application (marketing, biologie, web...), le type de variables explicatives (numérique, catégorielle), la distribution de la variable cible (équilibrée ou pas), existence de bruit... Interprétabilité. L avantage des modèles interprétables est qu ils permettent une meilleure compréhension des données, ce qui facilite l exploitation des résultats d analyse. 5

12 Introduction Générale Contributions Nous présentons dans ce manuscrit une nouvelle approche de prétraitement de variables dans le cadre de la classification de données multi-tables. Il s agit d une extension de l approche de préparation de variables MODL (proposée dans le cas de données monotables classiques [Boullé, 2011]) aux variables explicatives situées dans des tables secondaires (tables en relation un-à-plusieurs avec la table cible). Notre méthode consiste à proposer une famille de modèles non paramétriques pour l estimation de la densité de probabilité conditionnelle des variables secondaires. Cette estimation permet de prendre en compte ce genre de variables dans un classifieur de type Bayésien Naïf dans le contexte multi-tables. Elle permet également de proposer un critère de sélection de variables secondaires de type filtre comme pour la représentation attribut-valeur classique [Guyon et Elisseeff, 2003]. L approche repose sur un prétraitement des variables secondaires, par discrétisation dans le cas numérique et par groupement de valeurs dans le cas catégoriel. Nous proposons, dans un premier lieu, d effectuer ce partitionnement de façon univariée, c est-à-dire, de considérer une seule variable secondaire à la fois. Dans un second lieu, nous proposons une approche de partitionnement multivarié basé sur des itemsets de variables secondaires, ce qui permet de prendre en compte les éventuelles corrélations qui peuvent exister entre ce genre de variables. L originalité de la méthode se situe dans le changement de représentation effectué grâce au partitionnement des variables secondaires. Chaque variable est projetée vers la table cible en créant un vecteur d effectifs par partie secondaire (intervalle ou groupe) résumant l information contenue dans la variable considérée. Ces attributs d effectifs sont conjointement partitionnés à l aide de modèles en grille de données afin d obtenir une meilleure séparation des valeurs de la classe. La modélisation suit une démarche de sélection de modèles se basant sur une approche Bayésienne. Cette démarche permet de définir un critère d évaluation pour chaque type de variable. Des algorithmes combinatoires sont alors introduits pour optimiser efficacement ce critère et obtenir le meilleur modèle. Organisation du document Dans le chapitre 1, nous dressons un panorama des principales méthodes de fouille de données multi-tables de l état de l art. Nous formalisons le problème comme un problème de classification supervisée en introduisant les différents termes utilisés par la suite. En précisant les enjeux auxquels est confrontée la fouille de données multi-tables, une attention particulière est portée à l étape de prétraitement des données. Dans les chapitres suivants, nous présentons notre approche de fouille de données multi-tables de façon didactique. Nous abordons le problème comme un problème de 6

13 prétraitement des variables secondaires. Celles-ci sont considérées dans les chapitres 2 et 3 de façon univariée ensuite de manière multivariée dans le chapitre 4. Dans le chapitre 2, nous considérons le cas le plus simple d une variable secondaire, celui d une seule variable binaire. Notre approche est décrite en détail dans ce cas en introduisant le critère d évaluation ainsi que les modèles en grille de données permettant d estimer la densité de probabilité conditionnelle pour ce genre de variables. Nous décrivons également l extension du classifieur Bayésien Naïf au cas multi-tables se basant sur cette estimation. Dans le chapitre 3, le cas d une variable secondaire binaire est étendu progressivement aux cas catégoriel et numérique. Nous proposons un critère permettant d évaluer le partitionnement d une variable secondaire par groupement de valeurs si celle-ci est catégorielle et par discrétisation si elle est numérique. Nous introduisons par ailleurs quelques algorithmes afin d optimiser ce critère. Dans le chapitre 4, nous généralisons notre approche au cas multivarié. Nous proposons un critère d évaluation d itemsets de variables secondaires construit par discrétisation des variables numériques et par groupement de valeurs dans le cas catégoriel. Enfin, dans le chapitre 5, nous dressons un bilan de notre méthode et de ce qui reste à effectuer, notamment en matière d algorithmes d optimisation. 7

14 8 Introduction Générale

15 1 État de l art Sommaire 1.1 Introduction Fouille de Données Multi-Tables Format Attribut-Valeur Fouille de Données Structurées Formalisation du problème et Terminologie Enjeux de la Fouille de données Multi-Tables Travaux Majeurs Programmation Logique Inductive Apprentissage Logique Probabiliste Modèles Probabilistes Arbres de Décision Relationnels Approches à base de distance Méthodes à noyaux Pré-traitement Conclusion

16 Chapitre 1 État de l art 1.1 Introduction Nous présentons dans ce premier chapitre le contexte de nos travaux, celui de la Fouille de Données Multi-Tables. Dans une première section, nous situons d abord ce nouveau paradigme par rapport au cadre classique de fouille de données attributvaleur. Ensuite, nous nous positionnons relativement aux différents problèmes étudiés dans le cadre multi-tables afin de préciser notre problématique d apprentissage. Nous formalisons le problème comme un problème de classification et nous introduisons les différentes terminologies et notations que nous utilisons par la suite. Dans la section 1.3, nous reportons sans prétention d exhaustivité quelques travaux proposés dans la littérature notamment en matière d apprentissage supervisé et de pré-traitement de données multi-tables. 1.2 Fouille de Données Multi-Tables Il est bien connu depuis les débuts de l Intelligence Artificielle que la représentation est une question clé pour faciliter la résolution d un problème [Newell et Simon, 1972, Korf, 1980,Amarel, 1983]. En particulier, en apprentissage supervisé, un compromis doit être fait entre, d une part, le choix du formalisme utilisé pour représenter les exemples d apprentissage et d autre part, la complexité de l algorithme [Neri et Saitta, 1994a, Neri et Saitta, 1994b] Format Attribut-Valeur Le formalisme classique en fouille de données est le formalisme propositionnel d où le nom fouille de données propositionnelle (en anglais Propositional Data Mining). Typiquement, dans ce formalisme, les individus sont représentés par un nombre fixe de variables, appelées encore caractéristiques ou attributs. Les individus sont alors vus comme un ensemble de paires attribut-valeur représentées sous la forme d un vecteur de valeurs de taille fixe. Ces valeurs peuvent être de différentes natures : numériques ou catégorielles. L ensemble de tous les individus correspond dans le formalisme des bases de données relationnelles à une table ou relation. Les lignes ou enregistrements correspondent aux individus. et les colonnes correspondent aux variables. Dans le contexte de l apprentissage supervisé on cherche à prédire la valeur d une variable particulière qu on appelle Variable Cible ou Classe. Exemple 1.1. Prenons par exemple un problème CRM (Customer Relationship Management) où l objectif est d identifier les clients susceptibles de s intéresser à un certain produit ou service, ce qui revient à un problème de classification de clients. La variable cible correspond à l attribut CLASSE qui dénote si le client est intéressé par un produit particulier. Dans le format à-plat classique, les données se présentent, comme dans la Figure 1.1, sous la forme d un tableau où chaque client correspond 10

17 1.2 Fouille de Données Multi-Tables à une ligne. Les variables décrivant ces clients ainsi que la cible sont données en colonnes. Figure 1.1: Représentation à plat À des fins didactiques, le problème de l Exemple 1.1 sera utilisé dans le reste de ce manuscrit pour illustrer la problématique ainsi que l approche proposée. Le paradigme propositionnel a plusieurs avantages, ce qui explique sa popularité. Tous les individus sont décrits par les mêmes variables. Chaque variable apparait une seule fois dans cette description et possède une seule valeur. Il arrive qu un individu puisse avoir une valeur non-renseignée pour une variable particulière. Des extensions existent pour faire de l apprentissage dans le cas de données manquantes ou incomplètes. Les individus peuvent être vus comme des points dans un espace en dimension finie. Des mesures de distance sont facilement définies pour quantifier des similarités entre individus. Des méthodes de type k-plus-proches-voisins peuvent alors être employées [Fix et Hodges, 1951]. Sur cet espace d individus, des méthodes d estimation de densité peuvent être employées pour aider à découvrir des régions intéressantes. Les valeurs des variables sont complémentaires : c est-à-dire, une condition sur la valeur d une variable divise les individus en deux sous-groupes disjoints. La méthode populaire des Arbres de Décision exploite cette propriété en utilisant des opérations simples (=,, et ) [Quinlan, 1986]. Le paradigme propositionnel a été largement utilisé dans les méthodes d apprentissage classiques grâce à la structure tabulaire simple qu il propose. Cependant, ce formalisme se heurte en réalité à plusieurs limites à cause de son pouvoir d expressivité. Les objets du monde réel présentent souvent de façon naturelle une structure interne difficile à exprimer sous la forme d une représentation attribut-valeur. Les approches de fouille de données opérant sur cette représentation à plat ne permettent pas de prendre en compte les structures complexes que peuvent prendre les données. Nous utilisons le terme Fouille de Données Structurées (Structured Data Mining) 11

18 Chapitre 1 État de l art pour faire référence à la classe de techniques qui supportent l analyse des objets structurés Fouille de Données Structurées Les objets réels présentent souvent une structure composée de sous entités ou de sous parties qui diffèrent d un objet à un autre et qui possèdent chacune sa description intrinsèque. La structure globale des objets est définie par les relations qui peuvent exister entre les entités qui les composent. Un ensemble prédéfini d attributs ne peut pas représenter cette variabilité en structure, d où le besoin d autres représentations. Exemple 1.2. Dans le problème de classification des clients de l Exemple 1.1, souvent, on dispose non seulement des informations concernant les clients (telle que l âge, les revenus, etc. ce qui correspond dans le formalisme attribut-valeur aux variables décrivant les clients), mais encore des historiques d achats effectués, des produits commandés dans chaque achat. Outre l objet Client, d autres entités : Commandes et Produits, viennent s y ajouter et chacune des ces entités possède ses propres descriptions. Dans le cas où le problème est de prédire si le client est intéressé par certains produits, les propriétés des achats et des produits commandés précédemment par ce même client peuvent potentiellement être très informatives. Les clients s intéressent généralement à des produits de même nature, dans le même ordre de prix, etc. Ces propriétés des achats et des produits peuvent être très pertinentes pour prédire la classe d un client. Cependant, un vecteur de variables de taille fixe modélisant un client ne suffit pas pour décrire les informations de ses achats Représentations des données structurées Trois représentations équivalentes existent dans la littérature pour représenter les données structurées. Sur la base de ces représentations, les méthodes de Fouille de Données Structurées peuvent être classées en trois catégories : La Fouille de Graphe [Cook et Holder, 2000,Washio et Motoda, 2003]. Les données sont représentées sous la forme de graphes. Chaque objet est un graphe conceptuel. Les sommets du graphe représentent les entités ainsi que leurs attributs. Les relations entre ces entités correspondent aux arcs (orientés ou non orientés). Ce formalisme est plutôt adapté aux méthodes d analyse descriptive tels que le clustering de graphes et la recherche des motifs fréquents. La Programmation Logique Inductive [Džeroski, 1996,Lavrač et Džeroski, 1994]. La base de données est constituée d une collection de faits exprimés sous la forme de prédicats logiques de premier ordre. Ces prédicats décrivent les entités ainsi que les relations entre elles. La Fouille de Données Multi-Tables [Džeroski, 2003]. Les données sont contenues dans une base de données relationnelle. Les tables représentent les entités. 12

19 1.2 Fouille de Données Multi-Tables Les relations entre ces entités sont définies grâce aux contraintes de clés étrangères. Exemple 1.3. Les Figures 1.2 et 1.3 ainsi que Listing 1.1 illustrent comment on peut représenter les données du problème de classification des clients avec ces trois formalismes équivalents. Les clients sont décrits de façon complète à l aide des entités ou concepts : Client et Commande. Parmi ces trois représentations, le formalisme relationnel offre la représentation la plus compacte. En PLI et en Fouille de Graphes, on a besoin d un prédicat logique (en PLI) et d un nœud (en Fouille de Graphe) pour représenter chaque valeur d un attribut donné. La plupart des applications réelles disposent de données stockées à leur état brut dans des bases de données relationnelles. Cependant, les approches PLI et par Fouille de Graphes transforment les données relationnelles vers leurs formalismes respectifs avant de pouvoir les traiter. Dans ce manuscrit, nous nous intéressons aux méthodes d apprentissage supervisé qui travaillent directement sur la représentation relationnelle multi-tables. Définition 1.1. La Fouille de Données Multi-Tables (en anglais Multi-Relational Data Mining, MRDM) est une famille de méthodes de fouille de données qui traitent de l extraction de connaissances à partir de bases de données relationnelles contenant plusieurs tables. Dans la communauté ECD, le terme «relationnel» a été utilisé pour qualifier certains paradigmes d apprentissage qui diffèrent de la problématique à laquelle nous nous intéressons dans ce mémoire. Pour lever toute ambigüité, ces terminologies ne devraient pas se confondre avec la définition que nous avons fournie pour la Fouille de Données Multi-Tables : Fouille de Données Relationnelles (en anglais Relational Data Mining, RDM). Ce terme est devenu populaire dans la communauté de la programmation logique, surtout avec l apparition du livre de [Džeroski et Lavrač, 2001]. Il s agit des techniques PLI classiques. Leur qualification de «relationnel» provient de la prise en compte des données relationnelles en les transformant sous la forme de prédicats logiques. Apprentissage Relationnel (en anglais Relational Learning, RL). C est un concept plus général que la PLI et la Fouille de Données Relationnelles. Il s intéresse à l apprentissage à partir de données présentant une structure complexe (des graphes ou des réseaux) où les objets sont en relation les uns aux autres par des relations sémantiques ou de similarité Problèmes d Apprentissage en Fouille de Données Structurées Plusieurs problèmes d apprentissage ont été envisagés dans le cadre de la Fouille de Données Structurées. Certaines représentations sont mieux adaptées à un problème 13

20 Chapitre 1 État de l art Figure 1.2: Représentation en Fouille de Graphes Client (CL01,25, H, Mr,40, Commerçant,..., positive ). a_commandé ( CL01, C01CL01 ). a_commandé ( CL01, C02CL01 ). a_commandé ( CL01, C03CL01 ). a_commandé ( CL01, C04CL01 ). Commande ( C01CL01,150,10,Chèque, Retrait_magasin ). Commande ( C02CL01,85,5.9,CB, Colis_poste ).... Client (CL02,28, H, Mr,25, Ingénieur,..., négative ). a_commandé (CL02,C01CL02 ). a_commandé (CL02,C02CL02 ). a_commandé (CL02,C03CL02 ). Commande ( C01CL02,50,8.5, Chèque, Retrait_magasin ).... Client (CL03,31, F, Mme,36, Cadre,..., neutre ).... Listing 1.1: Représentation en Programmation Logique Inductive 14

La structure de la révolution numérique : philosophie de la technologie

La structure de la révolution numérique : philosophie de la technologie La structure de la révolution numérique : philosophie de la technologie Stéphane Vial To cite this version: Stéphane Vial. La structure de la révolution numérique : philosophie de la technologie. Philosophy.

Plus en détail

Sorthong Banjongsawat. To cite this version: HAL Id: tel-00771422 https://tel.archives-ouvertes.fr/tel-00771422

Sorthong Banjongsawat. To cite this version: HAL Id: tel-00771422 https://tel.archives-ouvertes.fr/tel-00771422 La Thaïlande, pays aux deux visages : Approches sémiologiques d une identité culturelle ambiguë à travers le miroir de la presse et autres discours publics Sorthong Banjongsawat To cite this version: Sorthong

Plus en détail

Pour une sociologie du réalisme politique : Le cas du Parti socialiste

Pour une sociologie du réalisme politique : Le cas du Parti socialiste Pour une sociologie du réalisme politique : Le cas du Parti socialiste Pierre-Alexis Tchernoïvanoff To cite this version: Pierre-Alexis Tchernoïvanoff. Pour une sociologie du réalisme politique : Le cas

Plus en détail

Conception d un convertisseur de puissance pour véhicules électriques multi-sources

Conception d un convertisseur de puissance pour véhicules électriques multi-sources Conception d un convertisseur de puissance pour véhicules électriques multi-sources Ahmed Boucherit To cite this version: Ahmed Boucherit. Conception d un convertisseur de puissance pour véhicules électriques

Plus en détail

Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables

Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables Dhafer Lahbib, Marc Boullé, Dominique Laurent France Télécom R&D - 2, avenue Pierre Marzin, 23300 Lannion dhafer.lahbib@orange-ftgroup.com

Plus en détail

Evaluation et prise en charge des processus de récupération en mémoire dans la maladie d Alzheimer

Evaluation et prise en charge des processus de récupération en mémoire dans la maladie d Alzheimer Evaluation et prise en charge des processus de récupération en mémoire dans la maladie d Alzheimer Benjamin Boller To cite this version: Benjamin Boller. Evaluation et prise en charge des processus de

Plus en détail

SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne

SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne Adrien GUILLE, C. Favre, Djamel Abdelkader Zighed To cite this version: Adrien GUILLE, C. Favre, Djamel Abdelkader

Plus en détail

Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales

Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales Natacha Gondran To cite this version: Natacha Gondran. Système de diffusion d information

Plus en détail

Géraldine Guérillot. To cite this version: HAL Id: tel-00873627 https://tel.archives-ouvertes.fr/tel-00873627

Géraldine Guérillot. To cite this version: HAL Id: tel-00873627 https://tel.archives-ouvertes.fr/tel-00873627 La réception des discours de développement durable et d actions de responsabilité sociale des entreprises dans les pays du Sud : le cas d un don d ordinateurs au Sénégal dans le cadre d un projet tripartite

Plus en détail

La dentinogénèse imparfaite, diagnostic et prise en charge

La dentinogénèse imparfaite, diagnostic et prise en charge La dentinogénèse imparfaite, diagnostic et prise en charge Marielle Calvez To cite this version: Marielle Calvez. La dentinogénèse imparfaite, diagnostic et prise en charge. Other [q-bio.ot]. 2013.

Plus en détail

La socialisation par les sports collectifs : une approche conative auprès des enseignants d éducation physique et sportive

La socialisation par les sports collectifs : une approche conative auprès des enseignants d éducation physique et sportive La socialisation par les sports collectifs : une approche conative auprès des enseignants d éducation physique et sportive Guy Verschave To cite this version: Guy Verschave. La socialisation par les sports

Plus en détail

Savoir nager, une richesse culturelle : Analyse comparative de l enseignement de la natation à Canton, Dakar et Paris

Savoir nager, une richesse culturelle : Analyse comparative de l enseignement de la natation à Canton, Dakar et Paris Savoir nager, une richesse culturelle : Analyse comparative de l enseignement de la natation à Canton, Dakar et Paris Valérie Schwob To cite this version: Valérie Schwob. Savoir nager, une richesse culturelle

Plus en détail

Les nouvelles tours de Londres comme marqueurs des mutations d une métropole globale

Les nouvelles tours de Londres comme marqueurs des mutations d une métropole globale Les nouvelles tours de Londres comme marqueurs des mutations d une métropole globale Manuel Appert To cite this version: Manuel Appert. Les nouvelles tours de Londres comme marqueurs des mutations d une

Plus en détail

La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale

La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale Stéphanie Perriere To cite this version: Stéphanie Perriere. La voix en images : comment l

Plus en détail

Camille Istin. Contribution à l étude du registre des délibérations de la Société libre des pharmaciens. Seine-Inférieure (1815-1830)

Camille Istin. Contribution à l étude du registre des délibérations de la Société libre des pharmaciens. Seine-Inférieure (1815-1830) Contribution à l étude du registre des délibérations de la Société libre des pharmaciens de Rouen et de Seine-Inférieure (1815-1830) Camille Istin To cite this version: Camille Istin. Contribution à l

Plus en détail

Aspects psycho-sociaux des interruptions volontaires de grossesse chez les mineures

Aspects psycho-sociaux des interruptions volontaires de grossesse chez les mineures Aspects psycho-sociaux des interruptions volontaires de grossesse chez les mineures Aude Le Borgne To cite this version: Aude Le Borgne. Aspects psycho-sociaux des interruptions volontaires de grossesse

Plus en détail

Choix méthodologiques pour une analyse de conversation en situation de jeux vidéo

Choix méthodologiques pour une analyse de conversation en situation de jeux vidéo Choix méthodologiques pour une analyse de conversation en situation de jeux vidéo Isabel Colón de Carvajal To cite this version: Isabel Colón de Carvajal. Choix méthodologiques pour une analyse de conversation

Plus en détail

Ce qu est le Data Mining

Ce qu est le Data Mining Data Mining 1 Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD

Plus en détail

Delphine Graniou. To cite this version: HAL Id: dumas-00836052 http://dumas.ccsd.cnrs.fr/dumas-00836052

Delphine Graniou. To cite this version: HAL Id: dumas-00836052 http://dumas.ccsd.cnrs.fr/dumas-00836052 Le point de vue des femmes sur la mise en place d un dépistage national organisé du cancer du col de l utérus. Étude qualitative auprès de femmes de Haute-Normandie Delphine Graniou To cite this version:

Plus en détail

Résultats à long terme de la photo-kératectomie thérapeutique dans les dystrophies cornéennes

Résultats à long terme de la photo-kératectomie thérapeutique dans les dystrophies cornéennes Résultats à long terme de la photo-kératectomie thérapeutique dans les dystrophies cornéennes épithéliales Badreddine Chanaoui To cite this version: Badreddine Chanaoui. Résultats à long terme de la photo-kératectomie

Plus en détail

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Mostafa Hanoune, Fouzia Benabbou To cite this version: Mostafa Hanoune, Fouzia Benabbou. Modélisation Informatique

Plus en détail

Articuler les politiques de GRH et les stratégies d Innovation : Proposition d un modèle

Articuler les politiques de GRH et les stratégies d Innovation : Proposition d un modèle Articuler les politiques de GRH et les stratégies d Innovation : Proposition d un modèle C. Defelix, I. Mazzilli, Alain Gosselin To cite this version: C. Defelix, I. Mazzilli, Alain Gosselin. Articuler

Plus en détail

Les associations d usagers dans le domaine de la périnatalité : un engagement fondé sur la connaissance?

Les associations d usagers dans le domaine de la périnatalité : un engagement fondé sur la connaissance? Les associations d usagers dans le domaine de la périnatalité : un engagement fondé sur la connaissance? Madeleine Akrich, Maire Leane, Celia Roberts To cite this version: Madeleine Akrich, Maire Leane,

Plus en détail

Étude rétrospective sur l efficacité et la tolérance de l ivermectine per os chez 27 nourrissons atteints de gale récalcitrante

Étude rétrospective sur l efficacité et la tolérance de l ivermectine per os chez 27 nourrissons atteints de gale récalcitrante Étude rétrospective sur l efficacité et la tolérance de l ivermectine per os chez 27 nourrissons atteints de gale récalcitrante Céline Bécourt To cite this version: Céline Bécourt. Étude rétrospective

Plus en détail

Benjamin Dubourg. To cite this version: HAL Id: dumas-00872263 http://dumas.ccsd.cnrs.fr/dumas-00872263

Benjamin Dubourg. To cite this version: HAL Id: dumas-00872263 http://dumas.ccsd.cnrs.fr/dumas-00872263 Scanner double énergie et réduction de la dose d iode lors de l exploration des axes aorto-ilio-femoraux avant remplacement valvulaire aortique par voie percutanée Benjamin Dubourg To cite this version:

Plus en détail

Ihsane Tou. Adaptation de la couche transport des systèmes de communication hybrides satellite/terrestre

Ihsane Tou. Adaptation de la couche transport des systèmes de communication hybrides satellite/terrestre Adaptation de la couche transport des systèmes de communication hybrides satellite/terrestre Ihsane Tou To cite this version: Ihsane Tou. Adaptation de la couche transport des systèmes de communication

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Le travail vivant des agents de contrôle de l inspection du travail

Le travail vivant des agents de contrôle de l inspection du travail Le travail vivant des agents de contrôle de l inspection du travail François Daniellou, Philippe Davezies, Karine Chassaing, Bernard Dugué,, Johann Petit To cite this version: François Daniellou, Philippe

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

Les principaux domaines de l informatique

Les principaux domaines de l informatique Les principaux domaines de l informatique... abordés dans le cadre de ce cours: La Programmation Les Systèmes d Exploitation Les Systèmes d Information La Conception d Interfaces Le Calcul Scientifique

Plus en détail

Traitement de l incontinence urinaire de l homme post-prostatectomie par la bandelette sous-urétrale de type transobturatrice I-STOP TOMS

Traitement de l incontinence urinaire de l homme post-prostatectomie par la bandelette sous-urétrale de type transobturatrice I-STOP TOMS Traitement de l incontinence urinaire de l homme post-prostatectomie par la bandelette sous-urétrale de type transobturatrice I-STOP TOMS Julien Drai To cite this version: Julien Drai. Traitement de l

Plus en détail

Le patrimoine culturel immatériel sur la Toile. Comparaison entre réseaux nationaux

Le patrimoine culturel immatériel sur la Toile. Comparaison entre réseaux nationaux Le patrimoine culturel immatériel sur la Toile. Comparaison entre réseaux nationaux Marta Severo To cite this version: Marta Severo. Le patrimoine culturel immatériel sur la Toile. Comparaison entre réseaux

Plus en détail

Une charte éthique pour le Big Data

Une charte éthique pour le Big Data Une charte éthique pour le Big Data Primavera De Filippi To cite this version: Primavera De Filippi. Une charte éthique pour le Big Data. Documentaliste - Sciences de l Information, ADBS, 2013, pp.8-9.

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Dispositif de formation destiné aux futurs enseignants du secondaire I et II

Dispositif de formation destiné aux futurs enseignants du secondaire I et II Dispositif de formation destiné aux futurs enseignants du secondaire I et II Lydia Curtet To cite this version: Lydia Curtet. Dispositif de formation destiné aux futurs enseignants du secondaire I et II.

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

Introduction à la synthèse de superviseur

Introduction à la synthèse de superviseur Introduction à la synthèse de superviseur Mathilde Machin, Jérémie Guiochet, David Powell, Hélène Waeselynck To cite this version: Mathilde Machin, Jérémie Guiochet, David Powell, Hélène Waeselynck. synthèse

Plus en détail

Ingénierie d aide à la décision

Ingénierie d aide à la décision Ingénierie d aide à la décision Maria Malek 1 er septembre 2009 1 Objectifs et débouchés Nous proposons dans cette option deux grands axes pour l aide à la décision : 1. La recherche opérationnelle ; 2.

Plus en détail

Eau, territoire et conflits : analyse des enjeux de la gestion communautaire de l eau au Burkina Faso : l exemple du bassin versant du Nakambé

Eau, territoire et conflits : analyse des enjeux de la gestion communautaire de l eau au Burkina Faso : l exemple du bassin versant du Nakambé Eau, territoire et conflits : analyse des enjeux de la gestion communautaire de l eau au Burkina Faso : l exemple du bassin versant du Nakambé Ramatou Traoré To cite this version: Ramatou Traoré. Eau,

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

La construction du sens chez l enfant : entre contexte et contraste

La construction du sens chez l enfant : entre contexte et contraste La construction du sens chez l enfant : entre contexte et contraste Khalid Rashdan To cite this version: Khalid Rashdan. La construction du sens chez l enfant : entre contexte et contraste. Colloque GREG-PLSII

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Ingénierie d entreprise et de système d information dirigée par les modèles : quels usages?

Ingénierie d entreprise et de système d information dirigée par les modèles : quels usages? Ingénierie d entreprise et de système d information dirigée par les modèles : quels usages? Hervé Panetto, Xavier Boucher, Pierre-Alain Millet To cite this version: Hervé Panetto, Xavier Boucher, Pierre-Alain

Plus en détail

Le traitement numérique des images

Le traitement numérique des images Le traitement numérique des images Gabriel Peyré To cite this version: Gabriel Peyré. Le traitement numérique des images. Publication en ligne sur le site Images des Mathématiques, CNRS. 2011.

Plus en détail

Apprentissage par méthodes à noyaux en reconnaissance d images

Apprentissage par méthodes à noyaux en reconnaissance d images Apprentissage par méthodes à noyaux en reconnaissance d images Alberto Bietti Table des matières Introduction 2 1 Apprentissage par méthodes à noyaux 2 1.1 Position du problème et motivation..........................

Plus en détail

Initiation à la Programmation par l exemple : concepts, environnement, et étude d utilité

Initiation à la Programmation par l exemple : concepts, environnement, et étude d utilité Initiation à la Programmation par l exemple : concepts, environnement, et étude d utilité Nicolas Guibert, Laurent Guittet, Patrick Girard To cite this version: Nicolas Guibert, Laurent Guittet, Patrick

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 7 - Data

BI = Business Intelligence Master Data-ScienceCours 7 - Data BI = Business Intelligence Master Data-Science Cours 7 - Data Mining Ludovic DENOYER - UPMC 30 mars 2015 Ludovic DENOYER - Typologie des méthodes de Data Mining Différents types de méthodes : Méthodes

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Contexte général de l étude

Contexte général de l étude 1 2 Contexte général de l étude Les entrepôts de données associés à des outils d analyse On Line Analytical Processing (OLAP), représentent une solution effective pour l informatique décisionnelle (Immon,

Plus en détail

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Elaborer un curriculum de formation et en assurer la

Elaborer un curriculum de formation et en assurer la Elaborer un curriculum de formation et en assurer la qualité Marc Demeuse To cite this version: Marc Demeuse. Elaborer un curriculum de formation et en assurer la qualité. Florence Parent & Jean Jouquan.

Plus en détail

des réapprovisionnements pour système d assemblage à deux niveaux quand les délais d approvisionnement sont aléatoires

des réapprovisionnements pour système d assemblage à deux niveaux quand les délais d approvisionnement sont aléatoires Planification des réapprovisionnements pour système d assemblage à deux niveaux quand les délais d approvisionnement sont aléatoires Oussama Ben Ammar, Faicel Hnaien, Hélène Marian, Alexandre Dolgui To

Plus en détail

statique J. Bertrand To cite this version: HAL Id: jpa-00237017 https://hal.archives-ouvertes.fr/jpa-00237017

statique J. Bertrand To cite this version: HAL Id: jpa-00237017 https://hal.archives-ouvertes.fr/jpa-00237017 Quelques théorèmes généraux relatifs à l électricité statique J. Bertrand To cite this version: J. Bertrand. Quelques théorèmes généraux relatifs à l électricité statique. J. Phys. Theor. Appl., 1874,

Plus en détail

Charte Éthique et Big Data : parce que mon corpus le vaut bien!

Charte Éthique et Big Data : parce que mon corpus le vaut bien! Charte Éthique et Big Data : parce que mon corpus le vaut bien! Alain Couillault, Karen Fort To cite this version: Alain Couillault, Karen Fort. Charte Éthique et Big Data : parce que mon corpus le vaut

Plus en détail

Analyse de données symboliques et graphe de connaissances d un agent

Analyse de données symboliques et graphe de connaissances d un agent d un agent Philippe Caillou*, Edwin Diday** *LAMSADE - Université Paris Dauphine Place du maréchal de Lattre de Tassigny 7516 Paris caillou@lamsade.dauphine.fr **CEREMADE - Université Paris Dauphine Place

Plus en détail

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence Gwenole Fortin To cite this version: Gwenole Fortin. Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence. 2006.

Plus en détail

Support du cours de Probabilités IUT d Orléans, Département d informatique

Support du cours de Probabilités IUT d Orléans, Département d informatique Support du cours de Probabilités IUT d Orléans, Département d informatique Pierre Andreoletti IUT d Orléans Laboratoire MAPMO (Bât. de Mathématiques UFR Sciences) - Bureau 126 email: pierre.andreoletti@univ-orleans.fr

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

La tarification des services d aide à domicile : un outil au service des politiques départementales?

La tarification des services d aide à domicile : un outil au service des politiques départementales? La tarification des services d aide à domicile : un outil au service des politiques départementales? Robin Hege, Quitterie Roquebert, Marianne Tenand, Agnès Gramain To cite this version: Robin Hege, Quitterie

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Apport du Knowledge Management dans l amélioration de la prise de décision dans une Organisation

Apport du Knowledge Management dans l amélioration de la prise de décision dans une Organisation Apport du Knowledge Management dans l amélioration de la prise de décision dans une Organisation Abdelkader Baaziz To cite this version: Abdelkader Baaziz. Apport du Knowledge Management dans l amélioration

Plus en détail

Vers une Automatisation de la Construction de Variables pour la Classification Supervisée

Vers une Automatisation de la Construction de Variables pour la Classification Supervisée pour la Classification Supervisée Marc Boullé, Dhafer Lahbib Orange Labs, 2 avenue Pierre Marzin, 22300 Lannion marc.boulle@orange.com, http://perso.rd.francetelecom.fr/boulle/ Résumé. Dans cet article,

Plus en détail

CAPE: Context-Aware Agile Business Process Engine

CAPE: Context-Aware Agile Business Process Engine CAPE: Context-Aware Agile Business Process Engine Irina Rychkova, Manuele Kirsch Pinheiro, Bénédicte Le Grand To cite this version: Irina Rychkova, Manuele Kirsch Pinheiro, Bénédicte Le Grand. CAPE: Context-Aware

Plus en détail

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne Sophie Morlaix To cite this version: Sophie Morlaix. L indice de SEN, outil de mesure de l équité

Plus en détail

Classification supervisée de documents

Classification supervisée de documents Classification supervisée de documents 1. Introduction La classification automatique supervisée de document devient nécessaire à cause du volume de documents échangés et stockés sur support électronique.

Plus en détail

Kit de survie sur les bases de données

Kit de survie sur les bases de données Kit de survie sur les bases de données Pour gérer un grand nombre de données un seul tableau peut s avérer insuffisant. On représente donc les informations sur différentes tables liées les unes aux autres

Plus en détail

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/ Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/

Plus en détail

Apprentissage de structure dans les réseaux bayésiens pour

Apprentissage de structure dans les réseaux bayésiens pour Apprentissage de structure dans les réseaux bayésiens pour la détection d événements vidéo Siwar Baghdadi 1, Claire-Hélène Demarty 1, Guillaume Gravier 2, et Patrick Gros 3 1 Thomson R&D France, 1 av Belle

Plus en détail

RETRO-INGENIERIE DES BASES DE DONNEES

RETRO-INGENIERIE DES BASES DE DONNEES RETRO-INGENIERIE DES BASES DE DONNEES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas être considérés

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

10 Intégration de données sur le web

10 Intégration de données sur le web 10 Intégration de données sur le web 240 Requête utilisateur : Où est-ce que je peux voir les films qui ont participé au dernier Festival de Cannes? Je voudrais les résumés et critiques des films de Pedro

Plus en détail

AGROBASE : un système de gestion de données expérimentales

AGROBASE : un système de gestion de données expérimentales AGROBASE : un système de gestion de données expérimentales Daniel Wallach, Jean-Pierre RELLIER To cite this version: Daniel Wallach, Jean-Pierre RELLIER. AGROBASE : un système de gestion de données expérimentales.

Plus en détail

Détection de fissures sur des images de chaussées

Détection de fissures sur des images de chaussées Détection de fissures sur des images de chaussées Tien Sy Nguyen, Manuel Avila, Stéphane Begot, Florent Duculty To cite this version: Tien Sy Nguyen, Manuel Avila, Stéphane Begot, Florent Duculty. Détection

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

Dessin assisté par ordinateur en lycée professionnel

Dessin assisté par ordinateur en lycée professionnel Dessin assisté par ordinateur en lycée professionnel Bernard Dauga To cite this version: Bernard Dauga. Dessin assisté par ordinateur en lycée professionnel. Bulletin de l EPI (Enseignement Public et Informatique),

Plus en détail

Vous trouvez plus d information sur AREL. ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html

Vous trouvez plus d information sur AREL. ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html Option Deux thèmes : La recherche opérationnelle : Traiter des problèmes d optimisation, d aide à la décision et d évaluation de performances

Plus en détail

à jour dynamique de Modèles de Markov Cachés : Application dans l Aide à la Décision pour Maintenance Préventive Industrielle

à jour dynamique de Modèles de Markov Cachés : Application dans l Aide à la Décision pour Maintenance Préventive Industrielle Mise à jour dynamique de Modèles de Markov Cachés : Application dans l Aide à la Décision pour une Maintenance Préventive Industrielle Bernard Roblès, Manuel Avila, Florent Duculty, Pascal Vrignat, Stéphane

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

1. Vue rapide des logiciels disponibles

1. Vue rapide des logiciels disponibles Voici une revue rapide des progiciels gratuits accessibles [FREE AND SHAREWARE] dans la section SUITES du site KDNUGGETS (http://www.kdnuggets.com/software/suites.html). L étude sera approfondie pour les

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

Abaque graphique des lentilles

Abaque graphique des lentilles Abaque graphique des lentilles C.-M. Gariel To cite this version: C.-M. Gariel. Abaque graphique des lentilles. J. Phys. Theor. Appl., 1877, 6 (1), pp.282-285. .

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

Introduction aux bases de données

Introduction aux bases de données 1/73 Introduction aux bases de données Formation continue Idir AIT SADOUNE idir.aitsadoune@supelec.fr École Supérieure d Électricité Département Informatique Gif sur Yvette 2012/2013 2/73 Plan 1 Introduction

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé Glossaire Analyse en Composantes Principales (ACP) : *méthode factorielle (Pearson 1901, Hotelling 1933) permettant de fournir un résumé descriptif (sous forme graphique le plus souvent) d une population

Plus en détail

Le projet NADIA-DEC : vers un dictionnaire explicatif et combinatoire informatisé?

Le projet NADIA-DEC : vers un dictionnaire explicatif et combinatoire informatisé? Le projet NADIA-DEC : vers un dictionnaire explicatif et combinatoire informatisé? Gilles Sérasset To cite this version: Gilles Sérasset. Le projet NADIA-DEC : vers un dictionnaire explicatif et combinatoire

Plus en détail

L informatique des entrepôts de données

L informatique des entrepôts de données L informatique des entrepôts de données Daniel Lemire SEMAINE 13 L exploration des données 13.1. Présentation de la semaine L exploration de données (ou data mining) est souvent associée à l intelligence

Plus en détail

Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile

Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile W. Lermantoff To cite this version: W. Lermantoff. Sur le grossissement

Plus en détail

du Système de Management Intégré Qualité, Sécurité, Environnement des PME/PMI Marocaines.

du Système de Management Intégré Qualité, Sécurité, Environnement des PME/PMI Marocaines. Diagnostic du Système de Management Intégré Qualité, Sécurité, Environnement des PME/PMI Marocaines Badr DAKKAK, Youness CHATER, Mephtaha GUENNOUN, Abdennebi TALBI To cite this version: Badr DAKKAK, Youness

Plus en détail

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

Compte-rendu de Hamma B., La préposition en français

Compte-rendu de Hamma B., La préposition en français Compte-rendu de Hamma B., La préposition en français Badreddine Hamma To cite this version: Badreddine Hamma. Compte-rendu de Hamma B., La préposition en français. Revue française de linguistique appliquée,

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail