Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables.

Dimension: px
Commencer à balayer dès la page:

Download "Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables."

Transcription

1 Préparation non paramétrique des données pour la fouille de données multi-tables Dhafer Lahbib To cite this version: Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables. Other. Université de Cergy Pontoise, French. <NNT : 2012CERG0616>. <tel v1> HAL Id: tel Submitted on 26 Aug 2013 (v1), last revised 27 Jan 2014 (v3) HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

2 École Doctorale Sciences et Ingénierie Préparation non paramétrique des données pour la fouille de données multi-tables THÈSE présentée et soutenue publiquement le 6 décembre 2012 pour l obtention du Doctorat en Sciences de l université de Cergy-Pontoise (spécialité STIC) par Dhafer LAHBIB Composition du jury Rapporteurs : Nicolas LACHICHE MCF HDR Université Louis Pasteur Bruno CRÉMILLEUX Professeur Université de Caen Examinateurs : Christel VRAIN Professeur Université d Orléans Karine ZEITOUNI Professeur Université de Versailles Saint-Quentin-en-Yvelines Directeur de thèse : Dominique LAURENT Professeur Université de Cergy-Pontoise Co-Encadrant : Marc BOULLÉ Docteur Orange Labs, Lannion Equipe Traitement de l Information et Systèmes (ETIS) UMR CNRS 8051

3

4

5 Table des matières Introduction Générale 1 Contexte Industriel Objectifs Contributions Organisation du document État de l art Introduction Fouille de Données Multi-Tables Format Attribut-Valeur Fouille de Données Structurées Formalisation du problème et Terminologie Enjeux de la Fouille de données Multi-Tables Travaux Majeurs Programmation Logique Inductive Apprentissage Logique Probabiliste Modèles Probabilistes Arbres de Décision Relationnels Approches à base de distance Méthodes à noyaux Pré-traitement Conclusion Principe de l Approche : Cas d une Variable Secondaire Binaire Introduction Approche Critère d évaluation Distribution a priori des modèles Vraisemblance des modèles Critère Optimisation de la Grille Bivariée Heuristique gloutonne Complexité Extension du Bayésien naïf Estimation de la Probabilité Conditionnelle Univariée Bayésien Naïf Sélectif i

6 Table des matières Table des matières 2.6 Expérimentations Protocole Données artificielles Base de données Stulong Conclusion Extension aux Variables Secondaires Catégorielles et Numériques Introduction Variable catégorielle avec peu de valeurs Approche Critère Algorithme d optimisation Variable catégorielle avec groupement de valeurs Critère Optimisation Variable Secondaire Numérique Approche Critère Algorithme d optimisation Expérimentations Jeux de données Résultats Données synthétiques Données Réelles Conclusion Pré-traitement multivarié des variables secondaires Introduction Motivation Approche Évaluation d itemsets de variables secondaires Coût de construction d un itemset Évaluation de la variable secondaire associée à l itemset Critère d évaluation global Induction d itemsets de variables secondaires Conclusion Bilan et perspectives 101 ii

7 Introduction Générale Les progrès réalisés dans les technologies d acquisition, de stockage et de distributions des données ont entraîné une croissance rapide de la taille des bases de données disponibles. En effet, la quantité de données est estimée doubler presque chaque année, d où l intérêt croissant de valoriser ces données. Par conséquent, un des plus grands défis auxquels sont confrontées plusieurs organisations et entreprises est de savoir comment transformer leur volume de données qui ne cesse d augmenter en des connaissances utiles et exploitables. Les travaux qui ont abordé cette problématique relèvent de domaines très variés tels que les statistiques, l intelligence artificielle, l apprentissage automatique, les bases de données... Ces travaux ont donné lieu à un nouveau domaine de recherche très actif connu sous le terme de Fouille de Données. La Fouille de Données (en anglais, Data Mining) est généralement mentionnée dans un cadre plus large, celui de l Extraction de Connaissances à partir de Données ECD (en anglais, Knowledge Discovery in Databases KDD). Elle se rapporte au processus d extraction d informations originales auparavant inconnues, et potentiellement exploitables dans les bases de données [Usama M. Fayyad et al., 1996]. Elle propose d utiliser un ensemble de techniques et algorithmes qui ont pour objet la découverte de motifs et des connaissances à partir de grandes quantités de données [Berry et Gordon S. Linoff, 2011]. La plupart des algorithmes de fouille de données disponibles aujourd hui sont basés sur une représentation sous forme d un tableau attribut-valeur, où les instances de données sont représentées par des vecteurs d attribut-valeur de taille fixe et qui sont supposées être identiquement et indépendamment distribués (hypothèse i.i.d). L utilisation de ces algorithmes se limite alors aux bases de données stockées sous ce format «à plat». Cependant, dans des applications réelles, les données sont beaucoup plus riches en structure et se présentent souvent stockées dans des bases de données relationnelles composées de plusieurs tables. Afin de pouvoir utiliser les algorithmes classiques de fouille de données, l analyste de données doit alors projeter cette représentation relationnelle initiale vers une représentation simplifiée monotable attribut-valeur, ce qui est une tâche coûteuse en temps et critique pour la qualité des résultats. En effet, cette mise à plat passe par la construction d agrégats afin de résumer l information contenue dans les différentes tables nécessitant ainsi une grande expertise et connaissance du domaine. Par ailleurs, l opération d agrégation va non seulement engendrer une perte d information par rapport à la représentation initiale naturellement compacte mais elle risque également d intro- 1

8 Introduction Générale duire des biais statistiques, notamment à cause des dépendances qui peuvent exister entre les variables nouvellement créées. Afin de résoudre ces problèmes un nouveau paradigme de fouille de données a été proposé dans la littérature : la Fouille de Données Multi-Tables. La Fouille de Données Multi-Tables FDMT (en anglais Multi-Relational Data Mining) a été définie par [Džeroski, 2003] comme l extraction de connaissances et de motifs à partir d une base de données relationnelle. Contrairement aux approches mono-table classique, la FDMT a pour objectif d apprendre des connaissances en se basant sur des données stockées sur plusieurs tables. Notre travail se situe dans ce cadre particulier. Il est motivé par les besoins métiers ainsi que les données disponibles dans le contexte industriel dans lequel se situe cette thèse. Contexte Industriel La Fouille de données chez Orange couvre des domaines d application très divers tels que le marketing, le web mining, la caractérisation du trafic réseau... Les données disponibles se présentent souvent dans l état brut dans des datastores (banques de données). Ces datastores possèdent une structure très complexe composée de nombreuses tables et leur volume peut atteindre quelques dizaines de Téraoctets dans le domaine du marketing client par exemple. Dans des domaines applicatifs particuliers, à partir de ces données, des entrepôts de données (Data Warehouse) sont construits pour des besoins métiers spécifiques. Le schéma typique de ces entrepôts de données est un schéma en étoile où chaque individu (l unité statistique) du domaine applicatif est stocké au moyen d une table cible (principale) et de plusieurs tables secondaires en relation un-à-plusieurs. Par exemple, un client est caractérisé par les services auxquels il a souscrit, par l historique de ses détails de communication et par l ensemble de ses interactions avec les services après-vente d Orange. Ces données présentent plusieurs caractéristiques : La structure est intrinsèquement composée de plusieurs tables d une base de données relationnelle, d où l intérêt de la fouille de données multi-tables pour valoriser ces données. Grande volumétrie : le nombre d instances est de l ordre de 10 5 dans la table cible en apprentissage, et de 10 6 à 10 8 en déploiement. Dans les tables secondaires, chaque individu est relié à des centaines voire des milliers d enregistrements. Différents types de variables : numériques, catégorielles (avec un nombre de valeurs très grand). Données bruitées, éventuellement incomplètes. Distribution de la variable cible (dans le cas d un problème de classification) souvent fortement déséquilibrée, etc. Nous citons ci-dessous deux exemples qui illustrent des contextes applicatifs différents étudiés au sein d Orange. 2

9 Exemple 0.1. Gestion de la relation client (en anglais, Customer Relationship Management CRM). Le CRM a pour objectif de permettre à l entreprise de mieux comprendre ses clients pour adapter et personnaliser ses produits ou ses services. Les données sont stockées dans des bases de données relationnelles. Les informations permettent de dresser un profil précis et complet des clients. Pour cela, typiquement, les données sont centrées sur une table principale : la table Client qui est en relation un-à-plusieurs avec des tables secondaires. Chacune de ces tables comporte des informations précises concernant les clients : la liste des produits commandés, la liste des services auxquels ils ont souscrit, la liste des détails de communication, etc. Exemple 0.2. Le ciblage comportemental (en anglais, Behavioral Targeting BT). Le BT est une technique de publicité qui consiste à personnaliser les contenus promotionnels, en fonction de la navigation des internautes et de l identification de leurs centres d intérêt. Les données comportementales recueillies pour le ciblage publicitaire sont intrinsèquement structurées sur plusieurs entités : les utilisateurs, identifiés par des cookies, la liste de leurs sessions de navigation, la liste des pages Web visitées lors de chaque session, etc. La façon la plus intuitive de représenter ces informations (généralement stockées dans des logs d usage) serait un schéma relationnel centré sur une table Utilisateur. Au sein d Orange, le traitement des données multi-tables est actuellement réalisé dans le cadre du projet PAC (Plate-forme d Analyse Client). C est un projet mené dans les Orange Labs qui a pour objet l industrialisation du processus Data Mining pour les très grandes bases de données relationnelles. Ce processus se décompose en deux étapes : 1. La première étape consiste à effectuer une mise à plat du modèle relationnel afin d avoir une représentation classique mono-table, attribut valeur. Ceci est réalisé en construisant de nouvelles variables à partir d une bibliothèque de règles de calcul prédéfinies (moyenne, écart type, tendance, etc.). Ces nouvelles variables constituent des agrégations plus ou moins complexes des variables qui se trouvent dans les tables secondaires. Par exemple, une requête «moyenne des durées d appel sur téléphone fixe par mois (12 mois), jour de la semaine (7 jours) et type d appel (local, national, international)» permet de construire 252 = variables. 2. La deuxième étape consiste à utiliser des techniques d apprentissage performantes afin d exploiter cette représentation (techniques implémentées dans l outil Khiops [Boullé, 2007a]). 3

10 Introduction Générale L opération de mise à plat effectuée dans PAC est une tâche coûteuse en temps pour l analyste, et qui nécessite une grande expertise métier. L espace de représentation généré est de très grande taille : de l ordre de 10 7 instances avec 10 4 variables. Notre objectif dans le cadre de cette thèse est d utiliser directement la représentation multi-tables afin d éviter la mise à plat. Ce choix est motivé par les observations suivantes : La représentation relationnelle augmente considérablement l expressivité du formalisme des individus à analyser. Ceci permet de simplifier ou même de se passer de la tâche de recherche d une bonne représentation faisant appel à l analyste de données, Ce formalisme offre la possibilité d ouverture vers de nouvelles méthodes statistiques, ce qui permettrait une amélioration potentielle des résultats. Pour ce faire, il serait nécessaire d automatiser le processus de recherche d une représentation efficace pour des données structurées sous forme d un modèle relationnel, en privilégiant les méthodes non paramétriques. L objectif, par la suite, est de concevoir des algorithmes permettant le passage à l échelle, sur de grandes volumétries. Objectifs Après avoir montré l intérêt de la fouille de données multi-tables dans le cadre général de l extraction de connaissance à partir des données ainsi que dans le contexte industriel dans lequel se situe cette thèse, nous précisons les objectifs auxquels nous nous intéressons dans notre contribution. Apprentissage supervisé multi-tables Dans le contexte de la fouille de données, on se réfère à deux problématiques distinctes. La première consiste à déterminer la classe, parmi un ensemble préalablement fixé, à laquelle appartient une donnée ou un exemple. Il s agit d entraîner un processus sur des données dont l appartenance à une classe est déterminée (généralement, il s agit de la valeur de l un des attributs) pour engendrer un modèle. Ce modèle sera par la suite utilisé, soit pour la compréhension des classes, soit pour la classification de nouvelles données dont la classe est inconnue. La seconde activité, appelée clustering en anglais, consiste à regrouper les données en des sous-ensembles cohérents, selon leur ressemblance. L apprentissage dans la première catégorie de méthode est dit supervisé. Dans la seconde il est dit non supervisé [Michalski, 1993]. Notre travail se situe dans le cadre supervisé. Lorsque les données sont relationnelles, un individu à classer correspond à un seul enregistrement d une table cible en relation un-à-plusieurs avec des tables secondaires. La classe ou la variable à expliquer n est autre qu un attribut particulier de la table cible. La nouveauté par rapport au cas mono-table classique est de considérer les variables explicatives qui se trouvent dans les tables secondaires pour décrire ou prédire la classe. La difficulté provient 4

11 principalement de la présence des relations un-à-plusieurs. En effet, un individu ne possède pas une seule valeur par variable (comme dans le cas attribut-valeur usuel), mais plutôt un ensemble de valeurs par variable secondaire. Notre objectif est de qualifier et d exploiter le pouvoir prédictif de ce genre de variable pour une tâche de classification. Ce problème est intrinsèquement difficile. Nous procédons alors à une simplification de celui-ci en proposant un prétraitement des variables secondaires afin d obtenir une représentation qui permet de mieux les prendre en compte. Prétraitement des variables secondaires La phase de prétraitement de données constitue une phase importante dans le processus global de data mining. Elle vise à rechercher une représentation des données informative afin d améliorer la qualité des résultats de la fouille. Typiquement cette phase comporte des opérations de nettoyage (suppression de bruit, de valeurs aberrantes, etc), réduction des données (sélection d instances, de variables explicatives pertinentes), et de transformation des données (discrétisation des variables numériques, construction de nouvelles variables, etc.). Dans le contexte de la fouille de données relationnelle, nous nous intéressons en particulier au problème de préparation des variables secondaires, à savoir, la discrétisation dans le cas numérique et le partitionnement en groupes de valeurs dans le cas catégoriel. Nous cherchons également à évaluer l informativité d une variable secondaire pour exploiter sa contribution dans la prédiction de la classe. Cette évaluation permet en outre de définir un critère de sélection de variable de type filtre [Guyon et Elisseeff, 2003] ou encore elle peut servir de préparation pour des classifieurs comme le Bayésien Naïf ou les arbres de décision. Afin de résoudre ces deux problématiques, nous nous sommes fixés certains critères de qualité qui sont imposés par le contexte dans lequel se situe notre travail : Efficacité. Nous nous intéressons à des bases de données avec une grande volumétrie. Cette contrainte s exprime à différents niveaux : nombre d individus dans la table cible, nombre d enregistrements dans les tables secondaires, nombre de variables secondaires... Les algorithmes que nous proposons doivent prendre en compte cette contrainte. Paramétrage. Nous privilégions les approches sans paramètre afin de réduire au maximum l intervention humaine dans le processus de prétraitement. Généricité. Il est préférable que l approche soit générique, dans la mesure où elle est applicable dans des contextes différents. Cette généricité peut s exprimer sur plusieurs axes : la taille de la base de données (petite, grande), le domaine d application (marketing, biologie, web...), le type de variables explicatives (numérique, catégorielle), la distribution de la variable cible (équilibrée ou pas), existence de bruit... Interprétabilité. L avantage des modèles interprétables est qu ils permettent une meilleure compréhension des données, ce qui facilite l exploitation des résultats d analyse. 5

12 Introduction Générale Contributions Nous présentons dans ce manuscrit une nouvelle approche de prétraitement de variables dans le cadre de la classification de données multi-tables. Il s agit d une extension de l approche de préparation de variables MODL (proposée dans le cas de données monotables classiques [Boullé, 2011]) aux variables explicatives situées dans des tables secondaires (tables en relation un-à-plusieurs avec la table cible). Notre méthode consiste à proposer une famille de modèles non paramétriques pour l estimation de la densité de probabilité conditionnelle des variables secondaires. Cette estimation permet de prendre en compte ce genre de variables dans un classifieur de type Bayésien Naïf dans le contexte multi-tables. Elle permet également de proposer un critère de sélection de variables secondaires de type filtre comme pour la représentation attribut-valeur classique [Guyon et Elisseeff, 2003]. L approche repose sur un prétraitement des variables secondaires, par discrétisation dans le cas numérique et par groupement de valeurs dans le cas catégoriel. Nous proposons, dans un premier lieu, d effectuer ce partitionnement de façon univariée, c est-à-dire, de considérer une seule variable secondaire à la fois. Dans un second lieu, nous proposons une approche de partitionnement multivarié basé sur des itemsets de variables secondaires, ce qui permet de prendre en compte les éventuelles corrélations qui peuvent exister entre ce genre de variables. L originalité de la méthode se situe dans le changement de représentation effectué grâce au partitionnement des variables secondaires. Chaque variable est projetée vers la table cible en créant un vecteur d effectifs par partie secondaire (intervalle ou groupe) résumant l information contenue dans la variable considérée. Ces attributs d effectifs sont conjointement partitionnés à l aide de modèles en grille de données afin d obtenir une meilleure séparation des valeurs de la classe. La modélisation suit une démarche de sélection de modèles se basant sur une approche Bayésienne. Cette démarche permet de définir un critère d évaluation pour chaque type de variable. Des algorithmes combinatoires sont alors introduits pour optimiser efficacement ce critère et obtenir le meilleur modèle. Organisation du document Dans le chapitre 1, nous dressons un panorama des principales méthodes de fouille de données multi-tables de l état de l art. Nous formalisons le problème comme un problème de classification supervisée en introduisant les différents termes utilisés par la suite. En précisant les enjeux auxquels est confrontée la fouille de données multi-tables, une attention particulière est portée à l étape de prétraitement des données. Dans les chapitres suivants, nous présentons notre approche de fouille de données multi-tables de façon didactique. Nous abordons le problème comme un problème de 6

13 prétraitement des variables secondaires. Celles-ci sont considérées dans les chapitres 2 et 3 de façon univariée ensuite de manière multivariée dans le chapitre 4. Dans le chapitre 2, nous considérons le cas le plus simple d une variable secondaire, celui d une seule variable binaire. Notre approche est décrite en détail dans ce cas en introduisant le critère d évaluation ainsi que les modèles en grille de données permettant d estimer la densité de probabilité conditionnelle pour ce genre de variables. Nous décrivons également l extension du classifieur Bayésien Naïf au cas multi-tables se basant sur cette estimation. Dans le chapitre 3, le cas d une variable secondaire binaire est étendu progressivement aux cas catégoriel et numérique. Nous proposons un critère permettant d évaluer le partitionnement d une variable secondaire par groupement de valeurs si celle-ci est catégorielle et par discrétisation si elle est numérique. Nous introduisons par ailleurs quelques algorithmes afin d optimiser ce critère. Dans le chapitre 4, nous généralisons notre approche au cas multivarié. Nous proposons un critère d évaluation d itemsets de variables secondaires construit par discrétisation des variables numériques et par groupement de valeurs dans le cas catégoriel. Enfin, dans le chapitre 5, nous dressons un bilan de notre méthode et de ce qui reste à effectuer, notamment en matière d algorithmes d optimisation. 7

14 8 Introduction Générale

15 1 État de l art Sommaire 1.1 Introduction Fouille de Données Multi-Tables Format Attribut-Valeur Fouille de Données Structurées Formalisation du problème et Terminologie Enjeux de la Fouille de données Multi-Tables Travaux Majeurs Programmation Logique Inductive Apprentissage Logique Probabiliste Modèles Probabilistes Arbres de Décision Relationnels Approches à base de distance Méthodes à noyaux Pré-traitement Conclusion

16 Chapitre 1 État de l art 1.1 Introduction Nous présentons dans ce premier chapitre le contexte de nos travaux, celui de la Fouille de Données Multi-Tables. Dans une première section, nous situons d abord ce nouveau paradigme par rapport au cadre classique de fouille de données attributvaleur. Ensuite, nous nous positionnons relativement aux différents problèmes étudiés dans le cadre multi-tables afin de préciser notre problématique d apprentissage. Nous formalisons le problème comme un problème de classification et nous introduisons les différentes terminologies et notations que nous utilisons par la suite. Dans la section 1.3, nous reportons sans prétention d exhaustivité quelques travaux proposés dans la littérature notamment en matière d apprentissage supervisé et de pré-traitement de données multi-tables. 1.2 Fouille de Données Multi-Tables Il est bien connu depuis les débuts de l Intelligence Artificielle que la représentation est une question clé pour faciliter la résolution d un problème [Newell et Simon, 1972, Korf, 1980,Amarel, 1983]. En particulier, en apprentissage supervisé, un compromis doit être fait entre, d une part, le choix du formalisme utilisé pour représenter les exemples d apprentissage et d autre part, la complexité de l algorithme [Neri et Saitta, 1994a, Neri et Saitta, 1994b] Format Attribut-Valeur Le formalisme classique en fouille de données est le formalisme propositionnel d où le nom fouille de données propositionnelle (en anglais Propositional Data Mining). Typiquement, dans ce formalisme, les individus sont représentés par un nombre fixe de variables, appelées encore caractéristiques ou attributs. Les individus sont alors vus comme un ensemble de paires attribut-valeur représentées sous la forme d un vecteur de valeurs de taille fixe. Ces valeurs peuvent être de différentes natures : numériques ou catégorielles. L ensemble de tous les individus correspond dans le formalisme des bases de données relationnelles à une table ou relation. Les lignes ou enregistrements correspondent aux individus. et les colonnes correspondent aux variables. Dans le contexte de l apprentissage supervisé on cherche à prédire la valeur d une variable particulière qu on appelle Variable Cible ou Classe. Exemple 1.1. Prenons par exemple un problème CRM (Customer Relationship Management) où l objectif est d identifier les clients susceptibles de s intéresser à un certain produit ou service, ce qui revient à un problème de classification de clients. La variable cible correspond à l attribut CLASSE qui dénote si le client est intéressé par un produit particulier. Dans le format à-plat classique, les données se présentent, comme dans la Figure 1.1, sous la forme d un tableau où chaque client correspond 10

17 1.2 Fouille de Données Multi-Tables à une ligne. Les variables décrivant ces clients ainsi que la cible sont données en colonnes. Figure 1.1: Représentation à plat À des fins didactiques, le problème de l Exemple 1.1 sera utilisé dans le reste de ce manuscrit pour illustrer la problématique ainsi que l approche proposée. Le paradigme propositionnel a plusieurs avantages, ce qui explique sa popularité. Tous les individus sont décrits par les mêmes variables. Chaque variable apparait une seule fois dans cette description et possède une seule valeur. Il arrive qu un individu puisse avoir une valeur non-renseignée pour une variable particulière. Des extensions existent pour faire de l apprentissage dans le cas de données manquantes ou incomplètes. Les individus peuvent être vus comme des points dans un espace en dimension finie. Des mesures de distance sont facilement définies pour quantifier des similarités entre individus. Des méthodes de type k-plus-proches-voisins peuvent alors être employées [Fix et Hodges, 1951]. Sur cet espace d individus, des méthodes d estimation de densité peuvent être employées pour aider à découvrir des régions intéressantes. Les valeurs des variables sont complémentaires : c est-à-dire, une condition sur la valeur d une variable divise les individus en deux sous-groupes disjoints. La méthode populaire des Arbres de Décision exploite cette propriété en utilisant des opérations simples (=,, et ) [Quinlan, 1986]. Le paradigme propositionnel a été largement utilisé dans les méthodes d apprentissage classiques grâce à la structure tabulaire simple qu il propose. Cependant, ce formalisme se heurte en réalité à plusieurs limites à cause de son pouvoir d expressivité. Les objets du monde réel présentent souvent de façon naturelle une structure interne difficile à exprimer sous la forme d une représentation attribut-valeur. Les approches de fouille de données opérant sur cette représentation à plat ne permettent pas de prendre en compte les structures complexes que peuvent prendre les données. Nous utilisons le terme Fouille de Données Structurées (Structured Data Mining) 11

18 Chapitre 1 État de l art pour faire référence à la classe de techniques qui supportent l analyse des objets structurés Fouille de Données Structurées Les objets réels présentent souvent une structure composée de sous entités ou de sous parties qui diffèrent d un objet à un autre et qui possèdent chacune sa description intrinsèque. La structure globale des objets est définie par les relations qui peuvent exister entre les entités qui les composent. Un ensemble prédéfini d attributs ne peut pas représenter cette variabilité en structure, d où le besoin d autres représentations. Exemple 1.2. Dans le problème de classification des clients de l Exemple 1.1, souvent, on dispose non seulement des informations concernant les clients (telle que l âge, les revenus, etc. ce qui correspond dans le formalisme attribut-valeur aux variables décrivant les clients), mais encore des historiques d achats effectués, des produits commandés dans chaque achat. Outre l objet Client, d autres entités : Commandes et Produits, viennent s y ajouter et chacune des ces entités possède ses propres descriptions. Dans le cas où le problème est de prédire si le client est intéressé par certains produits, les propriétés des achats et des produits commandés précédemment par ce même client peuvent potentiellement être très informatives. Les clients s intéressent généralement à des produits de même nature, dans le même ordre de prix, etc. Ces propriétés des achats et des produits peuvent être très pertinentes pour prédire la classe d un client. Cependant, un vecteur de variables de taille fixe modélisant un client ne suffit pas pour décrire les informations de ses achats Représentations des données structurées Trois représentations équivalentes existent dans la littérature pour représenter les données structurées. Sur la base de ces représentations, les méthodes de Fouille de Données Structurées peuvent être classées en trois catégories : La Fouille de Graphe [Cook et Holder, 2000,Washio et Motoda, 2003]. Les données sont représentées sous la forme de graphes. Chaque objet est un graphe conceptuel. Les sommets du graphe représentent les entités ainsi que leurs attributs. Les relations entre ces entités correspondent aux arcs (orientés ou non orientés). Ce formalisme est plutôt adapté aux méthodes d analyse descriptive tels que le clustering de graphes et la recherche des motifs fréquents. La Programmation Logique Inductive [Džeroski, 1996,Lavrač et Džeroski, 1994]. La base de données est constituée d une collection de faits exprimés sous la forme de prédicats logiques de premier ordre. Ces prédicats décrivent les entités ainsi que les relations entre elles. La Fouille de Données Multi-Tables [Džeroski, 2003]. Les données sont contenues dans une base de données relationnelle. Les tables représentent les entités. 12

19 1.2 Fouille de Données Multi-Tables Les relations entre ces entités sont définies grâce aux contraintes de clés étrangères. Exemple 1.3. Les Figures 1.2 et 1.3 ainsi que Listing 1.1 illustrent comment on peut représenter les données du problème de classification des clients avec ces trois formalismes équivalents. Les clients sont décrits de façon complète à l aide des entités ou concepts : Client et Commande. Parmi ces trois représentations, le formalisme relationnel offre la représentation la plus compacte. En PLI et en Fouille de Graphes, on a besoin d un prédicat logique (en PLI) et d un nœud (en Fouille de Graphe) pour représenter chaque valeur d un attribut donné. La plupart des applications réelles disposent de données stockées à leur état brut dans des bases de données relationnelles. Cependant, les approches PLI et par Fouille de Graphes transforment les données relationnelles vers leurs formalismes respectifs avant de pouvoir les traiter. Dans ce manuscrit, nous nous intéressons aux méthodes d apprentissage supervisé qui travaillent directement sur la représentation relationnelle multi-tables. Définition 1.1. La Fouille de Données Multi-Tables (en anglais Multi-Relational Data Mining, MRDM) est une famille de méthodes de fouille de données qui traitent de l extraction de connaissances à partir de bases de données relationnelles contenant plusieurs tables. Dans la communauté ECD, le terme «relationnel» a été utilisé pour qualifier certains paradigmes d apprentissage qui diffèrent de la problématique à laquelle nous nous intéressons dans ce mémoire. Pour lever toute ambigüité, ces terminologies ne devraient pas se confondre avec la définition que nous avons fournie pour la Fouille de Données Multi-Tables : Fouille de Données Relationnelles (en anglais Relational Data Mining, RDM). Ce terme est devenu populaire dans la communauté de la programmation logique, surtout avec l apparition du livre de [Džeroski et Lavrač, 2001]. Il s agit des techniques PLI classiques. Leur qualification de «relationnel» provient de la prise en compte des données relationnelles en les transformant sous la forme de prédicats logiques. Apprentissage Relationnel (en anglais Relational Learning, RL). C est un concept plus général que la PLI et la Fouille de Données Relationnelles. Il s intéresse à l apprentissage à partir de données présentant une structure complexe (des graphes ou des réseaux) où les objets sont en relation les uns aux autres par des relations sémantiques ou de similarité Problèmes d Apprentissage en Fouille de Données Structurées Plusieurs problèmes d apprentissage ont été envisagés dans le cadre de la Fouille de Données Structurées. Certaines représentations sont mieux adaptées à un problème 13

20 Chapitre 1 État de l art Figure 1.2: Représentation en Fouille de Graphes Client (CL01,25, H, Mr,40, Commerçant,..., positive ). a_commandé ( CL01, C01CL01 ). a_commandé ( CL01, C02CL01 ). a_commandé ( CL01, C03CL01 ). a_commandé ( CL01, C04CL01 ). Commande ( C01CL01,150,10,Chèque, Retrait_magasin ). Commande ( C02CL01,85,5.9,CB, Colis_poste ).... Client (CL02,28, H, Mr,25, Ingénieur,..., négative ). a_commandé (CL02,C01CL02 ). a_commandé (CL02,C02CL02 ). a_commandé (CL02,C03CL02 ). Commande ( C01CL02,50,8.5, Chèque, Retrait_magasin ).... Client (CL03,31, F, Mme,36, Cadre,..., neutre ).... Listing 1.1: Représentation en Programmation Logique Inductive 14

Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables

Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables Dhafer Lahbib, Marc Boullé, Dominique Laurent France Télécom R&D - 2, avenue Pierre Marzin, 23300 Lannion dhafer.lahbib@orange-ftgroup.com

Plus en détail

Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales

Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales Natacha Gondran To cite this version: Natacha Gondran. Système de diffusion d information

Plus en détail

La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale

La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale Stéphanie Perriere To cite this version: Stéphanie Perriere. La voix en images : comment l

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,

Plus en détail

Comptabilité à base d activités (ABC) et activités informatiques : une contribution à l amélioration des processus informatiques d une banque

Comptabilité à base d activités (ABC) et activités informatiques : une contribution à l amélioration des processus informatiques d une banque Comptabilité à base d activités (ABC) et activités informatiques : une contribution à l amélioration des processus informatiques d une banque Grégory Wegmann, Stephen Nozile To cite this version: Grégory

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne Sophie Morlaix To cite this version: Sophie Morlaix. L indice de SEN, outil de mesure de l équité

Plus en détail

Dessin assisté par ordinateur en lycée professionnel

Dessin assisté par ordinateur en lycée professionnel Dessin assisté par ordinateur en lycée professionnel Bernard Dauga To cite this version: Bernard Dauga. Dessin assisté par ordinateur en lycée professionnel. Bulletin de l EPI (Enseignement Public et Informatique),

Plus en détail

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence Gwenole Fortin To cite this version: Gwenole Fortin. Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence. 2006.

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

statique J. Bertrand To cite this version: HAL Id: jpa-00237017 https://hal.archives-ouvertes.fr/jpa-00237017

statique J. Bertrand To cite this version: HAL Id: jpa-00237017 https://hal.archives-ouvertes.fr/jpa-00237017 Quelques théorèmes généraux relatifs à l électricité statique J. Bertrand To cite this version: J. Bertrand. Quelques théorèmes généraux relatifs à l électricité statique. J. Phys. Theor. Appl., 1874,

Plus en détail

AGROBASE : un système de gestion de données expérimentales

AGROBASE : un système de gestion de données expérimentales AGROBASE : un système de gestion de données expérimentales Daniel Wallach, Jean-Pierre RELLIER To cite this version: Daniel Wallach, Jean-Pierre RELLIER. AGROBASE : un système de gestion de données expérimentales.

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Compte-rendu de Hamma B., La préposition en français

Compte-rendu de Hamma B., La préposition en français Compte-rendu de Hamma B., La préposition en français Badreddine Hamma To cite this version: Badreddine Hamma. Compte-rendu de Hamma B., La préposition en français. Revue française de linguistique appliquée,

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/ Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/

Plus en détail

Utiliser Access ou Excel pour gérer vos données

Utiliser Access ou Excel pour gérer vos données Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile

Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile W. Lermantoff To cite this version: W. Lermantoff. Sur le grossissement

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

Un SIG collaboratif pour la recherche historique Partie. Partie 1 : Naissance et conception d un système d information géo-historique collaboratif.

Un SIG collaboratif pour la recherche historique Partie. Partie 1 : Naissance et conception d un système d information géo-historique collaboratif. Un SIG collaboratif pour la recherche historique Partie 1 : Naissance et conception d un système d information géo-historique collaboratif Claire-Charlotte Butez, Francesco Beretta To cite this version:

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21 IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information

Plus en détail

Rappel sur les bases de données

Rappel sur les bases de données Rappel sur les bases de données 1) Généralités 1.1 Base de données et système de gestion de base de donnés: définitions Une base de données est un ensemble de données stockées de manière structurée permettant

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML http://olivier-augereau.com Sommaire Introduction I) Les bases II) Les diagrammes

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication R. Carlos Nana Mbinkeu 1,3, C. Tangha 1, A. Chomnoue 1, A. Kuete

Plus en détail

UML (Diagramme de classes) Unified Modeling Language

UML (Diagramme de classes) Unified Modeling Language UML (Diagramme de classes) Unified Modeling Language Sommaire Introduction Objectifs Diagramme de classes Classe (Nom, attribut, opération) Visibilité et portée des constituants d une classe Association

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P

Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P EUROCOPTER SAS Groupe EADS Marignane Ecole des Mines d Alès Laboratoire de Génie Informatique et d Ingénierie de Production LGI2P Nîmes Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P Titre Domaine

Plus en détail

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln. MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.fr Plan Introduction Généralités sur les systèmes de détection d intrusion

Plus en détail

Le cinquième chapitre

Le cinquième chapitre Le cinquième chapitre Objectif : présenter les supports matériels ou immatériels permettant d'étayer cette nouvelle approche de la fonction maintenance. I. Evolution du domaine technique - Différents domaines

Plus en détail

Université de Bangui. Modélisons en UML

Université de Bangui. Modélisons en UML Université de Bangui CRM Modélisons en UML Ce cours a été possible grâce à l initiative d Apollinaire MOLAYE qui m a contacté pour vous faire bénéficier de mes connaissances en nouvelles technologies et

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions Exemple accessible via une interface Web Une base de données consultable en ligne : Bases de données et systèmes de gestion de bases de données The Trans-atlantic slave trade database: http://www.slavevoyages.org/tast/index.faces

Plus en détail

Cybermarché et analyse comportementale

Cybermarché et analyse comportementale Cybermarché et analyse comportementale Antoine-Eric Sammartino aesammartino@e-laser.fr Séminaire Data Mining - Educasoft Formations 18 juin 2001-1- MENU Le Groupe LaSer Le processus Data Mining L industrialisation

Plus en détail

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Cours Base de données relationnelles. M. Boughanem, IUP STRI Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),

Plus en détail

Cognit Ive Cas d utilisation

Cognit Ive Cas d utilisation Cognit Ive Cas d utilisation 96-98, rue de Montreuil - 75011 Paris _ opicot@ _ + 33 (0)1 40 09 71 55 Sommaire Présentation de la plateforme Cognit Ive SemanticMail : Traitement sémantique des mails Projets

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Jean-Luc Archimbaud. Sensibilisation à la sécurité informatique.

Jean-Luc Archimbaud. Sensibilisation à la sécurité informatique. Sensibilisation à la sécurité informatique Jean-Luc Archimbaud To cite this version: Jean-Luc Archimbaud. Sensibilisation à la sécurité informatique. lieux en France, 1997, pp.17. École

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Lecture critique et pratique de la médecine

Lecture critique et pratique de la médecine 1-00.qxp 24/04/2006 11:23 Page 13 Lecture critique appliquée à la médecine vasculaireecture critique et pratique de la médecine Lecture critique et pratique de la médecine Introduction Si la médecine ne

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

Cours de Master Recherche

Cours de Master Recherche Cours de Master Recherche Spécialité CODE : Résolution de problèmes combinatoires Christine Solnon LIRIS, UMR 5205 CNRS / Université Lyon 1 2007 Rappel du plan du cours 16 heures de cours 1 - Introduction

Plus en détail

Systèmes d information et bases de données (niveau 1)

Systèmes d information et bases de données (niveau 1) Systèmes d information et bases de données (niveau 1) Cours N 1 Violaine Prince Plan du cours 1. Bibliographie 2. Introduction aux bases de données 3. Les modèles 1. Hiérarchique 2. Réseau 3. Relationnel

Plus en détail

MYXTRACTION. 2009 La Business Intelligence en temps réel

MYXTRACTION. 2009 La Business Intelligence en temps réel MYXTRACTION 2009 La Business Intelligence en temps réel Administration Qui sommes nous? Administration et management des profils Connecteurs Base des données Gestion des variables et catégories de variables

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.

LOGO. Module «Big Data» Extraction de Connaissances à partir de Données. Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy. Module «Big Data» Extraction de Connaissances à partir de Données Claudia MARINICA MCF, ETIS UCP/ENSEA/CNRS Claudia.Marinica@u-cergy.fr 14 Janvier 2015 Pourquoi l extraction de connaissances à partir de

Plus en détail

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP) Définition (G. Gardarin) Entrepôt : ensemble de données historisées variant

Plus en détail

Chapitre 5 LE MODELE ENTITE - ASSOCIATION

Chapitre 5 LE MODELE ENTITE - ASSOCIATION Chapitre 5 LE MODELE ENTITE - ASSOCIATION 1 Introduction Conception d une base de données Domaine d application complexe : description abstraite des concepts indépendamment de leur implémentation sous

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE I N T E RS Y S T E M S INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE David Kaaret InterSystems Corporation INTERSySTEMS CAChé CoMME ALTERNATIvE AUx BASES de données RéSIdENTES

Plus en détail

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie

Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Découvrir les stratégies ayant fait leurs preuves et les meilleures pratiques Points clés : Planifier

Plus en détail

La complémentaire santé : une généralisation qui

La complémentaire santé : une généralisation qui La complémentaire santé : une généralisation qui n efface pas les inégalités Thibaut De Saint Pol, François Marical To cite this version: Thibaut De Saint Pol, François Marical. La complémentaire santé

Plus en détail

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM La segmentation à l aide de EG-SAS A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM Définition de la segmentation - Au lieu de considérer une population dans son ensemble,

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012 CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE Edition 2012 AGENDA Qui sommes nous? Présentation de Keyrus Keyrus : Expert en formations BI Nos propositions de formation 3 modes de formations Liste des

Plus en détail

Master Informatique Aix-Marseille Université

Master Informatique Aix-Marseille Université Aix-Marseille Université http://masterinfo.univ-mrs.fr/ Département Informatique et Interactions UFR Sciences Laboratoire d Informatique Fondamentale Laboratoire des Sciences de l Information et des Systèmes

Plus en détail

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Mostafa HANOUNE*, Fouzia BENABBOU* *Université Hassan II- Mohammedia, Faculté des sciences

Plus en détail

ISTEX, vers des services innovants d accès à la connaissance

ISTEX, vers des services innovants d accès à la connaissance ISTEX, vers des services innovants d accès à la connaissance Synthèse rédigée par Raymond Bérard, directeur de l ABES, à partir du dossier de candidature d ISTEX aux Initiatives d excellence et des réunions

Plus en détail

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,

Plus en détail

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Améliorer les performances du site par l'utilisation de techniques de Web Mining Améliorer les performances du site par l'utilisation de techniques de Web Mining CLUB SAS 2001 17/18 octobre 2001 Stéfan Galissie LINCOLN stefan.galissie@lincoln.fr contact@web-datamining.net 2001 Sommaire

Plus en détail

1 Introduction et installation

1 Introduction et installation TP d introduction aux bases de données 1 TP d introduction aux bases de données Le but de ce TP est d apprendre à manipuler des bases de données. Dans le cadre du programme d informatique pour tous, on

Plus en détail

NFA 008. Introduction à NoSQL et MongoDB 25/05/2013

NFA 008. Introduction à NoSQL et MongoDB 25/05/2013 NFA 008 Introduction à NoSQL et MongoDB 25/05/2013 1 NoSQL, c'est à dire? Les bases de données NoSQL restent des bases de données mais on met l'accent sur L'aspect NON-relationnel L'architecture distribuée

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Conception d une Plateforme Open Source d Extraction et de Gestion des Connaissances

Conception d une Plateforme Open Source d Extraction et de Gestion des Connaissances Département d Informatique MEMOIRE Présenté par : KADEM Habib Pour obtenir LE DIPLOME DE MAGISTER Spécialité : Informatique Option : Informatique & Automatique Intitulé : Conception d une Plateforme Open

Plus en détail

Évaluation et implémentation des langages

Évaluation et implémentation des langages Évaluation et implémentation des langages Les langages de programmation et le processus de programmation Critères de conception et d évaluation des langages de programmation Les fondations de l implémentation

Plus en détail

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence É C O L E D I N G É N I E U R D E S T E C H N O L O G I E S D E L I N F O R M A T I O N E T D E L A C O M M U N I C A T I O N Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION Mentions

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

Urbanisation des Systèmes d Information Architecture d Entreprise. 04 Architecture du SI : identifier et décrire les services, structurer le SI

Urbanisation des Systèmes d Information Architecture d Entreprise. 04 Architecture du SI : identifier et décrire les services, structurer le SI Plan du chapitre Master Informatique et Systèmes Urbanisation des Systèmes d Information Architecture d Entreprise 04 Architecture du SI : identifier et décrire les services, structurer le SI 1 2 3 1.1

Plus en détail

Didier MOUNIEN Samantha MOINEAUX

Didier MOUNIEN Samantha MOINEAUX Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?

Plus en détail

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales Ecole des Hautes Etudes Commerciales HEC Alger Évolution des SGBDs par Amina GACEM Module Informatique 1ière Année Master Sciences Commerciales Evolution des SGBDs Pour toute remarque, question, commentaire

Plus en détail

Conception des bases de données : Modèle Entité-Association

Conception des bases de données : Modèle Entité-Association Conception des bases de données : Modèle Entité-Association La modélisation d un problème, c est-à-dire le passage du monde réel à sa représentation informatique, se définit en plusieurs étapes pour parvenir

Plus en détail

Bases de Données. Plan

Bases de Données. Plan Université Mohammed V- Agdal Ecole Mohammadia d'ingénieurs Rabat Bases de Données Mr N.EL FADDOULI 2014-2015 Plan Généralités: Définition de Bases de Données Le modèle relationnel Algèbre relationnelle

Plus en détail

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction. Etudes et traitements statistiques des données : le cas illustratif de la démarche par sondage INTRODUCTION

Plus en détail

Hervé Couturier EVP, SAP Technology Development

Hervé Couturier EVP, SAP Technology Development Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Extraction des Connaissances à partir des Données (ECD)

Extraction des Connaissances à partir des Données (ECD) Extraction des Connaissances à partir des Données (ECD) Data Mining Par Djamel Abdelkader ZIGHED & Ricco RAKOTOMALALA De document est le «draft» de l article : Zighed & Rakotomalala, «Extraction des Connaissances

Plus en détail