Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables.

Dimension: px
Commencer à balayer dès la page:

Download "Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables."

Transcription

1 Préparation non paramétrique des données pour la fouille de données multi-tables Dhafer Lahbib To cite this version: Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables. Other. Université de Cergy Pontoise, French. <NNT : 2012CERG0616>. <tel v1> HAL Id: tel https://tel.archives-ouvertes.fr/tel v1 Submitted on 26 Aug 2013 (v1), last revised 27 Jan 2014 (v3) HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

2 École Doctorale Sciences et Ingénierie Préparation non paramétrique des données pour la fouille de données multi-tables THÈSE présentée et soutenue publiquement le 6 décembre 2012 pour l obtention du Doctorat en Sciences de l université de Cergy-Pontoise (spécialité STIC) par Dhafer LAHBIB Composition du jury Rapporteurs : Nicolas LACHICHE MCF HDR Université Louis Pasteur Bruno CRÉMILLEUX Professeur Université de Caen Examinateurs : Christel VRAIN Professeur Université d Orléans Karine ZEITOUNI Professeur Université de Versailles Saint-Quentin-en-Yvelines Directeur de thèse : Dominique LAURENT Professeur Université de Cergy-Pontoise Co-Encadrant : Marc BOULLÉ Docteur Orange Labs, Lannion Equipe Traitement de l Information et Systèmes (ETIS) UMR CNRS 8051

3

4

5 Table des matières Introduction Générale 1 Contexte Industriel Objectifs Contributions Organisation du document État de l art Introduction Fouille de Données Multi-Tables Format Attribut-Valeur Fouille de Données Structurées Formalisation du problème et Terminologie Enjeux de la Fouille de données Multi-Tables Travaux Majeurs Programmation Logique Inductive Apprentissage Logique Probabiliste Modèles Probabilistes Arbres de Décision Relationnels Approches à base de distance Méthodes à noyaux Pré-traitement Conclusion Principe de l Approche : Cas d une Variable Secondaire Binaire Introduction Approche Critère d évaluation Distribution a priori des modèles Vraisemblance des modèles Critère Optimisation de la Grille Bivariée Heuristique gloutonne Complexité Extension du Bayésien naïf Estimation de la Probabilité Conditionnelle Univariée Bayésien Naïf Sélectif i

6 Table des matières Table des matières 2.6 Expérimentations Protocole Données artificielles Base de données Stulong Conclusion Extension aux Variables Secondaires Catégorielles et Numériques Introduction Variable catégorielle avec peu de valeurs Approche Critère Algorithme d optimisation Variable catégorielle avec groupement de valeurs Critère Optimisation Variable Secondaire Numérique Approche Critère Algorithme d optimisation Expérimentations Jeux de données Résultats Données synthétiques Données Réelles Conclusion Pré-traitement multivarié des variables secondaires Introduction Motivation Approche Évaluation d itemsets de variables secondaires Coût de construction d un itemset Évaluation de la variable secondaire associée à l itemset Critère d évaluation global Induction d itemsets de variables secondaires Conclusion Bilan et perspectives 101 ii

7 Introduction Générale Les progrès réalisés dans les technologies d acquisition, de stockage et de distributions des données ont entraîné une croissance rapide de la taille des bases de données disponibles. En effet, la quantité de données est estimée doubler presque chaque année, d où l intérêt croissant de valoriser ces données. Par conséquent, un des plus grands défis auxquels sont confrontées plusieurs organisations et entreprises est de savoir comment transformer leur volume de données qui ne cesse d augmenter en des connaissances utiles et exploitables. Les travaux qui ont abordé cette problématique relèvent de domaines très variés tels que les statistiques, l intelligence artificielle, l apprentissage automatique, les bases de données... Ces travaux ont donné lieu à un nouveau domaine de recherche très actif connu sous le terme de Fouille de Données. La Fouille de Données (en anglais, Data Mining) est généralement mentionnée dans un cadre plus large, celui de l Extraction de Connaissances à partir de Données ECD (en anglais, Knowledge Discovery in Databases KDD). Elle se rapporte au processus d extraction d informations originales auparavant inconnues, et potentiellement exploitables dans les bases de données [Usama M. Fayyad et al., 1996]. Elle propose d utiliser un ensemble de techniques et algorithmes qui ont pour objet la découverte de motifs et des connaissances à partir de grandes quantités de données [Berry et Gordon S. Linoff, 2011]. La plupart des algorithmes de fouille de données disponibles aujourd hui sont basés sur une représentation sous forme d un tableau attribut-valeur, où les instances de données sont représentées par des vecteurs d attribut-valeur de taille fixe et qui sont supposées être identiquement et indépendamment distribués (hypothèse i.i.d). L utilisation de ces algorithmes se limite alors aux bases de données stockées sous ce format «à plat». Cependant, dans des applications réelles, les données sont beaucoup plus riches en structure et se présentent souvent stockées dans des bases de données relationnelles composées de plusieurs tables. Afin de pouvoir utiliser les algorithmes classiques de fouille de données, l analyste de données doit alors projeter cette représentation relationnelle initiale vers une représentation simplifiée monotable attribut-valeur, ce qui est une tâche coûteuse en temps et critique pour la qualité des résultats. En effet, cette mise à plat passe par la construction d agrégats afin de résumer l information contenue dans les différentes tables nécessitant ainsi une grande expertise et connaissance du domaine. Par ailleurs, l opération d agrégation va non seulement engendrer une perte d information par rapport à la représentation initiale naturellement compacte mais elle risque également d intro- 1

8 Introduction Générale duire des biais statistiques, notamment à cause des dépendances qui peuvent exister entre les variables nouvellement créées. Afin de résoudre ces problèmes un nouveau paradigme de fouille de données a été proposé dans la littérature : la Fouille de Données Multi-Tables. La Fouille de Données Multi-Tables FDMT (en anglais Multi-Relational Data Mining) a été définie par [Džeroski, 2003] comme l extraction de connaissances et de motifs à partir d une base de données relationnelle. Contrairement aux approches mono-table classique, la FDMT a pour objectif d apprendre des connaissances en se basant sur des données stockées sur plusieurs tables. Notre travail se situe dans ce cadre particulier. Il est motivé par les besoins métiers ainsi que les données disponibles dans le contexte industriel dans lequel se situe cette thèse. Contexte Industriel La Fouille de données chez Orange couvre des domaines d application très divers tels que le marketing, le web mining, la caractérisation du trafic réseau... Les données disponibles se présentent souvent dans l état brut dans des datastores (banques de données). Ces datastores possèdent une structure très complexe composée de nombreuses tables et leur volume peut atteindre quelques dizaines de Téraoctets dans le domaine du marketing client par exemple. Dans des domaines applicatifs particuliers, à partir de ces données, des entrepôts de données (Data Warehouse) sont construits pour des besoins métiers spécifiques. Le schéma typique de ces entrepôts de données est un schéma en étoile où chaque individu (l unité statistique) du domaine applicatif est stocké au moyen d une table cible (principale) et de plusieurs tables secondaires en relation un-à-plusieurs. Par exemple, un client est caractérisé par les services auxquels il a souscrit, par l historique de ses détails de communication et par l ensemble de ses interactions avec les services après-vente d Orange. Ces données présentent plusieurs caractéristiques : La structure est intrinsèquement composée de plusieurs tables d une base de données relationnelle, d où l intérêt de la fouille de données multi-tables pour valoriser ces données. Grande volumétrie : le nombre d instances est de l ordre de 10 5 dans la table cible en apprentissage, et de 10 6 à 10 8 en déploiement. Dans les tables secondaires, chaque individu est relié à des centaines voire des milliers d enregistrements. Différents types de variables : numériques, catégorielles (avec un nombre de valeurs très grand). Données bruitées, éventuellement incomplètes. Distribution de la variable cible (dans le cas d un problème de classification) souvent fortement déséquilibrée, etc. Nous citons ci-dessous deux exemples qui illustrent des contextes applicatifs différents étudiés au sein d Orange. 2

9 Exemple 0.1. Gestion de la relation client (en anglais, Customer Relationship Management CRM). Le CRM a pour objectif de permettre à l entreprise de mieux comprendre ses clients pour adapter et personnaliser ses produits ou ses services. Les données sont stockées dans des bases de données relationnelles. Les informations permettent de dresser un profil précis et complet des clients. Pour cela, typiquement, les données sont centrées sur une table principale : la table Client qui est en relation un-à-plusieurs avec des tables secondaires. Chacune de ces tables comporte des informations précises concernant les clients : la liste des produits commandés, la liste des services auxquels ils ont souscrit, la liste des détails de communication, etc. Exemple 0.2. Le ciblage comportemental (en anglais, Behavioral Targeting BT). Le BT est une technique de publicité qui consiste à personnaliser les contenus promotionnels, en fonction de la navigation des internautes et de l identification de leurs centres d intérêt. Les données comportementales recueillies pour le ciblage publicitaire sont intrinsèquement structurées sur plusieurs entités : les utilisateurs, identifiés par des cookies, la liste de leurs sessions de navigation, la liste des pages Web visitées lors de chaque session, etc. La façon la plus intuitive de représenter ces informations (généralement stockées dans des logs d usage) serait un schéma relationnel centré sur une table Utilisateur. Au sein d Orange, le traitement des données multi-tables est actuellement réalisé dans le cadre du projet PAC (Plate-forme d Analyse Client). C est un projet mené dans les Orange Labs qui a pour objet l industrialisation du processus Data Mining pour les très grandes bases de données relationnelles. Ce processus se décompose en deux étapes : 1. La première étape consiste à effectuer une mise à plat du modèle relationnel afin d avoir une représentation classique mono-table, attribut valeur. Ceci est réalisé en construisant de nouvelles variables à partir d une bibliothèque de règles de calcul prédéfinies (moyenne, écart type, tendance, etc.). Ces nouvelles variables constituent des agrégations plus ou moins complexes des variables qui se trouvent dans les tables secondaires. Par exemple, une requête «moyenne des durées d appel sur téléphone fixe par mois (12 mois), jour de la semaine (7 jours) et type d appel (local, national, international)» permet de construire 252 = variables. 2. La deuxième étape consiste à utiliser des techniques d apprentissage performantes afin d exploiter cette représentation (techniques implémentées dans l outil Khiops [Boullé, 2007a]). 3

10 Introduction Générale L opération de mise à plat effectuée dans PAC est une tâche coûteuse en temps pour l analyste, et qui nécessite une grande expertise métier. L espace de représentation généré est de très grande taille : de l ordre de 10 7 instances avec 10 4 variables. Notre objectif dans le cadre de cette thèse est d utiliser directement la représentation multi-tables afin d éviter la mise à plat. Ce choix est motivé par les observations suivantes : La représentation relationnelle augmente considérablement l expressivité du formalisme des individus à analyser. Ceci permet de simplifier ou même de se passer de la tâche de recherche d une bonne représentation faisant appel à l analyste de données, Ce formalisme offre la possibilité d ouverture vers de nouvelles méthodes statistiques, ce qui permettrait une amélioration potentielle des résultats. Pour ce faire, il serait nécessaire d automatiser le processus de recherche d une représentation efficace pour des données structurées sous forme d un modèle relationnel, en privilégiant les méthodes non paramétriques. L objectif, par la suite, est de concevoir des algorithmes permettant le passage à l échelle, sur de grandes volumétries. Objectifs Après avoir montré l intérêt de la fouille de données multi-tables dans le cadre général de l extraction de connaissance à partir des données ainsi que dans le contexte industriel dans lequel se situe cette thèse, nous précisons les objectifs auxquels nous nous intéressons dans notre contribution. Apprentissage supervisé multi-tables Dans le contexte de la fouille de données, on se réfère à deux problématiques distinctes. La première consiste à déterminer la classe, parmi un ensemble préalablement fixé, à laquelle appartient une donnée ou un exemple. Il s agit d entraîner un processus sur des données dont l appartenance à une classe est déterminée (généralement, il s agit de la valeur de l un des attributs) pour engendrer un modèle. Ce modèle sera par la suite utilisé, soit pour la compréhension des classes, soit pour la classification de nouvelles données dont la classe est inconnue. La seconde activité, appelée clustering en anglais, consiste à regrouper les données en des sous-ensembles cohérents, selon leur ressemblance. L apprentissage dans la première catégorie de méthode est dit supervisé. Dans la seconde il est dit non supervisé [Michalski, 1993]. Notre travail se situe dans le cadre supervisé. Lorsque les données sont relationnelles, un individu à classer correspond à un seul enregistrement d une table cible en relation un-à-plusieurs avec des tables secondaires. La classe ou la variable à expliquer n est autre qu un attribut particulier de la table cible. La nouveauté par rapport au cas mono-table classique est de considérer les variables explicatives qui se trouvent dans les tables secondaires pour décrire ou prédire la classe. La difficulté provient 4

11 principalement de la présence des relations un-à-plusieurs. En effet, un individu ne possède pas une seule valeur par variable (comme dans le cas attribut-valeur usuel), mais plutôt un ensemble de valeurs par variable secondaire. Notre objectif est de qualifier et d exploiter le pouvoir prédictif de ce genre de variable pour une tâche de classification. Ce problème est intrinsèquement difficile. Nous procédons alors à une simplification de celui-ci en proposant un prétraitement des variables secondaires afin d obtenir une représentation qui permet de mieux les prendre en compte. Prétraitement des variables secondaires La phase de prétraitement de données constitue une phase importante dans le processus global de data mining. Elle vise à rechercher une représentation des données informative afin d améliorer la qualité des résultats de la fouille. Typiquement cette phase comporte des opérations de nettoyage (suppression de bruit, de valeurs aberrantes, etc), réduction des données (sélection d instances, de variables explicatives pertinentes), et de transformation des données (discrétisation des variables numériques, construction de nouvelles variables, etc.). Dans le contexte de la fouille de données relationnelle, nous nous intéressons en particulier au problème de préparation des variables secondaires, à savoir, la discrétisation dans le cas numérique et le partitionnement en groupes de valeurs dans le cas catégoriel. Nous cherchons également à évaluer l informativité d une variable secondaire pour exploiter sa contribution dans la prédiction de la classe. Cette évaluation permet en outre de définir un critère de sélection de variable de type filtre [Guyon et Elisseeff, 2003] ou encore elle peut servir de préparation pour des classifieurs comme le Bayésien Naïf ou les arbres de décision. Afin de résoudre ces deux problématiques, nous nous sommes fixés certains critères de qualité qui sont imposés par le contexte dans lequel se situe notre travail : Efficacité. Nous nous intéressons à des bases de données avec une grande volumétrie. Cette contrainte s exprime à différents niveaux : nombre d individus dans la table cible, nombre d enregistrements dans les tables secondaires, nombre de variables secondaires... Les algorithmes que nous proposons doivent prendre en compte cette contrainte. Paramétrage. Nous privilégions les approches sans paramètre afin de réduire au maximum l intervention humaine dans le processus de prétraitement. Généricité. Il est préférable que l approche soit générique, dans la mesure où elle est applicable dans des contextes différents. Cette généricité peut s exprimer sur plusieurs axes : la taille de la base de données (petite, grande), le domaine d application (marketing, biologie, web...), le type de variables explicatives (numérique, catégorielle), la distribution de la variable cible (équilibrée ou pas), existence de bruit... Interprétabilité. L avantage des modèles interprétables est qu ils permettent une meilleure compréhension des données, ce qui facilite l exploitation des résultats d analyse. 5

12 Introduction Générale Contributions Nous présentons dans ce manuscrit une nouvelle approche de prétraitement de variables dans le cadre de la classification de données multi-tables. Il s agit d une extension de l approche de préparation de variables MODL (proposée dans le cas de données monotables classiques [Boullé, 2011]) aux variables explicatives situées dans des tables secondaires (tables en relation un-à-plusieurs avec la table cible). Notre méthode consiste à proposer une famille de modèles non paramétriques pour l estimation de la densité de probabilité conditionnelle des variables secondaires. Cette estimation permet de prendre en compte ce genre de variables dans un classifieur de type Bayésien Naïf dans le contexte multi-tables. Elle permet également de proposer un critère de sélection de variables secondaires de type filtre comme pour la représentation attribut-valeur classique [Guyon et Elisseeff, 2003]. L approche repose sur un prétraitement des variables secondaires, par discrétisation dans le cas numérique et par groupement de valeurs dans le cas catégoriel. Nous proposons, dans un premier lieu, d effectuer ce partitionnement de façon univariée, c est-à-dire, de considérer une seule variable secondaire à la fois. Dans un second lieu, nous proposons une approche de partitionnement multivarié basé sur des itemsets de variables secondaires, ce qui permet de prendre en compte les éventuelles corrélations qui peuvent exister entre ce genre de variables. L originalité de la méthode se situe dans le changement de représentation effectué grâce au partitionnement des variables secondaires. Chaque variable est projetée vers la table cible en créant un vecteur d effectifs par partie secondaire (intervalle ou groupe) résumant l information contenue dans la variable considérée. Ces attributs d effectifs sont conjointement partitionnés à l aide de modèles en grille de données afin d obtenir une meilleure séparation des valeurs de la classe. La modélisation suit une démarche de sélection de modèles se basant sur une approche Bayésienne. Cette démarche permet de définir un critère d évaluation pour chaque type de variable. Des algorithmes combinatoires sont alors introduits pour optimiser efficacement ce critère et obtenir le meilleur modèle. Organisation du document Dans le chapitre 1, nous dressons un panorama des principales méthodes de fouille de données multi-tables de l état de l art. Nous formalisons le problème comme un problème de classification supervisée en introduisant les différents termes utilisés par la suite. En précisant les enjeux auxquels est confrontée la fouille de données multi-tables, une attention particulière est portée à l étape de prétraitement des données. Dans les chapitres suivants, nous présentons notre approche de fouille de données multi-tables de façon didactique. Nous abordons le problème comme un problème de 6

13 prétraitement des variables secondaires. Celles-ci sont considérées dans les chapitres 2 et 3 de façon univariée ensuite de manière multivariée dans le chapitre 4. Dans le chapitre 2, nous considérons le cas le plus simple d une variable secondaire, celui d une seule variable binaire. Notre approche est décrite en détail dans ce cas en introduisant le critère d évaluation ainsi que les modèles en grille de données permettant d estimer la densité de probabilité conditionnelle pour ce genre de variables. Nous décrivons également l extension du classifieur Bayésien Naïf au cas multi-tables se basant sur cette estimation. Dans le chapitre 3, le cas d une variable secondaire binaire est étendu progressivement aux cas catégoriel et numérique. Nous proposons un critère permettant d évaluer le partitionnement d une variable secondaire par groupement de valeurs si celle-ci est catégorielle et par discrétisation si elle est numérique. Nous introduisons par ailleurs quelques algorithmes afin d optimiser ce critère. Dans le chapitre 4, nous généralisons notre approche au cas multivarié. Nous proposons un critère d évaluation d itemsets de variables secondaires construit par discrétisation des variables numériques et par groupement de valeurs dans le cas catégoriel. Enfin, dans le chapitre 5, nous dressons un bilan de notre méthode et de ce qui reste à effectuer, notamment en matière d algorithmes d optimisation. 7

14 8 Introduction Générale

15 1 État de l art Sommaire 1.1 Introduction Fouille de Données Multi-Tables Format Attribut-Valeur Fouille de Données Structurées Formalisation du problème et Terminologie Enjeux de la Fouille de données Multi-Tables Travaux Majeurs Programmation Logique Inductive Apprentissage Logique Probabiliste Modèles Probabilistes Arbres de Décision Relationnels Approches à base de distance Méthodes à noyaux Pré-traitement Conclusion

16 Chapitre 1 État de l art 1.1 Introduction Nous présentons dans ce premier chapitre le contexte de nos travaux, celui de la Fouille de Données Multi-Tables. Dans une première section, nous situons d abord ce nouveau paradigme par rapport au cadre classique de fouille de données attributvaleur. Ensuite, nous nous positionnons relativement aux différents problèmes étudiés dans le cadre multi-tables afin de préciser notre problématique d apprentissage. Nous formalisons le problème comme un problème de classification et nous introduisons les différentes terminologies et notations que nous utilisons par la suite. Dans la section 1.3, nous reportons sans prétention d exhaustivité quelques travaux proposés dans la littérature notamment en matière d apprentissage supervisé et de pré-traitement de données multi-tables. 1.2 Fouille de Données Multi-Tables Il est bien connu depuis les débuts de l Intelligence Artificielle que la représentation est une question clé pour faciliter la résolution d un problème [Newell et Simon, 1972, Korf, 1980,Amarel, 1983]. En particulier, en apprentissage supervisé, un compromis doit être fait entre, d une part, le choix du formalisme utilisé pour représenter les exemples d apprentissage et d autre part, la complexité de l algorithme [Neri et Saitta, 1994a, Neri et Saitta, 1994b] Format Attribut-Valeur Le formalisme classique en fouille de données est le formalisme propositionnel d où le nom fouille de données propositionnelle (en anglais Propositional Data Mining). Typiquement, dans ce formalisme, les individus sont représentés par un nombre fixe de variables, appelées encore caractéristiques ou attributs. Les individus sont alors vus comme un ensemble de paires attribut-valeur représentées sous la forme d un vecteur de valeurs de taille fixe. Ces valeurs peuvent être de différentes natures : numériques ou catégorielles. L ensemble de tous les individus correspond dans le formalisme des bases de données relationnelles à une table ou relation. Les lignes ou enregistrements correspondent aux individus. et les colonnes correspondent aux variables. Dans le contexte de l apprentissage supervisé on cherche à prédire la valeur d une variable particulière qu on appelle Variable Cible ou Classe. Exemple 1.1. Prenons par exemple un problème CRM (Customer Relationship Management) où l objectif est d identifier les clients susceptibles de s intéresser à un certain produit ou service, ce qui revient à un problème de classification de clients. La variable cible correspond à l attribut CLASSE qui dénote si le client est intéressé par un produit particulier. Dans le format à-plat classique, les données se présentent, comme dans la Figure 1.1, sous la forme d un tableau où chaque client correspond 10

17 1.2 Fouille de Données Multi-Tables à une ligne. Les variables décrivant ces clients ainsi que la cible sont données en colonnes. Figure 1.1: Représentation à plat À des fins didactiques, le problème de l Exemple 1.1 sera utilisé dans le reste de ce manuscrit pour illustrer la problématique ainsi que l approche proposée. Le paradigme propositionnel a plusieurs avantages, ce qui explique sa popularité. Tous les individus sont décrits par les mêmes variables. Chaque variable apparait une seule fois dans cette description et possède une seule valeur. Il arrive qu un individu puisse avoir une valeur non-renseignée pour une variable particulière. Des extensions existent pour faire de l apprentissage dans le cas de données manquantes ou incomplètes. Les individus peuvent être vus comme des points dans un espace en dimension finie. Des mesures de distance sont facilement définies pour quantifier des similarités entre individus. Des méthodes de type k-plus-proches-voisins peuvent alors être employées [Fix et Hodges, 1951]. Sur cet espace d individus, des méthodes d estimation de densité peuvent être employées pour aider à découvrir des régions intéressantes. Les valeurs des variables sont complémentaires : c est-à-dire, une condition sur la valeur d une variable divise les individus en deux sous-groupes disjoints. La méthode populaire des Arbres de Décision exploite cette propriété en utilisant des opérations simples (=,, et ) [Quinlan, 1986]. Le paradigme propositionnel a été largement utilisé dans les méthodes d apprentissage classiques grâce à la structure tabulaire simple qu il propose. Cependant, ce formalisme se heurte en réalité à plusieurs limites à cause de son pouvoir d expressivité. Les objets du monde réel présentent souvent de façon naturelle une structure interne difficile à exprimer sous la forme d une représentation attribut-valeur. Les approches de fouille de données opérant sur cette représentation à plat ne permettent pas de prendre en compte les structures complexes que peuvent prendre les données. Nous utilisons le terme Fouille de Données Structurées (Structured Data Mining) 11

18 Chapitre 1 État de l art pour faire référence à la classe de techniques qui supportent l analyse des objets structurés Fouille de Données Structurées Les objets réels présentent souvent une structure composée de sous entités ou de sous parties qui diffèrent d un objet à un autre et qui possèdent chacune sa description intrinsèque. La structure globale des objets est définie par les relations qui peuvent exister entre les entités qui les composent. Un ensemble prédéfini d attributs ne peut pas représenter cette variabilité en structure, d où le besoin d autres représentations. Exemple 1.2. Dans le problème de classification des clients de l Exemple 1.1, souvent, on dispose non seulement des informations concernant les clients (telle que l âge, les revenus, etc. ce qui correspond dans le formalisme attribut-valeur aux variables décrivant les clients), mais encore des historiques d achats effectués, des produits commandés dans chaque achat. Outre l objet Client, d autres entités : Commandes et Produits, viennent s y ajouter et chacune des ces entités possède ses propres descriptions. Dans le cas où le problème est de prédire si le client est intéressé par certains produits, les propriétés des achats et des produits commandés précédemment par ce même client peuvent potentiellement être très informatives. Les clients s intéressent généralement à des produits de même nature, dans le même ordre de prix, etc. Ces propriétés des achats et des produits peuvent être très pertinentes pour prédire la classe d un client. Cependant, un vecteur de variables de taille fixe modélisant un client ne suffit pas pour décrire les informations de ses achats Représentations des données structurées Trois représentations équivalentes existent dans la littérature pour représenter les données structurées. Sur la base de ces représentations, les méthodes de Fouille de Données Structurées peuvent être classées en trois catégories : La Fouille de Graphe [Cook et Holder, 2000,Washio et Motoda, 2003]. Les données sont représentées sous la forme de graphes. Chaque objet est un graphe conceptuel. Les sommets du graphe représentent les entités ainsi que leurs attributs. Les relations entre ces entités correspondent aux arcs (orientés ou non orientés). Ce formalisme est plutôt adapté aux méthodes d analyse descriptive tels que le clustering de graphes et la recherche des motifs fréquents. La Programmation Logique Inductive [Džeroski, 1996,Lavrač et Džeroski, 1994]. La base de données est constituée d une collection de faits exprimés sous la forme de prédicats logiques de premier ordre. Ces prédicats décrivent les entités ainsi que les relations entre elles. La Fouille de Données Multi-Tables [Džeroski, 2003]. Les données sont contenues dans une base de données relationnelle. Les tables représentent les entités. 12

19 1.2 Fouille de Données Multi-Tables Les relations entre ces entités sont définies grâce aux contraintes de clés étrangères. Exemple 1.3. Les Figures 1.2 et 1.3 ainsi que Listing 1.1 illustrent comment on peut représenter les données du problème de classification des clients avec ces trois formalismes équivalents. Les clients sont décrits de façon complète à l aide des entités ou concepts : Client et Commande. Parmi ces trois représentations, le formalisme relationnel offre la représentation la plus compacte. En PLI et en Fouille de Graphes, on a besoin d un prédicat logique (en PLI) et d un nœud (en Fouille de Graphe) pour représenter chaque valeur d un attribut donné. La plupart des applications réelles disposent de données stockées à leur état brut dans des bases de données relationnelles. Cependant, les approches PLI et par Fouille de Graphes transforment les données relationnelles vers leurs formalismes respectifs avant de pouvoir les traiter. Dans ce manuscrit, nous nous intéressons aux méthodes d apprentissage supervisé qui travaillent directement sur la représentation relationnelle multi-tables. Définition 1.1. La Fouille de Données Multi-Tables (en anglais Multi-Relational Data Mining, MRDM) est une famille de méthodes de fouille de données qui traitent de l extraction de connaissances à partir de bases de données relationnelles contenant plusieurs tables. Dans la communauté ECD, le terme «relationnel» a été utilisé pour qualifier certains paradigmes d apprentissage qui diffèrent de la problématique à laquelle nous nous intéressons dans ce mémoire. Pour lever toute ambigüité, ces terminologies ne devraient pas se confondre avec la définition que nous avons fournie pour la Fouille de Données Multi-Tables : Fouille de Données Relationnelles (en anglais Relational Data Mining, RDM). Ce terme est devenu populaire dans la communauté de la programmation logique, surtout avec l apparition du livre de [Džeroski et Lavrač, 2001]. Il s agit des techniques PLI classiques. Leur qualification de «relationnel» provient de la prise en compte des données relationnelles en les transformant sous la forme de prédicats logiques. Apprentissage Relationnel (en anglais Relational Learning, RL). C est un concept plus général que la PLI et la Fouille de Données Relationnelles. Il s intéresse à l apprentissage à partir de données présentant une structure complexe (des graphes ou des réseaux) où les objets sont en relation les uns aux autres par des relations sémantiques ou de similarité Problèmes d Apprentissage en Fouille de Données Structurées Plusieurs problèmes d apprentissage ont été envisagés dans le cadre de la Fouille de Données Structurées. Certaines représentations sont mieux adaptées à un problème 13

20 Chapitre 1 État de l art Figure 1.2: Représentation en Fouille de Graphes Client (CL01,25, H, Mr,40, Commerçant,..., positive ). a_commandé ( CL01, C01CL01 ). a_commandé ( CL01, C02CL01 ). a_commandé ( CL01, C03CL01 ). a_commandé ( CL01, C04CL01 ). Commande ( C01CL01,150,10,Chèque, Retrait_magasin ). Commande ( C02CL01,85,5.9,CB, Colis_poste ).... Client (CL02,28, H, Mr,25, Ingénieur,..., négative ). a_commandé (CL02,C01CL02 ). a_commandé (CL02,C02CL02 ). a_commandé (CL02,C03CL02 ). Commande ( C01CL02,50,8.5, Chèque, Retrait_magasin ).... Client (CL03,31, F, Mme,36, Cadre,..., neutre ).... Listing 1.1: Représentation en Programmation Logique Inductive 14

Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables

Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables Dhafer Lahbib, Marc Boullé, Dominique Laurent France Télécom R&D - 2, avenue Pierre Marzin, 23300 Lannion dhafer.lahbib@orange-ftgroup.com

Plus en détail

Evaluation et prise en charge des processus de récupération en mémoire dans la maladie d Alzheimer

Evaluation et prise en charge des processus de récupération en mémoire dans la maladie d Alzheimer Evaluation et prise en charge des processus de récupération en mémoire dans la maladie d Alzheimer Benjamin Boller To cite this version: Benjamin Boller. Evaluation et prise en charge des processus de

Plus en détail

Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales

Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales Natacha Gondran To cite this version: Natacha Gondran. Système de diffusion d information

Plus en détail

La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale

La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale Stéphanie Perriere To cite this version: Stéphanie Perriere. La voix en images : comment l

Plus en détail

Delphine Graniou. To cite this version: HAL Id: dumas-00836052 http://dumas.ccsd.cnrs.fr/dumas-00836052

Delphine Graniou. To cite this version: HAL Id: dumas-00836052 http://dumas.ccsd.cnrs.fr/dumas-00836052 Le point de vue des femmes sur la mise en place d un dépistage national organisé du cancer du col de l utérus. Étude qualitative auprès de femmes de Haute-Normandie Delphine Graniou To cite this version:

Plus en détail

Résultats à long terme de la photo-kératectomie thérapeutique dans les dystrophies cornéennes

Résultats à long terme de la photo-kératectomie thérapeutique dans les dystrophies cornéennes Résultats à long terme de la photo-kératectomie thérapeutique dans les dystrophies cornéennes épithéliales Badreddine Chanaoui To cite this version: Badreddine Chanaoui. Résultats à long terme de la photo-kératectomie

Plus en détail

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Mostafa Hanoune, Fouzia Benabbou To cite this version: Mostafa Hanoune, Fouzia Benabbou. Modélisation Informatique

Plus en détail

Le travail vivant des agents de contrôle de l inspection du travail

Le travail vivant des agents de contrôle de l inspection du travail Le travail vivant des agents de contrôle de l inspection du travail François Daniellou, Philippe Davezies, Karine Chassaing, Bernard Dugué,, Johann Petit To cite this version: François Daniellou, Philippe

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

Les principaux domaines de l informatique

Les principaux domaines de l informatique Les principaux domaines de l informatique... abordés dans le cadre de ce cours: La Programmation Les Systèmes d Exploitation Les Systèmes d Information La Conception d Interfaces Le Calcul Scientifique

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Une charte éthique pour le Big Data

Une charte éthique pour le Big Data Une charte éthique pour le Big Data Primavera De Filippi To cite this version: Primavera De Filippi. Une charte éthique pour le Big Data. Documentaliste - Sciences de l Information, ADBS, 2013, pp.8-9.

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 7 - Data

BI = Business Intelligence Master Data-ScienceCours 7 - Data BI = Business Intelligence Master Data-Science Cours 7 - Data Mining Ludovic DENOYER - UPMC 30 mars 2015 Ludovic DENOYER - Typologie des méthodes de Data Mining Différents types de méthodes : Méthodes

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Comptabilité à base d activités (ABC) et activités informatiques : une contribution à l amélioration des processus informatiques d une banque

Comptabilité à base d activités (ABC) et activités informatiques : une contribution à l amélioration des processus informatiques d une banque Comptabilité à base d activités (ABC) et activités informatiques : une contribution à l amélioration des processus informatiques d une banque Grégory Wegmann, Stephen Nozile To cite this version: Grégory

Plus en détail

Vers une Automatisation de la Construction de Variables pour la Classification Supervisée

Vers une Automatisation de la Construction de Variables pour la Classification Supervisée pour la Classification Supervisée Marc Boullé, Dhafer Lahbib Orange Labs, 2 avenue Pierre Marzin, 22300 Lannion marc.boulle@orange.com, http://perso.rd.francetelecom.fr/boulle/ Résumé. Dans cet article,

Plus en détail

Apport du Knowledge Management dans l amélioration de la prise de décision dans une Organisation

Apport du Knowledge Management dans l amélioration de la prise de décision dans une Organisation Apport du Knowledge Management dans l amélioration de la prise de décision dans une Organisation Abdelkader Baaziz To cite this version: Abdelkader Baaziz. Apport du Knowledge Management dans l amélioration

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne Sophie Morlaix To cite this version: Sophie Morlaix. L indice de SEN, outil de mesure de l équité

Plus en détail

CAPE: Context-Aware Agile Business Process Engine

CAPE: Context-Aware Agile Business Process Engine CAPE: Context-Aware Agile Business Process Engine Irina Rychkova, Manuele Kirsch Pinheiro, Bénédicte Le Grand To cite this version: Irina Rychkova, Manuele Kirsch Pinheiro, Bénédicte Le Grand. CAPE: Context-Aware

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

Dessin assisté par ordinateur en lycée professionnel

Dessin assisté par ordinateur en lycée professionnel Dessin assisté par ordinateur en lycée professionnel Bernard Dauga To cite this version: Bernard Dauga. Dessin assisté par ordinateur en lycée professionnel. Bulletin de l EPI (Enseignement Public et Informatique),

Plus en détail

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence

Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence Gwenole Fortin To cite this version: Gwenole Fortin. Notes de lecture : Dan SPERBER & Deirdre WILSON, La pertinence. 2006.

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Charte Éthique et Big Data : parce que mon corpus le vaut bien!

Charte Éthique et Big Data : parce que mon corpus le vaut bien! Charte Éthique et Big Data : parce que mon corpus le vaut bien! Alain Couillault, Karen Fort To cite this version: Alain Couillault, Karen Fort. Charte Éthique et Big Data : parce que mon corpus le vaut

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

statique J. Bertrand To cite this version: HAL Id: jpa-00237017 https://hal.archives-ouvertes.fr/jpa-00237017

statique J. Bertrand To cite this version: HAL Id: jpa-00237017 https://hal.archives-ouvertes.fr/jpa-00237017 Quelques théorèmes généraux relatifs à l électricité statique J. Bertrand To cite this version: J. Bertrand. Quelques théorèmes généraux relatifs à l électricité statique. J. Phys. Theor. Appl., 1874,

Plus en détail

AGROBASE : un système de gestion de données expérimentales

AGROBASE : un système de gestion de données expérimentales AGROBASE : un système de gestion de données expérimentales Daniel Wallach, Jean-Pierre RELLIER To cite this version: Daniel Wallach, Jean-Pierre RELLIER. AGROBASE : un système de gestion de données expérimentales.

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Compte-rendu de Hamma B., La préposition en français

Compte-rendu de Hamma B., La préposition en français Compte-rendu de Hamma B., La préposition en français Badreddine Hamma To cite this version: Badreddine Hamma. Compte-rendu de Hamma B., La préposition en français. Revue française de linguistique appliquée,

Plus en détail

Bilan de thèse à mi-parcours

Bilan de thèse à mi-parcours Bilan de thèse à mi-parcours Benjamin Lévy 26 mars 2012 Introduction La thèse de doctorat d informatique (école doctorale 130, EDITE) dont le titre officiel est le suivant : Avatars capables d écoute,

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/ Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/

Plus en détail

Vous trouvez plus d information sur AREL. ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html

Vous trouvez plus d information sur AREL. ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html ainsi que sur : http://www.eisti.fr/ mma/html-iad/iad.html Option Deux thèmes : La recherche opérationnelle : Traiter des problèmes d optimisation, d aide à la décision et d évaluation de performances

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Utiliser Access ou Excel pour gérer vos données

Utiliser Access ou Excel pour gérer vos données Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que

Plus en détail

Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile

Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile W. Lermantoff To cite this version: W. Lermantoff. Sur le grossissement

Plus en détail

Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP)

Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP) Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP) Loris Marchal, Guillaume Melquion, Frédéric Tronel 21 juin 2011 Remarques générales à propos de l épreuve Organisation

Plus en détail

Généralités sur les bases de données

Généralités sur les bases de données Généralités sur les bases de données Qu est-ce donc qu une base de données? Que peut-on attendre d un système de gestion de bases de données? Que peut-on faire avec une base de données? 1 Des données?

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

Un SIG collaboratif pour la recherche historique Partie. Partie 1 : Naissance et conception d un système d information géo-historique collaboratif.

Un SIG collaboratif pour la recherche historique Partie. Partie 1 : Naissance et conception d un système d information géo-historique collaboratif. Un SIG collaboratif pour la recherche historique Partie 1 : Naissance et conception d un système d information géo-historique collaboratif Claire-Charlotte Butez, Francesco Beretta To cite this version:

Plus en détail

L informatique des entrepôts de données

L informatique des entrepôts de données L informatique des entrepôts de données Daniel Lemire SEMAINE 13 L exploration des données 13.1. Présentation de la semaine L exploration de données (ou data mining) est souvent associée à l intelligence

Plus en détail

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21 IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Carte postale d un habitat sur cour (Abidjan)

Carte postale d un habitat sur cour (Abidjan) Carte postale d un habitat sur cour (Abidjan) Bénédicte Tratnjek To cite this version: Bénédicte Tratnjek. Carte postale d un habitat sur cour (Abidjan). Les Cafés géographiques, rubrique à comité de lecture

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données.

connaissances «intéressantes» ou des motifs (patterns) à partir d une grande quantité de données. Data Mining = Knowledge Discovery in Databases (KDD) = Fouille de données 1 Définition : Processus ou méthode qui extrait des connaissances «intéressantes» ou des motifs (patterns) à partir d une grande

Plus en détail

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication R. Carlos Nana Mbinkeu 1,3, C. Tangha 1, A. Chomnoue 1, A. Kuete

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Ingénierie de Systèmes Intelligents

Ingénierie de Systèmes Intelligents Ingénierie de Systèmes Intelligents p. 1/ Ingénierie de Systèmes Intelligents Application : Web Intelligent Maria Malek EISTI Ingénierie de Systèmes Intelligents p. 2/ Objectif Traitement Intelligent des

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

Rappel sur les bases de données

Rappel sur les bases de données Rappel sur les bases de données 1) Généralités 1.1 Base de données et système de gestion de base de donnés: définitions Une base de données est un ensemble de données stockées de manière structurée permettant

Plus en détail

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information

Plus en détail

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML http://olivier-augereau.com Sommaire Introduction I) Les bases II) Les diagrammes

Plus en détail

10 Intégration de données sur le web

10 Intégration de données sur le web 10 Intégration de données sur le web 240 Requête utilisateur : Où est-ce que je peux voir les films qui ont participé au dernier Festival de Cannes? Je voudrais les résumés et critiques des films de Pedro

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

UML (Diagramme de classes) Unified Modeling Language

UML (Diagramme de classes) Unified Modeling Language UML (Diagramme de classes) Unified Modeling Language Sommaire Introduction Objectifs Diagramme de classes Classe (Nom, attribut, opération) Visibilité et portée des constituants d une classe Association

Plus en détail

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing

Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Statistique et analyse de données pour l assureur : des outils pour la gestion des risques et le marketing Gilbert Saporta Chaire de Statistique Appliquée, CNAM ActuariaCnam, 31 mai 2012 1 L approche statistique

Plus en détail

Introduction à La Fouille de Données. Khai thác dữ liệu. Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker

Introduction à La Fouille de Données. Khai thác dữ liệu. Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker 1 /81 Cours IFI M1 Data Mining Introduction à La Fouille de Données Khai thác dữ liệu Cours M1 IA «Systèmes Intelligents & Multimédia» Jean-Daniel Zucker Chercheur de l IRD à UMMISCO (Modélisation Mathématiques

Plus en détail

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln. MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.fr Plan Introduction Généralités sur les systèmes de détection d intrusion

Plus en détail

Université de Bangui. Modélisons en UML

Université de Bangui. Modélisons en UML Université de Bangui CRM Modélisons en UML Ce cours a été possible grâce à l initiative d Apollinaire MOLAYE qui m a contacté pour vous faire bénéficier de mes connaissances en nouvelles technologies et

Plus en détail

RAPPORT DE PROJET DATA MINING

RAPPORT DE PROJET DATA MINING DEA 127 : INFORMATIQUE SYSTEMES INTELLIGENTS RAPPORT DE PROJET DATA MINING «Analyse des endettements par niveau de développement des pays» Réalisé par : BELEM MAHAMADOU Sous la direction de : M. EDWIN

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

Etat de l art sur l utilisation des techniques Web Sémantique en ECD

Etat de l art sur l utilisation des techniques Web Sémantique en ECD Etat de l art sur l utilisation des techniques Web Sémantique en ECD Hicham Behja ENSAM Meknès(1,2,3) Brigitte Trousse Projet AxIS INRIA Sophia Antipolis (2) Abdelaziz Marzak Faculté des sciences Casablanca

Plus en détail

Christelle REYNES EA 2415 Epidémiologie, Biostatistique et Santé Publique Université Montpellier 1. 8 Juin 2012

Christelle REYNES EA 2415 Epidémiologie, Biostatistique et Santé Publique Université Montpellier 1. 8 Juin 2012 Extraction et analyse des mesures haut-débit pour l identification de biomarqueurs : problèmes méthodologiques liés à la dimension et solutions envisagées EA 2415 Epidémiologie, Biostatistique et Santé

Plus en détail

Introduction à l Analyse des Réseaux Sociaux

Introduction à l Analyse des Réseaux Sociaux Introduction à l Analyse des Réseaux Sociaux Erick Stattner Laboratoire LAMIA Université des Antilles et de la Guyane, France erick.stattner@univ-ag.fr Guadeloupe, Novembre 2012 Erick Stattner Introduction

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

Le cinquième chapitre

Le cinquième chapitre Le cinquième chapitre Objectif : présenter les supports matériels ou immatériels permettant d'étayer cette nouvelle approche de la fonction maintenance. I. Evolution du domaine technique - Différents domaines

Plus en détail

Le modèle de données relationnel

Le modèle de données relationnel Le modèle de données relationnel 1. Le modèle relationnel 1.1. Présentation Le modèle relationnel représente la base de données comme un ensemble de tables, sans préjuger de la façon dont les informations

Plus en détail

UNIVERSITE D'EVRY VAL D'ESSONNE Référence GALAXIE : 4072

UNIVERSITE D'EVRY VAL D'ESSONNE Référence GALAXIE : 4072 UNIVERSITE D'EVRY VAL D'ESSONNE Référence GALAXIE : 4072 Numéro dans le SI local : Référence GESUP : Corps : Professeur des universités Article : 46-1 Chaire : Non Section 1 : 27-Informatique Section 2

Plus en détail

Les sciences de l éducation et les sciences de la. en dialogue : à propos des médias et des technologies éducatives. L université En Ligne : du

Les sciences de l éducation et les sciences de la. en dialogue : à propos des médias et des technologies éducatives. L université En Ligne : du Les sciences de l éducation et les sciences de la communication en dialogue : à propos des médias et des technologies éducatives. L université En Ligne : du dispositif empirique à l objet de recherche,

Plus en détail

Cognit Ive Cas d utilisation

Cognit Ive Cas d utilisation Cognit Ive Cas d utilisation 96-98, rue de Montreuil - 75011 Paris _ opicot@ _ + 33 (0)1 40 09 71 55 Sommaire Présentation de la plateforme Cognit Ive SemanticMail : Traitement sémantique des mails Projets

Plus en détail

Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P

Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P EUROCOPTER SAS Groupe EADS Marignane Ecole des Mines d Alès Laboratoire de Génie Informatique et d Ingénierie de Production LGI2P Nîmes Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P Titre Domaine

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

MYXTRACTION. 2009 La Business Intelligence en temps réel

MYXTRACTION. 2009 La Business Intelligence en temps réel MYXTRACTION 2009 La Business Intelligence en temps réel Administration Qui sommes nous? Administration et management des profils Connecteurs Base des données Gestion des variables et catégories de variables

Plus en détail

Fouille de données dans des bases parcellaires (cadre projet PayOTe)

Fouille de données dans des bases parcellaires (cadre projet PayOTe) Fouille de données dans des bases parcellaires (cadre projet PayOTe) Thomas Guyet AGROCAMPUS-OUEST IRISA Équipe DREAM 01 mars 2010, Nancy Équipe DREAM : axes de recherche Diagnosing, recommending actions

Plus en détail

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Cours Base de données relationnelles. M. Boughanem, IUP STRI Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),

Plus en détail

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions Exemple accessible via une interface Web Une base de données consultable en ligne : Bases de données et systèmes de gestion de bases de données The Trans-atlantic slave trade database: http://www.slavevoyages.org/tast/index.faces

Plus en détail

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique.

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique. I INTRODUCTION Les pages de phishing sont l un des problèmes majeurs de sécurité sur internet. La majorité des attaques utilisent des méthodes sophistiquées comme les fausses pages pour tromper les utilisateurs

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

Cybermarché et analyse comportementale

Cybermarché et analyse comportementale Cybermarché et analyse comportementale Antoine-Eric Sammartino aesammartino@e-laser.fr Séminaire Data Mining - Educasoft Formations 18 juin 2001-1- MENU Le Groupe LaSer Le processus Data Mining L industrialisation

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Jean-Luc Archimbaud. Sensibilisation à la sécurité informatique.

Jean-Luc Archimbaud. Sensibilisation à la sécurité informatique. Sensibilisation à la sécurité informatique Jean-Luc Archimbaud To cite this version: Jean-Luc Archimbaud. Sensibilisation à la sécurité informatique. lieux en France, 1997, pp.17. École

Plus en détail

Lecture critique et pratique de la médecine

Lecture critique et pratique de la médecine 1-00.qxp 24/04/2006 11:23 Page 13 Lecture critique appliquée à la médecine vasculaireecture critique et pratique de la médecine Lecture critique et pratique de la médecine Introduction Si la médecine ne

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail