Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables.

Dimension: px
Commencer à balayer dès la page:

Download "Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables."

Transcription

1 Préparation non paramétrique des données pour la fouille de données multi-tables Dhafer Lahbib To cite this version: Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables. Other. Université de Cergy Pontoise, French. <NNT : 2012CERG0616>. <tel v1> HAL Id: tel https://tel.archives-ouvertes.fr/tel v1 Submitted on 26 Aug 2013 (v1), last revised 27 Jan 2014 (v3) HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

2 École Doctorale Sciences et Ingénierie Préparation non paramétrique des données pour la fouille de données multi-tables THÈSE présentée et soutenue publiquement le 6 décembre 2012 pour l obtention du Doctorat en Sciences de l université de Cergy-Pontoise (spécialité STIC) par Dhafer LAHBIB Composition du jury Rapporteurs : Nicolas LACHICHE MCF HDR Université Louis Pasteur Bruno CRÉMILLEUX Professeur Université de Caen Examinateurs : Christel VRAIN Professeur Université d Orléans Karine ZEITOUNI Professeur Université de Versailles Saint-Quentin-en-Yvelines Directeur de thèse : Dominique LAURENT Professeur Université de Cergy-Pontoise Co-Encadrant : Marc BOULLÉ Docteur Orange Labs, Lannion Equipe Traitement de l Information et Systèmes (ETIS) UMR CNRS 8051

3

4

5 Table des matières Introduction Générale 1 Contexte Industriel Objectifs Contributions Organisation du document État de l art Introduction Fouille de Données Multi-Tables Format Attribut-Valeur Fouille de Données Structurées Formalisation du problème et Terminologie Enjeux de la Fouille de données Multi-Tables Travaux Majeurs Programmation Logique Inductive Apprentissage Logique Probabiliste Modèles Probabilistes Arbres de Décision Relationnels Approches à base de distance Méthodes à noyaux Pré-traitement Conclusion Principe de l Approche : Cas d une Variable Secondaire Binaire Introduction Approche Critère d évaluation Distribution a priori des modèles Vraisemblance des modèles Critère Optimisation de la Grille Bivariée Heuristique gloutonne Complexité Extension du Bayésien naïf Estimation de la Probabilité Conditionnelle Univariée Bayésien Naïf Sélectif i

6 Table des matières Table des matières 2.6 Expérimentations Protocole Données artificielles Base de données Stulong Conclusion Extension aux Variables Secondaires Catégorielles et Numériques Introduction Variable catégorielle avec peu de valeurs Approche Critère Algorithme d optimisation Variable catégorielle avec groupement de valeurs Critère Optimisation Variable Secondaire Numérique Approche Critère Algorithme d optimisation Expérimentations Jeux de données Résultats Données synthétiques Données Réelles Conclusion Pré-traitement multivarié des variables secondaires Introduction Motivation Approche Évaluation d itemsets de variables secondaires Coût de construction d un itemset Évaluation de la variable secondaire associée à l itemset Critère d évaluation global Induction d itemsets de variables secondaires Conclusion Bilan et perspectives 101 ii

7 Introduction Générale Les progrès réalisés dans les technologies d acquisition, de stockage et de distributions des données ont entraîné une croissance rapide de la taille des bases de données disponibles. En effet, la quantité de données est estimée doubler presque chaque année, d où l intérêt croissant de valoriser ces données. Par conséquent, un des plus grands défis auxquels sont confrontées plusieurs organisations et entreprises est de savoir comment transformer leur volume de données qui ne cesse d augmenter en des connaissances utiles et exploitables. Les travaux qui ont abordé cette problématique relèvent de domaines très variés tels que les statistiques, l intelligence artificielle, l apprentissage automatique, les bases de données... Ces travaux ont donné lieu à un nouveau domaine de recherche très actif connu sous le terme de Fouille de Données. La Fouille de Données (en anglais, Data Mining) est généralement mentionnée dans un cadre plus large, celui de l Extraction de Connaissances à partir de Données ECD (en anglais, Knowledge Discovery in Databases KDD). Elle se rapporte au processus d extraction d informations originales auparavant inconnues, et potentiellement exploitables dans les bases de données [Usama M. Fayyad et al., 1996]. Elle propose d utiliser un ensemble de techniques et algorithmes qui ont pour objet la découverte de motifs et des connaissances à partir de grandes quantités de données [Berry et Gordon S. Linoff, 2011]. La plupart des algorithmes de fouille de données disponibles aujourd hui sont basés sur une représentation sous forme d un tableau attribut-valeur, où les instances de données sont représentées par des vecteurs d attribut-valeur de taille fixe et qui sont supposées être identiquement et indépendamment distribués (hypothèse i.i.d). L utilisation de ces algorithmes se limite alors aux bases de données stockées sous ce format «à plat». Cependant, dans des applications réelles, les données sont beaucoup plus riches en structure et se présentent souvent stockées dans des bases de données relationnelles composées de plusieurs tables. Afin de pouvoir utiliser les algorithmes classiques de fouille de données, l analyste de données doit alors projeter cette représentation relationnelle initiale vers une représentation simplifiée monotable attribut-valeur, ce qui est une tâche coûteuse en temps et critique pour la qualité des résultats. En effet, cette mise à plat passe par la construction d agrégats afin de résumer l information contenue dans les différentes tables nécessitant ainsi une grande expertise et connaissance du domaine. Par ailleurs, l opération d agrégation va non seulement engendrer une perte d information par rapport à la représentation initiale naturellement compacte mais elle risque également d intro- 1

8 Introduction Générale duire des biais statistiques, notamment à cause des dépendances qui peuvent exister entre les variables nouvellement créées. Afin de résoudre ces problèmes un nouveau paradigme de fouille de données a été proposé dans la littérature : la Fouille de Données Multi-Tables. La Fouille de Données Multi-Tables FDMT (en anglais Multi-Relational Data Mining) a été définie par [Džeroski, 2003] comme l extraction de connaissances et de motifs à partir d une base de données relationnelle. Contrairement aux approches mono-table classique, la FDMT a pour objectif d apprendre des connaissances en se basant sur des données stockées sur plusieurs tables. Notre travail se situe dans ce cadre particulier. Il est motivé par les besoins métiers ainsi que les données disponibles dans le contexte industriel dans lequel se situe cette thèse. Contexte Industriel La Fouille de données chez Orange couvre des domaines d application très divers tels que le marketing, le web mining, la caractérisation du trafic réseau... Les données disponibles se présentent souvent dans l état brut dans des datastores (banques de données). Ces datastores possèdent une structure très complexe composée de nombreuses tables et leur volume peut atteindre quelques dizaines de Téraoctets dans le domaine du marketing client par exemple. Dans des domaines applicatifs particuliers, à partir de ces données, des entrepôts de données (Data Warehouse) sont construits pour des besoins métiers spécifiques. Le schéma typique de ces entrepôts de données est un schéma en étoile où chaque individu (l unité statistique) du domaine applicatif est stocké au moyen d une table cible (principale) et de plusieurs tables secondaires en relation un-à-plusieurs. Par exemple, un client est caractérisé par les services auxquels il a souscrit, par l historique de ses détails de communication et par l ensemble de ses interactions avec les services après-vente d Orange. Ces données présentent plusieurs caractéristiques : La structure est intrinsèquement composée de plusieurs tables d une base de données relationnelle, d où l intérêt de la fouille de données multi-tables pour valoriser ces données. Grande volumétrie : le nombre d instances est de l ordre de 10 5 dans la table cible en apprentissage, et de 10 6 à 10 8 en déploiement. Dans les tables secondaires, chaque individu est relié à des centaines voire des milliers d enregistrements. Différents types de variables : numériques, catégorielles (avec un nombre de valeurs très grand). Données bruitées, éventuellement incomplètes. Distribution de la variable cible (dans le cas d un problème de classification) souvent fortement déséquilibrée, etc. Nous citons ci-dessous deux exemples qui illustrent des contextes applicatifs différents étudiés au sein d Orange. 2

9 Exemple 0.1. Gestion de la relation client (en anglais, Customer Relationship Management CRM). Le CRM a pour objectif de permettre à l entreprise de mieux comprendre ses clients pour adapter et personnaliser ses produits ou ses services. Les données sont stockées dans des bases de données relationnelles. Les informations permettent de dresser un profil précis et complet des clients. Pour cela, typiquement, les données sont centrées sur une table principale : la table Client qui est en relation un-à-plusieurs avec des tables secondaires. Chacune de ces tables comporte des informations précises concernant les clients : la liste des produits commandés, la liste des services auxquels ils ont souscrit, la liste des détails de communication, etc. Exemple 0.2. Le ciblage comportemental (en anglais, Behavioral Targeting BT). Le BT est une technique de publicité qui consiste à personnaliser les contenus promotionnels, en fonction de la navigation des internautes et de l identification de leurs centres d intérêt. Les données comportementales recueillies pour le ciblage publicitaire sont intrinsèquement structurées sur plusieurs entités : les utilisateurs, identifiés par des cookies, la liste de leurs sessions de navigation, la liste des pages Web visitées lors de chaque session, etc. La façon la plus intuitive de représenter ces informations (généralement stockées dans des logs d usage) serait un schéma relationnel centré sur une table Utilisateur. Au sein d Orange, le traitement des données multi-tables est actuellement réalisé dans le cadre du projet PAC (Plate-forme d Analyse Client). C est un projet mené dans les Orange Labs qui a pour objet l industrialisation du processus Data Mining pour les très grandes bases de données relationnelles. Ce processus se décompose en deux étapes : 1. La première étape consiste à effectuer une mise à plat du modèle relationnel afin d avoir une représentation classique mono-table, attribut valeur. Ceci est réalisé en construisant de nouvelles variables à partir d une bibliothèque de règles de calcul prédéfinies (moyenne, écart type, tendance, etc.). Ces nouvelles variables constituent des agrégations plus ou moins complexes des variables qui se trouvent dans les tables secondaires. Par exemple, une requête «moyenne des durées d appel sur téléphone fixe par mois (12 mois), jour de la semaine (7 jours) et type d appel (local, national, international)» permet de construire 252 = variables. 2. La deuxième étape consiste à utiliser des techniques d apprentissage performantes afin d exploiter cette représentation (techniques implémentées dans l outil Khiops [Boullé, 2007a]). 3

10 Introduction Générale L opération de mise à plat effectuée dans PAC est une tâche coûteuse en temps pour l analyste, et qui nécessite une grande expertise métier. L espace de représentation généré est de très grande taille : de l ordre de 10 7 instances avec 10 4 variables. Notre objectif dans le cadre de cette thèse est d utiliser directement la représentation multi-tables afin d éviter la mise à plat. Ce choix est motivé par les observations suivantes : La représentation relationnelle augmente considérablement l expressivité du formalisme des individus à analyser. Ceci permet de simplifier ou même de se passer de la tâche de recherche d une bonne représentation faisant appel à l analyste de données, Ce formalisme offre la possibilité d ouverture vers de nouvelles méthodes statistiques, ce qui permettrait une amélioration potentielle des résultats. Pour ce faire, il serait nécessaire d automatiser le processus de recherche d une représentation efficace pour des données structurées sous forme d un modèle relationnel, en privilégiant les méthodes non paramétriques. L objectif, par la suite, est de concevoir des algorithmes permettant le passage à l échelle, sur de grandes volumétries. Objectifs Après avoir montré l intérêt de la fouille de données multi-tables dans le cadre général de l extraction de connaissance à partir des données ainsi que dans le contexte industriel dans lequel se situe cette thèse, nous précisons les objectifs auxquels nous nous intéressons dans notre contribution. Apprentissage supervisé multi-tables Dans le contexte de la fouille de données, on se réfère à deux problématiques distinctes. La première consiste à déterminer la classe, parmi un ensemble préalablement fixé, à laquelle appartient une donnée ou un exemple. Il s agit d entraîner un processus sur des données dont l appartenance à une classe est déterminée (généralement, il s agit de la valeur de l un des attributs) pour engendrer un modèle. Ce modèle sera par la suite utilisé, soit pour la compréhension des classes, soit pour la classification de nouvelles données dont la classe est inconnue. La seconde activité, appelée clustering en anglais, consiste à regrouper les données en des sous-ensembles cohérents, selon leur ressemblance. L apprentissage dans la première catégorie de méthode est dit supervisé. Dans la seconde il est dit non supervisé [Michalski, 1993]. Notre travail se situe dans le cadre supervisé. Lorsque les données sont relationnelles, un individu à classer correspond à un seul enregistrement d une table cible en relation un-à-plusieurs avec des tables secondaires. La classe ou la variable à expliquer n est autre qu un attribut particulier de la table cible. La nouveauté par rapport au cas mono-table classique est de considérer les variables explicatives qui se trouvent dans les tables secondaires pour décrire ou prédire la classe. La difficulté provient 4

11 principalement de la présence des relations un-à-plusieurs. En effet, un individu ne possède pas une seule valeur par variable (comme dans le cas attribut-valeur usuel), mais plutôt un ensemble de valeurs par variable secondaire. Notre objectif est de qualifier et d exploiter le pouvoir prédictif de ce genre de variable pour une tâche de classification. Ce problème est intrinsèquement difficile. Nous procédons alors à une simplification de celui-ci en proposant un prétraitement des variables secondaires afin d obtenir une représentation qui permet de mieux les prendre en compte. Prétraitement des variables secondaires La phase de prétraitement de données constitue une phase importante dans le processus global de data mining. Elle vise à rechercher une représentation des données informative afin d améliorer la qualité des résultats de la fouille. Typiquement cette phase comporte des opérations de nettoyage (suppression de bruit, de valeurs aberrantes, etc), réduction des données (sélection d instances, de variables explicatives pertinentes), et de transformation des données (discrétisation des variables numériques, construction de nouvelles variables, etc.). Dans le contexte de la fouille de données relationnelle, nous nous intéressons en particulier au problème de préparation des variables secondaires, à savoir, la discrétisation dans le cas numérique et le partitionnement en groupes de valeurs dans le cas catégoriel. Nous cherchons également à évaluer l informativité d une variable secondaire pour exploiter sa contribution dans la prédiction de la classe. Cette évaluation permet en outre de définir un critère de sélection de variable de type filtre [Guyon et Elisseeff, 2003] ou encore elle peut servir de préparation pour des classifieurs comme le Bayésien Naïf ou les arbres de décision. Afin de résoudre ces deux problématiques, nous nous sommes fixés certains critères de qualité qui sont imposés par le contexte dans lequel se situe notre travail : Efficacité. Nous nous intéressons à des bases de données avec une grande volumétrie. Cette contrainte s exprime à différents niveaux : nombre d individus dans la table cible, nombre d enregistrements dans les tables secondaires, nombre de variables secondaires... Les algorithmes que nous proposons doivent prendre en compte cette contrainte. Paramétrage. Nous privilégions les approches sans paramètre afin de réduire au maximum l intervention humaine dans le processus de prétraitement. Généricité. Il est préférable que l approche soit générique, dans la mesure où elle est applicable dans des contextes différents. Cette généricité peut s exprimer sur plusieurs axes : la taille de la base de données (petite, grande), le domaine d application (marketing, biologie, web...), le type de variables explicatives (numérique, catégorielle), la distribution de la variable cible (équilibrée ou pas), existence de bruit... Interprétabilité. L avantage des modèles interprétables est qu ils permettent une meilleure compréhension des données, ce qui facilite l exploitation des résultats d analyse. 5

12 Introduction Générale Contributions Nous présentons dans ce manuscrit une nouvelle approche de prétraitement de variables dans le cadre de la classification de données multi-tables. Il s agit d une extension de l approche de préparation de variables MODL (proposée dans le cas de données monotables classiques [Boullé, 2011]) aux variables explicatives situées dans des tables secondaires (tables en relation un-à-plusieurs avec la table cible). Notre méthode consiste à proposer une famille de modèles non paramétriques pour l estimation de la densité de probabilité conditionnelle des variables secondaires. Cette estimation permet de prendre en compte ce genre de variables dans un classifieur de type Bayésien Naïf dans le contexte multi-tables. Elle permet également de proposer un critère de sélection de variables secondaires de type filtre comme pour la représentation attribut-valeur classique [Guyon et Elisseeff, 2003]. L approche repose sur un prétraitement des variables secondaires, par discrétisation dans le cas numérique et par groupement de valeurs dans le cas catégoriel. Nous proposons, dans un premier lieu, d effectuer ce partitionnement de façon univariée, c est-à-dire, de considérer une seule variable secondaire à la fois. Dans un second lieu, nous proposons une approche de partitionnement multivarié basé sur des itemsets de variables secondaires, ce qui permet de prendre en compte les éventuelles corrélations qui peuvent exister entre ce genre de variables. L originalité de la méthode se situe dans le changement de représentation effectué grâce au partitionnement des variables secondaires. Chaque variable est projetée vers la table cible en créant un vecteur d effectifs par partie secondaire (intervalle ou groupe) résumant l information contenue dans la variable considérée. Ces attributs d effectifs sont conjointement partitionnés à l aide de modèles en grille de données afin d obtenir une meilleure séparation des valeurs de la classe. La modélisation suit une démarche de sélection de modèles se basant sur une approche Bayésienne. Cette démarche permet de définir un critère d évaluation pour chaque type de variable. Des algorithmes combinatoires sont alors introduits pour optimiser efficacement ce critère et obtenir le meilleur modèle. Organisation du document Dans le chapitre 1, nous dressons un panorama des principales méthodes de fouille de données multi-tables de l état de l art. Nous formalisons le problème comme un problème de classification supervisée en introduisant les différents termes utilisés par la suite. En précisant les enjeux auxquels est confrontée la fouille de données multi-tables, une attention particulière est portée à l étape de prétraitement des données. Dans les chapitres suivants, nous présentons notre approche de fouille de données multi-tables de façon didactique. Nous abordons le problème comme un problème de 6

13 prétraitement des variables secondaires. Celles-ci sont considérées dans les chapitres 2 et 3 de façon univariée ensuite de manière multivariée dans le chapitre 4. Dans le chapitre 2, nous considérons le cas le plus simple d une variable secondaire, celui d une seule variable binaire. Notre approche est décrite en détail dans ce cas en introduisant le critère d évaluation ainsi que les modèles en grille de données permettant d estimer la densité de probabilité conditionnelle pour ce genre de variables. Nous décrivons également l extension du classifieur Bayésien Naïf au cas multi-tables se basant sur cette estimation. Dans le chapitre 3, le cas d une variable secondaire binaire est étendu progressivement aux cas catégoriel et numérique. Nous proposons un critère permettant d évaluer le partitionnement d une variable secondaire par groupement de valeurs si celle-ci est catégorielle et par discrétisation si elle est numérique. Nous introduisons par ailleurs quelques algorithmes afin d optimiser ce critère. Dans le chapitre 4, nous généralisons notre approche au cas multivarié. Nous proposons un critère d évaluation d itemsets de variables secondaires construit par discrétisation des variables numériques et par groupement de valeurs dans le cas catégoriel. Enfin, dans le chapitre 5, nous dressons un bilan de notre méthode et de ce qui reste à effectuer, notamment en matière d algorithmes d optimisation. 7

14 8 Introduction Générale

15 1 État de l art Sommaire 1.1 Introduction Fouille de Données Multi-Tables Format Attribut-Valeur Fouille de Données Structurées Formalisation du problème et Terminologie Enjeux de la Fouille de données Multi-Tables Travaux Majeurs Programmation Logique Inductive Apprentissage Logique Probabiliste Modèles Probabilistes Arbres de Décision Relationnels Approches à base de distance Méthodes à noyaux Pré-traitement Conclusion

16 Chapitre 1 État de l art 1.1 Introduction Nous présentons dans ce premier chapitre le contexte de nos travaux, celui de la Fouille de Données Multi-Tables. Dans une première section, nous situons d abord ce nouveau paradigme par rapport au cadre classique de fouille de données attributvaleur. Ensuite, nous nous positionnons relativement aux différents problèmes étudiés dans le cadre multi-tables afin de préciser notre problématique d apprentissage. Nous formalisons le problème comme un problème de classification et nous introduisons les différentes terminologies et notations que nous utilisons par la suite. Dans la section 1.3, nous reportons sans prétention d exhaustivité quelques travaux proposés dans la littérature notamment en matière d apprentissage supervisé et de pré-traitement de données multi-tables. 1.2 Fouille de Données Multi-Tables Il est bien connu depuis les débuts de l Intelligence Artificielle que la représentation est une question clé pour faciliter la résolution d un problème [Newell et Simon, 1972, Korf, 1980,Amarel, 1983]. En particulier, en apprentissage supervisé, un compromis doit être fait entre, d une part, le choix du formalisme utilisé pour représenter les exemples d apprentissage et d autre part, la complexité de l algorithme [Neri et Saitta, 1994a, Neri et Saitta, 1994b] Format Attribut-Valeur Le formalisme classique en fouille de données est le formalisme propositionnel d où le nom fouille de données propositionnelle (en anglais Propositional Data Mining). Typiquement, dans ce formalisme, les individus sont représentés par un nombre fixe de variables, appelées encore caractéristiques ou attributs. Les individus sont alors vus comme un ensemble de paires attribut-valeur représentées sous la forme d un vecteur de valeurs de taille fixe. Ces valeurs peuvent être de différentes natures : numériques ou catégorielles. L ensemble de tous les individus correspond dans le formalisme des bases de données relationnelles à une table ou relation. Les lignes ou enregistrements correspondent aux individus. et les colonnes correspondent aux variables. Dans le contexte de l apprentissage supervisé on cherche à prédire la valeur d une variable particulière qu on appelle Variable Cible ou Classe. Exemple 1.1. Prenons par exemple un problème CRM (Customer Relationship Management) où l objectif est d identifier les clients susceptibles de s intéresser à un certain produit ou service, ce qui revient à un problème de classification de clients. La variable cible correspond à l attribut CLASSE qui dénote si le client est intéressé par un produit particulier. Dans le format à-plat classique, les données se présentent, comme dans la Figure 1.1, sous la forme d un tableau où chaque client correspond 10

17 1.2 Fouille de Données Multi-Tables à une ligne. Les variables décrivant ces clients ainsi que la cible sont données en colonnes. Figure 1.1: Représentation à plat À des fins didactiques, le problème de l Exemple 1.1 sera utilisé dans le reste de ce manuscrit pour illustrer la problématique ainsi que l approche proposée. Le paradigme propositionnel a plusieurs avantages, ce qui explique sa popularité. Tous les individus sont décrits par les mêmes variables. Chaque variable apparait une seule fois dans cette description et possède une seule valeur. Il arrive qu un individu puisse avoir une valeur non-renseignée pour une variable particulière. Des extensions existent pour faire de l apprentissage dans le cas de données manquantes ou incomplètes. Les individus peuvent être vus comme des points dans un espace en dimension finie. Des mesures de distance sont facilement définies pour quantifier des similarités entre individus. Des méthodes de type k-plus-proches-voisins peuvent alors être employées [Fix et Hodges, 1951]. Sur cet espace d individus, des méthodes d estimation de densité peuvent être employées pour aider à découvrir des régions intéressantes. Les valeurs des variables sont complémentaires : c est-à-dire, une condition sur la valeur d une variable divise les individus en deux sous-groupes disjoints. La méthode populaire des Arbres de Décision exploite cette propriété en utilisant des opérations simples (=,, et ) [Quinlan, 1986]. Le paradigme propositionnel a été largement utilisé dans les méthodes d apprentissage classiques grâce à la structure tabulaire simple qu il propose. Cependant, ce formalisme se heurte en réalité à plusieurs limites à cause de son pouvoir d expressivité. Les objets du monde réel présentent souvent de façon naturelle une structure interne difficile à exprimer sous la forme d une représentation attribut-valeur. Les approches de fouille de données opérant sur cette représentation à plat ne permettent pas de prendre en compte les structures complexes que peuvent prendre les données. Nous utilisons le terme Fouille de Données Structurées (Structured Data Mining) 11

18 Chapitre 1 État de l art pour faire référence à la classe de techniques qui supportent l analyse des objets structurés Fouille de Données Structurées Les objets réels présentent souvent une structure composée de sous entités ou de sous parties qui diffèrent d un objet à un autre et qui possèdent chacune sa description intrinsèque. La structure globale des objets est définie par les relations qui peuvent exister entre les entités qui les composent. Un ensemble prédéfini d attributs ne peut pas représenter cette variabilité en structure, d où le besoin d autres représentations. Exemple 1.2. Dans le problème de classification des clients de l Exemple 1.1, souvent, on dispose non seulement des informations concernant les clients (telle que l âge, les revenus, etc. ce qui correspond dans le formalisme attribut-valeur aux variables décrivant les clients), mais encore des historiques d achats effectués, des produits commandés dans chaque achat. Outre l objet Client, d autres entités : Commandes et Produits, viennent s y ajouter et chacune des ces entités possède ses propres descriptions. Dans le cas où le problème est de prédire si le client est intéressé par certains produits, les propriétés des achats et des produits commandés précédemment par ce même client peuvent potentiellement être très informatives. Les clients s intéressent généralement à des produits de même nature, dans le même ordre de prix, etc. Ces propriétés des achats et des produits peuvent être très pertinentes pour prédire la classe d un client. Cependant, un vecteur de variables de taille fixe modélisant un client ne suffit pas pour décrire les informations de ses achats Représentations des données structurées Trois représentations équivalentes existent dans la littérature pour représenter les données structurées. Sur la base de ces représentations, les méthodes de Fouille de Données Structurées peuvent être classées en trois catégories : La Fouille de Graphe [Cook et Holder, 2000,Washio et Motoda, 2003]. Les données sont représentées sous la forme de graphes. Chaque objet est un graphe conceptuel. Les sommets du graphe représentent les entités ainsi que leurs attributs. Les relations entre ces entités correspondent aux arcs (orientés ou non orientés). Ce formalisme est plutôt adapté aux méthodes d analyse descriptive tels que le clustering de graphes et la recherche des motifs fréquents. La Programmation Logique Inductive [Džeroski, 1996,Lavrač et Džeroski, 1994]. La base de données est constituée d une collection de faits exprimés sous la forme de prédicats logiques de premier ordre. Ces prédicats décrivent les entités ainsi que les relations entre elles. La Fouille de Données Multi-Tables [Džeroski, 2003]. Les données sont contenues dans une base de données relationnelle. Les tables représentent les entités. 12

19 1.2 Fouille de Données Multi-Tables Les relations entre ces entités sont définies grâce aux contraintes de clés étrangères. Exemple 1.3. Les Figures 1.2 et 1.3 ainsi que Listing 1.1 illustrent comment on peut représenter les données du problème de classification des clients avec ces trois formalismes équivalents. Les clients sont décrits de façon complète à l aide des entités ou concepts : Client et Commande. Parmi ces trois représentations, le formalisme relationnel offre la représentation la plus compacte. En PLI et en Fouille de Graphes, on a besoin d un prédicat logique (en PLI) et d un nœud (en Fouille de Graphe) pour représenter chaque valeur d un attribut donné. La plupart des applications réelles disposent de données stockées à leur état brut dans des bases de données relationnelles. Cependant, les approches PLI et par Fouille de Graphes transforment les données relationnelles vers leurs formalismes respectifs avant de pouvoir les traiter. Dans ce manuscrit, nous nous intéressons aux méthodes d apprentissage supervisé qui travaillent directement sur la représentation relationnelle multi-tables. Définition 1.1. La Fouille de Données Multi-Tables (en anglais Multi-Relational Data Mining, MRDM) est une famille de méthodes de fouille de données qui traitent de l extraction de connaissances à partir de bases de données relationnelles contenant plusieurs tables. Dans la communauté ECD, le terme «relationnel» a été utilisé pour qualifier certains paradigmes d apprentissage qui diffèrent de la problématique à laquelle nous nous intéressons dans ce mémoire. Pour lever toute ambigüité, ces terminologies ne devraient pas se confondre avec la définition que nous avons fournie pour la Fouille de Données Multi-Tables : Fouille de Données Relationnelles (en anglais Relational Data Mining, RDM). Ce terme est devenu populaire dans la communauté de la programmation logique, surtout avec l apparition du livre de [Džeroski et Lavrač, 2001]. Il s agit des techniques PLI classiques. Leur qualification de «relationnel» provient de la prise en compte des données relationnelles en les transformant sous la forme de prédicats logiques. Apprentissage Relationnel (en anglais Relational Learning, RL). C est un concept plus général que la PLI et la Fouille de Données Relationnelles. Il s intéresse à l apprentissage à partir de données présentant une structure complexe (des graphes ou des réseaux) où les objets sont en relation les uns aux autres par des relations sémantiques ou de similarité Problèmes d Apprentissage en Fouille de Données Structurées Plusieurs problèmes d apprentissage ont été envisagés dans le cadre de la Fouille de Données Structurées. Certaines représentations sont mieux adaptées à un problème 13

20 Chapitre 1 État de l art Figure 1.2: Représentation en Fouille de Graphes Client (CL01,25, H, Mr,40, Commerçant,..., positive ). a_commandé ( CL01, C01CL01 ). a_commandé ( CL01, C02CL01 ). a_commandé ( CL01, C03CL01 ). a_commandé ( CL01, C04CL01 ). Commande ( C01CL01,150,10,Chèque, Retrait_magasin ). Commande ( C02CL01,85,5.9,CB, Colis_poste ).... Client (CL02,28, H, Mr,25, Ingénieur,..., négative ). a_commandé (CL02,C01CL02 ). a_commandé (CL02,C02CL02 ). a_commandé (CL02,C03CL02 ). Commande ( C01CL02,50,8.5, Chèque, Retrait_magasin ).... Client (CL03,31, F, Mme,36, Cadre,..., neutre ).... Listing 1.1: Représentation en Programmation Logique Inductive 14

La structure de la révolution numérique : philosophie de la technologie

La structure de la révolution numérique : philosophie de la technologie La structure de la révolution numérique : philosophie de la technologie Stéphane Vial To cite this version: Stéphane Vial. La structure de la révolution numérique : philosophie de la technologie. Philosophy.

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Evaluation et prise en charge des processus de récupération en mémoire dans la maladie d Alzheimer

Evaluation et prise en charge des processus de récupération en mémoire dans la maladie d Alzheimer Evaluation et prise en charge des processus de récupération en mémoire dans la maladie d Alzheimer Benjamin Boller To cite this version: Benjamin Boller. Evaluation et prise en charge des processus de

Plus en détail

Sorthong Banjongsawat. To cite this version: HAL Id: tel-00771422 https://tel.archives-ouvertes.fr/tel-00771422

Sorthong Banjongsawat. To cite this version: HAL Id: tel-00771422 https://tel.archives-ouvertes.fr/tel-00771422 La Thaïlande, pays aux deux visages : Approches sémiologiques d une identité culturelle ambiguë à travers le miroir de la presse et autres discours publics Sorthong Banjongsawat To cite this version: Sorthong

Plus en détail

Pour une sociologie du réalisme politique : Le cas du Parti socialiste

Pour une sociologie du réalisme politique : Le cas du Parti socialiste Pour une sociologie du réalisme politique : Le cas du Parti socialiste Pierre-Alexis Tchernoïvanoff To cite this version: Pierre-Alexis Tchernoïvanoff. Pour une sociologie du réalisme politique : Le cas

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

Conception d un convertisseur de puissance pour véhicules électriques multi-sources

Conception d un convertisseur de puissance pour véhicules électriques multi-sources Conception d un convertisseur de puissance pour véhicules électriques multi-sources Ahmed Boucherit To cite this version: Ahmed Boucherit. Conception d un convertisseur de puissance pour véhicules électriques

Plus en détail

Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales

Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales Natacha Gondran To cite this version: Natacha Gondran. Système de diffusion d information

Plus en détail

Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables.

Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables. Préparation non paramétrique des données pour la fouille de données multi-tables Dhafer Lahbib To cite this version: Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables.

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

La dentinogénèse imparfaite, diagnostic et prise en charge

La dentinogénèse imparfaite, diagnostic et prise en charge La dentinogénèse imparfaite, diagnostic et prise en charge Marielle Calvez To cite this version: Marielle Calvez. La dentinogénèse imparfaite, diagnostic et prise en charge. Other [q-bio.ot]. 2013.

Plus en détail

La socialisation par les sports collectifs : une approche conative auprès des enseignants d éducation physique et sportive

La socialisation par les sports collectifs : une approche conative auprès des enseignants d éducation physique et sportive La socialisation par les sports collectifs : une approche conative auprès des enseignants d éducation physique et sportive Guy Verschave To cite this version: Guy Verschave. La socialisation par les sports

Plus en détail

Ce qu est le Data Mining

Ce qu est le Data Mining Data Mining 1 Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD

Plus en détail

Savoir nager, une richesse culturelle : Analyse comparative de l enseignement de la natation à Canton, Dakar et Paris

Savoir nager, une richesse culturelle : Analyse comparative de l enseignement de la natation à Canton, Dakar et Paris Savoir nager, une richesse culturelle : Analyse comparative de l enseignement de la natation à Canton, Dakar et Paris Valérie Schwob To cite this version: Valérie Schwob. Savoir nager, une richesse culturelle

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Protester sur le web chinois (1994-2011)

Protester sur le web chinois (1994-2011) Protester sur le web chinois (1994-2011) Séverine Arsène To cite this version: Séverine Arsène. Protester sur le web chinois (1994-2011). Le Temps des médias, 2012, pp.99-110. HAL Id: hal-00773738

Plus en détail

La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale

La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale Stéphanie Perriere To cite this version: Stéphanie Perriere. La voix en images : comment l

Plus en détail

Choix méthodologiques pour une analyse de conversation en situation de jeux vidéo

Choix méthodologiques pour une analyse de conversation en situation de jeux vidéo Choix méthodologiques pour une analyse de conversation en situation de jeux vidéo Isabel Colón de Carvajal To cite this version: Isabel Colón de Carvajal. Choix méthodologiques pour une analyse de conversation

Plus en détail

Les nouvelles tours de Londres comme marqueurs des mutations d une métropole globale

Les nouvelles tours de Londres comme marqueurs des mutations d une métropole globale Les nouvelles tours de Londres comme marqueurs des mutations d une métropole globale Manuel Appert To cite this version: Manuel Appert. Les nouvelles tours de Londres comme marqueurs des mutations d une

Plus en détail

Camille Istin. Contribution à l étude du registre des délibérations de la Société libre des pharmaciens. Seine-Inférieure (1815-1830)

Camille Istin. Contribution à l étude du registre des délibérations de la Société libre des pharmaciens. Seine-Inférieure (1815-1830) Contribution à l étude du registre des délibérations de la Société libre des pharmaciens de Rouen et de Seine-Inférieure (1815-1830) Camille Istin To cite this version: Camille Istin. Contribution à l

Plus en détail

Géraldine Guérillot. To cite this version: HAL Id: tel-00873627 https://tel.archives-ouvertes.fr/tel-00873627

Géraldine Guérillot. To cite this version: HAL Id: tel-00873627 https://tel.archives-ouvertes.fr/tel-00873627 La réception des discours de développement durable et d actions de responsabilité sociale des entreprises dans les pays du Sud : le cas d un don d ordinateurs au Sénégal dans le cadre d un projet tripartite

Plus en détail

Aspects psycho-sociaux des interruptions volontaires de grossesse chez les mineures

Aspects psycho-sociaux des interruptions volontaires de grossesse chez les mineures Aspects psycho-sociaux des interruptions volontaires de grossesse chez les mineures Aude Le Borgne To cite this version: Aude Le Borgne. Aspects psycho-sociaux des interruptions volontaires de grossesse

Plus en détail

Contexte général de l étude

Contexte général de l étude 1 2 Contexte général de l étude Les entrepôts de données associés à des outils d analyse On Line Analytical Processing (OLAP), représentent une solution effective pour l informatique décisionnelle (Immon,

Plus en détail

Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables

Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables Prétraitement Supervisé des Variables Numériques pour la Fouille de Données Multi-Tables Dhafer Lahbib, Marc Boullé, Dominique Laurent France Télécom R&D - 2, avenue Pierre Marzin, 23300 Lannion dhafer.lahbib@orange-ftgroup.com

Plus en détail

Résultats à long terme de la photo-kératectomie thérapeutique dans les dystrophies cornéennes

Résultats à long terme de la photo-kératectomie thérapeutique dans les dystrophies cornéennes Résultats à long terme de la photo-kératectomie thérapeutique dans les dystrophies cornéennes épithéliales Badreddine Chanaoui To cite this version: Badreddine Chanaoui. Résultats à long terme de la photo-kératectomie

Plus en détail

Les associations d usagers dans le domaine de la périnatalité : un engagement fondé sur la connaissance?

Les associations d usagers dans le domaine de la périnatalité : un engagement fondé sur la connaissance? Les associations d usagers dans le domaine de la périnatalité : un engagement fondé sur la connaissance? Madeleine Akrich, Maire Leane, Celia Roberts To cite this version: Madeleine Akrich, Maire Leane,

Plus en détail

L approche par les compétences en formation infirmière

L approche par les compétences en formation infirmière L approche par les compétences en formation infirmière Nathalie Alglave, Marc Nagels To cite this version: Nathalie Alglave, Marc Nagels. L approche par les compétences en formation infirmière. Institut

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

Ihsane Tou. Adaptation de la couche transport des systèmes de communication hybrides satellite/terrestre

Ihsane Tou. Adaptation de la couche transport des systèmes de communication hybrides satellite/terrestre Adaptation de la couche transport des systèmes de communication hybrides satellite/terrestre Ihsane Tou To cite this version: Ihsane Tou. Adaptation de la couche transport des systèmes de communication

Plus en détail

Delphine Graniou. To cite this version: HAL Id: dumas-00836052 http://dumas.ccsd.cnrs.fr/dumas-00836052

Delphine Graniou. To cite this version: HAL Id: dumas-00836052 http://dumas.ccsd.cnrs.fr/dumas-00836052 Le point de vue des femmes sur la mise en place d un dépistage national organisé du cancer du col de l utérus. Étude qualitative auprès de femmes de Haute-Normandie Delphine Graniou To cite this version:

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Benjamin Dubourg. To cite this version: HAL Id: dumas-00872263 http://dumas.ccsd.cnrs.fr/dumas-00872263

Benjamin Dubourg. To cite this version: HAL Id: dumas-00872263 http://dumas.ccsd.cnrs.fr/dumas-00872263 Scanner double énergie et réduction de la dose d iode lors de l exploration des axes aorto-ilio-femoraux avant remplacement valvulaire aortique par voie percutanée Benjamin Dubourg To cite this version:

Plus en détail

Étude rétrospective sur l efficacité et la tolérance de l ivermectine per os chez 27 nourrissons atteints de gale récalcitrante

Étude rétrospective sur l efficacité et la tolérance de l ivermectine per os chez 27 nourrissons atteints de gale récalcitrante Étude rétrospective sur l efficacité et la tolérance de l ivermectine per os chez 27 nourrissons atteints de gale récalcitrante Céline Bécourt To cite this version: Céline Bécourt. Étude rétrospective

Plus en détail

To cite this version: HAL Id: dumas-00846453 http://dumas.ccsd.cnrs.fr/dumas-00846453

To cite this version: HAL Id: dumas-00846453 http://dumas.ccsd.cnrs.fr/dumas-00846453 Proposition d aide au sevrage tabagique en péri-opératoire chez des patients vasculaires au CHU de Rouen : évaluation de la satisfaction des patients et de l impact à distance de l hospitalisation Bérengère

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr Une classification hiérarchique de variables discrètes basée sur l information mutuelle en pré-traitement d un algorithme de sélection de variables pertinentes. Hélène Desmier ab, Pascale Kuntz a & Ivan

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

Conventions communes aux profils UML

Conventions communes aux profils UML Conventions communes aux profils UML Auteur : Projet ACCORD (Assemblage de composants par contrats en environnement ouvert et réparti)* Référence : Livrable 2.1 Date : Juin 2002 * : Les partenaires du

Plus en détail

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information

Plus en détail

Rôle du complexe protéique NPHP1/NPHP4/RPGRIP1L impliqué dans la

Rôle du complexe protéique NPHP1/NPHP4/RPGRIP1L impliqué dans la Rôle du complexe protéique NPHP1/NPHP4/RPGRIP1L impliqué dans la néphronophtise et les ciliopathies associées, dans la morphogenèse épithéliale, la polarité cellulaire et la ciliogenèse Helori-Mael Gaudé

Plus en détail

Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile

Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile Sur le grossissement des divers appareils pour la mesure des angles par la réflexion d un faisceau lumineux sur un miroir mobile W. Lermantoff To cite this version: W. Lermantoff. Sur le grossissement

Plus en détail

des réapprovisionnements pour système d assemblage à deux niveaux quand les délais d approvisionnement sont aléatoires

des réapprovisionnements pour système d assemblage à deux niveaux quand les délais d approvisionnement sont aléatoires Planification des réapprovisionnements pour système d assemblage à deux niveaux quand les délais d approvisionnement sont aléatoires Oussama Ben Ammar, Faicel Hnaien, Hélène Marian, Alexandre Dolgui To

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne

SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne SONDY : une plateforme open-source d analyse et de fouille pour les réseaux sociaux en ligne Adrien GUILLE, C. Favre, Djamel Abdelkader Zighed To cite this version: Adrien GUILLE, C. Favre, Djamel Abdelkader

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Clermont Ferrand - Janvier 2003

Clermont Ferrand - Janvier 2003 DISDAMIN: Algorithmes de Data Mining Distribués Valerie FIOLET (1,2) - Bernard TOURSEL (1) 1 Equipe PALOMA - LIFL - USTL - LILLE (FRANCE) 2 Service Informatique - UMH - MONS (BELGIUM) Clermont Ferrand

Plus en détail

Support du cours de Probabilités IUT d Orléans, Département d informatique

Support du cours de Probabilités IUT d Orléans, Département d informatique Support du cours de Probabilités IUT d Orléans, Département d informatique Pierre Andreoletti IUT d Orléans Laboratoire MAPMO (Bât. de Mathématiques UFR Sciences) - Bureau 126 email: pierre.andreoletti@univ-orleans.fr

Plus en détail

L INFORMATION GEOGRAPHIQUE

L INFORMATION GEOGRAPHIQUE Champs sur Marne ENSG/CERSIG Le 19-nove.-02 L INFORMATION GEOGRAPHIQUE Archivage Le Système d information géographique rassemble de l information afin de permettre son utilisation dans des applications

Plus en détail

Machine de Turing. Informatique II Algorithmique 1

Machine de Turing. Informatique II Algorithmique 1 Machine de Turing Nous avons vu qu un programme peut être considéré comme la décomposition de la tâche à réaliser en une séquence d instructions élémentaires (manipulant des données élémentaires) compréhensibles

Plus en détail

Abaque graphique des lentilles

Abaque graphique des lentilles Abaque graphique des lentilles C.-M. Gariel To cite this version: C.-M. Gariel. Abaque graphique des lentilles. J. Phys. Theor. Appl., 1877, 6 (1), pp.282-285. .

Plus en détail

Utiliser Access ou Excel pour gérer vos données

Utiliser Access ou Excel pour gérer vos données Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que

Plus en détail

Rappel sur les bases de données

Rappel sur les bases de données Rappel sur les bases de données 1) Généralités 1.1 Base de données et système de gestion de base de donnés: définitions Une base de données est un ensemble de données stockées de manière structurée permettant

Plus en détail

statique J. Bertrand To cite this version: HAL Id: jpa-00237017 https://hal.archives-ouvertes.fr/jpa-00237017

statique J. Bertrand To cite this version: HAL Id: jpa-00237017 https://hal.archives-ouvertes.fr/jpa-00237017 Quelques théorèmes généraux relatifs à l électricité statique J. Bertrand To cite this version: J. Bertrand. Quelques théorèmes généraux relatifs à l électricité statique. J. Phys. Theor. Appl., 1874,

Plus en détail

PRINCIPES DIRECTEURS PERMETTANT DE DÉTERMINER L ENDROIT OÙ DOIVENT ÊTRE CLASSÉS LES DOCUMENTS DE BREVET DANS LA CIB

PRINCIPES DIRECTEURS PERMETTANT DE DÉTERMINER L ENDROIT OÙ DOIVENT ÊTRE CLASSÉS LES DOCUMENTS DE BREVET DANS LA CIB PRINCIPES DIRECTEURS PERMETTANT DE DÉTERMINER L ENDROIT OÙ DOIVENT ÊTRE CLASSÉS LES DOCUMENTS DE BREVET DANS LA CIB adoptés par le Comité d experts de l Union de l IPC à sa quarante-deuxième session et

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

UNE DÉMARCHE D ANALYSE À BASE DE PATRONS POUR LA DÉCOUVERTE DES BESOINS MÉTIER D UN SID

UNE DÉMARCHE D ANALYSE À BASE DE PATRONS POUR LA DÉCOUVERTE DES BESOINS MÉTIER D UN SID 1 UNE DÉMARCHE D ANALYSE À BASE DE PATRONS POUR LA DÉCOUVERTE DES BESOINS MÉTIER D UN SID 31 janvier 2012 Bordeaux Présentée par :Mme SABRI Aziza Encadrée par : Mme KJIRI Laila Plan 2 Contexte Problématique

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne Sophie Morlaix To cite this version: Sophie Morlaix. L indice de SEN, outil de mesure de l équité

Plus en détail

Evaluer des élèves de Seconde par compétences en Sciences Physiques

Evaluer des élèves de Seconde par compétences en Sciences Physiques Evaluer des élèves de Seconde par compétences en Sciences Physiques Introduction Depuis quelques années, le terme de «compétences» s installe peu à peu dans notre quotidien ; aussi bien dans la vie de

Plus en détail

Le travail vivant des agents de contrôle de l inspection du travail

Le travail vivant des agents de contrôle de l inspection du travail Le travail vivant des agents de contrôle de l inspection du travail François Daniellou, Philippe Davezies, Karine Chassaing, Bernard Dugué,, Johann Petit To cite this version: François Daniellou, Philippe

Plus en détail

Articuler les politiques de GRH et les stratégies d Innovation : Proposition d un modèle

Articuler les politiques de GRH et les stratégies d Innovation : Proposition d un modèle Articuler les politiques de GRH et les stratégies d Innovation : Proposition d un modèle C. Defelix, I. Mazzilli, Alain Gosselin To cite this version: C. Defelix, I. Mazzilli, Alain Gosselin. Articuler

Plus en détail

Introduction à la synthèse de superviseur

Introduction à la synthèse de superviseur Introduction à la synthèse de superviseur Mathilde Machin, Jérémie Guiochet, David Powell, Hélène Waeselynck To cite this version: Mathilde Machin, Jérémie Guiochet, David Powell, Hélène Waeselynck. synthèse

Plus en détail

Eau, territoire et conflits : analyse des enjeux de la gestion communautaire de l eau au Burkina Faso : l exemple du bassin versant du Nakambé

Eau, territoire et conflits : analyse des enjeux de la gestion communautaire de l eau au Burkina Faso : l exemple du bassin versant du Nakambé Eau, territoire et conflits : analyse des enjeux de la gestion communautaire de l eau au Burkina Faso : l exemple du bassin versant du Nakambé Ramatou Traoré To cite this version: Ramatou Traoré. Eau,

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

To cite this version: HAL Id: tel-00844758 https://tel.archives-ouvertes.fr/tel-00844758

To cite this version: HAL Id: tel-00844758 https://tel.archives-ouvertes.fr/tel-00844758 Mobiliser une analyse de l activité comme aide à la conception et à l évaluation d un Environnement Virtuel pour l Apprentissage Humain : un exemple en implantologie dentaire Jérémy Cormier To cite this

Plus en détail

Shadow Manager Simulateur de gestion globale d entreprise. Introduction

Shadow Manager Simulateur de gestion globale d entreprise. Introduction Shadow Manager Simulateur de gestion globale d entreprise Introduction Le logiciel de simulation d entreprise Shadow Manager représente le nec plus ultra des outils pédagogiques de simulation de gestion

Plus en détail

SY09 Rapport TP4 : Analyse discriminante, régression logistique

SY09 Rapport TP4 : Analyse discriminante, régression logistique UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SY09 Rapport TP4 : Analyse discriminante, régression logistique CUNI Frédéric 15 juin 2015 Objectifs du TP : Le but de ce TP est l application de l analyse discriminante

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Traitement de l incontinence urinaire de l homme post-prostatectomie par la bandelette sous-urétrale de type transobturatrice I-STOP TOMS

Traitement de l incontinence urinaire de l homme post-prostatectomie par la bandelette sous-urétrale de type transobturatrice I-STOP TOMS Traitement de l incontinence urinaire de l homme post-prostatectomie par la bandelette sous-urétrale de type transobturatrice I-STOP TOMS Julien Drai To cite this version: Julien Drai. Traitement de l

Plus en détail

10 Intégration de données sur le web

10 Intégration de données sur le web 10 Intégration de données sur le web 240 Requête utilisateur : Où est-ce que je peux voir les films qui ont participé au dernier Festival de Cannes? Je voudrais les résumés et critiques des films de Pedro

Plus en détail

Supplément théorique Inférence dans les réseaux bayésiens. Rappel théorique. Les processus aléatoires. Les réseaux bayésiens

Supplément théorique Inférence dans les réseaux bayésiens. Rappel théorique. Les processus aléatoires. Les réseaux bayésiens DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2011 Supplément théorique Inférence dans les réseaux bayésiens Rappel théorique Les processus aléatoires La plupart des processus

Plus en détail

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Technologie et biologie (TB) Discipline : Informatique Première et seconde années Programme d informatique

Plus en détail

INTRODUCTION AU DATA MINING. Cina MOTAMED

INTRODUCTION AU DATA MINING. Cina MOTAMED INTRODUCTION AU DATA MINING Cina MOTAMED 2 Data Mining : contexte Âge numérique : explosion des volumes de données Transactions commerciales Opérations bancaires Navigation Internet Indicateurs démographiques

Plus en détail

Système adaptatif d aide à la génération de requêtes de médiation

Système adaptatif d aide à la génération de requêtes de médiation Système adaptatif d aide à la génération de requêtes de médiation Dimitre Kostadinov Verónika Peralta Assia Soukane Xiaohui Xue Laboratoire PRiSM, Université de Versailles 45 avenue des Etats-Unis 78035

Plus en détail

Lecture critique et pratique de la médecine

Lecture critique et pratique de la médecine 1-00.qxp 24/04/2006 11:23 Page 13 Lecture critique appliquée à la médecine vasculaireecture critique et pratique de la médecine Lecture critique et pratique de la médecine Introduction Si la médecine ne

Plus en détail

SCI03 - Analyse de données expérimentales

SCI03 - Analyse de données expérimentales SCI03 - Analyse de données expérimentales Introduction à la statistique Thierry Denœux 1 1 Université de Technologie de Compiègne tél : 44 96 tdenoeux@hds.utc.fr Automne 2014 Qu est ce que la statistique?

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

ESTINATION FORMATION Un aller simple vers le savoir-faire INITIATION A L ANALYSE ET A LA CONCEPTION DE BASE DE DONNEES

ESTINATION FORMATION Un aller simple vers le savoir-faire INITIATION A L ANALYSE ET A LA CONCEPTION DE BASE DE DONNEES ESTINATION FORMATION INITIATION A L ANALYSE ET A LA CONCEPTION DE BASE DE DONNEES AVANT PROPOS Ce support de cours est un outil personnel, il ne constitue pas un guide de référence. C'est un outil pédagogique

Plus en détail

Partie I : Automates et langages

Partie I : Automates et langages 2 Les calculatrices sont interdites. N.B. : Le candidat attachera la plus grande importance à la clarté, à la précision et à la concision de la rédaction. Si un candidat est amené à repérer ce qui peut

Plus en détail

Dessin assisté par ordinateur en lycée professionnel

Dessin assisté par ordinateur en lycée professionnel Dessin assisté par ordinateur en lycée professionnel Bernard Dauga To cite this version: Bernard Dauga. Dessin assisté par ordinateur en lycée professionnel. Bulletin de l EPI (Enseignement Public et Informatique),

Plus en détail

Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON

Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON L analytique joue un rôle désormais primordial dans la réussite d une entreprise. Les pouvoirs qu elle délivre sont incontestables, cependant

Plus en détail

Cours Fouille de données avancée

Cours Fouille de données avancée Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Mohamed Khider - Biskra Faculté des Sciences Exactes et des Sciences de la Nature et de la Vie Département d Informatique

Plus en détail

Méthodes d apprentissage :

Méthodes d apprentissage : Méthodes d apprentissage : application au tri de complexes protéines-protéines Jérôme Azé Apprentissage: tâches Apprentissage non supervisé (Eisen, ) Apprentissage supervisé (arbres de décision, k-ppv,

Plus en détail

GarantBox : pour aller plus loin

GarantBox : pour aller plus loin 1 Sommaire Sommaire GarantBox : pour aller plus loin Les acteurs en présence et les intérêts qu ils trouvent dans GarantBox Les utilisateurs Les banques partenaires du projet Les commerces partenaires

Plus en détail

Analyse de données électroniques et intelligence d affaires

Analyse de données électroniques et intelligence d affaires Analyse de données électroniques et intelligence d affaires Valoriser les données internes et externes 3 avril 2014 Ordre du jour UNE INTRODUCTION À L ANALYSE DE DONNÉES Analyse de données et l intelligence

Plus en détail

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires Julien Jorge julien.jorge@univ-nantes.fr Laboratoire d Informatique de Nantes Atlantique,

Plus en détail

plate-forme PaaS (Audit)

plate-forme PaaS (Audit) Contrôle d accès dans une plate-forme PaaS (Audit) Ahmed BOUCHAMI, Olivier PERRIN, LORIA Introduction La sécurité d une plate-forme collaborative nécessite un module d authentification et un module de

Plus en détail

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale

Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Université Ibn Zohr Faculté des Sciences Juridiques, Économiques et Sociales Exposé sous le thème : Le Data Mining, Outil d aide à la prise de décision dans l action commerciale Plan : Introduction : L

Plus en détail

Évaluation du retard de développement. Lignes directrices

Évaluation du retard de développement. Lignes directrices Évaluation du retard de développement Lignes directrices Aucun instrument de mesure n est légalement réservé à un professionnel ou à un autre. Par contre, dans ce domaine, des règles de compétence s appliquent,

Plus en détail

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre

Digital Workplace et Gestion des connaissances Concepts et mise en oeuvre Avant-propos 1. Objectif du livre 17 2. Illustrations des exemples de ce livre 18 2.1 Office 365 comme plateforme technologique pour une digital workplace 18 2.2 SharePoint et Yammer à l honneur 18 3.

Plus en détail

Rochdi Sarraj. Interconnexion des réseaux logistiques : éléments de définition et potentiel.

Rochdi Sarraj. Interconnexion des réseaux logistiques : éléments de définition et potentiel. Interconnexion des réseaux logistiques : éléments de définition et potentiel Rochdi Sarraj To cite this version: Rochdi Sarraj. Interconnexion des réseaux logistiques : éléments de définition et potentiel.

Plus en détail

Les politiques éducative d équipement du numérique à l école primaire. Entre vœux et contraintes.

Les politiques éducative d équipement du numérique à l école primaire. Entre vœux et contraintes. Les politiques éducative d équipement du numérique à l école primaire. Entre vœux et contraintes. Olivier Grugier To cite this version: Olivier Grugier. Les politiques éducative d équipement du numérique

Plus en détail

L informatique des entrepôts de données

L informatique des entrepôts de données L informatique des entrepôts de données Daniel Lemire SEMAINE 13 L exploration des données 13.1. Présentation de la semaine L exploration de données (ou data mining) est souvent associée à l intelligence

Plus en détail

Le patrimoine culturel immatériel sur la Toile. Comparaison entre réseaux nationaux

Le patrimoine culturel immatériel sur la Toile. Comparaison entre réseaux nationaux Le patrimoine culturel immatériel sur la Toile. Comparaison entre réseaux nationaux Marta Severo To cite this version: Marta Severo. Le patrimoine culturel immatériel sur la Toile. Comparaison entre réseaux

Plus en détail

Méthodes de DM pour la GRC dans les banques

Méthodes de DM pour la GRC dans les banques Techniques de DM pour la GRC dans les banques Page 21 III.1 Introduction Avant de chercher des techniques à appliquer dans la gestion des relations avec les clients. Il faut étudier les données des clients

Plus en détail

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières FONDEMENTS MATHÉMATIQUES 12 E ANNÉE Mathématiques financières A1. Résoudre des problèmes comportant des intérêts composés dans la prise de décisions financières. [C, L, RP, T, V] Résultat d apprentissage

Plus en détail

Algèbre relationnelle

Algèbre relationnelle Algèbre relationnelle 1. Introduction L algèbre relationnelle est le support mathématique cohérent sur lequel repose le modèle relationnel. L algèbre relationnelle propose un ensemble d opérations élémentaires

Plus en détail

Analyse de données symboliques et graphe de connaissances d un agent

Analyse de données symboliques et graphe de connaissances d un agent d un agent Philippe Caillou*, Edwin Diday** *LAMSADE - Université Paris Dauphine Place du maréchal de Lattre de Tassigny 7516 Paris caillou@lamsade.dauphine.fr **CEREMADE - Université Paris Dauphine Place

Plus en détail