Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables.

Transcription

1 Préparation non paramétrique des données pour la fouille de données multi-tables Dhafer Lahbib To cite this version: Dhafer Lahbib. Préparation non paramétrique des données pour la fouille de données multitables. Autre. Université de Cergy Pontoise, Français. <NNT : 2012CERG0616>. <tel > HAL Id: tel Submitted on 27 Nov 2014 HAL is a multi-disciplinary open access archive for the deposit and dissemination of scientific research documents, whether they are published or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L archive ouverte pluridisciplinaire HAL, est destinée au dépôt et à la diffusion de documents scientifiques de niveau recherche, publiés ou non, émanant des établissements d enseignement et de recherche français ou étrangers, des laboratoires publics ou privés.

2 École Doctorale Sciences et Ingénierie Préparation non paramétrique des données pour la fouille de données multi-tables THÈSE présentée et soutenue publiquement le 6 décembre 2012 pour l obtention du Doctorat en Sciences de l université de Cergy-Pontoise (spécialité STIC) par Dhafer LAHBIB Composition du jury Rapporteurs : Nicolas LACHICHE MCF HDR Université Louis Pasteur Bruno CRÉMILLEUX Professeur Université de Caen Examinateurs : Christel VRAIN Professeur Université d Orléans Karine ZEITOUNI Professeur Université de Versailles Saint-Quentin-en-Yvelines Directeur de thèse : Dominique LAURENT Professeur Université de Cergy-Pontoise Co-Encadrant : Marc BOULLÉ Docteur Orange Labs, Lannion Equipe Traitement de l Information et Systèmes (ETIS) UMR CNRS 8051

3

4

5 Table des matières Introduction Générale 1 Contexte Industriel Objectifs Contributions Organisation du document État de l art Introduction Fouille de Données Multi-Tables Format Attribut-Valeur Fouille de Données Structurées Formalisation du problème et Terminologie Enjeux de la Fouille de données Multi-Tables Travaux Majeurs Programmation Logique Inductive Apprentissage Logique Probabiliste Modèles Probabilistes Arbres de Décision Relationnels Approches à base de distance Méthodes à noyaux Pré-traitement Conclusion Principe de l Approche : Cas d une Variable Secondaire Binaire Introduction Approche Critère d évaluation Distribution a priori des modèles Vraisemblance des modèles Critère Optimisation de la Grille Bivariée Heuristique gloutonne Complexité Extension du Bayésien naïf Estimation de la Probabilité Conditionnelle Univariée Bayésien Naïf Sélectif i

6 Table des matières Table des matières 2.6 Expérimentations Protocole Données artificielles Base de données Stulong Conclusion Extension aux Variables Secondaires Catégorielles et Numériques Introduction Variable catégorielle avec peu de valeurs Approche Critère Algorithme d optimisation Variable catégorielle avec groupement de valeurs Critère Optimisation Variable Secondaire Numérique Approche Critère Algorithme d optimisation Expérimentations Jeux de données Résultats Données synthétiques Données Réelles Conclusion Pré-traitement multivarié des variables secondaires Introduction Motivation Approche Évaluation d itemsets de variables secondaires Coût de construction d un itemset Évaluation de la variable secondaire associée à l itemset Critère d évaluation global Induction d itemsets de variables secondaires Conclusion Bilan et perspectives 101 ii

7 Introduction Générale Les progrès réalisés dans les technologies d acquisition, de stockage et de distributions des données ont entraîné une croissance rapide de la taille des bases de données disponibles. En effet, la quantité de données est estimée doubler presque chaque année, d où l intérêt croissant de valoriser ces données. Par conséquent, un des plus grands défis auxquels sont confrontées plusieurs organisations et entreprises est de savoir comment transformer leur volume de données qui ne cesse d augmenter en des connaissances utiles et exploitables. Les travaux qui ont abordé cette problématique relèvent de domaines très variés tels que les statistiques, l intelligence artificielle, l apprentissage automatique, les bases de données... Ces travaux ont donné lieu à un nouveau domaine de recherche très actif connu sous le terme de Fouille de Données. La Fouille de Données (en anglais, Data Mining) est généralement mentionnée dans un cadre plus large, celui de l Extraction de Connaissances à partir de Données ECD (en anglais, Knowledge Discovery in Databases KDD). Elle se rapporte au processus d extraction d informations originales auparavant inconnues, et potentiellement exploitables dans les bases de données [Usama M. Fayyad et al., 1996]. Elle propose d utiliser un ensemble de techniques et algorithmes qui ont pour objet la découverte de motifs et des connaissances à partir de grandes quantités de données [Berry et Gordon S. Linoff, 2011]. La plupart des algorithmes de fouille de données disponibles aujourd hui sont basés sur une représentation sous forme d un tableau attribut-valeur, où les instances de données sont représentées par des vecteurs d attribut-valeur de taille fixe et qui sont supposées être identiquement et indépendamment distribués (hypothèse i.i.d). L utilisation de ces algorithmes se limite alors aux bases de données stockées sous ce format «à plat». Cependant, dans des applications réelles, les données sont beaucoup plus riches en structure et se présentent souvent stockées dans des bases de données relationnelles composées de plusieurs tables. Afin de pouvoir utiliser les algorithmes classiques de fouille de données, l analyste de données doit alors projeter cette représentation relationnelle initiale vers une représentation simplifiée monotable attribut-valeur, ce qui est une tâche coûteuse en temps et critique pour la qualité des résultats. En effet, cette mise à plat passe par la construction d agrégats afin de résumer l information contenue dans les différentes tables nécessitant ainsi une grande expertise et connaissance du domaine. Par ailleurs, l opération d agrégation va non seulement engendrer une perte d information par rapport à la représentation initiale naturellement compacte mais elle risque également d intro- 1

8 Introduction Générale duire des biais statistiques, notamment à cause des dépendances qui peuvent exister entre les variables nouvellement créées. Afin de résoudre ces problèmes un nouveau paradigme de fouille de données a été proposé dans la littérature : la Fouille de Données Multi-Tables. La Fouille de Données Multi-Tables FDMT (en anglais Multi-Relational Data Mining) a été définie par [Džeroski, 2003] comme l extraction de connaissances et de motifs à partir d une base de données relationnelle. Contrairement aux approches mono-table classique, la FDMT a pour objectif d apprendre des connaissances en se basant sur des données stockées sur plusieurs tables. Notre travail se situe dans ce cadre particulier. Il est motivé par les besoins métiers ainsi que les données disponibles dans le contexte industriel dans lequel se situe cette thèse. Contexte Industriel La Fouille de données chez Orange couvre des domaines d application très divers tels que le marketing, le web mining, la caractérisation du trafic réseau... Les données disponibles se présentent souvent dans l état brut dans des datastores (banques de données). Ces datastores possèdent une structure très complexe composée de nombreuses tables et leur volume peut atteindre quelques dizaines de Téraoctets dans le domaine du marketing client par exemple. Dans des domaines applicatifs particuliers, à partir de ces données, des entrepôts de données (Data Warehouse) sont construits pour des besoins métiers spécifiques. Le schéma typique de ces entrepôts de données est un schéma en étoile où chaque individu (l unité statistique) du domaine applicatif est stocké au moyen d une table cible (principale) et de plusieurs tables secondaires en relation un-à-plusieurs. Par exemple, un client est caractérisé par les services auxquels il a souscrit, par l historique de ses détails de communication et par l ensemble de ses interactions avec les services après-vente d Orange. Ces données présentent plusieurs caractéristiques : La structure est intrinsèquement composée de plusieurs tables d une base de données relationnelle, d où l intérêt de la fouille de données multi-tables pour valoriser ces données. Grande volumétrie : le nombre d instances est de l ordre de 10 5 dans la table cible en apprentissage, et de 10 6 à 10 8 en déploiement. Dans les tables secondaires, chaque individu est relié à des centaines voire des milliers d enregistrements. Différents types de variables : numériques, catégorielles (avec un nombre de valeurs très grand). Données bruitées, éventuellement incomplètes. Distribution de la variable cible (dans le cas d un problème de classification) souvent fortement déséquilibrée, etc. Nous citons ci-dessous deux exemples qui illustrent des contextes applicatifs différents étudiés au sein d Orange. 2

9 Exemple 0.1. Gestion de la relation client (en anglais, Customer Relationship Management CRM). Le CRM a pour objectif de permettre à l entreprise de mieux comprendre ses clients pour adapter et personnaliser ses produits ou ses services. Les données sont stockées dans des bases de données relationnelles. Les informations permettent de dresser un profil précis et complet des clients. Pour cela, typiquement, les données sont centrées sur une table principale : la table Client qui est en relation un-à-plusieurs avec des tables secondaires. Chacune de ces tables comporte des informations précises concernant les clients : la liste des produits commandés, la liste des services auxquels ils ont souscrit, la liste des détails de communication, etc. Exemple 0.2. Le ciblage comportemental (en anglais, Behavioral Targeting BT). Le BT est une technique de publicité qui consiste à personnaliser les contenus promotionnels, en fonction de la navigation des internautes et de l identification de leurs centres d intérêt. Les données comportementales recueillies pour le ciblage publicitaire sont intrinsèquement structurées sur plusieurs entités : les utilisateurs, identifiés par des cookies, la liste de leurs sessions de navigation, la liste des pages Web visitées lors de chaque session, etc. La façon la plus intuitive de représenter ces informations (généralement stockées dans des logs d usage) serait un schéma relationnel centré sur une table Utilisateur. Au sein d Orange, le traitement des données multi-tables est actuellement réalisé dans le cadre du projet PAC (Plate-forme d Analyse Client). C est un projet mené dans les Orange Labs qui a pour objet l industrialisation du processus Data Mining pour les très grandes bases de données relationnelles. Ce processus se décompose en deux étapes : 1. La première étape consiste à effectuer une mise à plat du modèle relationnel afin d avoir une représentation classique mono-table, attribut valeur. Ceci est réalisé en construisant de nouvelles variables à partir d une bibliothèque de règles de calcul prédéfinies (moyenne, écart type, tendance, etc.). Ces nouvelles variables constituent des agrégations plus ou moins complexes des variables qui se trouvent dans les tables secondaires. Par exemple, une requête «moyenne des durées d appel sur téléphone fixe par mois (12 mois), jour de la semaine (7 jours) et type d appel (local, national, international)» permet de construire 252 = variables. 2. La deuxième étape consiste à utiliser des techniques d apprentissage performantes afin d exploiter cette représentation (techniques implémentées dans l outil Khiops [Boullé, 2007a]). 3

10 Introduction Générale L opération de mise à plat effectuée dans PAC est une tâche coûteuse en temps pour l analyste, et qui nécessite une grande expertise métier. L espace de représentation généré est de très grande taille : de l ordre de 10 7 instances avec 10 4 variables. Notre objectif dans le cadre de cette thèse est d utiliser directement la représentation multi-tables afin d éviter la mise à plat. Ce choix est motivé par les observations suivantes : La représentation relationnelle augmente considérablement l expressivité du formalisme des individus à analyser. Ceci permet de simplifier ou même de se passer de la tâche de recherche d une bonne représentation faisant appel à l analyste de données, Ce formalisme offre la possibilité d ouverture vers de nouvelles méthodes statistiques, ce qui permettrait une amélioration potentielle des résultats. Pour ce faire, il serait nécessaire d automatiser le processus de recherche d une représentation efficace pour des données structurées sous forme d un modèle relationnel, en privilégiant les méthodes non paramétriques. L objectif, par la suite, est de concevoir des algorithmes permettant le passage à l échelle, sur de grandes volumétries. Objectifs Après avoir montré l intérêt de la fouille de données multi-tables dans le cadre général de l extraction de connaissance à partir des données ainsi que dans le contexte industriel dans lequel se situe cette thèse, nous précisons les objectifs auxquels nous nous intéressons dans notre contribution. Apprentissage supervisé multi-tables Dans le contexte de la fouille de données, on se réfère à deux problématiques distinctes. La première consiste à déterminer la classe, parmi un ensemble préalablement fixé, à laquelle appartient une donnée ou un exemple. Il s agit d entraîner un processus sur des données dont l appartenance à une classe est déterminée (généralement, il s agit de la valeur de l un des attributs) pour engendrer un modèle. Ce modèle sera par la suite utilisé, soit pour la compréhension des classes, soit pour la classification de nouvelles données dont la classe est inconnue. La seconde activité, appelée clustering en anglais, consiste à regrouper les données en des sous-ensembles cohérents, selon leur ressemblance. L apprentissage dans la première catégorie de méthode est dit supervisé. Dans la seconde il est dit non supervisé [Michalski, 1993]. Notre travail se situe dans le cadre supervisé. Lorsque les données sont relationnelles, un individu à classer correspond à un seul enregistrement d une table cible en relation un-à-plusieurs avec des tables secondaires. La classe ou la variable à expliquer n est autre qu un attribut particulier de la table cible. La nouveauté par rapport au cas mono-table classique est de considérer les variables explicatives qui se trouvent dans les tables secondaires pour décrire ou prédire la classe. La difficulté provient 4

11 principalement de la présence des relations un-à-plusieurs. En effet, un individu ne possède pas une seule valeur par variable (comme dans le cas attribut-valeur usuel), mais plutôt un ensemble de valeurs par variable secondaire. Notre objectif est de qualifier et d exploiter le pouvoir prédictif de ce genre de variable pour une tâche de classification. Ce problème est intrinsèquement difficile. Nous procédons alors à une simplification de celui-ci en proposant un prétraitement des variables secondaires afin d obtenir une représentation qui permet de mieux les prendre en compte. Prétraitement des variables secondaires La phase de prétraitement de données constitue une phase importante dans le processus global de data mining. Elle vise à rechercher une représentation des données informative afin d améliorer la qualité des résultats de la fouille. Typiquement cette phase comporte des opérations de nettoyage (suppression de bruit, de valeurs aberrantes, etc), réduction des données (sélection d instances, de variables explicatives pertinentes), et de transformation des données (discrétisation des variables numériques, construction de nouvelles variables, etc.). Dans le contexte de la fouille de données relationnelle, nous nous intéressons en particulier au problème de préparation des variables secondaires, à savoir, la discrétisation dans le cas numérique et le partitionnement en groupes de valeurs dans le cas catégoriel. Nous cherchons également à évaluer l informativité d une variable secondaire pour exploiter sa contribution dans la prédiction de la classe. Cette évaluation permet en outre de définir un critère de sélection de variable de type filtre [Guyon et Elisseeff, 2003] ou encore elle peut servir de préparation pour des classifieurs comme le Bayésien Naïf ou les arbres de décision. Afin de résoudre ces deux problématiques, nous nous sommes fixés certains critères de qualité qui sont imposés par le contexte dans lequel se situe notre travail : Efficacité. Nous nous intéressons à des bases de données avec une grande volumétrie. Cette contrainte s exprime à différents niveaux : nombre d individus dans la table cible, nombre d enregistrements dans les tables secondaires, nombre de variables secondaires... Les algorithmes que nous proposons doivent prendre en compte cette contrainte. Paramétrage. Nous privilégions les approches sans paramètre afin de réduire au maximum l intervention humaine dans le processus de prétraitement. Généricité. Il est préférable que l approche soit générique, dans la mesure où elle est applicable dans des contextes différents. Cette généricité peut s exprimer sur plusieurs axes : la taille de la base de données (petite, grande), le domaine d application (marketing, biologie, web...), le type de variables explicatives (numérique, catégorielle), la distribution de la variable cible (équilibrée ou pas), existence de bruit... Interprétabilité. L avantage des modèles interprétables est qu ils permettent une meilleure compréhension des données, ce qui facilite l exploitation des résultats d analyse. 5

12 Introduction Générale Contributions Nous présentons dans ce manuscrit une nouvelle approche de prétraitement de variables dans le cadre de la classification de données multi-tables. Il s agit d une extension de l approche de préparation de variables MODL (proposée dans le cas de données monotables classiques [Boullé, 2011]) aux variables explicatives situées dans des tables secondaires (tables en relation un-à-plusieurs avec la table cible). Notre méthode consiste à proposer une famille de modèles non paramétriques pour l estimation de la densité de probabilité conditionnelle des variables secondaires. Cette estimation permet de prendre en compte ce genre de variables dans un classifieur de type Bayésien Naïf dans le contexte multi-tables. Elle permet également de proposer un critère de sélection de variables secondaires de type filtre comme pour la représentation attribut-valeur classique [Guyon et Elisseeff, 2003]. L approche repose sur un prétraitement des variables secondaires, par discrétisation dans le cas numérique et par groupement de valeurs dans le cas catégoriel. Nous proposons, dans un premier lieu, d effectuer ce partitionnement de façon univariée, c est-à-dire, de considérer une seule variable secondaire à la fois. Dans un second lieu, nous proposons une approche de partitionnement multivarié basé sur des itemsets de variables secondaires, ce qui permet de prendre en compte les éventuelles corrélations qui peuvent exister entre ce genre de variables. L originalité de la méthode se situe dans le changement de représentation effectué grâce au partitionnement des variables secondaires. Chaque variable est projetée vers la table cible en créant un vecteur d effectifs par partie secondaire (intervalle ou groupe) résumant l information contenue dans la variable considérée. Ces attributs d effectifs sont conjointement partitionnés à l aide de modèles en grille de données afin d obtenir une meilleure séparation des valeurs de la classe. La modélisation suit une démarche de sélection de modèles se basant sur une approche Bayésienne. Cette démarche permet de définir un critère d évaluation pour chaque type de variable. Des algorithmes combinatoires sont alors introduits pour optimiser efficacement ce critère et obtenir le meilleur modèle. Organisation du document Dans le chapitre 1, nous dressons un panorama des principales méthodes de fouille de données multi-tables de l état de l art. Nous formalisons le problème comme un problème de classification supervisée en introduisant les différents termes utilisés par la suite. En précisant les enjeux auxquels est confrontée la fouille de données multi-tables, une attention particulière est portée à l étape de prétraitement des données. Dans les chapitres suivants, nous présentons notre approche de fouille de données multi-tables de façon didactique. Nous abordons le problème comme un problème de 6

13 prétraitement des variables secondaires. Celles-ci sont considérées dans les chapitres 2 et 3 de façon univariée ensuite de manière multivariée dans le chapitre 4. Dans le chapitre 2, nous considérons le cas le plus simple d une variable secondaire, celui d une seule variable binaire. Notre approche est décrite en détail dans ce cas en introduisant le critère d évaluation ainsi que les modèles en grille de données permettant d estimer la densité de probabilité conditionnelle pour ce genre de variables. Nous décrivons également l extension du classifieur Bayésien Naïf au cas multi-tables se basant sur cette estimation. Dans le chapitre 3, le cas d une variable secondaire binaire est étendu progressivement aux cas catégoriel et numérique. Nous proposons un critère permettant d évaluer le partitionnement d une variable secondaire par groupement de valeurs si celle-ci est catégorielle et par discrétisation si elle est numérique. Nous introduisons par ailleurs quelques algorithmes afin d optimiser ce critère. Dans le chapitre 4, nous généralisons notre approche au cas multivarié. Nous proposons un critère d évaluation d itemsets de variables secondaires construit par discrétisation des variables numériques et par groupement de valeurs dans le cas catégoriel. Enfin, dans le chapitre 5, nous dressons un bilan de notre méthode et de ce qui reste à effectuer, notamment en matière d algorithmes d optimisation. 7

14 8 Introduction Générale

15 1 État de l art Sommaire 1.1 Introduction Fouille de Données Multi-Tables Format Attribut-Valeur Fouille de Données Structurées Formalisation du problème et Terminologie Enjeux de la Fouille de données Multi-Tables Travaux Majeurs Programmation Logique Inductive Apprentissage Logique Probabiliste Modèles Probabilistes Arbres de Décision Relationnels Approches à base de distance Méthodes à noyaux Pré-traitement Conclusion

16 Chapitre 1 État de l art 1.1 Introduction Nous présentons dans ce premier chapitre le contexte de nos travaux, celui de la Fouille de Données Multi-Tables. Dans une première section, nous situons d abord ce nouveau paradigme par rapport au cadre classique de fouille de données attributvaleur. Ensuite, nous nous positionnons relativement aux différents problèmes étudiés dans le cadre multi-tables afin de préciser notre problématique d apprentissage. Nous formalisons le problème comme un problème de classification et nous introduisons les différentes terminologies et notations que nous utilisons par la suite. Dans la section 1.3, nous reportons sans prétention d exhaustivité quelques travaux proposés dans la littérature notamment en matière d apprentissage supervisé et de pré-traitement de données multi-tables. 1.2 Fouille de Données Multi-Tables Il est bien connu depuis les débuts de l Intelligence Artificielle que la représentation est une question clé pour faciliter la résolution d un problème [Newell et Simon, 1972, Korf, 1980,Amarel, 1983]. En particulier, en apprentissage supervisé, un compromis doit être fait entre, d une part, le choix du formalisme utilisé pour représenter les exemples d apprentissage et d autre part, la complexité de l algorithme [Neri et Saitta, 1994a, Neri et Saitta, 1994b] Format Attribut-Valeur Le formalisme classique en fouille de données est le formalisme propositionnel d où le nom fouille de données propositionnelle (en anglais Propositional Data Mining). Typiquement, dans ce formalisme, les individus sont représentés par un nombre fixe de variables, appelées encore caractéristiques ou attributs. Les individus sont alors vus comme un ensemble de paires attribut-valeur représentées sous la forme d un vecteur de valeurs de taille fixe. Ces valeurs peuvent être de différentes natures : numériques ou catégorielles. L ensemble de tous les individus correspond dans le formalisme des bases de données relationnelles à une table ou relation. Les lignes ou enregistrements correspondent aux individus. et les colonnes correspondent aux variables. Dans le contexte de l apprentissage supervisé on cherche à prédire la valeur d une variable particulière qu on appelle Variable Cible ou Classe. Exemple 1.1. Prenons par exemple un problème CRM (Customer Relationship Management) où l objectif est d identifier les clients susceptibles de s intéresser à un certain produit ou service, ce qui revient à un problème de classification de clients. La variable cible correspond à l attribut CLASSE qui dénote si le client est intéressé par un produit particulier. Dans le format à-plat classique, les données se présentent, comme dans la Figure 1.1, sous la forme d un tableau où chaque client correspond 10

17 1.2 Fouille de Données Multi-Tables à une ligne. Les variables décrivant ces clients ainsi que la cible sont données en colonnes. Figure 1.1: Représentation à plat À des fins didactiques, le problème de l Exemple 1.1 sera utilisé dans le reste de ce manuscrit pour illustrer la problématique ainsi que l approche proposée. Le paradigme propositionnel a plusieurs avantages, ce qui explique sa popularité. Tous les individus sont décrits par les mêmes variables. Chaque variable apparait une seule fois dans cette description et possède une seule valeur. Il arrive qu un individu puisse avoir une valeur non-renseignée pour une variable particulière. Des extensions existent pour faire de l apprentissage dans le cas de données manquantes ou incomplètes. Les individus peuvent être vus comme des points dans un espace en dimension finie. Des mesures de distance sont facilement définies pour quantifier des similarités entre individus. Des méthodes de type k-plus-proches-voisins peuvent alors être employées [Fix et Hodges, 1951]. Sur cet espace d individus, des méthodes d estimation de densité peuvent être employées pour aider à découvrir des régions intéressantes. Les valeurs des variables sont complémentaires : c est-à-dire, une condition sur la valeur d une variable divise les individus en deux sous-groupes disjoints. La méthode populaire des Arbres de Décision exploite cette propriété en utilisant des opérations simples (=,, et ) [Quinlan, 1986]. Le paradigme propositionnel a été largement utilisé dans les méthodes d apprentissage classiques grâce à la structure tabulaire simple qu il propose. Cependant, ce formalisme se heurte en réalité à plusieurs limites à cause de son pouvoir d expressivité. Les objets du monde réel présentent souvent de façon naturelle une structure interne difficile à exprimer sous la forme d une représentation attribut-valeur. Les approches de fouille de données opérant sur cette représentation à plat ne permettent pas de prendre en compte les structures complexes que peuvent prendre les données. Nous utilisons le terme Fouille de Données Structurées (Structured Data Mining) 11

18 Chapitre 1 État de l art pour faire référence à la classe de techniques qui supportent l analyse des objets structurés Fouille de Données Structurées Les objets réels présentent souvent une structure composée de sous entités ou de sous parties qui diffèrent d un objet à un autre et qui possèdent chacune sa description intrinsèque. La structure globale des objets est définie par les relations qui peuvent exister entre les entités qui les composent. Un ensemble prédéfini d attributs ne peut pas représenter cette variabilité en structure, d où le besoin d autres représentations. Exemple 1.2. Dans le problème de classification des clients de l Exemple 1.1, souvent, on dispose non seulement des informations concernant les clients (telle que l âge, les revenus, etc. ce qui correspond dans le formalisme attribut-valeur aux variables décrivant les clients), mais encore des historiques d achats effectués, des produits commandés dans chaque achat. Outre l objet Client, d autres entités : Commandes et Produits, viennent s y ajouter et chacune des ces entités possède ses propres descriptions. Dans le cas où le problème est de prédire si le client est intéressé par certains produits, les propriétés des achats et des produits commandés précédemment par ce même client peuvent potentiellement être très informatives. Les clients s intéressent généralement à des produits de même nature, dans le même ordre de prix, etc. Ces propriétés des achats et des produits peuvent être très pertinentes pour prédire la classe d un client. Cependant, un vecteur de variables de taille fixe modélisant un client ne suffit pas pour décrire les informations de ses achats Représentations des données structurées Trois représentations équivalentes existent dans la littérature pour représenter les données structurées. Sur la base de ces représentations, les méthodes de Fouille de Données Structurées peuvent être classées en trois catégories : La Fouille de Graphe [Cook et Holder, 2000,Washio et Motoda, 2003]. Les données sont représentées sous la forme de graphes. Chaque objet est un graphe conceptuel. Les sommets du graphe représentent les entités ainsi que leurs attributs. Les relations entre ces entités correspondent aux arcs (orientés ou non orientés). Ce formalisme est plutôt adapté aux méthodes d analyse descriptive tels que le clustering de graphes et la recherche des motifs fréquents. La Programmation Logique Inductive [Džeroski, 1996,Lavrač et Džeroski, 1994]. La base de données est constituée d une collection de faits exprimés sous la forme de prédicats logiques de premier ordre. Ces prédicats décrivent les entités ainsi que les relations entre elles. La Fouille de Données Multi-Tables [Džeroski, 2003]. Les données sont contenues dans une base de données relationnelle. Les tables représentent les entités. 12

19 1.2 Fouille de Données Multi-Tables Les relations entre ces entités sont définies grâce aux contraintes de clés étrangères. Exemple 1.3. Les Figures 1.2 et 1.3 ainsi que Listing 1.1 illustrent comment on peut représenter les données du problème de classification des clients avec ces trois formalismes équivalents. Les clients sont décrits de façon complète à l aide des entités ou concepts : Client et Commande. Parmi ces trois représentations, le formalisme relationnel offre la représentation la plus compacte. En PLI et en Fouille de Graphes, on a besoin d un prédicat logique (en PLI) et d un nœud (en Fouille de Graphe) pour représenter chaque valeur d un attribut donné. La plupart des applications réelles disposent de données stockées à leur état brut dans des bases de données relationnelles. Cependant, les approches PLI et par Fouille de Graphes transforment les données relationnelles vers leurs formalismes respectifs avant de pouvoir les traiter. Dans ce manuscrit, nous nous intéressons aux méthodes d apprentissage supervisé qui travaillent directement sur la représentation relationnelle multi-tables. Définition 1.1. La Fouille de Données Multi-Tables (en anglais Multi-Relational Data Mining, MRDM) est une famille de méthodes de fouille de données qui traitent de l extraction de connaissances à partir de bases de données relationnelles contenant plusieurs tables. Dans la communauté ECD, le terme «relationnel» a été utilisé pour qualifier certains paradigmes d apprentissage qui diffèrent de la problématique à laquelle nous nous intéressons dans ce mémoire. Pour lever toute ambigüité, ces terminologies ne devraient pas se confondre avec la définition que nous avons fournie pour la Fouille de Données Multi-Tables : Fouille de Données Relationnelles (en anglais Relational Data Mining, RDM). Ce terme est devenu populaire dans la communauté de la programmation logique, surtout avec l apparition du livre de [Džeroski et Lavrač, 2001]. Il s agit des techniques PLI classiques. Leur qualification de «relationnel» provient de la prise en compte des données relationnelles en les transformant sous la forme de prédicats logiques. Apprentissage Relationnel (en anglais Relational Learning, RL). C est un concept plus général que la PLI et la Fouille de Données Relationnelles. Il s intéresse à l apprentissage à partir de données présentant une structure complexe (des graphes ou des réseaux) où les objets sont en relation les uns aux autres par des relations sémantiques ou de similarité Problèmes d Apprentissage en Fouille de Données Structurées Plusieurs problèmes d apprentissage ont été envisagés dans le cadre de la Fouille de Données Structurées. Certaines représentations sont mieux adaptées à un problème 13

20 Chapitre 1 État de l art Figure 1.2: Représentation en Fouille de Graphes Client (CL01,25, H, Mr,40, Commerçant,..., positive ). a_commandé ( CL01, C01CL01 ). a_commandé ( CL01, C02CL01 ). a_commandé ( CL01, C03CL01 ). a_commandé ( CL01, C04CL01 ). Commande ( C01CL01,150,10,Chèque, Retrait_magasin ). Commande ( C02CL01,85,5.9,CB, Colis_poste ).... Client (CL02,28, H, Mr,25, Ingénieur,..., négative ). a_commandé (CL02,C01CL02 ). a_commandé (CL02,C02CL02 ). a_commandé (CL02,C03CL02 ). Commande ( C01CL02,50,8.5, Chèque, Retrait_magasin ).... Client (CL03,31, F, Mme,36, Cadre,..., neutre ).... Listing 1.1: Représentation en Programmation Logique Inductive 14

21 1.2 Fouille de Données Multi-Tables Figure 1.3: Représentation en Fouille de Données Multi-Tables plutôt qu à un autre. Nous présentons ici, sans prétention d exhaustivité, quelques applications étudiées dans le cadre de la fouille de données structurées et dont les données se présentent sous la forme de bases de données relationnelles multi-tables : Règles d Association Relationnelles et Motifs Relationnels Fréquents : L objectif est de trouver des motifs fréquent qui portent sur plusieurs tables sans effectuer une jointure. Les systèmes les plus connus comme Warmr [De Raedt et Dehaspe, 1997] et Farmer [Nijssen et Kok, 2001] sont basés sur les méthodes PLI pour extraire les motifs. D autres approches opèrent directement sur la représentation relationnelle [Jen et al., 2009]. Classification Collective (en anglais Collective Classification) : Prédiction simultanée de la classe de plusieurs objets étant donnés leurs attributs et les relations entre ces objets [Sen et al., 2008]. Le problème est par exemple de prédire le thème d un ensemble de pages Web en se basant à la fois sur les propriétés de chaque page et des liens hypertextes les reliant. Prédiction de liens (en anglais Link Prediction) : Prédire si deux objets sont reliés et quel est le type de cette relation en utilisant leurs attributs ainsi que leurs relations à d autres objets [Taskar et al., 2003]. Les données d apprentissage se présentent sous la forme d un graphe où chaque nœud (individu) est décrit par un ensemble d attributs. Un problème typique est de prédire par exemple si deux individus sont reliés par un lien particulier dans un réseau social. Clustering Relationnel et Clustering basé sur les liens (en anglais Link based Clustering) [Zhang et al., 2010] : Regroupement d objets similaires où la 15

22 Chapitre 1 État de l art similarité entre deux objets est déterminée non seulement en se basant sur leurs propriétés mais encore en se basant sur celles des objets et entités reliés. Par exemple, deux utilisateurs sont similaires s ils visitent des pages Web similaires. Classification de Données Multi-Tables : Les données se présentent sous la forme d une base de données en étoile 1 composée de plusieurs tables : une table cible centrale contenant les individus qu on cherche à classer en relation avec d autres tables. Ces tables secondaires décrivent des entités reliées avec l objet cible avec des relations un-à-plusieurs, par exemple, des clients et les produits commandés, des patients et les résultats d analyses médicales, des utilisateurs et leurs logs d usage, etc. Apprentissage Multi-Instances et Apprentissage Multi-Parties (introduit formellement par [Dietterich et al., 1997]) : Le problème consiste à apprendre un concept à partir d individus qui sont représentés par des ensembles d instances chacune décrivant l objet dans sa totalité ou de façon partielle [Zucker et Chevaleyre, 1998]. Chaque instance est décrite par un vecteur attributs-valeurs. Un exemple d apprentissage est alors représenté par un «sac» d instances. Les classes ne sont pas connues pour chaque instance individuellement, mais plutôt pour les «sacs» d instances. Ces deux problèmes peuvent être vus comme un cas particulier de la classification multi-tables. Les données peuvent être représentées de manière équivalente sous la forme d une base de données à deux tables : une table cible contenant les individus, en relation un-à-plusieurs avec une seconde table décrivant les sous instances ou les sous parties. Dans ce manuscrit, nous nous intéressons au problème supervisé de la classification de données multi-tables. Dans la sous-section 1.2.3, nous décrivons plus formellement cette problématique et nous définissons les termes et les notations que nous utiliserons dans le reste du mémoire Formalisation du problème et Terminologie L avantage majeur du formalisme relationnel [Date, 1990] est qu il est capable de représenter intuitivement et de façon élégante la complexité des données du monde réel. Nous utiliserons ici ce formalisme pour définir notre problème d apprentissage Formalisme relationnel Une base de données relationnelle [Date, 1990] est composée d un ensemble de tables T ={T 1,T 2,,T n }. Les colonnes dans une table représentent les attributs et les 1. Ce schéma est à ne pas confondre avec le schéma en étoile usuel dans les entrepôts de données (Data Warehouse) où la table centrale est la table de fait qui décrit une relation plusieurs-à-un entre les tables de dimension [Kimball et Ross, 2011]. 16

23 1.2 Fouille de Données Multi-Tables lignes les enregistrements. Chaque table peut avoir au moins une ou plusieurs variables de clé primaire qui identifient d une façon unique un enregistrement. Le reste des variables sont soit des variables descriptives soit des variables de clés étrangères qui permettent de faire des associations entre les tables. La nature de ces relations est caractérisée par la multiplicité. Elle détermine si plusieurs enregistrements dans une table sont en relation avec un ou plusieurs enregistrements dans l autre table. L ensemble des variables descriptives d une tablet est notéa (T). Pour dire qu une variable descriptiveaest une variable de la tablet, nous utilisons la notation T.A. Nous considérons deux types de variables descriptives à savoir, les variables catégorielles et numériques. Une variable descriptive est catégorielle (ou qualitative, nominale) si les valeurs qu elle peut prendre sont nominales. Elle est numérique (ou continue, quantitative) si ses valeurs sont numériques ou continues. Notons par dom (A) l ensemble de valeurs que peut prendre une variable A Problème d apprentissage Même si le modèle de données consiste en plusieurs tables, l analyse dans le contexte de la fouille de données multi-tables se focalise sur un seul type d objets ou d individus contenus dans une seule table du schéma relationnel. Nous appelons cette table, table cible («target table» comme dans [Knobbe et al., 1999a], «primary table» dans [Crestana-Jensen et Soparkar, 2000], et «master relation» dans [Wrobel, 1997]). Les autres tables décrivent d autres concepts reliés de façon directe ou indirecte à la table cible. Définition 1.2. Un individu, comme dans le cas classique de l apprentissage est l unité statistique sur laquelle est centrée l analyse. Chaque individu s identifie dans notre contexte relationnel à un enregistrement de la table cible. Bien qu ils soient identifiés dans la table cible, les individus sont décrits de façon complète en suivant les relations de clés étrangères avec les tables secondaires. Cette description est constituée non seulement des variables descriptives de la table cible mais également de celles des autres tables du schéma relationnel. Afin de simplifier le problème, nous nous limitons dans ce manuscrit au premier niveau de relation avec la table cible, c est-à-dire les tables en relation directe avec celle-ci afin de limiter la complexité de représentation. Par ailleurs, nous nous intéressons en particulier aux tables en relation un-à-plusieurs avec la table cible. Chaque enregistrement cible se relie à un ensemble d enregistrements dans ces tables. Nous les appellerons, les tables secondaires. Par analogie au cas attribut-valeur classique dans lequel un individu (une ligne dans le tableau de données) est décrit par un ensemble de variables explicatives, dans le cas multi-tables, un individu est décrit par : des variables explicatives de la table cible. une variable à prédire ou classe (si on considère un problème d apprentissage supervisé). Il s agit d une variable particulière de la table cible. Elle est catégorielle 17

24 Chapitre 1 État de l art dans un problème de classification et numérique dans le cas de la régression. Nous appelons cette variable, la variable cible. des variables explicatives des tables secondaires. Nous les appelons variables secondaires. Ces variables constituent la nouveauté par rapport au contexte attributvaleur classique dans lequel les données se réduisent à une seul tableau, qui correspond dans notre cas à la table cible. L apprentissage attribut-valeur classique peut être vu comme un cas particulier de la fouille de données multi-tables où on dispose uniquement des variables de la table cible. La difficulté dans le contexte multi-tables provient de la prise en compte des variables secondaires. En effet, un individu possède pour une variable secondaire, une liste de valeurs (éventuellement vide) dont la taille est variable, et ceci, en raison des relations un-à-plusieurs entre la table cible et les tables secondaires. Dans cette thèse, nous nous intéressons en particulier au problème de classification dans lequel la variable à expliquer est catégorielle (par opposition à la régression où la variable à prédire est à valeurs réelles). Comme dans le cadre classique de l apprentissage supervisé, l objectif est de prédire la valeur d une variable cible catégorielle Y. Le défi majeur de l apprentissage supervisé multi-tables par rapport au cas propositionnel classique est de pouvoir exploiter l information prédictive des variables secondaires aussi bien que celle des variables explicatives de la table cible. Exemple 1.4. Si on reprend l Exemple 1.1, le problème consiste à identifier les clients susceptibles de s intéresser à un certain produit ou service, ce qui revient à un problème de classification de clients. La variable cible correspond à l attribut APPÉTENCE qui dénote si le client a déjà commandé un produit particulier. La Figure 1.4 illustre un schéma relationnel typique auquel nous nous intéressons : une table cible CLIENT en relation un-à-plusieurs avec des tables secondaires (COM- MANDE, SERVICE). Notons que nous avons gardé uniquement les tables secondaires en relation directe avec la table cible. La Figure 1.5 décrit une représentation en extension de ces données (comme on peut les voir dans une base de données relationnelle) afin de mettre en évidence les différentes notions d individus, de variable cible, table secondaire, variable secondaire, etc. Dans ce problème de classification, prédire si un client pourrait être intéressé par un produit ne dépend pas uniquement des informations sur ce client. Les données concernant les autres produits qu il a commandés peuvent potentiellement être très informatives. Des attributs comme le type, le prix du produit peuvent présenter des corrélations avec la variable cible ce qui est très utile pour prédire la valeur de celle-ci Enjeux de la Fouille de données Multi-Tables Divers enjeux liés à la Fouille de données Multi-Tables existent. Les algorithmes classiques de fouille de données opérant sur un tableau attribut-valeur ne peuvent pas prendre en compte les variables secondaires. Les données multi-tables violent deux hypothèses majeures des algorithmes de classification classiques. 18

25 1.2 Fouille de Données Multi-Tables Tables secondaires CLIENT COMMANDE Variables secondaires SERVICE ID_SERVICE ID_CLIENT PRIX MODE_PAIEMENT... n 1 ID_CLIENT AGE SEXE CIVILITE REVENUS PROFESSION... APPETENCE 1 n ID_COMMANDE ID_CLIENT PRIX POIDS MODE_PAIEMENT MODE_LIVRAISON... Table cible Variable cible Figure 1.4: Schéma relationnel typique pour un problème de fouille de données multi-tables 1. D une part, ces derniers supposent que les individus possèdent une structure «homogène», notamment, une seule valeur par attribut et ceci pour un nombre fixe de variables. Cependant, dans le cas multi-tables, pour une variable secondaire, un individu peut avoir une liste de valeurs (éventuellement vide) dont la taille est variable. Les individus ne peuvent pas être vus comme des points dans un espace en dimension finie. Il n est pas donc évident de définir de bonnes mesures de distance ou encore des hyperplans séparant des points qui appartiennent à deux classes différentes. Par ailleurs, des sous-groupes d individus complémentaires ne peuvent pas être obtenus en prenant simplement des valeurs complémentaires pour une variable secondaire, puisqu un individu ne possède pas une seule valeur pour ce genre de variables D autre part, les données relationnelles ne sont pas i.i.d (Indépendamment Identiquement Distribuées), notamment les variables secondaires [Zhou et al., 2009]. En effet, les lignes d une table secondaire reliées à un même individu ne peuvent être mutuellement indépendantes. Les traitements sur les variables secondaires doivent alors prendre en compte cette propriété et faire le lien avec les enregistrements de la table cible. Pour remédier à ces problèmes, une solution qui semblerait adéquate consiste à transformer la base de données multi-tables en un seul tableau sur lequel un algorithme d apprentissage classique pourrait être utilisé. Il y a deux façons pour transformer une base de données multi-tables en une seule relation. La première consiste à construire une relation universelle par jointure de la table cible avec les tables secondaires. La seconde résume l information des variables secondaires en créant des agrégats dans la table cible. 2. Cette propriété est exploitée dans le cas classique par les arbres de décision [Quinlan, 1986] 19

26 Chapitre 1 État de l art Figure 1.5: Problème de classification dans une base de données CRM Création d une relation universelle La première solution consiste à créer une table universelle par jointure de toutes les tables pour en former une seule. Dans la pratique, une telle approche pose plusieurs problèmes. La jointure engendre une redondance des données, ce qui entraîne une augmentation considérable de leur taille. La relation universelle qui en résulte peut être extrêmement grande et se heurte à de nombreuses difficultés pratiques pour la manipuler. Pour certains problèmes, l algorithme d apprentissage devient beaucoup moins efficace que si on garde la représentation relationnelle initiale [De Raedt, 1998]. Par ailleurs, les données dans leur format relationnel initial sont souvent normalisées 3. Leur mise à plat par simple jointure entraîne à la fois des disparitions ainsi que des duplications de lignes dans la table cible. Ainsi, non seulement on perd la représentation compacte initiale, mais aussi, on risque d introduire des biais statistiques [Getoor, 2001]. Exemple 1.5. Les clients n ayant pas passé de commandes voient leurs lignes correspondantes disparaitre dans la table jointure ce qui fausse les résultats. Par ailleurs, ceux ayant effectué plusieurs achats apparaissent plusieurs fois dans cette table. Par exemple, dans la Figure 1.6, le client identifié par «CL03» n apparaît plus dans 3. Nous voulons dire par «normalisation» ici, les formes normales au sens relationnel (première, deuxième et troisième forme normale). 20

27 1.2 Fouille de Données Multi-Tables Figure 1.6: Anomalies dues à la mise plat par la jointure la table jointure. Parallèlement, 3 lignes correspondent au client «CL01». Dans la table jointure, une ligne correspond à une commande et non plus à un client. Cependant, au départ, l analyse se focalise sur les clients et non pas sur les commandes. Comme illustré dans l Exemple 1.5, les anomalies causées par la jointure, notamment la duplication de lignes, engendrent la perte de la notion d unité statistique de départ. Toute analyse qui se base sur ce tableau mis à plat résultant sera erronée. Cependant, certains travaux se sont basés sur cette représentation dans le cadre de la fouille de données multi-tables. [Chelghoum et Zeitouni, 2004] appliquent un algorithme mono-table classique sur la table jointure (dans le cadre de données spatiales relationnelles). [Cristofor, 2002] en extrait des règles d association. [Hu et al., 2008] se basent la mesure du Gain d Information classique pour la sélection des variables secondaires Agrégation Une autre façon de transformer une base de données relationnelle en une seule table sur laquelle un algorithme d apprentissage peut être utilisé est la création de nouveaux attributs dans la table cible qui résument ou agrègent les informations issues des autres tables (cf. Figure 1.7). Cette opération a été connue sous le terme de propositionalisation [Kramer et al., 2001]. Bien que cette approche soit facile à mettre en œuvre et puisse atteindre de meilleures performances que les algorithmes de fouille de données multi-tables de type PLI, il ne serait pas facile de trouver les agrégats appropriés. La plupart des méthodes de propositionalisation existantes génèrent les nouveaux attributs agrégats à partir d un ensemble prédéfini de fonctions d agrégation. Le choix et la définition de ces agrégations nécessite une grande expertise et compréhension du domaine. Une autre façon de traiter ce problème est de laisser l algorithme lui-même découvrir de bons attributs (feature construction) ou encore élargir l espace de recherche des hypothèses en introduisant des tests sur plusieurs attributs à la fois [Blockeel, 1998]. Les opérateurs d agrégation utilisés dans les systèmes relationnels existants (comme sum, count, max, min, avg, mode,...) sont 21

28 Chapitre 1 État de l art Figure 1.7: Propositionalisation typiquement des résumés simples de la distribution des attributs des tables secondaires. Ces opérateurs peuvent être adéquats pour certaines variables secondaires, mais peu informatifs pour d autres. Par ailleurs, ils ne prennent pas en compte la valeur de la classe ce qui rend leur pouvoir prédictif difficile à évaluer. De plus, les nouvelles variables ainsi créées peuvent présenter des corrélations entre elles. Par conséquent, non seulement on perd la représentation initiale naturellement compacte mais encore, on risque d introduire des biais statistiques et de l information nuisible à la prédiction. 1.3 Travaux Majeurs Cette section présente les principales méthodes de fouille de données relationnelles proposées dans la littérature Programmation Logique Inductive Dans la Programmation Logique Inductive PLI, les données ainsi que les modèles sont représentés en utilisant une représentation logique sous la forme de prédicats logiques de premier ordre [Lloyd, 1987]. La PLI a été le précurseur des approches de fouille de données relationnelles. C est également le domaine de recherche le plus actif dans ce contexte. Ceci est dû à la prise en compte directe des données relationnelles par la PLI. Un prédicat dans la programmation logique n est autre qu une relation dans une base de données relationnelle et les arguments d un prédicat correspondent aux attributs d une relation [Das, 1992,Ramakrishnan et Ullman, 1995]. Les associations entre les tables sont également décrites à l aide de prédicats logiques. L objectif de la PLI est d inférer un ensemble d hypothèses sous la forme de programmes logiques à partir d exemples composant l ensemble d apprentissage [Lavrač et Džeroski, 1994]. Ces hypothèses constituant des règles de classification peuvent être utilisées comme un classifieur. Un problème PLI peut être défini formellement comme suit : Définition 1.3. Étant donné : 22

29 1.3 Travaux Majeurs Un ensemble d exemples d apprentissage E, Un ensemble de connaissances a priori B (Background theory), Un biais de langage L qui définit des restrictions sur les hypothèses autorisées. L objectif est de trouver une hypothèseh L qui explique les exemplese en respectant les connaissances a priori B. Plusieurs systèmes PLI ont été proposés dans la littérature : Rdt [Kietz et Wrobel, 1992], Progol [Muggleton, 1995], Foil [Quinlan et Cameron-Jones, 1993] Srt [Kramer, 1996], Fors [Karalic et Bratko, 1997]. Claudien, Icl et Tilde [De Raedt et al., 2001]. Certains systèmes assurent de bons taux de classification lorsqu ils sont appliqués à des données relationnelles [Yin, 2007]. Ces approches PLI ont été populaires grâce à leur expressivité. Les hypothèses inférées sont explicitement exprimées sous forme symbolique. Les connaissances extraites sous forme de règles de classification peuvent être facilement interprétées par l utilisateur. Par ailleurs, il est facile d introduire des connaissances a priori complexes sur les données. Malgré la popularité des méthodes PLI, leur utilisation dans la fouille de données relationnelles a été limitée en raison de l existence de différents moteurs PLI en termes de spécification d entrée [Knobbe et al., 2000], du biais de langage qu ils utilisent et du peu d attention qu ils donnent à la théorie relationnelle de la base de données. En effet, la plupart de ces approches ne peuvent pas interagir directement avec la base de données relationnelle. Typiquement, les données doivent être transformées sous la forme de faits Prolog avant la phase d apprentissage. Ce transfert (du format relationnel à une base de fait Prolog ou Datalog) réduit l efficacité des systèmes PLI [Page et Srinivasan, 2003]. Pour cela, des efforts ont été réalisés pour mapper les systèmes PLI à une base de données multi-tables [Blockeel et De Raedt, 1996, Knobbe et al., 2000, Moal et al., 2000, Lindner et Morik, 1995]. Ces travaux exploitent la relation entre la logique de premier ordre et la base de données relationnelle (un prédicat correspond à une relation). Les clauses logiques sont traduites en des requêtes SQL qui sont envoyées à la base de données pour être évaluées [Lindner et Morik, 1995, Blockeel et De Raedt, 1996]. Pour prendre en compte le formalisme logique et unifier les spécifications d entrée des différents moteurs PLI, [Knobbe et al., 2000] proposent d utiliser le langage UML (Unified Modeling Language) comme un langage de spécification commun à plusieurs systèmes PLI. L idée est de remplacer le formalisme logique qui spécifie le biais de langage par un langage facile à intégrer dans ces systèmes. Les résultats de ces tentatives pour coupler les algorithmes PLI avec les systèmes de gestion des bases de données (SGBD) demeurent en quelque sorte «décevants» [Blockeel et Sebag, 2003]. En effet, les requêtes nécessaires pour évaluer les hypothèses considérées sont souvent complexes, ce qui alourdit considérablement le processus d apprentissage. [Giordana et al., 2000] ont montré la présence du phénomène de transition de phase dans les problèmes PLI : les exemples les plus difficiles à apprendre se concentrent dans une région étroite de l espace d hypothèses (appelée transition de phase) [Giordana et al., 2000, Giordana et Saitta, 2000]. Dans cette région, la complexité du 23

30 Chapitre 1 État de l art test de couverture (savoir si un exemple est couvert par une hypothèse) est exponentielle, ce qui peut jeter un certain doute sur le passage à l échelle et les capacités pratiques de la PLI. Les systèmes PLI sont moins efficaces que les approches Attribut-Valeur en temps et en espace [Yin, 2007,Blockeel et al., 1999]. Par ailleurs, l espace d hypothèses considéré est plus large et le test de couverture est beaucoup plus complexe. La complexité augmente avec le nombre de relations dans la base de données ainsi que le nombre d enregistrements dans chaque table : dans les données Attribut-Valeur, un exemple correspond à une seule ligne alors que dans une base de données relationnelle, un individu est relié à un ensemble d enregistrements contenus dans plusieurs tables. Les systèmes PLI ont besoin de résoudre des requêtes complexes sur la jointure de plusieurs tables pour évaluer si une hypothèse couvre un exemple [Blockeel et Sebag, 2003]. Certains travaux ont tenté d améliorer l efficacité et la capacité de passage à l échelle des méthodes PLI [Aronis et Provost, 1997, Blockeel et al., 1999, Blockeel et al., 2002, Yin, 2007]. Cependant, dans la pratique, la plupart des systèmes PLI demeurent inefficaces avec les données réelles qui présentent généralement une structure relationnelle riche ainsi qu une grande volumétrie [Page et Srinivasan, 2003]. La plupart des systèmes PLI considèrent les attributs numériques comme nominaux. Par conséquent, de tels systèmes sont incapables d exploiter l ordre linéaire des valeurs continues si celles-ci sont traitées comme des valeurs nominales. Pour cela, certains travaux effectuent en amont de la phase d apprentissage une discrétisation des attributs numériques. Il a été démontré que cette discrétisation améliore non seulement l efficacité mais aussi la performance des systèmes PLI [Blockeel et De Raedt, 1997]. Afin de prendre en compte les variables secondaires numériques (variables en un-à-plusieurs cf. sous-section 1.2.3), [Blockeel et De Raedt, 1997] ont proposé une simple modification de la procédure de discrétisation de [Fayyad et Irani, 1993]. La première modification consiste à définir un nombre maximal d intervalles au lieu du principe de longueur de description minimale (MDL pour Minimum Description Length en anglais) comme critère d arrêt. Une deuxième adaptation concerne la prise en compte des relations un-à-plusieurs. Étant donné qu un individu peut avoir plusieurs valeurs pour une variable secondaire, ces valeurs sont pondérées et la somme des poids est utilisée au lieu du nombre d exemples dans les endroits appropriés de la formules de Fayyad et Irani. Outre ces problèmes, l inconvénient majeur des approches PLI classiques est qu elles sont déterministes. Tandis que les données du monde réel sont bruitées et incertaines, les algorithmes PLI n étaient pas conçus pour prendre en compte l incertitude et le bruit dans les données. Afin de surmonter cette limitation, plusieurs travaux ont été proposés pour étendre les méthodes PLI et les combiner avec la théorie des probabilités. Ce domaine de recherche est connu sous le nom de PLI probabiliste (en anglais, Probabilistic Inductive Logic Programming) [De Raedt et Kersting, 2004], ou Apprentissage Logique Probabiliste (Probabilistic Logical Learning) [De Raedt et Kersting, 2003] ou encore Apprentissage Relationnel Statistique [Getoor et Taskar, 2007] (Statistical Relational Learning SRL). 24

31 1.3 Travaux Majeurs Apprentissage Logique Probabiliste L Apprentissage Logique Probabiliste est un domaine de recherche qui se situe à l intersection de l apprentissage automatique, de la Programmation Logique et de la théorie des probabilités [De Raedt et Kersting, 2003,De Raedt et Kersting, 2004]. Il regroupe des techniques permettant de réaliser de l apprentissage statistique et de l inférence sur des données relationnelles (représentées au format logique). Dans ce contexte, deux courants existent dans la littérature : La première famille de techniques part des approches statistiques classiques (applicables au format attribut-valeur) et les étend en utilisant le formalisme logique. Plusieurs systèmes combinant la logique de premier ordre avec un réseau Bayésien 4 ont été proposés [Poole, 1993,Glesner et Koller, 1995,Jaeger, 1997,Ngo et Haddawy, 1997]. Ces systèmes apparaissent sous différentes nominations : Relational Bayesian Networks [Jaeger, 1997], Probabilistic Logic Programs [Ngo et Haddawy, 1997], ou encore Bayesian Logic Programs [Kersting et De Raedt, 2000, Kersting et al., 2000]. Bien qu ils aient des fondements et des philosophies différents, ils partagent un noyau commun composé d un réseau Bayésien dont les nœuds sont représentés par des programmes logiques (qui correspondent aux différentes relations de la base de données) [Kersting et De Raedt, 2000, Kersting et al., 2000]. La partie quantitative est représentée comme pour un réseau Bayésien classique par des tables de probabilités conditionnelles qui modélisent les dépendances entre ces relations. Des règles de combinaison utilisant des fonctions d agrégation prédéfinies (min, max,...) peuvent être définies sur chaque nœud pour prendre en compte les relations unà-plusieurs entre les différentes tables [Jaeger, 1997]. Des extensions similaires ont été proposées en combinant d autres méthodes d apprentissage statistique avec le formalisme logique. Les programmes logiques stochastiques [Muggleton, 1996, Cussens, 1999, Muggleton, 2000] (Stochastic Logic Programs) sont une généralisation des grammaires stochastiques non contextuelles [Lari et Young, 1990] et des réseaux de Markov [Cussens, 1999]. De même, les réseaux de Markov logiques (Markov Logic Networks) [Richardson et Domingos, 2006] généralisent les champs de Markov aléatoires (Markov Random Fields). Il est à noter que peu de comparaisons profondes entre les modèles d Apprentissage Logique Probabiliste ont été réalisées dans la littérature. Une étude comparant les Bayesian Logic Programs et les Markov Logic Networks peut être trouvée dans [Saitta et Vrain, 2008]. Cette comparaison concerne en particulier deux aspects, à savoir, les capacités de représentation et la méthode d inférence utilisée. Parallèlement, au lieu de partir des méthodes statistiques, la deuxième famille d apprentissage logique probabiliste essaye d étendre les méthodes PLI avec une dimension probabiliste. Cette extension s effectue sur deux niveaux : (i) les faits sont annotés par des probabilités, et (ii) la relation de couverture devient probabiliste [De 4. Un réseau Bayésien est une représentation compacte des distributions de probabilité jointes d un ensemble bien déterminé de variables. Il est représenté par un graphe acyclique, un nœud par variable, et les distributions de probabilités conditionnelles associées [Jensen et Nielsen, 2007]. 25

32 Chapitre 1 État de l art Raedt et Kersting, 2004]. Le système PRISM (PRogramming In Statistical Modeling) de [Sato et Kameya, 1997] s inscrit dans cette perspective. Il définit un langage de programmation destiné à la modélisation à la fois symbolique et statistique d objets complexes, où une distribution de probabilité est attachée à des faits logiques. [De Raedt et al., 2007] ont proposé une extension du langage Prolog, ProbLog (Probabilistic Prolog), afin de résoudre des requêtes probabilistes. Le point fort des modèles logiques probabilistes est leur capacité à gérer l incertitude. Cependant, ils héritent des mêmes limites que la logique propositionnelle lorsqu ils sont appliqués à des données relationnelles. En effet, en combinant l apprentissage statistique et la PLI, on risque également de combiner la complexité des cadres sous-jacents. En pratique, les deux composantes logiques et probabilistes doivent être apprises à partir des données. La construction de tels modèles nécessite l énumération explicite de plusieurs états (comme pour les réseaux Bayésiens), ce qui n est pas toujours réalisable en pratique : le nombre de ces états augmente très rapidement en fonction du nombre d instanciations possibles des entités et de leurs relations dans la base de données [De Raedt et Kersting, 2007]. Outre ce problème d efficacité, la plupart des approches existantes ne permettent pas de prendre en compte les variables continues (à l exception de quelques travaux [Xu et al., 2009]) Modèles Probabilistes La plupart des approches probabilistes existantes représentent des extensions des modèles graphiques classiques aux données relationnelles. Les réseaux de Markov relationnels (Relational Markov Networks RMN) proposés par [Taskar et Abbeel, 2002,Taskar et al., 2003,Taskar et al., 2007] étendent les modèles par graphes non orientés (également connus sous le nom de Markov Random Fields ou encore Markov Networks [Pearl et Shafer, 1988]). [Friedman et al., 1999,Getoor, 2001,Taskar et al., 2001] ont proposé les modèles relationnels probabilistes (Probabilistic Relational Models PRM) pour étendre des réseaux Bayésiens attribut-valeur classiques à une structure relationnelle plus riche. Le point commun entre ces deux approches est de permettre aux propriétés d une entité (attributs d une table) de dépendre de façon probabiliste de celles des autres entités. Cependant, les PRM sont des modèles génératifs qui se basent sur un graphe orienté alors que les RMN construisent des graphes non orientés qui sont mieux adaptés à l apprentissage discriminant et permettent de modéliser les dépendances cycliques. Comme les modèles graphiques classiques, les RMN et les PRM possèdent deux composantes : la structure du réseau et les paramètres qui lui sont associés. La structure du graphe dans les RMN se base sur la structure relationnelle de la base de données et l estimation des paramètres utilise la méthode du gradient conjugué en combinaison avec une inférence probabiliste approximative. Pour les PRM, la complexité de l apprentissage de la structure (un réseau Bayésien) est au moins aussi difficile que celle des réseaux Bayésiens classiques. Pour que la complexité des calculs 26

33 1.3 Travaux Majeurs reste raisonnable, une heuristique de recherche est utilisée (généralement, la descente de gradient) [Friedman et al., 1999]. La recherche est basée sur la maximisation d un score Bayésien qui évalue la probabilité de la structure sachant les données. Pour réduire encore l espace des modèles considérés et pour rester dans des calculs raisonnables, des restrictions sont imposées sur les dépendances entre les entités. L avantage des modèles relationnels graphiques, en particulier, les PRM et les RMN, est de permettre de prendre en compte l incertitude et le bruit qui peuvent exister dans les données relationnelles et de présenter une plus grande souplesse dans l apprentissage comparé aux techniques relevant de la PLI. Cependant, les restrictions imposées à la recherche des dépendances ont pour conséquence de modéliser des dépendances très simplistes. Par ailleurs, les PRM et les RMN ont été proposés pour résoudre certains problèmes de fouille de données relationnelles tels que la prédiction de liens [Taskar et al., 2003], la recherche de corrélations entre les attributs de tables différentes [Getoor, 2001] et la classification collective [Taskar et al., 2001, Taskar et Abbeel, 2002]. Par contre, le problème de classification tel que nous l avons défini dans la sous-section n a pas été étudié dans le cadre de ces approches. Outre les modèles probabilistes graphiques, des extensions relationnelles du Bayésien Naïf ont été proposées. Étant donné un exemplex, le classifieur Bayésien attribue à X la valeur cibley i qui maximise la probabilité a posteriorip(y i X). En appliquant la règle de Bayes (Équation 1.1), le problème se ramène à maximiserp(x y i ). P (y i X) = P (y i)p (X y i ) P (X) (1.1) Dans le système Mr-SBC, [Ceci et al., 2003] construisent un ensemble de motifs relationnels (des formules logiques) afin de décrire l exemplex. Ces formules logiques sont ensuite utilisées pour définir une décomposition adéquate du terme de vraisemblancep (X y i ) à la manière du Bayésien Naïf classique pour simplifier le problème d estimation de probabilité conditionnelle. Cette méthode est similaire à celle proposée par [Lachiche et Flach, 2000] dans les systèmes 1BC [Flach et Lachiche, 1999] et 1BC2 [Flach et Lachiche, 2004] Arbres de Décision Relationnels Les arbres de décision ont été longtemps l une des méthodes de classification les plus populaires grâce à leur performance et à leur façon élégante et intuitive de représenter les connaissances extraites [Quinlan, 1986]. Typiquement, les arbres de décision partitionnent successivement une population d exemples d apprentissage afin d aboutir à des sous populations qui maximisent les effectifs de l une des classes. Sur chaque nœud de l arbre, un test sur une variable divise les individus en deux ensembles disjoints. 27

34 Chapitre 1 État de l art Plusieurs extensions des arbres de décision classiques en logique de premier ordre ont été proposées [Watanabe et Rendell, 1991, Kramer, 1996, Blockeel et De Raedt, 1998, Blockeel et al., 1998]. Par exemple, Le système Tilde (Top-down Induction of Logical DEcision-tree) [Blockeel, 1998] prend en compte des exemples d apprentissage sous la forme de faits logiques qui encodent les propriétés de ces exemples et les relations entre les tables. Tilde construit des arbres binaires où chaque nœud constitue une règle de décision logique. La prémisse de la règle se compose d une conjonction de prédicats et la conclusion définit l arc fils à prendre (deux arcs) selon que l exemple est couvert ou non par la règle. La construction de l arbre suit une procédure gloutonne qui se base sur un opérateur de raffinement. Ce dernier évalue lors de la construction d un nœud tous les tests possibles par conjonction de littéraux et choisit celui qui maximise le gain d information. Bien qu il soit l un des premiers arbres de décision relationnels, Tilde souffre de plusieurs limites. D une part, il est restreint aux données stockées dans une base de données Prolog. D autre part, comme les méthodes PLI, il est contraint par sa faible capacité de passer à l échelle malgré certains travaux qui ont tenté d améliorer cet aspect [Lopes et Zaverucha, 2009]. Par ailleurs, il est désirable de prendre en compte les variables secondaires de manière similaire à celle des arbres de décision classiques. Cependant, une telle tentative se confronte à deux difficultés majeures qui proviennent essentiellement des relations un-à-plusieurs. (i) D une part, un score doit être défini à chaque nœud de l arbre pour choisir la variable sur laquelle porte la condition (notamment pour les variables secondaires). (ii) D autre part, une condition sur la valeur d une variable secondaire ne divise pas les individus en deux sous ensembles complémentaires, puisqu un individu ne possède pas une seule valeur pour ce genre de variables. Afin de surmonter cette deuxième difficulté, d autres méthodes d arbres de décision relationnels utilisent des conditions sur des valeurs agrégées (dans le cas des variables secondaires) dans les nœuds de l arbre [Knobbe et al., 1999b,Yin et al., 2004]. Certain travaux ont proposé des extensions de Tilde pour incorporer des fonctions d agrégation dans les conditions de ce dernier [Yin et al., 2004, Vens et al., 2006]. Tilde peut être vu comme un cas particulier de ces méthodes puisqu une condition de décision (lorsque celle-ci porte sur une variable secondaire) au niveau de ses nœuds n est autre qu une fonction d agrégation existentielle (de type, un individu possède au moins une valeur particulière pour une variable secondaire). Le système MRDT (Multi-Relational Decision Tree [Knobbe et al., 1999b]) utilise des nœuds de décision exprimés à l aide de patterns multi-relationnels. Ces derniers définissent des tests sur des agrégats qui peuvent être exprimés en SQL ou en formules logiques de premier ordre. À l instar de TILDE et afin de construire son arbre, MRDT ajoute progressivement des nœuds de décision suivant un processus de raffinement jusqu à un certain critère d arrêt (comme par exemple classification correcte de toutes les instances de l ensemble d apprentissage). Pour ce faire, les patterns multi-relationnels sont raffinés en ajoutant des conditions à partir d une bibliothèque prédéfinie de fonctions d agrégation. Celles-ci peuvent exprimer : 28

35 1.3 Travaux Majeurs des conditions sur l existence d enregistrements vérifiant une certaine condition. Cette condition peut porter sur un attribut numérique (utilisant un opérateur de comparaison,,...) ou encore sur une variable catégorielle (condition de type variable = valeur), des conditions sur l absence d enregistrements vérifiant une certaine condition, des conditions sur un ensemble d enregistrements reliés à l exemple cible en utilisant une fonction d agrégation. [Knobbe, 2004] s est restreint aux fonctions d agrégation implémenté en SQL, à savoir, COUNT, MIN, MAX, AVG,... Chaque raffinement est évalué en termes d une série de mesures calculées à l aide de requêtes à la base de données. Ces mesures se basant sur le gain d information diffèrent selon le type de la variable concernées : catégorielle ou numérique, appartenant à la table cible ou à une table secondaire,... L inconvénient majeur de MRDT est sa faible efficacité notamment à cause de la taille de l espace d hypothèses. Par ailleurs, il a été constaté que l opérateur de raffinement produit parfois les mêmes tests de décision sur des nœuds différents [Knobbe, 2004] Approches à base de distance Les méthodes classiques de classification à base de distance telle que la méthode des plus proches voisins peuvent être facilement étendues aux données multi-tables. Il suffit seulement de définir une mesure de similarité permettant de comparer deux individus dans le contexte relationnel. Nous présentons ici quelques mesures de similarité proposées dans le cadre de la fouille de données relationnelles, que ce soit pour la classification ou le clustering. Pour des raisons de simplification, nous ne ferons pas la distinction dans ces mesures entre les notions de distance, métrique, dissimilarité,... Dans le cas attribut-valeur classique, les mesures de distance sont définies entre des exemples qui ont la forme de vecteurs d attribut-valeur de taille fixe. Sur des données relationnelles, les distances classiques ne peuvent pas être utilisées. Un individu n a pas une seule valeur par variable secondaire mais plutôt un ensemble de valeurs dont on ne connait pas a priori la cardinalité. Dans le cas classique, typiquement, pour calculer la distance entre deux individusi 1 = (x 1,1,x 1,2,...x 1,K ) eti 2 = (x 2,1,x 2,2,...x 2,K ), on exploite les différences entre les valeurs sur chacune des dimensions diff (x 1,i,x 2,i ) et en sommant sur toutes les variablesx i. Par exemple, dans la distance de Manhattan et la distance euclidienne, diff (x 1,i,x 2,i ) = x 1,i x 2,i. La K mesure de distance est définie alors pard (I 1,I 2 ) = x 1,i x 2,i pour la distance i=1 de Manhattan, etd (I 1,I 2 ) = K x 1,i x 2,i 2 pour la distance euclidienne. i=1 [Kalousis et al., 2005] partent de cette idée pour prendre en compte les variables secondaires dans le calcul d une distance entre individus dans le contexte multi-tables. 29

36 Chapitre 1 État de l art Il suffit d évaluer leurs différences diff (A 1,k,A 2,k ) vis-à-vis de toutes les variables secondairesa k. [Kalousis et al., 2005] proposent la formule de distance relationnelle généralisée entre deux individusi 1 eti 2 : Kk=1 (diff (A 1,k,A 2,k )) 2 d (I 1,I 2 ) = K (1.2) La fonction diff est calculée différemment selon qu il s agisse de deux variables de la table cible ou d une table secondaire (icik dénote le nombre de variables descriptives eta 1,k représente l ensemble de valeurs de la variable secondairea k pour l individui 1 ). Pour calculer la différence entre deux individus vis-à-vis d une variable secondaire, plusieurs mesures de similarité ont été proposées dans le cas de variables secondaire catégorielles : Distance entre ensembles. Les valeurs d une variable secondaire pour un individu donné constituent un ensemble de valeurs catégorielles. Dans ce cas, la littérature offre différentes mesures de similarité entre ensembles : somme des distances minimales [Eiter et Mannila, 1997], Ribl [Horváth et al., 2001], Hausdorff [Eiter et Mannila, 1997], Tanimoto [Duda et al., 2001],... Distance entre multi-ensembles. Au lieu de considérer un ensemble, la réalisation d une variable secondaire pour un individu est un multi-ensemble. Un multi-ensemble (encore appelé sac, en anglais multiset ou bag) est une collection non ordonnée d objets, dans laquelle, contrairement aux ensembles standards, les éléments peuvent apparaître plusieurs fois. Dans la littérature, plusieurs familles de métriques entre multi-ensembles ont été proposées [Petrovsky, 1994, Petrovsky, 2001, Kosters et Laros, 2007]. Distance entre distributions. Dans le cas précédent, pour calculer la distance entre deux multi-ensembles, il suffit de calculer la distance entre les vecteurs de multiplicité correspondants (vecteurs d effectifs). Cependant, cette approche peut causer problème si les multi-ensembles ont des tailles très différentes. Il serait alors plus intéressant de considérer les ratios de chaque valeur plutôt que leurs effectifs. En normalisant par la taille du multi-ensemble, on obtient pour chaque multi-ensemble un vecteur de probabilité. Une mesure de dissimilarité entre distributions de probabilité telle que la divergence de Kullback- Leibler [Kullback et Leibler, 1951,Kullback, 1959] peut être alors utilisée pour comparer deux individus. [Xu, 2001] a appliqué la méthode des plus-proches voisins en utilisant cette mesure dans le cadre de données multi-instances (cas particulier de l apprentissage multi-tables). Les mesures de similarité entre ensembles et multi-ensembles présentées ici sont applicables dans le cas de variables secondaires catégorielles. Leur généralisation à d autres types de variables pose plusieurs problèmes. D une part, si la variable secondaire est continue ou catégorielle avec un nombre important de valeurs, les vecteurs d effectifs ou encore les vecteurs de distribution peuvent être fortement creux, ce 30

37 1.3 Travaux Majeurs qui rend la mesure de distance peu fiable. D autre part, un problème d efficacité se pose parce que les calculs pourraient être coûteux à cause de la taille des vecteurs. Pour pouvoir utiliser une des distances présentées ici, il faut au préalable discrétiser les variables continues et faire un groupement de valeurs dans le cas de variables catégorielles. Une autre famille de distances relationnelles a été proposée en utilisant le formalisme logique comme langage de représentation [Bisson, 1992,Emde et Wettschereck, 1996,Bohnebeck et al., 1998,Horváth et al., 2001,Kirsten et Wrobel, 1998,Kirsten et Wrobel, 2000, Kirsten et al., 2001, Ramon et Bruynooghe, 1998]. Initialement introduites par [Bisson, 1992], ensuite raffinées par [Emde et Wettschereck, 1996] dans le système Ribl, ces distances calculent la similarité entre deux individus représentés par une conjonction de prédicats. Une simplification de la distance Ribl est donnée dans l Équation 1.3 [Emde et Wettschereck, 1996]. Kk=1 d (I 1,I 2 ) = w k (diff k (I 1,I 2 )) 2 Kk=1 (1.3) w k Les prédicats sont pondérés par des poidsw k pour exprimer leur influence dans le calcul de la similarité. Ces poids sont introduits par un expert dans [Bisson, 1992] et raffinés de façon itérative dans [Emde et Wettschereck, 1996]. La fonction diff k calcule la distance entre deux individus pour le même prédicat. Dans le cas où un prédicat possède plusieurs instanciations (relation un-à-plusieurs) pour un individu, Ribl utilise une mesure de distance entre ensembles (présenté précédemment). Les distances utilisant le formalisme logique combinent des connaissances intrinsèques des entités à comparer (distance sur le domaine des attributs) avec des poids, c est à dire des biais non déclaratifs qui sont ajustés manuellement. Outre le besoin d un expert afin d initialiser les poids des prédicats, les systèmes qui se basent sur genre de distances souffrent des mêmes limites que les systèmes PLI. Plutôt que de comparer syntaxiquement deux exemples, [Sebag, 1997] a proposé de comparer la façon avec laquelle ils se comportent par rapport à un ensemble d hypothèses. Un ensemble d hypothèses (disjonction de formules logiques) est généré à partir des exemples d apprentissage. Ces hypothèses servant comme de nouveaux descripteurs des données permettent d obtenir une représentation attribut-valeur sur laquelle une distance euclidienne classique peut être utilisée Méthodes à noyaux Les méthodes à noyaux ont été proposées pour la première fois dans le contexte des SVM (Support Vector Machine) par [Boser et al., 1992]. Le principe de ces méthodes consiste à transformer l espace initial X de description des exemples en un espace 31

38 Chapitre 1 État de l art de représentation intermédiairef (feature space) dans lequel les exemples sont plus facilement séparables en utilisant une fonction Φ : X F. Plutôt que d utiliser cette transformation non-linéaire Φ, on choisit une fonctionk :X X R appelée fonction noyau telle que : K : X X R K (x,x ) = Φ (x),φ(x ) (1.4) Le noyau représente une généralisation du produit scalaire. Il traduit donc la similarité des exemples dans l espace de représentation intermédiaire. Un avantage important des fonctions noyau est qu elles permettent d utiliser des représentations non-vectorielles, ce qui est utile dans notre cas de données relationnelles ou plus généralement les données structurées dans lesquelles le noyau matérialise une notion de proximité adaptée au problème. Le travail de Haussler sur les Noyaux de Convolution [Haussler, 1999] a été le premier à introduire l idée que des noyaux peuvent être construits pour des données structurées en fonction de noyaux calculés itérativement à partir de parties plus petites composant ces données. Ensuite, plusieurs chercheurs ont proposé de combiner des idées issues de la PLI avec ceux des SVM. [Gärtner, 2003] s est intéressé au développement de noyaux pour les données structurées, notamment les séquences, les arbres, les graphes. [Cuturi, 2006] a proposé une généralisation de ces noyaux qu il a appliqués au domaine bio-informatique. Les noyaux relationnels ont été introduits par [Gärtner et al., 2004] utilisant une représentation logique de premier ordre. Le problème de tous ces noyaux est qu ils sont fixés au préalable et que l apprentissage ne se fait pas directement à partir de la représentation relationnelle. D autres approches effectuent une propositionalisation des données relationnelles avant d appliquer le SVM. La construction de la fonction noyau peut se faire de deux façons : statique et dynamique. Typiquement, la première méthode transforme la représentation relationnelle en une autre représentation sur laquelle on peut définir une fonction noyau. Ensuite, un SVM classique peut être facilement appliqué sur la représentation ainsi générée. [Muggleton et al., 2005] transforment un problème PLI en une description attribut-valeur en calculant plusieurs attributs avant d appliquer le SVM. [Passerini et al., 2006] définissent des fonctions noyaux sur une représentation structurée sous la forme de Proof Trees qu ils construisent à partir des données multi-tables. [Cumby et Roth, 2003b] ont proposé une approche similaire qui repose sur une technique de propositionalisation statique introduite par [Kramer et al., 2001, Cumby et Roth, 2003a]. Cette technique permet de faire une expansion de l espace de description des individus par des propriétés structurelles en utilisant la notion de Feature Description Logic (Fdl). Les données relationnelles sont représentées sous forme de propositions logiques quantifiées qui peuvent être encodées dans des structures de 32

39 1.3 Travaux Majeurs Graphes de Concepts [Khardon et al., 1999]. [Cumby et Roth, 2003b] définissent une famille de fonctions noyaux entre ces graphes pour chaque type de Fdl. Une approche différente de propositionalisation qui peut être qualifiée de dynamique a été proposée dans le système Kfoil par [De Raedt et al., 2006]. L idée est d induire dynamiquement un ensemble de clauses et de les utiliser en tant qu attributs dans une méthode à noyau classique. La génération de ces clauses est guidée par les performances du SVM final. Cette approche peut également rejoindre l idée de construire (apprendre) le noyau à partir des données disponibles [Lanckriet et al., 2004, Ong et al., 2005, Micchelli et Pontil, 2006]. L inconvénient de ces approches est que les modèles générés sont complexes et difficilement interprétables, et qu il est nécessaire de spécifier manuellement d autres informations pour restreindre le nombre d attributs produits dans l étape de propositionalisation et encore pour encoder la fonction noyau Pré-traitement Alors que le prétraitement de variables est au centre des systèmes de fouille de données usuels (mono-table), cette étape a reçu peu d attention dans le cadre de la fouille de données multi-tables. Le prétraitement, y compris la sélection de variables et la discrétisation des variables numériques peuvent non seulement améliorer les performances de classification mais encore réduire l espace de recherche en MRDM. À notre connaissance, peu de travaux dans la littérature se sont confrontés au problème de discrétisation des variables dans le cadre de la fouille de données multitables. Dans ce contexte, les approches de discrétisation diffèrent selon 2 axes : (i) si elles font usage de l étiquette de la classe et (ii) si elles considèrent les relations un-à-plusieurs lors du calcul des points de coupure. Les méthodes de discrétisation en intervalles de largeur égale et de fréquence égale sont non supervisées et calculent les frontières, indépendamment de la structure multi-tables. La première génère k intervalles de taille égale, la seconde discrétise la variable de façon à ce que chaque intervalle ait approximativement le même nombre de valeurs. Pour tenir compte des relations un-à-plusieurs, [Knobbe, 2004] part de l idée que les valeurs numériques d une variable secondaire ne sont pas toutes pertinentes si on veut les comparer à un certain seuil : il suffit de considérer les valeurs minimales et maximales liées à chaque individu. Ainsi, il propose simplement de calculer un histogramme de fréquence égale en considérant seulement le minimum et le maximum des valeurs de la variable secondaire et ceci pour chaque individu. Ceci revient à ajouter dans la table cible les deux variables Min et Max et de les discrétiser comme dans le cas attribut-valeur classique (ce qui produit respectivement deux discrétisations). [Knobbe et Ho, 2005] ont proposé une méthode de discrétisation à intervalles de poids égaux. Ils reprennent l idée proposée par [Van Laer et al., 1997] : les individus reliés à un nombre plus important d enregistrements dans la table secondaire ont 33

40 Chapitre 1 État de l art une influence plus grande sur le choix des frontières de discrétisation puisqu ils y contribuent avec plus de valeurs numériques. Afin de compenser cet impact, les valeurs numériques sont pondérées par l inverse de la taille des sacs d enregistrements auxquels ils appartiennent. Au lieu de produire des intervalles de fréquence égale, les points de coupure sont calculés de telle sorte que des intervalles à poids égal peuvent être obtenus. Toutes les méthodes ci-dessus sont non supervisées car elles n utilisent pas les étiquettes de classe. Afin de prendre en compte à la fois l information de variable cible et l association un-à-plusieurs, [Alfred, 2009] propose une modification de la discrétisation à base d entropie introduite par [Fayyad et Irani, 1993]. Les mesures d entropie sont calculées à partir des tables secondaires en propageant la variable cible vers celles-ci. Dans ce cas, les données ne sont plus i.i.d. (Indépendamment Identiquement Distribuées) puisqu un enregistrement ne représente plus une instance et un individu peut apparaitre plusieurs fois. Outre la discrétisation, la sélection des variables constitue une phase importante dans le processus de préparation des données. Elle consiste à choisir un sous ensemble d attributs selon un certain critère d évaluation. Ceci permet d éliminer les variables redondantes et non pertinentes pour la classification. Par ailleurs, cette réduction de dimension offre une meilleure efficacité surtout au niveau du stockage et de l accès aux données. Plusieurs approches ont été proposées pour la sélection d attributs dans le contexte propositionnel. Elles peuvent être divisées en deux grandes catégories : les méthodes Filtres et Wrappers. Contrairement aux méthodes wrappers, la sélection de variables de type filtre se base sur les caractéristiques générales des données d apprentissage pour sélectionner un sous ensemble d attributs comme une étape de pré-traitement sans faire appel à aucun algorithme d apprentissage. Dans le cadre de la fouille de données multi-tables, seuls quelques travaux se sont confrontés au problème de prétraitement des variables afin d identifier l information prédictive en présence de relation un-à-plusieurs. Certains travaux en PLI effectuent une sélection de prédicats pour réduire l espace de recherche énorme lors de l apprentissage. Pour filtrer les prédicats les plus pertinents, [Alphonse et Matwin, 2004] reformulent d abord la représentation relationnelle initiale en une représentation attribut-valeur par propositionalisation. Ensuite, une sélection d attributs classique de type filtre est appliquée pour choisir un sous-ensemble pertinent de ces attributs ainsi créés. Une correspondance entre les attributs générés lors de la mise à plat et les prédicats initiaux est gardée afin d identifier les prédicats discriminants. Dans cette approche, [Alphonse et Matwin, 2004] se sont limités aux prédicats structurels qui décrivent les tables et les relations entre elles, ce qui revient à sélectionner des tables entières et non pas les variables secondaires pertinentes pour la classification. D autres travaux considèrent directement la représentation relationnelle initiale : [Hu et al., 2008] opèrent simplement en propageant la variable à expliquer vers les tables secondaires. Ensuite, ils calculent le gain d information comme dans le cas mono-table. En propageant la classe ainsi, on risque de sur-apprendre certains individus : ceux ayant plus d enregistrements 34

41 1.4 Conclusion qui leurs sont reliés dans la table secondaire auront plus d importance. [Guo et al., 2007] ont proposé un algorithme pour élaguer le schéma relationnel et identifier les tables qui contiennent l information prédictive par rapport à la classe. Les auteurs partent de l hypothèse que les sous structures (une ou plusieurs tables secondaires) fortement corrélées entre elles contiennent des informations redondantes. Et celles qui présentent une faible corrélation avec la classe sont peu pertinentes. [Guo et al., 2007] définissent une façon de calculer la corrélation, d une part des tables secondaires entre elles, et d autre part, de ces tables avec la variable cible. Pour ce faire, les tables secondaires sont mises à plat et pour évaluer la corrélation entre deux tables par exemple, les auteurs proposent d utiliser une mesure de corrélation multivariée (corrélation entre plusieurs variables) entre les deux ensembles d attributs agrégats correspondants (issus de la propositionalisation de chaque table secondaire). 1.4 Conclusion Dans cette partie nous avons présenté, sans prétention d exhaustivité, un état de l art sur les principales méthodes de fouille de données relationnelles. La littérature a été particulièrement riche dans le cadre de la famille d approches logiques et de leur extension probabiliste afin de prendre en compte le bruit et l incertitude. Outre le problème de passage à l échelle, la majorité de ces méthodes ne s appliquent pas directement sur un format relationnel : elles ont besoin de le transformer au format logique comme celui de Prolog ou Datalog. Elles sont plutôt adaptées à des bases de données de petite taille telles que les bases de molécules [Srinivasan et al., 1996, Džeroski et al., 1998] sur lesquelles elles peuvent assurer de bonnes performances de classification. Des extensions ont été également proposées pour d autres modèles de classification mono-table classiques tels que les arbres de décision, le Bayésien naïf, les méthodes à noyaux et à base de distance. Cependant, le succès de ces extensions reste limité pour différentes raisons. D une part, dans plusieurs cas, la solution se réduit à une simple propositionalisation suivie de l application d un algorithme monotable, même si les auteurs décrivent leur approche comme relationnelle. En outre, les approches proposées sont souvent paramétriques : elles ont besoin de spécifier un nombre important de paramètres ou encore de définir une bibliothèque de fonctions d agrégation. Par ailleurs, la plupart de ces méthodes souffrent de problème de passage à l échelle. Elles sont inefficaces sur des volumes de données importants, ce qui restreint leur utilisation. Dans le reste de ce manuscrit, nous présentons notre approche de fouille de données multi-tables de façon didactique. Nous abordons le problème comme un problème de prétraitement des variables secondaires. Nous nous situons dans un premier temps dans le cadre des variables secondaire binaires. Ensuite, nous généralisons la méthode au cas catégoriel et numérique. Nous considérons enfin le cas multivarié dans lequel nous tenons compte de plusieurs variables secondaires à la fois. 35

42 Chapitre 1 État de l art 36

43 2 Principe de l Approche : Cas d une Variable Secondaire Binaire Sommaire 2.1 Introduction Approche Critère d évaluation Distribution a priori des modèles Vraisemblance des modèles Critère Optimisation de la Grille Bivariée Heuristique gloutonne Complexité Extension du Bayésien naïf Estimation de la Probabilité Conditionnelle Univariée Bayésien Naïf Sélectif Expérimentations Protocole Données artificielles Base de données Stulong Conclusion Ce chapitre a fait l objet de publications : [Lahbib et al., 2011b,Lahbib et al., 2011a] 37

44 Chapitre 2 Principe de l Approche : Cas d une Variable Secondaire Binaire 2.1 Introduction Nous introduisons dans ce chapitre notre approche de prétraitement des variables secondaires pour la classification supervisée de données multi-tables. Pour des raisons didactiques, nous illustrons la méthode dans le cas particulier d une variable secondaire binaire. L approche consiste à résumer l information contenue dans la variable considérée, par une paire d attributs représentant les effectifs des modalités de celle-ci. Des modèles en grilles bivariées sont alors employés pour qualifier l information apportée conjointement par les nouveaux attributs, ce qui revient à une estimation de densité conditionnelle de la variable cible connaissant la variable explicative en relation un-à-plusieurs. La meilleure estimation de densité connaissant les données est obtenue en appliquant une approche Bayésienne de sélection de modèles. Cette approche s appuie sur une distribution a priori des modèles en exploitant la hiérarchie des paramètres de modélisation, ce qui donne un critère d évaluation permettant d évaluer exactement la probabilité qu un modèle explique les données observées. La section 2.2 introduit la méthode de changement de représentation de la variable secondaire binaire. La section 2.3 décrit l approche d estimation de densité conditionnelle pour ce type de variable en proposant le critère d évaluation optimisé en utilisant les algorithmes de la section 2.4. Nous illustrons dans la section 2.5 comment on peut étendre le classifieur Bayésien Naïf pour qu il prenne en compte les variables secondaires binaires. La section 2.6 évalue l utilisation de l estimation de densité conditionnelle de ces variables en classification supervisée, au moyen du classifieur Bayésien Naïf. 2.2 Approche Nous considérons le cas le plus simple, celui d une variable secondaire binaire qui ne peut prendre que deux valeursaetb. Dans ce cas, chaque individu est décrit par un multi-ensemble de valeurs parmiaetb 1. Étant donné un individu, tout ce qu on a besoin de savoir sur la variable secondaire est le nombre d occurrences deaet deb dans la liste d enregistrements reliés à cet individu (nous les notons respectivement n a etn b ). Ainsi, toute l information de la variable initiale est préservée en considérant conjointement le couple (n a,n b ). Cette représentation est bien équivalente puisqu on peut retrouver toute l information initiale. De plus, nous supposons que l ordre des éléments dans la table secondaire n a pas d importance et nous ne considérons qu une seule variable secondaire à la fois 2. Nous soulignons que pour saisir 1. Ceci est différent du cas mono-table, où à chaque individu correspond une seule valeur pour la variable considérée. 2. Il est clair que le lien avec les autres variables secondaires est perdu en considérant uniquement les effectifsn a etn b. En effet, si on sait pour un individu qu il y an a lignes avec la valeura, on ne saurait pas retrouver les valeurs des autres variables secondaires pour ces mêmes lignes. Ce problème 38

45 2.2 Approche ID Y ID1 C1 ID2 C2 IDN C2 ID A ID1 a ID1 b ID1 b ID2 b ID2 a (i) ID n a n b Y ID1 ID2 C1 C2 ID2 b IDN C2 (ii) C1 C2 Figure 2.1: Illustration de l approche d évaluation d une variable secondaire binaire toute l information contenue dans la variable secondaire, il faut prendre en compte conjointement la paire de variables (n a,n b ). Considérer ces deux nouvelles variables indépendamment l une de l autre ne permet pas de saisir toute l information sur la variable initiale : par exemple, l information sur les ratios de chacune des valeurs ( na n a+n b et n b n a+n b ) ainsi que celle sur l effectif total (n a +n b ) seront perdus. Dans le contexte de la classification, on s intéresse à évaluer l information prédictive des variables explicatives vis-à-vis de la variable cible Y. Dans le cas monotable classique, ce problème a été largement étudié dans plusieurs algorithmes classiques d apprentissage supervisé [Guyon et Elisseeff, 2003]. Cependant, il a été peu étudié dans le cadre de la fouille de données multi-tables, à savoir l évaluation de la prédictivité d une variable secondaire. Pour ce faire, une solution consiste à estimer la probabilitép (Y A), ce qui revient à estimerp (Y n a,n b ). Tout le problème se ramène alors à étudier l apport prédictif de deux variables numériques comme dans le cas attribut-valeur classique. Par contre, la différence est que ces deux variables doivent être considérées conjointement. Dans ce manuscrit, nous proposons d utiliser les modèles en grille de données supervisée qui permettent d évaluer la corrélation entre, d une part, une variable cible Y ne se pose pas pour l instant puisque nous ne considérons qu une seule variable secondaire à la fois. Le cas multivarié (plusieurs variables secondaires en même temps) sera traité dans le chapitre 4. 39

46 Chapitre 2 Principe de l Approche : Cas d une Variable Secondaire Binaire CLIENT CID AGE GENRE SALAIRE APPENTENCE DETAILS D APPELS CID TYPE (Fixe/Mobile) DESTINATION (National/International) TYPE_FACTURATION (Forfait/Post-payée/Pré-Payée) JOUR (Jour de la semaine) DURÉE (en minute) HEURE Figure 2.2: Extrait du schéma relationnel d une base de données CRM et d autre part, une ou plusieurs variables explicatives [Boullé, 2011]. Dans notre cas, on se place dans le contexte des grilles bivariées [Boullé, 2007b] puisque nous considérons deux variablesn a etn b. La méthode consiste à discrétiser chacune des deux variables numériquesn a etn b en intervalles. Les individus sont alors partitionnés en une grille de données, dont les cellules sont définies par des paires d intervalles. La distribution de la variable à expliquer dans chaque cellule se déduit à partir du produit cartésien des deux partitions univariées qui répartit les individus sur la grille. La Figure 2.1 illustre la totalité de notre approche dans le cas d une variable secondaire binaire, ainsi qu un exemple d une grille bivariée optimale. C est une représentation interprétable puisqu elle permet de voir la distribution des individus sur la grille en faisant varier conjointement les deux variables : en se déplaçant sur les deux axes, on fait varier les effectifs deaet deb, n b n a+n b ), sur la diagonale opposée à l origine, on fait varier les ratios ( na n a+n b et sur la diagonale passant par l origine, on fait varier l effectif totaln a +n b. La grille est d autant plus fiable qu elle contient plus d individus par cellule, et d autant plus informative que les cellules permettent de bien discriminer les différentes classes. L objectif est de trouver la discrétisation bivariée optimale den a etn b qui maximise la séparation des classes. En d autres termes, nous cherchons la grille optimale avec des cellules homogènes selon les valeurs de la variable cible. Le problème constitue un problème d optimisation qu on résout avec une procédure gloutonne afin d obtenir la meilleure grille à partir des partitionnements bivariés possibles (cf. section 2.4). Pour guider la recherche, nous utilisons un critère d évaluation de type MDL 3 ( voir section 2.3). Exemple 2.1. La Figure 2.2 illustre un extrait du schéma relationnel d une base de données CRM. La table CLIENT est la table cible. Elle est en relation un-à-plusieurs avec la table secondaire DÉTAILS D APPEL. Le problème est, par exemple, de prédire l appétence des clients à un certain produit ou service (variable cible : AP- PÉTENCE). Nous considérons la variable secondaire binaire DESTINATION qui dénote si l appel émis est national ou international (Figure 2.3). En appliquant l approche décrite ici, la grille bivariée optimale correspondante de la Figure 2.4 fournit une évaluation interprétable de la variable secondaire binaire DESTINATION. Les 3. Longueur de Description Minimale. En anglais, Minimum Description Length 40

47 2.3 Critère d évaluation Figure 2.3: Variable secondaire binaire Figure 2.4: Grille bivariée pour l évaluation de la variable secondaire binaire DES- TINATION clients ayant effectué peu d appels nationaux et un grand nombre d appels internationaux sont susceptibles d avoir la valeur «Oui» pour la variable cible APPÉTENCE. 2.3 Critère d évaluation Afin d évaluer une grille bivariée, nous utilisons le critère proposé dans l approche MODL (Minimum Optimised Description Length) appliqué au cas de deux variables numériques [Boullé, 2007b]. Dans cette approche, le problème de partitionnement de deux variables numériques est transposé en un problème de sélection de modèles. Le meilleur modèle (ici, la meilleure grille bivariée) est choisi selon une approche MAP (Maximum a Posteriori), qui consiste à maximiser la probabilité d un modèle connaissant les données P (M odèle Données). En appliquant la formule de Bayes, 41

48 Chapitre 2 Principe de l Approche : Cas d une Variable Secondaire Binaire on obtient : P (Modèle Données) = P (Modèle)P (Données Modèle) P (Données) (2.1) La probabilité des données P (Données) étant constante quelque soit le modèle, le problème se ramène alors trouver le modèle qui maximise le produit du numérateur P (Modèle)P (Données Modèle) parmi la famille de modèles considérés. Définition 2.1. Un modèle de partitionnement bivarié est caractérisé par : le nombre d intervalles pour chaque variable ; les bornes des intervalles ; les distributions de la variable cible par couple d intervalles, spécifiée par les effectifs de chaque classe calculés localement dans la cellule correspondante. Notation 2.1. N : nombre d individus de l échantillon (nombre d enregistrements de la table cible) J : nombre de valeurs de la variable à expliquer (connu) I a,i b : nombre d intervalles de discrétisation respectivement pour les variablesn a etn b N ia.. : nombre d individus de l intervallei a (1 i a I a ) de la variablen a N.ib. : nombre d individus de l intervallei b (1 i b I b ) de la variablen b N iai b. : nombre d individus de la cellule (i a,i b ) N iai b j : nombre d individus de la cellule (i a,i b ) pour la valeur à expliquerj Distribution a priori des modèles La probabilité a priori du modèlep (Modèle) est définie comme la probabilité a priori des paramètres du modèle{i a,i b,{n ia..},{n.ib.},{n iai b j}}. Cette probabilité se décompose en suivant la hiérarchie naturelle de ces paramètres. Définition 2.2. L a priori hiérarchique sur l espace des modèles de discrétisation bivariée est défini de la manière suivante : 1. les nombres d intervalles sont compris entre 1 et N de façon équiprobable indépendamment l un de l autre, 2. pour chacune des deux variablesn a etn b et pour un nombre d intervalles donné, les bornes d intervalles sont équiprobables, 3. dans chaque cellule de la grille, les distributions des valeurs de la variable cible sont équiprobables, 4. les distributions des valeurs de la variable cible sur chaque cellule sont indépendantes entre elles. 42

49 2.3 Critère d évaluation En décomposant la probabilité a priori du modèle (applications successives de la règle de Bayes) en fonction de ses paramètres, l Équation 2.2 donne l expression de P (Modèle) : P (Modèle) = P (I a ) P (I b ) P ({N ia..} I a ) P ({N ib..} I b ) I a I b i a=1i b =1 P ({N iai b j} I a,i b,{n ia..},{n.ib.}) (2.2) Afin de préciser la valeur de chacun des termes de l Équation 2.2, nous utilisons les hypothèses de l a priori hiérarchique en adoptant à chaque niveau une distribution uniforme. Dans la première hypothèse de l a priori hiérarchique, les nombre d intervallesi a et I b sont uniformément distribués entre 1 etn : p (I a ) =p (I b ) = 1 N (2.3) Les nombres d intervalles étant fixés, toutes les subdivisions eni a intervalles sont équiprobables. Le calcul de la probabilité du choix des bornes d une discrétisation ( particulièrep )({N ia..} I a ) n est autre qu un problème de dénombrement. Il y a N +Ia 1 façons pour discrétisern valeurs eni I a 1 a intervalles 4. On effectue le même raisonnement pour la discrétisation de la deuxième variablen b. On obtient dès lors : p ({N ia..} I a ) = 1 ( N +Ia 1 I a 1 ) (2.4) p ({N ib..} I b ) = 1 ( N +Ib 1 I b 1 ) (2.5) Le troisième terme de l a priori indique dans que chaque cellule de la grille, les distributions des valeurs de la variable cible sont équiprobables. Le nombre d affectation dej classes àn iai b. individus dans la cellule (i a,i b ) se dénombre alors par ( ) n 4. La notation représente le coefficient binomial : le nombre de combinaisons de k k éléments parmi n. 43

50 Chapitre 2 ( Niai b. +J 1 J 1 cellule (i a,i b ) : ) Principe de l Approche : Cas d une Variable Secondaire Binaire. Ces paramètres étant équiprobables, on obtient pour chaque p ({N iai b j} I a,i b,{n ia..},{n.ib.}) = 1 ( Niai b. +J 1 J 1 ) (2.6) Les distributions des valeurs de la variable cible sur chaque cellule sont indépendantes entre elles. Le dernier terme peut s écrire alors sous la forme d un produit de probabilités. En remplaçant chaque terme par sa valeur dans l Équation 2.2, on obtient l expression de la probabilité a priori d un modèle : P (Modèle) = 1 1 N N 1 ( N +Ia 1 I a 1 I a ia=1 Ib i b =1 1 ) ( N +Ib 1 I b 1 ( 1 ) Niai b. +J 1 J 1 ) (2.7) Vraisemblance des modèles La vraisemblance dans chaque cellule (i a,i b ) correspond à la probabilité d observer les individus ayant pour effectifsn iai b.connaissant le modèle de distribution de la variable cible défini localement sur cette cellule. Le nombre de répartitions den iai b. individus enj classes dans la cellule (i a,i b ) sous contrainte d affecter exactement N iai b j individus à lajème classe (1 j J) est un problème multinomial. Le nombre de possibilités est quantifié par le coefficient multinomial N iaib.! N iaib 1!N iaib 2!...N iaib J!. Ces observations étant supposées équiprobables, on obtient la vraisemblance dans chaque cellule : 1 N iaib.! N iaib 1!N iaib 2!...N iaib J! (2.8) En exploitant de nouveau l indépendance des distributions entre les cellules, la vraisemblance des données sachant le modèle est égale à : P (Données Modèle) = I a I b i a=1i b =1 1 N iaib.! N iaib 1!N iaib 2!...N iaib J! (2.9) 44

51 2.3 Critère d évaluation Critère En remplaçant les probabilités d a priori et de vraisemblance par leurs expressions respectives (Équation 2.2 et Équation 2.9) et en passant au log négatif (Équation 2.10.a), le critère d évaluation d un partitionnement bivarié supervisé de deux variables numériquesn a etn b est donné par l Équation 2.10.b. C = logp(modèle) logp(données Modèle) (2.10.a) C = logn ( + logn ) ( N +Ia 1 N +Ib 1 + log + log I a 1 I b 1 ( ) I a I b Niai + log b. +J 1 J 1 + i a=1i b =1 I a I b i a=1i b =1 log N iai b.! N iai b 1!N iai b 2!...N iai b J! ) (2.10.b) Les cinq premiers termes représentent la probabilité a priori du modèle : le choix du nombre de partitions, des bornes des intervalles, et de la distribution de la variable à expliquer dans chaque cellule de la grille. Le dernier terme correspond à la vraisemblance, c est à dire la probabilité d observer les classes connaissant le modèle de partitionnement bivarié supervisé. Le critère de l Équation 2.10.b peut être interprété comme la capacité d une grille de données à encoder les classes cibles sachant la variable secondaire, puisque le log négatif de probabilités n est autre qu une longueur de codage [Shannon, 1948]. Le coûtc (Modèle ) de la meilleure grille bivariée peut s interpréter comme la probabilité que la variable secondaire binaire explique la variable cible sur la base de la transformation de la représentation équivalente et du modèle de discrétisation bivariée correspondant. En se basant sur cette formule, on peut définir une mesure normaliséeg (Modèle) de l importance d une variable en considérant le modèle nul, notémodèle, où la grille se réduit à une seule cellule. Le coûtc (Modèle ) du modèle nul représente la longueur de codage des valeurs à expliquer quand aucune information explicative n est utilisée G (Modèle) = 1 C (Modèle) C (Modèle ) (2.11) G (M odèle) peut s interpréter comme un taux de compression qui prend des valeurs comprises entre 0 et 1. Cet indicateur vaut 0 pour une variable non informative et 45

52 Chapitre 2 Principe de l Approche : Cas d une Variable Secondaire Binaire il est maximal pour le modèle optimal, c est-à-dire pour la grille bivariée la plus probable conditionnellement aux données. Il ne peut atteindre asymptotiquement la valeur 1 que dans le cas de valeurs cibles parfaitement séparables par un modèle en grille de données, ce qui correspond à une variable secondaire expliquant parfaitement la variable cible. L indicateur de pertinence ainsi défini peut être utilisé comme un critère de type filtre pour la sélection des variables secondaires binaires [Guyon et Elisseeff, 2003]. 2.4 Optimisation de la Grille Bivariée Rappelons que notre objectif est de trouver la meilleure séparation des valeurs cibles en considérant seulement une variable secondaire binaire. Ceci revient en utilisant la représentation équivalente (la paire de variable (n a,n b )) à trouver la grille bivariée optimale avec un compromis entre la précision (cellules homogènes) et la complexité de la grille (nombre de cellules de la grille). Pour optimiser une grille bivariée, nous reprenons les algorithmes proposés par [Boullé, 2007a]. La procédure d optimisation globale se base sur la méta-heuristique de recherche à voisinage variable VNS (Variable Neighborhood Search) [Hansen et Mladenović, 2001]. Cette procédure effectue plusieurs itérations d optimisations gloutonnes élémentaires afin de mieux explorer l espace de recherche. Dans chaque itération, l heuristique gloutonne de l Algorithme 2.1 est utilisée pour optimiser une grille candidate. Dans la procédure globale, pour une grille courante donnée, une nouvelle grille candidate est générée aléatoirement dans un voisinage de la grille courante. La grille candidate est optimisée via l Algorithme 2.1. Cette dernière devient la grille courante s il y a amélioration. Ensuite, on recommence avec une nouvelle grille candidate dans un voisinage de même taille s il y a eu amélioration. La procédure est réitérée jusqu à atteindre une taille maximum de voisinage. Les voisinages envisagés sont basés sur des combinaisons de découpages ou de fusions d intervalles adjacents des variablesn a etn b qui définissent la grille bivariée. L exploration systématique de ce voisinage constitue une étape de post-optimisation locale après chaque optimisation d une grille candidate. Elle permet d échapper à une gamme importante d optimums locaux et d améliorer la qualité de la partition obtenue Heuristique gloutonne Dans chaque itération de la procédure d optimisation globale décrite ci-dessus, l heuristique gloutonne ascendante de l Algorithme 2.1 est utilisée afin d optimiser chaque 46

53 2.4 Optimisation de la Grille Bivariée Algorithme 2.1 : Heuristique d optimisation gloutonne d une grille bivaiée Entrées : M : Grille bivariée initiale, Sortie :M : Grille finale optimisée Pré-condition :C (M ) C (M) M M ; Tant que amélioration faire /* Recherche de la meilleure amélioration */ M + M ; Pour tout variablex {n a,n b } faire Pour tout fusion m entre deux intervalles adjacents de X faire /* Evaluation de l impact de la fusionmsur la grillem */ M M +m ; SiC ( M ) C (M + ) Alors M + M ; Fin si Fin pour Fin pour /* Test d amélioration */ SiC (M + ) C (M ) Alors M M + ; Fin si Fin tant que grille bivariée candidate. Cette heuristique part d une grille initiale basée sur le produit cartésien des discrétisations univariées den a etn b. Ensuite elle recherche itérativement les meilleures fusions d intervalles pour chacune des variablesn a etn b. Pour ce faire, les optimisations partielles des variablesn a etn b sont alternées en évaluant toutes les fusions possibles entre intervalles adjacents. La meilleure fusion est effectuée si elle améliore le coût de la grille correspondante, et l algorithme est réitéré tant qu il y a amélioration du coût Complexité Le critère de l Équation 2.10.b est utilisé pour évaluer chaque grille intermédiaire lors de l optimisation. En exploitant l additivité de ce critère, la complexité globale de l algorithme est eno ( JN 3 /2 log (N) ) [Boullé, 2007b]. Avant l optimisation de la grille, une passe préalable de lecture de la base de données est nécessaire afin de collecter les comptesn a etn b par individu. Ce calcul se fait eno (N s ) oùn s dénote le nombre d enregistrements de la table secondaire. 47

54 Chapitre 2 Principe de l Approche : Cas d une Variable Secondaire Binaire 2.5 Extension du Bayésien naïf Le classifieur Bayésien est une technique très simple qui ne nécessite aucun paramétrage. La fonction de classification du classifieur Bayésien affecte à chaque individu X = (X 1,X 2,,X K ) la valeur de la variable cible qui maximise la probabilité conditionnelle P (Y X), c est-à-dire, la classe la plus probable étant données les valeurs des variables descriptives (X 1,X 2,,X K ) : f (X) = arg max c P (Y =c X) = arg max c P (Y =c X 1,X 2,,X K ) (2.12) Le classifieur Bayésien Naïf effectue l hypothèse d indépendance des variables descriptives (X i ) conditionnellement à la variable cible [Langley et al., 1992]. L estimation de la distribution de probabilité conditionnelle est décomposée en une estimation univariée dep(x i Y ) : P (Y X) = P (Y )P (X 1,X 2,,X K Y ) P (X) = P (Y ) K i=1 P (X i Y ) P (X) (2.13) La formulation ci-dessus du classifieur Bayésien Naïf se limite clairement à la représentation Attribut-Valeur. Afin de prendre en compte les données multi-tables, en particulier les variables secondaires, une extension est nécessaire. L idée est de supposer que les variables secondaires sont indépendantes conditionnellement à la variable cible, et ensuite d estimer les probabilités conditionnellesp (X i Y ) dans le cas où lesx i sont des variables secondaires Estimation de la Probabilité Conditionnelle Univariée Dans le cas oùx i est une variable secondaire binaire, évaluerp (X i Y ) revient à estimerp (n a,n b Y ). On se ramène alors à estimer la densité de la variable cible conditionnellement à une paire de variables explicatives considérées conjointement. La grille bivariée optimale correspondant à la discrétisation de la paire de variables (n a,n b ) fournit une table de contingence entre les cellules et les valeurs de la variable cible. Cette table de contingence est utilisée pour estimer la probabilité conditionnelle par simple comptage localement à chaque cellule. Plus explicitement, si pour un individu en test, la cellule correspondante est (i a,i b ), et si en plusn j représente le nombre d individus ayant pour classej,p (X i Y ) peut être estimée comme suit : P (X i Y ) =P(X i = (n a,n b ) Y =j) = P (X i=(n a,n b ),Y =j) P (Y =j) = N iai b j N j (2.14) 48

55 2.5 Extension du Bayésien naïf Figure 2.5: Exemple de grille bivariée optimale et tableau de contingence correspondant. avecn iai b j dénote le nombre d individus de la cellule (i a,i b ) pour la valeur à expliquer j. Exemple 2.2. La Figure 2.5 donne un exemple de ce qu on pourrait obtenir comme grille optimale et la table de contingence correspondante pour le problème de classification de l Exemple 2.1. En procédant ainsi, on est capable d estimer la distribution de probabilité conditionnelle dans le cas d une variable secondaire binaire. Ces variables peuvent alors être prises en compte dans un classifieur Bayésien Naïf au même niveau que d autres variables secondaires ou encore des variables descriptives de la table cible (en appliquant l Équation 2.13) Bayésien Naïf Sélectif Comme indiqué dans la section 2.2, nous nous limitons ici au cas du traitement univarié des variables secondaires. Chaque variable secondaire est considérée indépendamment des autres variables (autres variables secondaires ou bien celles de la table cible). Cependant, dans des données réelles, des corrélations peuvent exister entre les variables explicatives. Dans ce cas, l hypothèse naïve d indépendance n est pas respectée, ce qui peut dégrader les performances prédictives. Dans le cas des données monotables, [Boullé, 2007a] a proposé le Bayésien Naïf Sélectif Moyenné (BNS), une amélioration du classifieur Bayésien Naïf. L apport du BNS est à deux niveaux : Il effectue une sélection d un sous-ensemble de variables compatibles avec l hypothèse Bayésienne naïve. Ce problème est formulé comme un problème de sélection de modèles, et résolu selon une approche MAP (Maximum A Posteriori). L algorithme de recherche du meilleur sous-ensemble de variables est effectué en alternant des passes d ajout et de suppression sur des listes de variables ordonnées 49

56 Chapitre 2 Principe de l Approche : Cas d une Variable Secondaire Binaire aléatoirement. Chaque sous-ensemble est évalué via un critère régularisé qui assure un compromis entre le nombre de variables sélectionnées et les performances du classifieur (Bayésien Naïf). Le BNS effectue un moyennage des modèles Bayésien Naïfs issus de plusieurs sélections de variables. Ce moyennage est équivalent à un schéma de pondération sur les variables, ce qui finalement produit un prédicteur Bayésien Naïf avec une sélection «douce» de variables avec des poids appartenant à l intervalle [0; 1]. 2.6 Expérimentations Cette section évalue notre approche dans le cas d une variable secondaire binaire. Nous utilisons des données réelles et artificielles. L utilisation des jeux de données artificielles permet de contrôler la relation entre la variable secondaire et la variable cible Protocole Le pouvoir prédictif intrinsèque d une variable secondaire binaire est évalué en utilisant un classifieur univarié basé sur cette seule variable. Pour chaque variable secondaire, nous appliquons l approche décrite dans la section 2.2 afin d obtenir la grille bivariée optimale correspondante. Nous utilisons comme classifieur le Bayésien Naïf décrit dans la section 2.5 qui exploite les estimations de densité conditionnelle fournies par cette grille construite au cours de l étape d apprentissage. La pertinence d une variable secondaire est évaluée en utilisant la mesure de précision et l aire sous la courbe ROC (AUC) [Fawcett, 2003] du classificateur correspondant. Nous présentons également la taille de la grille optimale qui donne une idée de la complexité du motif sous-jacent dans la variable secondaire. Pour toutes les expériences, nous utilisons une validation croisée stratifiée d ordre Données artificielles Les bases de données artificielles possèdent une structure relationnelle constituée de deux tables : une table cible en relation un-à-plusieurs avec une table secondaire qui contient une seule variable binaire. Le générateur de données prend comme paramètres le nombre d individus (enregistrements de la table cible) et le nombre maximum d enregistrements liés à chaque individu dans la table secondaire. Les enregistrements secondaires sont uniformément distribués entre les valeurs «a» et «b». La valeur de la cible (binaire) est générée selon un motif contrôlé dans la variable secondaire. 50

57 2.6 Expérimentations n b 60 n b n a n a (a) Motif Aléatoire (b) Motif Effectifs n b 60 n b n a n a (c) Motifs Proportions (d) Motif Complexe Figure 2.6: Motifs et diagrammes de dispersion des bases de données artificielles générées La Figure 2.6 représente les diagrammes de dispersion des bases de données générées ainsi que les motifs correspondants (pour chaque individu, le nombre d enregistrements est uniformément choisi dans [0; 100]). Ces bases de données sont construites de la façon suivante : Dans le motif Aléatoire (Figure 2.6a),n a etn b sont fixés selon une distribution uniforme, telle que la sommen a +n b est égale à 100. La classe est attribuée aux individus de façon aléatoire, indépendamment den a et den b. Ce motif permet d évaluer la robustesse de l approche en vérifiant si elle permet de détecter l absence d information. Dans le motif basé sur les Effectifs (Figure 2.6b), sin a est supérieur à un certain seuil (ici, 50) alors la classe est 1, et 0 sinon. n Dans le motif basé sur les Proportions (Figure 2.6c), si le ratio a n a+n b est supérieur à 0.5 alors la classe est 1, et 0 sinon. Dans le motif Complexe (Figure 2.6d), si (n a M 1 ) 2 + (n b M 2 ) 2 R alors la classe est 1 avec un bruit de 5%, et 0 sinon (5% de bruit). Ici,M 1,M 2 etrsont des seuils tels quem 1 =M 2 = 50 etr = 0.5. Il est à noter que dans le cas de ce motif, la précision théorique est de 95%, à cause de l existence de bruit (5%). La Figure 2.7 illustre les résultats de la classification pour les 4 bases de données artificielles avec différents nombres d individus dans la base. Dans un premier temps, les résultats montrent que la méthode peut facilement détecter un motif totalement 51

58 Chapitre 2 Principe de l Approche : Cas d une Variable Secondaire Binaire Précision en Test Aléatoire Effectifs Proportions Motif complexe Nombre d Individus (a) Précision en fonction du nombre d individus Taille de la grille (Nombre de cellules) Aléatoire Effectifs Proportions Motif complexe Nombre d Individus (b) Taille de la grille (nombre de cellules) bivariée optimale en fonction du nombre d individus Figure 2.7: Résultats obtenus sur les données artificielles de la Figure 2.6 aléatoire. L absence d information prédictive dans la grille de données est matérialisée par une discrétisation bivariée en une seule cellule (Figure 2.7b) et une précision en test d environ 50%. La méthode permet également de détecter des motifs complexes. La Figure 2.7a montre que les performances en classification s améliorent avec le nombre d individus dans la base de données. Avec suffisamment d individus, la précision atteint les performances théoriques. La taille de la grille varie en fonction de la complexité du motif bivarié : pour un schéma assez simple, basé sur les effectifs, la grille est toujours composée de deux cellules. Pour des motifs plus complexes, la taille de la grille augmente avec le nombre des individus, ce qui permet d approximer finement le motif. À titre illustratif, quelques exemples de grilles de données optimales sont présentés dans la Figure 2.8 le partitionnement bivarié obtenu sur la base de données de la Figure 2.6d avec respectivement 10 3, 10 4 et 10 5 individus. Les figures représentent la distribution de probabilité de la variable ciblep(y n a,n b ) dans chaque cellule. Les grilles résultantes montrent que plus il y a d individus dans la base de données, plus notre approche est capable de reconnaître le motif. 52

59 2.6 Expérimentations (a) 10 3 Individus (b) 10 4 Individus (c) 10 5 Individus Figure 2.8: Exemples de grilles bivariées obtenues avec les données du motif complexe de la Figure 2.6 pour différents nombres d individus Base de données Stulong Stulong 5 [Tomečková et al., 2002] est une base de données médicale recueillie lors d une étude longitudinale de 20 ans sur les facteurs de risque d athérosclérose 6 dans une population de hommes d âge moyen. Dans cette base de données, nous nous intéressons en particulier aux tables Entry et Control. Dans la table Entry, la table cible, les variables décrivent les propriétés des patients. Parmi ces variables, certaines peuvent être considérées comme variables cibles. Les autres ne nous concernent pas parce que nous nous concentrons sur celles qui se trouvent dans les tables secondaires, à savoir celles de la table Control. Cette table contient 66 variables décrivant tests effectués sur les patients durant la vingtaine 5. The study (STULONG) was realized at the 2 nd Department of Medicine, 1 st Faculty of Medicine of Charles University and Charles University Hospital, U nemocnice 2, Prague 2 (head. Prof. M. Aschermann, MD, SDr, FESC), under the supervision of Prof. F. Boudík, MD, ScD, with collaboration of M. Tomečková, MD, PhD and Ass. Prof. J. Bultas, MD, PhD. The data were transferred to the electronic form by the European Centre of Medical Informatics, Statistics and Epidemiology of Charles University and Academy of Sciences (head. Prof. RNDr. J. Zvárová, DrSc). The data resource is on the web pages At present time the data analysis is supported by the grant of the Ministry of Education CR Nr LN 00B L athérosclérose est une maladie cardio-vasculaire due à l accumulation progressive de matières grasses sur la paroi interne des artères. 53

60 Chapitre 2 Principe de l Approche : Cas d une Variable Secondaire Binaire Table Cible ENTRY PID GROUP KOURRISK HTRISK CHOLRISK CONTROL PID ZMTELAKT ZMDIET LEKCHOL ZMKOUR... Figure 2.9: Extrait du schéma relationnel de la base de données Stulong d années de l étude. La Figure 2.9 illustre un extrait du schéma relationnel de la base de données Stulong 7. Étant donné que dans ce chapitre nous nous intéressons aux variables secondaires binaires, les variables catégorielles sont binarisées. Le but de l expérience est de trouver les variables secondaires les plus pertinentes pour prédire les différentes variables cibles. Les résultats expérimentaux obtenus sur la base de données Stulong sont présentés dans le Tableau 2.1. Nous présentons pour chaque variable cible les cinq variables secondaires les plus pertinentes. Les résultats montrent que, même par binarisation des variables catégorielles, il est possible d identifier celles qui présentent une corrélation forte avec la variable cible. Même en utilisant une seule variable binaire secondaire, notre approche permet d obtenir de bonnes performances en termes de précision et d AUC. Le Tableau 2.2 montre des corrélations trouvées entre les différentes variables cibles étudiées et certaines variables secondaires de la table Control. Une variable secondaire est considérée en corrélation avec la variable cible si elle présente une corrélation avec au moins une des variables binarisées correspondantes. Prenons par exemple la variable secondaire binaire HYPERSD qui dénote pour chaque examen si le patient présente une HYPERtension Systolique/Diastolique. Cette variable est pertinente pour prédire la valeur de la variable cible HTRISK (qui indique si le patient présente un risque de pression artérielle élevée). La binarisation de la variable HYPERSD génère deux variables : NB1 (le nombre d examens avec une HYPERSD positive) et NB0 (le nombre d examens avec une HYPERSD négative). La Figure 2.10 montre la répartition des patients dans l espace bivarié NB1 NB0. La discrétisation bivariée optimale des deux variables NB1 et NB0 est représentée sur le diagramme de dispersion. La grille de données correspondante peut séparer les deux classes (une pression artérielle normale et élevée), avec une précision en test de 83, 2% et un taux d AUC de 78%. 7. Une description de toutes les variables peut être trouvée sur challenge2004/data/index.html 54

61 2.6 Expérimentations Variable cible Variable test acc. (%) test AUC (%) Taille grille GROUP (0,69) HTRISK (0,73) KOURRISK (0,55) HODNSK (B2) 88,7 (±2, 1) 88,6 (±2, 9) 4 HODNSK (B1) 82,4 (±2, 7) 84,3 (±3, 7) 6,6 ZMKOUR (B0) 80,3 (±2, 7) 84,2 (±3, 3) 6 HODNSK (B0) 82,9 (±2, 6) 83,4 (±3, 4) 6,2 ZMKOUR (B1) 81,4 (±2, 9) 82,5 (±3, 0) 4 LEKTLAK (B0) 81,2 (±1, 9) 79,1 (±3, 2) 6 HYPERSD 83,2 (±1, 6) 78,0 (±3, 8) 4 LEKTLAK (B2) 76,3 (±1, 4) 71,9 (±2, 7) 6 LEKTLAK (B4) 77,7 (±1, 6) 68,7 (±3, 1) 4 HYPCHL 74,0 (±1, 6) 65,7 (±2, 8) 6 ZMKOUR (B0) 81,3 (±4, 2) 85,0 (±4, 2) 6 HODNSK (B2) 71,9 (±3, 6) 79,0 (±3, 8) 6 ZMKOUR (B2) 75,1 (±5, 3) 78,5 (±5, 1) 6 ZMKOUR (B3) 70,3 (±4, 9) 74,1 (±4, 5) 6 HODNSK (B1) 65,0 (±2, 9) 72,4 (±3, 0) 6 CHOLRISK (0,72) HYPCHL 83,5 (±3, 1) 79,2 (±4, 3) 4 ZMDIET (B0) 72,8 (±0, 3) 63,1 (±4, 9) 4 HODNSK (B2) 72,8 (±0, 3) 62,1 (±2, 7) 4 JINAONE (B1) 72,8 (±0, 3) 60,4 (±3, 7) 4 HYPTGL 72,8 (±0, 3) 59,9 (±3, 6) 4 Pourcentage de la classe majoritaire La notation (Bi) i 0 denote une variable binarisée. Par exemple, si HODNSK possède 3 modalités alors la binarisation genère 3 attributs : HODNSK(B0), HODNSK(B1) and HODNSK(B2) ces variables sont initialement binaires Table 2.1: Exemples de variables secondaires pertinentes pour la prédication de quelques variables cibles dans la base de données Stulong Var. Cible Var. Sec. Atherosclerosis (GROUP) risque Hypertension (HTRISK) risque Tabac (KOURRISK) risque Cholesterol (CHOLRISK) Hypertension Systolique and Diastolique (HYPERSD) Hypercholesterolemie CHL) Hypertriglyceridemie (HYPTGL) (HYP- Changement consommation tabac (ZMKOUR) Changement diète (ZMDIET) Changement activité physique (ZMTELAKT) Traitement diminution de la pression artérielle (LEKTLAK) Diagnostique (HODNSK) Table 2.2: Exemples de corrélations trouvées dans la base de données Stulong entre variables secondaires et variables cibles 55

62 Chapitre 2 Principe de l Approche : Cas d une Variable Secondaire Binaire 18 Hypertension Normal NB NB0 Figure 2.10: Nuage de points construit à partir de la binarisation de la variable secondaire HYPERSD (HTRISK comme variable cible). La partition bivariée optimale est représentée sur le diagramme de dispersion. Le tableau à droite résume les fréquences des valeurs de la variable cible par cellule. Par exemple, pour la cellule en haut à gauche, si le nombre d examens avec une HYPERSD négative vaut au maximum 1, et si le nombre d examens avec une HYPERSD positive est supérieur à 2 (97 patients sont concernés), alors, le risque d hypertension est de 90% 2.7 Conclusion Nous avons introduit dans ce chapitre une approche pour évaluer la pertinence d une variable secondaire binaire dans le contexte de l apprentissage supervisé à partir des données relationnelles. La méthode consiste à changer la représentation relationnelle initiale en une représentation attribut-valeur équivalente en créant une paire d attributs. Ces derniers représentent les effectifs des valeurs de la variable initiale par individu dans la table secondaire. Un modèle de discrétisation en intervalles de chacun de ces nouveaux attributs est alors généré, ce qui induit une partition bivariée. Cette partition permet de qualifier l information apportée conjointement par ces deux attributs sur la variable cible. Elle donne également une estimation de la densité conditionnelle de la variable cible connaissant la variable secondaire initiale, ce qui permet de prendre en compte la variable secondaire dans un classifieur Bayésien Naïf. Un critère d évaluation est proposé dans le cas d une variable secondaire binaire pour évaluer chaque partition bivariée au moyen d une approche Bayésienne. Nous avons évalué l approche sur des bases de données artificielles et réelles. Les premiers résultats sur des variables explicatives binaires montrent que le critère d évaluation permet de sélectionner des variables fortement informatives et de détecter des motifs complexes dans ces variables. Dans le prochain chapitre, nous généralisons l approche dans le cas des variables secondaires catégorielles et numériques. 56

63 3 Extension aux Variables Secondaires Catégorielles et Numériques Sommaire 3.1 Introduction Variable catégorielle avec peu de valeurs Approche Critère Algorithme d optimisation Variable catégorielle avec groupement de valeurs Critère Optimisation Variable Secondaire Numérique Approche Critère Algorithme d optimisation Expérimentations Jeux de données Résultats Données synthétiques Données Réelles Conclusion Une partie de ce chapitre a fait l objet de publications : [Lahbib et al., 2012b,Lahbib et al., 2013] 57

64 Chapitre 3 Extension aux Variables Secondaires Catégorielles et Numériques 3.1 Introduction Dans ce chapitre, nous nous intéressons aux variables numériques et catégorielles situées dans une table secondaire en relation un-à-plusieurs avec la table cible. Nous étendons progressivement l approche proposée dans le chapitre 2 dans le cas d une variable secondaire binaire. Nous proposons de partitionner la variable secondaire par groupement de valeurs si celle-ci est catégorielle et par discrétisation si elle est numérique. L idée est de projeter dans la table cible l information contenue dans chaque variable secondaire à l aide d un vecteur d attributs (un attribut par intervalle ou groupe de partitionnement). Chaque attribut représente le nombre de valeurs de la variable secondaire appartenant à l intervalle (respectivement, au groupe) correspondant. Ces attributs d effectifs sont conjointement partitionnés à l aide de modèles en grille de données multivariées afin d obtenir une meilleure séparation des valeurs de la classe. Nous suivons la même approche Bayésienne de modélisation du chapitre 2 afin de proposer un critère qui évalue les partitionnements candidats pour les variables numériques et catégorielles. Nous introduisons des algorithmes d optimisation simples qui permettent d explorer l espace de partitionnement et de retenir une bonne solution vis-à-vis du critère proposé. Le reste de ce chapitre est organisé comme suit : la section 3.2 décrit l approche dans le cas d une variable secondaire catégorielle avec peu de valeurs. La section 3.3 généralise ensuite la méthode aux variables catégorielles avec un nombre important de valeurs en ajoutant le partitionnement en groupes de valeurs dans la modélisation. De façon similaire, nous considérons les variables numériques dans la section 3.4. Dans la section 3.5 nous évaluons la méthode sur des jeux de données artificielles et réelles dans le cas des variables numériques. 3.2 Variable catégorielle avec peu de valeurs Dans le cas d une variable secondaire binairea(avec deux valeursaetb), nous avons montré que toute l information contenue dans cette variable est résumée dans la paire d attributs (n a,n b ). À l aide de cette nouvelle représentation, nous avons proposé d utiliser les modèles en grille de données bivariées afin d estimer la probabilité conditionnellep(y A). Dans cette partie, nous généralisons cette approche au cas des variables secondaires catégorielles. Une variable secondaire catégorielle est une variable d une table secondaire qui produit des valeurs non numériques. À chaque enregistrement secondaire, elle attribue une étiquette ou une modalité. Comme dans le cas binaire, nous considérons que l ordre des modalités n a pas de sens, et que notre analyse ne dépend pas de cet ordre. 58

65 3.2 Variable catégorielle avec peu de valeurs Approche Ici, nous considérons le cas où la variable explicative secondaire A est une variable catégorielle qui peut prendre un ensemble de valeursv (A) ={v 1,v 2,...,v V } oùv est le nombre de modalités. Par analogie à une variable binaire, pour obtenir une représentation plus compacte, on peut créer autant de nouveaux attributs dans la table cible que de valeurv k. Notons parn k (1 k V ) les nouveaux attributs. Pour chaque individu,n k correspond au nombre de fois la valeurv k est apparue dans le sac de lignes reliées à cet individu dans la table secondaire. En utilisant la nouvelle représentation, l estimation de la probabilité conditionnelle P (Y A) se ramène alors à estimer la probabilitép(y (n 1,n 2,,n V )). Pour ce faire, comme dans le cas binaire, nous utilisons les modèles en grilles de données. Cette fois, au lieu d avoir des grilles bivariées, nous considérons des grilles multivariées supervisées [Boullé, 2011]. Les modèles en grille de données multivariées sont des estimateurs non paramétriques de la probabilité conditionnelle de la classe sachant un ensemble de variables explicatives [Boullé, 2011]. Il s agit d une généralisation du cas bivarié : l idée est de discrétiser conjointement les variables numériquesn k (1 k V ) en intervalles. Ce partitionnement multivarié définit une distribution des instances dans une grille de données à V -dimensions dont les cellules sont définies par des n-uplets d intervalles. Par conséquent, notre objectif est de trouver la discrétisation multivariée optimale qui maximise la séparation des classes. En d autres termes, nous cherchons la grille optimale avec des cellules homogènes selon les valeurs de la variable cible. Exemple 3.1. Considérons la variable secondaire TYPE_FACTURATION de la base de données de la Figure 3.1 (cf. Figure 3.2). Cette variable secondaire est catégorielle et possède 3 modalités (Forfait/Post-payée/Pré-payée). En appliquant notre approche dans le cas catégoriel, nous créons 3 variables dans la table cible (n Forfait, n Post payée etn Pré payée ) qui représentent respectivement pour chaque client, le nombre d appels effectués depuis une ligne à forfait, une ligne post-payée et une ligne Pré-payée. La Figure 3.3 illustre un exemple de la grille multivariée correspondante (3 dimensions, puisque nous avons 3 modalités), qui permet d évaluer la probabilitép ( APPÉTENCE TYPE_FACTURATION). Dans le reste de ce chapitre, nous utilisons la même approche que dans le cas d une variable secondaire binaire : une famille de modèles de partitionnement multivarié des variablesn k (1 k V ) est d abord introduite ; ensuite, le meilleur modèle (meilleure grille) est choisi au moyen d une approche Bayésienne. Nous définissons un critère pour estimer la densité de probabilité conditionnelle d une variable secondaire catégorielle ainsi que la procédure utilisée afin d optimiser les grilles multivariées correspondantes. 59

66 Chapitre 3 Extension aux Variables Secondaires Catégorielles et Numériques CLIENT CID AGE GENRE SALAIRE APPENTENCE DETAILS D APPELS CID TYPE (Fixe/Mobile) DESTINATION (National/International) TYPE_FACTURATION (Forfait/Post-payée/Pré-Payée) JOUR (Jour de la semaine) DURÉE (en minute) HEURE Figure 3.1: Extrait du schéma relationnel d une base de données CRM Figure 3.2: Exemple de variable secondaire catégorielle : TYPE_FACTURATION Critère Dans une grille multivariée, chaque variable explicativen k numérique est partitionnée en intervalles. Les dimensions de la grille dépendent de la taille des partitions. Le peuplement de la grille se fait en distribuant les individus sur les intervalles des variables explicatives. Les modèles de partitionnement multivarié supervisé suivent la même approche que les grilles bivariées. Pour décrire de tels modèles, nous utilisons les notations suivantes : Notation 3.1. N : nombre d individus de l échantillon (nombre d enregistrements de la table cible) J : nombre de valeurs de la variable cible V : nombre de modalités de la variable secondaire catégorielle I k : nombre d intervalles pour la discrétisation de la variablen k (1 k V ) N ik : nombre de valeurs de la variablen k dans l intervalle de discrétisationi k N i1 i 2...i V : nombre d individus de la cellule (i 1,i 2,...,i V ) N i1 i 2...i V j : nombre d individus de la cellule (i 1,i 2,...,i V ) pour la valeur à expliquer j En utilisant les notations ci-dessus, un modèle est complètement défini par les paramètres{{i k },{N ik },{N i1 i 2...i V j}}. Une distribution a priorip(modèle) est définie sur cet espace de modèles. Elle exploite la hiérarchie naturelle de ces paramètres : 60

67 3.2 Variable catégorielle avec peu de valeurs Figure 3.3: Exemple de grille multivariée pour l évaluation de la variable secondaire TYPE_FACTURATION le nombre d intervalles de chaque variablen k, leurs bornes et finalement les effectifs de la variable cible dans chaque cellule. À chaque niveau de cette hiérarchie le choix est supposé être uniforme. Pour le terme de vraisemblance P(Données M odèle), on suppose en outre que les distributions multinomiales des valeurs cibles dans chaque cellule sont indépendantes les unes des autres. En passant au log négatif de P(M odèle)p(données M odèle), le critère d optimisation est donné ci-dessous. Le critère d évaluation d une grille multivariée à V variables numériques est donné 61

68 Chapitre 3 Extension aux Variables Secondaires Catégorielles et Numériques dans l Équation 3.1 : ( ) V V N +Ik 1 logn + log I k=1 k=1 k 1 ( ) I 1 I 2 I V Ni1 i + log 2...i V +J 1 i 1 =1i 2 J 1 =1 i V =1 I 1 I 2 I V J + logn i1 i 2...i V! logn i1 i 2...i V j! i 1 =1i 2 =1 i V =1 j=1 (3.1) C est une généralisation du cas bivarié. La première ligne correspond au choix des partitions (nombre et bornes d intervalles) de chacune des variables explicatives. La somme sur toutes les variables explicatives provient de l hypothèse que celles-ci sont partitionnées de façon indépendante l une de l autre. La deuxième ligne correspond au choix de la distribution des valeurs de la classe dans chaque cellule de la grille multivariée. La dernière ligne représente la vraisemblance d observer les valeurs à expliquer étant donné le modèle de partitionnement multivarié Algorithme d optimisation Afin d optimiser les grilles multivariées, nous utilisons des généralisations des algorithmes de la section 2.4 [Boullé, 2011]. L heuristique gloutonne de l algorithme 2.1 se généralise au cas multivarié. Celle-ci, en partant d une grille élémentaire, procède en itérant les optimisations partielles par variablen k (en fusionnant les intervalles adjacents). La meilleure grille est celle qui donne le meilleur coût. L algorithme 3.1 donne un pseudo-code de l heuristique gloutonne dans le cas multivarié. La complexité en temps de calcul de la procédure gloutonne d optimisation des grilles multivariées est deo (V 2 N logn) [Boullé, 2011]. 3.3 Variable catégorielle avec groupement de valeurs Comme nous l avons décrit dans la section précédente, dans le cas d une variable secondaire catégorielle A, notre approche consiste à passer par une représentation équivalente en considérant conjointement les variables (n k ) 1 k V. Pour un individu, n k dénote le nombre d enregistrements secondaires ayant pour valeurv k pour la variable secondaire. Au moyen des modèles en grille de données multivariée, nous estimons la densité de probabilité conditionnelles P (Y A). Cependant, lorsque la variable explicative secondaire A possède un nombre très important de valeurs, plusieurs problèmes se posent. Si le nombre de modalités est de l ordre de celui des individus, on risque de créer autant de variablesn k qu il y 62

69 3.3 Variable catégorielle avec groupement de valeurs Algorithme 3.1 : Heuristique d optimisation gloutonne d une grille multi-variée Entrées : M : Grille multi-variée initiale, Sortie :M : Grille finale optimisée Pré-condition :C (M ) C (M) M M ; Tant que amélioration faire /* Recherche de la meilleure amélioration */ M + M ; Pour tout variablen k (1 k V ) faire Pour tout fusionmentre deux intervalles adjacents den k faire /* Evaluation de l impact de la fusionmsur la grillem */ M M +m ; SiC ( M ) C (M + ) Alors M + M ; Fin si Fin pour Fin pour /* Test d amélioration */ SiC (M + ) C (M ) Alors M M + ; Fin si Fin tant que RetournerM ; a d individus. Par ailleurs, la grille risque d être trop grande ce qui peut rendre les calculs infaisables. En effet, la complexité de la procédure d optimisation de la grille multivariée est eno (V 2 N logn). SiV est de l ordre den, il est clair que cette procédure devient irréaliste. Dans ce cas, il serait intéressant de réduire le nombre de modalités descriptives originelles de la variable secondaire catégorielle afin d éviter d avoir des grilles énormes. Pour ce faire, il suffit de grouper les valeurs de la variable explicative secondaire présentant des caractéristiques similaires vis-à-vis de la classe. Cela revient à partitionner ces modalités en groupes de valeurs de façon similaire au partitionnement d une variable numérique en intervalles. On transforme alors la variable secondaire catégorielleaen une variable secondaire catégorielleãavec moins de modalités. Il est à noter que cette transformation est accompagnée d une perte d information. La probabilitép (Y A) est alors approximée parp ( Y Ã). Comme dans le cas catégoriel (cf. section 3.2), pour chacune des modalités deã(qui correspondent aux groupes de valeurs issus du partitionnement dea), nous créons une variablen k (1 k K), aveck V le nombre de groupes de valeurs dea. L estimation de 63

70 Chapitre 3 Extension aux Variables Secondaires Catégorielles et Numériques Figure 3.4: Exemple de variable secondaire catégorielle avec plusieurs valeurs : JOUR Figure 3.5: Groupement de valeurs de la variable secondaire catégorielle JOUR la densité de probabilité conditionnellep ( Y Ã) se fait également au moyen des modèles en grilles de données multivariées, mais en utilisant cette fois les variables (n k ) comme entrées. Exemple 3.2. Reprenons l exemple de classification de données CRM de la Figure 3.1. La variable secondaire catégorielle JOUR représente le jour de la semaine d émission de l appel. Elle possède 7 modalités. Supposons que le problème est, par exemple, de prédire l appétence des clients à une offre mobile qui cible certains jours de la semaine (le week-end, par exemple). Dans ce cas, il serait pertinent de faire un groupement de valeurs de la variable secondaire JOUR en deux groupes : week-end {Samedi, Dimanche} et Reste de la semaine {Lundi, Mardi, Mercredi, Jeudi, Vendredi} (cf. Figure 3.5). Le problème revient au cas d une variable secondaire catégorielle ayant deux modalités qui se résout à l aide d une grille similaire à celle de la Figure 3.6. Il est à souligner que notre objectif n est pas de faire ce groupement de façon manuelle. Nous cherchons plutôt à l automatiser dans une phase de prétraitement des variables secondaires Critère Comme dans le cas d une variable secondaire binaire et celui d une variable catégorielle avec peu de valeurs, nous définissons un critère afin d évaluer P (M odèle Données). Le modèle prend en compte à la fois : 64

71 3.3 Variable catégorielle avec groupement de valeurs Figure 3.6: Grille de données pour l évaluation de la variable secondaire JOUR (après groupement de valeurs) 1. le groupement des modalités de la variable secondaire présentant des caractéristiques similaires vis-à-vis de leur classe, 2. et l optimisation de la grille multivariée correspondante. Il ne s agit pas d effectuer le groupement de valeurs dans une première étape séparément et d optimiser ensuite la grille multivariée. Nous utilisons un critère unifié pour ces deux étapes. Le choix du groupement de valeurs de la variable secondaire constitue un paramétrage du modèle. Ce groupement est pris en compte simplement en ajoutant le choix de la partition de la variable secondaire en groupes de valeurs dans la hiérarchie des paramètres de la distribution a priori. Pour estimer cet a priori, nous effectuons de façon hiérarchique les hypothèses suivantes sur les paramètres des modèles considérés : Définition 3.1. A priori hiérarchique 1. le nombre K de groupes de valeurs de la variable secondaire catégorielle est compris entre 1 et V de façon équiprobable, 2. pour un nombre de groupes donnék, toutes les partitions desv valeurs de la variable secondaire en K groupes sont équiprobables, 3. une fois les variablesn k calculées, les nombres d intervalles de discrétisation de celles-ci sont supposés compris entre 1 etn de façon équiprobable et indépendamment les uns des autres, 4. pour chaque variablen k et pour un nombre d intervalles donné, les bornes des intervalles sont équiprobables, 5. dans chaque cellule de la grille correspondante, les distributions des valeurs de la variable cible sont équiprobables, 65

72 Chapitre 3 Extension aux Variables Secondaires Catégorielles et Numériques 6. les distributions des valeurs de la variable cible sur chaque cellule sont indépendantes entre elles. Notation 3.2. N : nombre d individus de l échantillon (nombre d enregistrements de la table cible) J : nombre de valeurs de la variable à expliquer (connu) V : nombre de valeurs de la variable explicative secondaire (connu) K : nombre de groupes de valeurs de la variable explicative secondaire (nombre des nouvelles variables explicativesn k) i (v) : indice du groupe associé à la valeurv de la variable secondaire (1 v V ) n k : nombre d enregistrements de la variable secondaire (pour un individu donnée) dont la valeur appartient au groupe k I k : nombre d intervalles pour la discrétisation de la variablen k (1 k K) N ik : nombre de valeurs de la variablen k dans l intervalle de discrétisationi k N i1 i 2...i K : nombre d individus de la cellule (i 1,i 2,...,i K ) N i1 i 2...i K j : nombre d individus de la cellule (i 1,i 2,...,i K ) pour la valeur à expliquer j Les modèles que nous considérons ici sont entièrement définis par les paramètres {K,{i (v)},{i k },{N ik },{N i1 i 2...i V j}}, ce qui correspond au choix du nombre de groupes de valeurs K, la partition de la variable secondaire catégorielle sur ces groupes et par les paramètres de la grille multivariée correspondante. Au premier niveau de l a priori hiérarchique, le choix du nombre de groupes de valeurs de la variable secondaire catégorielle est compris entre 1 et V de façon équiprobable, ce qui donne : p (K) = 1 V (3.2) Pour un nombre de groupes donnék, le nombre de répartitions desv valeurs explicatives en K groupes (éventuellement vides) se dénombre par B (V, K). Toutes les partitions des V valeurs en K groupes étant équiprobables, on obtient : p (n k ) = 1 B (V,K) (3.3) B (V,K) est le nombre de répartitions desv valeurs explicatives enk groupes (éventuellement vides). PourK =V,B (V,K) correspond au nombre de Bell. Dans 66

73 3.3 Variable catégorielle avec groupement de valeurs le cas général,b (V,K) peut s écrire comme une somme de nombres de Stirling de deuxième espèce 1 : K B (V,K) = S (V,k) (3.4) k=1 Le critère d évaluation du modèle de groupement de valeurs d une variable secondaire catégorielle et sa représentation sous la forme d une grille multivariée est donné dans l Équation 3.5 : logv + logb (V,K) ( ) K K N +Ik 1 + logn + log I k=1 k=1 k 1 ( ) I 1 I 2 I K Ni1 i + log 2...i K +J 1 i 1 =1i 2 J 1 =1 i K =1 I 1 I 2 I K J + logn i1 i 2...i K! logn i1 i 2...i K j! i 1 =1i 2 =1 i K =1 j=1 (3.5) La première ligne de l Équation 3.5 correspond au choix du groupement de valeurs de la variable secondaire. Les autres lignes représentent le critère d évaluation d une grille multivariée avec K variables explicatives numériques. Dans ces trois dernières lignes, nous retrouvons la même expression que dans l Équation 3.1, c est-à-dire le cas d une variable secondaire catégorielle sans groupement de valeurs Optimisation Nous décrivons dans cette section, les procédures d optimisation utilisées afin de proposer un groupement de valeurs d une variable secondaire catégorielle. Dans notre approche, le critère d évaluation est calculé à partir de la grille multivariée relative à un groupement de valeurs de la variable secondaire. Il ne s agit pas d évaluer le partitionnement de la variable secondaire dans une étape séparée et ensuite d optimiser la grille correspondante. Afin d être évalué, un groupement 1. Le nombre de Stirling de deuxième espèces (V,k) compte le nombre de partitions enk sous-ensembles non vides d un ensemble de V objets. S (V,k) = 1 k! V ( ( 1) k j k j k=0 ) j V 67

74 Chapitre 3 Extension aux Variables Secondaires Catégorielles et Numériques est fixé dans une première étape. Ensuite, les comptesn k relatifs à chaque groupe de valeurs sont calculés, ce qui permet de revenir au cas d une variable secondaire catégorielle avec peu de valeurs (cf. section 3.2). L algorithme 3.1 est alors utilisé pour l optimisation des grilles multivariées qui ont pour entrées les comptesn k ainsi calculés Évaluation exhaustive Une première solution consiste à énumérer tous les groupements de valeurs possibles de la variable secondaire. Pour chacune de ces partitions, la grille multivariée correspondante est optimisée (cf. algorithme 3.2). Celle qui donne le coût d évaluation minimal est retenue afin d estimer la densité de probabilité conditionnelle. Pour une variable catégorielle ayant V modalités, le nombre de partitions possibles en groupes de valeurs correspond au nombre de Bell d ordrev. Il peut être calculé avec l Équation 3.4 pourk =V. Le nombre de Bell explose très rapidement lorsque V augmente. Par conséquent, le nombre de groupements possibles des valeurs de la variable secondaire catégorielle augmente de façon exponentielle avec le nombre de modalités de celle-ci. Exemple 3.3. Pour une variable catégorielle ayant 3 modalités (V = 3), le nombre de partitions possibles de ces modalités est 5 (B 3 = 5) : [{v 1,v 2,v 3 }],[{v 1,v 2 },v 3 ], [v 1,{v 2,v 3 }],[{v 1,v 3 },v 2 ],[{v 1 },{v 2 },{v 3 }]. Pour unv plus grand, nous donnons ici quelques ordres de grandeur du nombre de Bell d ordrev : V= 5, il y a 52 partitions V= 10, partitions V= 15, partitions L énumération exhaustive de tous les groupements possibles n est envisageable que pour les petits nombres de valeurs. Par conséquent, des heuristiques doivent être utilisées afin de réduire l espace de recherche Recherche Heuristique Afin de réduire le nombre de groupements de valeurs évalués de la variable secondaire catégorielle, nous proposons ici de se limiter dans un premier temps à des groupements de valeur en deux groupes : une modalité contre le reste{{v i },V\{v i }} (cf. algorithme 3.3). L optimisation de groupements de valeurs plus complexe reste un problème ouvert. 3.4 Variable Secondaire Numérique Dans cette section, nous considérons le cas où la variable secondaire A est une variable numérique. Une variable numérique est une variable de nature quantitative 68

75 3.4 Variable Secondaire Numérique Algorithme 3.2 : Procédure exacte de groupement de valeurs d une variable secondaire catégorielle Entrées : A : Variable secondaire catégorielle à V modalités, Sortie :G : meilleur groupement de la variable secondaire catégorielle, G meilleure grille de données correspondante Calculer les comptes initiaux (n k ) 1 k V ; /* Initialiser la solution (c : meilleur coût) */ G {{v 1 },{v 1 }...{v V }} ; // un groupe par valeurv i G OptimiserGrille (Grille (G )); c cost (G ), ; Pour tout groupement de valeurs G faire Calculer les comptes correspondant à chaque groupeg,n g = vi ; v i gn G OptimiserGrille(Grille(G)); Sicost(G )<c Alors // si amélioration du coût /* retenir la solution améliorée */ c cost(g ),G G,G G; Fin si Fin pour qui prend des valeurs numériques : un entier, un réel,... Nous généralisons ici notre approche décrite dans le cas d une variable binaire et catégorielle (cf. chapitre 2 et section 3.2) aux variables secondaires numériques. L idée est de discrétiser la variable numérique ce qui permet de se ramener à une variable catégorielle à laquelle on peut appliquer un modèle en grille de données multivariées Approche La variable secondaire est partitionnée en K intervalles, par analogie à une variable catégorielle avec un nombre important de valeurs (celle-ci est partitionnée en groupes de valeurs, cf. section 3.3). On obtient ainsi une variable catégorielleãaveck modalités qui est résumée par unk-uplet d attributs (n 1,n 2,,n K ), oùn k (1 k K) désigne pour chaque individu, le nombre d enregistrements reliés dans la table secondaire ayant une valeur qui appartient auk ème intervalle. Comme dans le cas catégoriel avec groupement de valeurs,p(y A) est approximée parp ( Y Ã), ce qui revient à évaluerp(y (n 1,n 2,,n K )). Exemple 3.4. Dans le contexte du problème CRM de la Figure 3.1, considérons la variable secondaire numérique DURÉE qui dénote la durée de l appel en minutes (cf. Figure 3.7). Supposons que l on discrétise cette variable en deux intervalles : [0; 10[ et [10; 60]. Afin d évaluer la variable DURÉE, il suffit de considérer la paire de variables ( n [0;10[,n [10;60] ) oùn[0;10[ (respectivementn [10;60] ) représente le nombre 69

76 Chapitre 3 Extension aux Variables Secondaires Catégorielles et Numériques Algorithme 3.3 : Heuristique de groupement de valeurs d une variable secondaire catégorielle Entrées : A : Variable secondaire catégorielle à V modalités, Sortie :G * : meilleur groupement d une valeur contre le reste, G * meilleure grille de données correspondante /* Initialiser la solution (c : meilleur coût) */ G * {{v 1 },{v 1 }...{v V }} ; // un groupe par valeurv i G * OptimiserGrille ( Grille ( G *)),c * cost ( G *) ; Tant que amélioration faire /* Recherche de la meilleure amélioration */ M + M ; Pour tout valeurv i V faire G {{v i },V\{v i }} ; // groupement d une valeur contre le reste Calculer les comptesn k correspondant à chaque groupeg k G n k n vi ; v i g k G OptimiserGrille (Grille (G)); Sicost(G )<c * Alors // si amélioration du coût /* retenir la solution améliorée */ c * cost(g ),G * G,G * G; Fin si Fin pour Fin tant que d appels dont la durée est inférieure à 10 minutes (respectivement supérieure à 10 minutes). Si on suppose que la durée d appel est en corrélation avec la variable cible et que la discrétisation en deux intervalles est pertinente, les valeurs cibles peuvent être séparées facilement, en utilisant une grille similaire à celle de la Figure 3.8. La corrélation entre les cellules de la grille de données et les valeurs cibles permet de quantifier l information de classification. La probabilité conditionnelle P (Y A) est évaluée localement dans chaque cellule. Par conséquent, des classifieurs comme le Bayésien Naïf ou les arbres de décisions peuvent facilement être étendus à des variables secondaires numériques. Par ailleurs, il est important de souligner que la grille de données fournit une représentation interprétable, puisqu elle montre la distribution des individus en faisant varier conjointement les variablesn k. Chaque cellule peut être interprétée comme une règle de classification dans le contexte multitables. Exemple 3.5. Par exemple, la cellule en bas à droite de la grille de la Figure 3.8 est interprétée par : si le nombre d appels de durée inférieure à 10 minutes est inférieur à 40 et le nombre d appels avec une durée supérieure à 10 minutes est supérieur à 70, alors l APPÉTENCE est Oui. 70

77 3.4 Variable Secondaire Numérique Figure 3.7: Exemple de variable secondaire numérique : DURÉE Figure 3.8: Description de l approche dans le cas d une variable secondaire numérique Critère Avec une discrétisation adéquate de la variable secondaire numérique, nous nous attendons à ce que la grille de données optimale correspondante soit capable de détecter le motif contenu dans cette variable. Ainsi, le problème est double : comment trouver la meilleure discrétisation et comment optimiser la grille de données associée. Afin de définir le critère d évaluation comme pour une variable binaire et catégorielle, nous suivons la même approche que précédemment. Le problème est résolu en appliquant une approche par sélection de modèles. Le meilleur modèle est choisi en suivant une démarche Maximum A Postériori (MAP) en maximisant la probabilité p(m odèle Données). Les modèles considérés prennent en compte la discrétisation de la variable secondaire A et le partitionnement des variablesn k générées. Dans le reste de cette partie, nous décrivons le critère utilisé afin d évaluer ces modèles et nous proposons des 71

78 Chapitre 3 Extension aux Variables Secondaires Catégorielles et Numériques algorithmes d optimisation. Notation 3.3. N : nombre d individus de l échantillon (nombre d enregistrements de la table cible) J : nombre de valeurs de la variable à expliquer (connu) N s : nombre de lignes de la table secondaire K : nombre d intervalles pour la discrétisation de la variable explicative secondaire n k : nombre d enregistrements de la table secondaire dans lek ème intervalle (1 k K) I k : nombre d intervalles pour la discrétisation de la variablen k (1 k K) N ik : nombre de valeurs de la variablen k dans l intervalle de discrétisationi k N i1 i 2...i K : nombre d individus de la cellule (i 1,i 2,...,i K ) N i1 i 2...i K j : nombre d individus de la cellule (i 1,i 2,...,i K ) pour la valeur à expliquer j En utilisant les notations ci-dessus, un modèle est complètement défini par les paramètres{k,{n k }{I k },{N ik },{N i1 i 2...i K j}}. Comme dans les cas précédents, nous définissons une distribution a priori p (M odèle) sur cet espace de modèles. Celle-ci exploite la hiérarchie naturelle de ces paramètres : le nombre d intervalles de discrétisation de la variable secondaire A est d abord choisi, ensuite leurs bornes. Après avoir calculé les variablesn k, une grille multivariée de dimensionk est construite en choisissant pour chaquen k le nombre d intervalles, leurs bornes et finalement les effectifs des variables cibles dans chaque cellule. À chaque niveau de cette hiérarchie le choix est supposé être uniforme. Définition 3.2. A priori hiérarchique d une variable secondaire numérique. 1. le nombre K d intervalles de discrétisation de la variable secondaire est compris entre 1 etn s de façon équiprobable, 2. pour un nombre d intervalles donnék, toutes les discrétisations de la variable secondaire en K intervalles sont équiprobables, 3. une fois les variablesn k calculées, les nombres d intervalles de discrétisation de celles-ci sont supposés compris entre 1 etn de façon équiprobable et indépendamment les uns des autres, 4. pour chaque variablen k et pour un nombre d intervalles donné, les bornes des intervalles sont équiprobables, 5. dans chaque cellule de la grille correspondante, les distributions des valeurs de la variable cible sont équiprobables, 6. les distributions des valeurs de la variable cibles sur chaque cellule sont indépendantes entre elles. 72

79 3.4 Variable Secondaire Numérique Au premier niveau de l a priori hiérarchique de la définition 3.2, le choix du nombre d intervalles de discrétisation de la variable secondaire numérique est compris entre 1 etn s de façon équiprobable, ce qui donne : p (K) = 1 N s (3.6) Les nombres d intervalles étant fixés, toutes les discrétisations en K intervalles sont équiprobables. ( SiN ) s est le nombre d enregistrements de la table secondaire, il y Ns +K 1 a façons pour discrétisern K 1 s valeurs enk intervalles. On obtient alors : 1 p ({N k } K) = ( Ns +K 1 K 1 ) (3.7) Les quatre derniers niveaux de l a priori hiérarchique correspondent aux hypothèses relatives aux choix des paramètres d une grille multivariée ayant en entrée les variablesn k. Nous effectuons donc les mêmes choix que le critère de l Équation 3.1. Le critère d évaluation d une variable secondaire numérique est donné dans l Équation 3.8. ( ) Ns +K 1 logn s + log K 1 ( ) K K N +Ik 1 + logn + log I k=1 k=1 k 1 ( ) I 1 I 2 I K Ni1 i + log 2...i K +J 1 i 1 =1i 2 J 1 =1 i K =1 I 1 I 2 I K J + logn i1 i 2...i K! logn i1 i 2...i K j! i 1 =1i 2 =1 i K =1 j=1 (3.8) La première ligne représente le choix de la discrétisation de la variable secondaire : les premier et second termes de la première ligne représentent respectivement le choix du nombre d intervalles, et les bornes des intervalles. La deuxième et la troisième lignes correspondent au choix de la discrétisation pour chaque variablen k et les paramètres de la distribution multinômiale pour les valeurs cibles dans chaque cellule de la grille. Le dernier terme représente la vraisemblance des données sachant le modèle. Le critère donné par la formule ci-dessus s interprète comme la probabilité que la grille de données finale (obtenue après la discrétisation de la variable secondaire, tel que décrit auparavant) explique la variable cible connaissant la variable secondaire numérique. 73

80 Chapitre 3 Extension aux Variables Secondaires Catégorielles et Numériques Algorithme d optimisation Le choix de la discrétisation de la variable secondaire est déterminé par la minimisation du critère de l Équation 3.8. Ce problème d optimisation est combinatoire de l ordre deo ( 2 Ns ) discrétisations possibles de la variable secondaire 2. Par ailleurs, pour chaque discrétisation en K intervalles, la taille de l espace des modèles grilles possibles est de l ordre deo( (2 N ) K ), qui représentent le nombre des partitions multivariées 3 des variablesn k (1 k K). Une recherche exhaustive sur tout l espace des modèles est irréaliste. Par ailleurs, afin de calculer les comptesn k relatifs à une discrétisation donnée, il est nécessaire de lire la totalité de la table cible ainsi que la table secondaire. Ceci permet de charger dans la mémoire un tableau qui possède pour colonnes la variable cible et les variablesn k (1 k K). Ce tableau de données est utilisé pour optimiser la grille multivariée correspondante, sa complexité spatiale est deo (N (K + 1)). Si la table secondaire est triée selon les identifiants des individus, la complexité algorithmique du calcul des comptesn k se fait eno (N s logk). Ce calcul doit être itéré pour chaque discrétisation évaluée, ce qui multiplie par un facteurn s logk la complexité globale. Afin d éviter de relire la totalité de la base à chaque discrétisation d une variable secondaire, nous proposons de faire au préalable une discrétisation fine en intervalles de fréquence égale de la variable secondaire. Toutes les discrétisations évaluées par la suite seront calculées par fusion des intervalles de cette discrétisation fine initiale. Les comptesn k correspondant à ces discrétisations sont également calculés en sommant ceux de la partition initiale. Notons par K, le nombre d intervalles de la discrétisation en intervalles de fréquence égale initiale et (ν k ) 1 k K, les comptes correspondants. En faisant ainsi, la table cible ainsi que la table secondaire sont parcourues une seule fois. Seul un tableau avec les comptesν 1,...,ν K est chargé dans la mémoire. Étant donné le nombre important des discrétisations possibles et la complexité du problème d optimisation, nous nous limitons dans ce manuscrit à proposer deux procédures pour discrétiser les variables secondaire numériques Discrétisation en intervalles de fréquence égale L algorithme 3.4 fournit une procédure simple pour optimiser la discrétisation de la variable secondaire. Il prend comme paramètres K : le nombre d intervalles de la partition fine initiale et 2. Les bornes de discrétisation sont choisies parmi lesn s valeurs de la variable secondaire numérique. Le nombre des discrétisations possibles correspond au nombre de sous-ensembles de bornes choisies parmi lesn s valeurs. Ceci se dénombre par 2 Ns, le cardinal des parties d un ensemble de taillen s. 3. Les modèles en grille sont de dimensionk puisqu il y ak variables de comptagen k. Pour chacune de ces variables le nombre de discrétisations possibles est de l ordre deo ( 2 N). 74

81 3.4 Variable Secondaire Numérique K max : nombre maximal d intervalles dans les discrétisations évaluées (K max K). L algorithme 3.4 cherche la meilleure discrétisation d intervalles de fréquence égale enk intervalles (aveck {2, 3,...,K max }). Ces intervalles sont obtenus par fusion de ceux de la partition fine initialed K. Les comptes correspondants (n k ) 1 k K se calculent par sommation des comptes initiaux (ν k ) 1 k K. n k = [K k K] i=1+[k k 1 K ] ν i (3.9) Chaque discrétisation candidated k est évaluée en optimisant la grilleg K correspondante. Pour ce faire, nous utilisons l heuristique d optimisation des grilles de données multivariéesoptimisergrille (G K ) détaillée dans l algorithme 3.1. La discrétisation dont la grille optimisée donne le meilleur coût est retenue. Exemple 3.6. Si pour une variable secondaire numérique, on considère les paramètres de l algorithme 3.5 suivants : K = 100 : le nombre d intervalles à fréquence égale de la discrétisation fine initiale K max = 4 : les discrétisations évaluées contiennent au maximum 4 intervalles Avec ces paramètres, si on noteb 1,b 2,...,b 100 les bornes de la discrétisation initiale en intervalles de fréquence égale, les partitions considérées sont : en 2 intervalles :{[b 1 ;b 50 ],]b 50 ;b 100 ]}, en 3 intervalles :{[b 1 ;b 33 ],]b 33 ;b 66 ],]b 66 ;b 100 ]} et en 4 intervalles :{[b 1 ;b 25 ],]b 25 ;b 50 ],]b 50 ;b 75 ],]b 75 ;b 100 ]} Discrétisation en un nombre prédéfini d intervalles Dans cette deuxième approche, nous nous limitons à chercher la meilleure discrétisation avec un nombre d intervalles fixé au préalablek max. L algorithme prend en paramètres le nombre maximal d intervalles de discrétisation ainsi qu un niveau de grain (un ratioρ) qui limite le nombre de bornes considérées. Il énumère toutes les partitions possibles ayant au maximumk max intervalles. Comme dans la méthode précédente, les intervalles sont obtenus par fusion de ceux de la discrétisation fine initialed K. Étant donné que le nombre de bornes envisageables peut être très important, seul un sous-ensemble de bornes est considérée en définissant un niveau de grainρsur leskpoints de coupure initiaux.ρcorrespond à un pourcentage de bornes équidistantes parmi les K bornes initiales. Exemple 3.7. Si pour une variable secondaire numérique, on considère les paramètres de l algorithme 3.5 suivants : K = 100 : le nombre d intervalles de discrétisation 75

82 Chapitre 3 Extension aux Variables Secondaires Catégorielles et Numériques Algorithme 3.4 : Procédure de discrétisation en intervalles de fréquence égale d une variable secondaire numérique Entrées : K : nombre d intervalles de la discrétisation initiale, K max : nombre maximal d intervalles des discrétisations évaluées Sortie :D * : meilleure discrétisation de la variable secondaire, G * meilleure grille de données Pré-condition :K max K Faire une discrétisation en intervalles de fréquence égale (K intervalles) ; Calculer les variables des effectifs initialesν k (ν k ) 1 k K ; /* Initialiser la solution (c * : meilleur coût) */ c * coûtdumodèlenul,d * un intervalle,g * une cellule; PourK 1 àk max faire D discretisation en K intervalles de fréquence égale; [K K] k Estimer le variables effectifs (n k ) 1 k K n k = ν i ; i=1+[k k 1 K ] /* Optimiser la grille de données Grille (K) */ G K OptimiserGrile (Grille (K)); Sicost(G K)<c Alors // si amélioration du coût /* retenir la solution améliorée */ c * cost(g K),G * G K,D * D; Fin si Fin pour K max = 3 : les discrétisations évaluées contiennent au maximum 3 intervalles ρ = 0.1 : ce qui donne 9 points de coupures considérés parmi les 99 initiaux Avec ces paramètres, si on noteb 1,b 2,...,b 99 les bornes de la discrétisation initiale en intervalles de fréquence égale, les partitions considérées s obtiennent en considérant toutes les partitions possibles en 2 ou 3 intervalles dont les bornes appartiennent à l ensemble{b 10,b 20,...,b 90 } (9 bornes). Pour chaque discrétisation candidate, les comptes (n k ) 1 k K sont calculés par sommation des comptes initiaux (ν k ) 1 k K. Les grilles correspondantes sont optimisées et celle qui donne le meilleur coût est retenue. Bien que ces deux algorithmes soient simples et exploitent partiellement la richesse des modèles considérés, ils demeurent une bonne validation de l approche globale. En priorité pour les travaux futurs, nous prévoyons d étendre ces deux procédures d optimisation afin de mieux explorer l espace de recherche et de découvrir des modèles de discrétisation plus complexes. 76

83 3.5 Expérimentations Algorithme 3.5 : Procédure de discrétisation d une variable secondaire numérique en un nombre prédéfini d intervalles Entrées : K : nombre d intervalles de la discrétisation initiale, K max : nombre maximal d intervalles des discrétisations évaluées ρ : niveau de grain [0; 1] Sortie :D * : meilleure discrétisation de la variable secondaire, G * meilleure grille de données Pré-condition :K max K Faire une discrétisation fine en K intervalles de fréquence égale ; Calculer les comptes initiaux correspondantsν k (ν k ) 1 k K ; /* Initialiser la solution (c * : meilleur coût) */ c* coûtdumodèlenul,d * un intervalle,g * une cellule; PourK 2 àk max faire Pour toute Discrétisation D en K intervalles faire Calculer les comptes (n k ) 1 k K correspondants ; /* Optimiser la grille de données Grille (K) */ G K OptimiserGrile (Grille (K)); Sicost(G K)<c * Alors // si amélioration du coût /* retenir la solution améliorée */ c * cost(g K),G * G K,D * D; Fin si Fin pour Fin pour 3.5 Expérimentations Dans cette section, nous évaluons notre approche de préparation d une variable secondaire A. Nous nous focalisons ici sur le cas d une variable secondaire numérique. Cette préparation fournit à la fois une discrétisation de la variable numérique ainsi qu une estimation de densité de probabilité conditionnelle univariée P (A Y ) à l aide de la grille multivariée optimisée correspondant à cette discrétisation. Comme expliqué dans la section 2.5,P (A Y ) est calculée en considérant les effectifs des valeurs cibles dans chaque cellule de la grille optimale, ce qui permet de prendre en compte les variables secondaires numériques dans un classifieur de type Bayésien Naïf (BN) en même temps que d autres variables explicatives (des variables secondaires ou de la table cible). Nous appellerons ce classifieur Bayésien Naïf Multi-Table (BN MT) étant donné qu il utilise des variables secondaires. Afin de montrer l apport de notre approche, nous comparons les performances d un BN MT à celles obtenues avec les méthodes d agrégation. Nous nous limitons ici à rapporter les résultats de la valeur moyenne utilisée comme fonction d agrégation pour les variables secondaires numériques. La méthode consiste à calculer la valeur 77

84 Chapitre 3 Extension aux Variables Secondaires Catégorielles et Numériques # tables # variables Sec. num. # lignes table sec. # Individus # valeurs cibles Mutagenesis-atoms Mutagenesis-bonds Mutagenesis-chains Diterpenses Spatial Miml Stulong XOR 2D XOR 3D Table 3.1: Description des jeux de données utilisées moyenne et ceci pour chaque variable secondaire, ensuite appliquer un BN usuel sur la table à plat résultante. Notons que d autres agrégats ont été testés, à savoir, Max, Min et le nombre d enregistrements dans la table secondaire, etc. Des résultats similaires à ceux décrits ci-dessous ont été obtenus, mais ils ne sont pas rapportés ici Jeux de données Dans nos expérimentations, nous avons considéré différents problèmes de classification basés sur des données synthétiques et réelles. Les caractéristiques de ces données sont indiquées dans le Tableau 3.1. Notons que pour certaines bases de données (notamment, Miml et Stulong), plusieurs variables de la table cible peuvent être considérées comme variable à expliquer. Afin d évaluer uniquement la contribution des variables secondaires numériques ainsi que l apport de notre méthode de discrétisation, nous avons seulement considéré ces variables dans toutes les bases de données utilisées. Les autres types de variables sont ignorés, à savoir, celles de la table cible ainsi que les variables secondaires catégorielles Données synthétiques Dans un premier temps, nous avons utilisé des données synthétiques dont on connait le motif qui exploite la variable secondaire. Nous générons de façon contrôlée des bases de données composées chacune de deux tables en relation un-à-plusieurs :

85 3.5 Expérimentations n [0.5;1] 50 n [0.66;1] n [0;0.5[ n [0;0.33[ n [0.33;0.66[ 100 (a) Motif XOR 2D (b) Motif XOR 3D Figure 3.9: Diagrammes de dispersion des bases de données synthétiques. Les couleurs (noir et gris) indiquent l étiquette de la classe une table cible qui contenant deux colonnes : l identifiant de l individu et la variable cible une table secondaire composée d une variable secondaire numérique et de l attribut de clé étrangère. Dans les données artificielles que nous avons utilisées, la discrétisation idéale est connue à l avance, et l étiquette de la variable cible est générée selon une fonction XOR entre les comptesn k. La Figure 3.9 illustre les diagrammes de dispersion des données synthétiques XOR 2D et XOR 3D. Le générateur de données prend trois paramètres : le nombre d individus, le nombre d intervalles de discrétisation de la variable secondaire numérique (puisque cette variable est générée de façon à connaitre au préalable la meilleure discrétisation et le motif dépend de cette discrétisation), et le nombre maximal de valeurs par intervalle de la variable secondaire, par individu. Pour chaque individu, le générateur choisit de façon aléatoire (selon une distribution uniforme) le nombre de valeurs de la variable secondaire qui lui sont associées dans chaque intervalle, ce qui donne les comptesn k. Ensuite, la valeur de la classe est attribuée selon une fonction XOR entre ces comptes. Enfin, nous générons aléatoirementn k valeurs appartenant auk ème intervalle et ceci pour tous les intervalles. Exemple 3.8. Par exemple, dans le modèle XOR 3D (Figure 3.9b), la variable secondaire est discrétisée en trois intervalles : [0; 0.33[, [0.33; 0.66[ et [0.66; 1[. Dans ce schéma plutôt complexe, les points situés, par exemple, près de l origine (en gris) correspondent à des individus qui ont moins de 50 valeurs dans la table secondaire, respectivement, dans les intervalles [0; 0.33[, [0.33; 0.66[ et [0.66; 1[. 79

86 Chapitre 3 Extension aux Variables Secondaires Catégorielles et Numériques Données réelles Nous avons évalué notre approche sur plusieurs bases de données réelles. Nous présentons ci-dessous une description succincte de ces bases de données. Certaines ont été proposées dans le contexte de la PLI (Mutagenesis) et de l apprentissage multi- Instances (Diterpenes et Miml). Pour pouvoir les utiliser, nous les avons transformées afin d obtenir un schéma relationnel contenant une table cible et au moins une table secondaire. Mutagenesis 4 Mutagenesis est une base de données relationnelle (décrite dans [Srinivasan et al., 1994]), où l objectif est de déterminer si une molécule est mutagène ou non. Dans les données relationnelles originales, une molécule est représentée par un ensemble d atomes et de liens entre ces atomes. De plus, les atomes et liens sont décrits par plusieurs propriétés telles que l estimation de la charge partielle ou le type de lien (liaison simple, liaison double,...). [Reutemann et al., 2004] ont proposé une transformation de ces données afin d obtenir un schéma relationnel contenant une table cible en relation un-à-plusieurs avec une table secondaire, ce qui produit trois problèmes différents : Mutagènes-Atoms : la table secondaire contient une description de tous les atomes qui composent chaque molécule, Mutagenesis-Bonds : la table secondaire contient une description de toutes les liaisons entre atomes contenues dans chaque molécule, Mutagenesis-Chains : la table secondaire contient une description de toutes les paires de liaisons qui forment la chaine d atomes de chaque molécule. Stulong 5 Il s agit d une base de données médicale dont l objectif est d étudier les facteurs de risques de l athérosclérose (voir la page 53 pour plus de détails). La base de données est composée de plusieurs tables. La table cible «Entry» contient les informations sur les patients participant à l étude ainsi que les variables pouvant être considérées comme cibles. Parmi les autres tables, nous nous intéressons à la table «Control» qui décrit les résultats des examens cliniques de chaque patient effectués sur 20 ans. Un extrait du schéma relationnel de la base de données Stulong a été illustré dans la Figure 2.9. Diterpenes 6 Dans les données Diterpenes [Džeroski et al., 1998], l objectif est d identifier le type du squelette (au total, 23 classes) de molécules diterpènes (des composés chimiques organiques qu on rencontre dans plusieurs plantes dans la nature). La table cible contient molécules diterpènes. Dans la table secondaire, à chaque molécule, sont reliées les descriptions des spectres RMN (Résonance Magnétique Nucléaire) des atomes carbone 13 C qui forment la structure de cette molécule

87 3.5 Expérimentations Recherche d image (Miml, Multi-Instance Multi-Label Learning) 7 Cette base de données a été proposée dans le contexte de la recherche d image à base de contenu (en anglais content-based image retrieval) [Maron et Ratan, 1998]. Elle a été construite à partir d images réelles. La table cible contient les identifiants et classes des images. La table secondaire décrit des régions de chaque image. Ces dernières sont décrites par plusieurs propriétés concernant la couleur et la luminance. Nous utilisons cette base de données comme dans [Zhou et Zhang, 2007] avec 5 problèmes de classification binaire afin d identifier s il s agit ou non d images de désert (Miml desert), de montagne (Miml mountain), de mer (Miml sea), de coucher de soleil (Miml sunset), et d arbre (Miml trees). Données Spatiales (Spatial) Cette base de données décrit des données géographiques collectées dans le cadre du projet ANR GeOpenSim 8 (Plate-forme Géographique OpenSource de Simulation). Elle décrit des quartiers situés dans la périphérie d une grande agglomération [Braud et Lachiche, 2011]. Le schéma relationnel est constitué de deux tables. La table cible décrit des îlots (quartiers) avec des attributs numériques (aire, élongation, convexité). La table secondaire décrit les bâtiments et possède trois variables numériques (aire, élongation et convexité). L objectif est de prédire le type du quartier (habitat collectif, habitat mixte, habitat individuel, habitat continu, emprise peu bâtie, emprise spécialisée, tissu) Résultats Afin de comparer les résultats, nous avons collecté l aire sous la courbe de ROC (AUC) [Fawcett, 2003] en test en utilisant une validation croisée stratifiée d ordre 10. La validation croisée s effectue exactement comme dans le cas monotable classique. La construction des données de test et d apprentissage s effectue à partir de la table cible puisque c est elle qui contient les individus. Chaque individu (sélectionné en test ou en apprentissage) tire avec lui les enregistrements qui lui sont reliés dans les tables secondaires. On obtient alors deux bases de données relationnelles qui possèdent la même structure. L une est destinée à l apprentissage et l autre au test. Dans toutes les expérimentations, seules les variables secondaires numériques ont été prises en compte. Les deux méthodes de discrétisation proposées dans les algorithmes 3.4 et 3.5 ont été utilisées. Parmi les discrétisations fournies par ces deux algorithmes (discrétisation en intervalles de fréquence égale, ou avec un nombre prédéfini d intervalles), celle qui donne le meilleur critère de l Équation 3.8 en apprentissage est utilisée dans la phase de test (en classification). Pour l algorithme 3.4, nous avons choisik=100 etk max = 10 comme paramètres de la procédure d optimisation (cf. algorithme 3.4). Évidemment, nous sommes

88 Chapitre 3 Extension aux Variables Secondaires Catégorielles et Numériques AUC en Test MT Avg Nombre d individus (a) XOR 2D MT Avg Nombre d individus (b) XOR 3D Figure 3.10: Résultats obtenus sur les données artificielles conscients que 10 discrétisations évaluées parmio ( 2 Ns ) discrétisations candidates ne sont pas suffisantes. Par ailleurs, nous avons choisi les valeurs (K = 100,K max = 4 et ρ = 0.1) comme paramètres de algorithme 3.5. Il est à souligner, qu avec ces choix, même si l espace des discrétisations possibles des variables secondaires n est pas suffisamment exploré, notre objectif ici est principalement d évaluer le potentiel de l approche, et de déterminer s il est utile de travailler sur des procédures d optimisation plus sophistiquées Données synthétiques La Figure 3.10 illustre les résultats de la classification obtenue en faisant varier le nombre d individus dans les jeux de données artificielles (XOR 2D et XOR 3D). L AUC en test obtenue avec un BN en utilisant notre approche de discrétisation (notée MT, pour Multi-Tables) est comparée à celle basée sur une agrégation de la variable secondaire (AVG). Sur ces données synthétiques, notre méthode dépasse largement le BN utilisant la valeur moyenne. Ces résultats ne sont pas surprenants vu la complexité du motif et étant donné que l agrégation implique une perte d information. Notre approche est capable de reconnaître le motif contenu dans la variable secondaire et donc de la discrétiser correctement. On peut constater qu avec suffisamment d individus, notre approche atteint les performances théoriques. Par ailleurs, d autres expérimentations sur un motif totalement aléatoire montrent que notre méthode est robuste, dans le sens où elle permet de détecter l absence d informations prédictives de la variable secondaire (matérialisée par une discrétisation en un seul intervalle et une AUC de l ordre de 50%). 82

89 3.5 Expérimentations Figure 3.11: Résultats obtenus avec les données artificielles Données Réelles La Figure 3.11 montre les performances de généralisation (AUC en test) obtenues avec un BN en utilisant notre approche de discrétisation (MT) comparées à celles basées sur des variables secondaires agrégées (AVG). Sur les données réelles, notre approche obtient souvent de meilleurs résultats que l agrégation (Mutagenesis-atoms, Mutagenesis-chains, Diterpenes et Miml). Cependant, sur certaines bases de données (Mutagenesis-bonds et Spatial), les deux approches obtiennent des résultats similaires. Dans le cas de la base de données Stulong, l approche d agrégation domine notre approche pour toutes les variables cibles. Ceci peut être expliqué par le fait que notre critère a besoin d un grand nombre d individus pour reconnaître les motifs complexes (ce qui a été montré dans [Boullé, 2011], pour un critère analogue dans le cadre de l apprentissage mono-table). Par ailleurs, nous rappelons que les algorithmes utilisés ici (cf. Algorithmes 3.4 et 3.5) sont assez simples et n exploitent pas tout le potentiel du critère de discrétisation, en se limitant aux intervalles de fréquence égale ou à un nombre prédéfini d intervalles (avec une certaine granularité). Nous tenons à souligner que, bien que les résultats de notre approche ne soient pas toujours meilleurs que ceux d une méthode par agrégation, ceci pourrait être expliqué par l exploration insuffisante de l espace des modèles. Par ailleurs, l approche est capable de détecter des motifs complexes (cf. Figure 3.9) et fournir des règles interprétables pour l utilisateur. Exemple 3.9. Afin de montrer comment interpréter la discrétisation générée, prenons par exemple, la base de données Stulong composée d une table cible «Entry» décrivant les patients, en relation un-à-plusieurs avec une table «Control» qui contient la description des examens effectués par ces patients (un extrait du schéma relationnel a été donné dans la Figure 2.9). On s intéresse en particulier à la variable cible CHOLRISK (trois valeurs cibles : Normal, Risquée et Manquant) qui indique si le patient présente un risque de cholestérol élevé, et la variable secon- 83

90 Chapitre 3 Extension aux Variables Secondaires Catégorielles et Numériques [4;sup[ (100; 0; 0) (77; 23; 0) [0; 3] (81; 18; 1) (40; 58; 2) n ]inf,228.5[ n [228.5,sup[ 0 [1,sup[ Table 3.2: Table de contingence relative à la discrétisation de la variable CHLSTMG daire CHLSTMG (dans la table secondaire Control) qui décrit pour chaque examen le taux de cholestérol. L algorithme 3.4 discrétise la variable CHLSTMG en deux intervalles, à savoir ]inf, 228.5[ et [228.5, sup[. Le Tableau 3.2 représente la grille de données optimale correspondant à cette discrétisation (les valeurs entre parenthèses sont les effectifs des valeurs cibles dans chaque cellule). Ce tableau peut être interprété comme un ensemble de quatre règles de classification, un pour chaque cellule. Par exemple la cellule en haut à gauche est équivalente à la règle : Si au moins quatre examens ont un taux de cholestérol inférieur à mg et aucun examen avec un taux de cholestérol supérieur à mg, alors la classe est Normal (ce qui signifie qu il n y a pas de risque de cholestérol). 3.6 Conclusion Dans ce chapitre, nous avons présenté une nouvelle approche de prétraitement des variables secondaires numériques et catégorielles dans le cadre de la fouille de données multi-tables. La méthode consiste à proposer une estimation de la densité de probabilité conditionnelle ainsi qu un partitionnement de ce type de variable par discrétisation dans le cas numérique et par groupement de valeurs dans le cas catégoriel. Nous avons également proposé un critère qui évalue dans quelle mesure un tel partitionnement préserve la corrélation avec la variable cible. Ce critère est optimisé via des algorithmes combinatoires afin d explorer l espace des modèles. Des expérimentations sur des jeux de données réelles et artificielles, dans le cas des variables secondaires numériques, ont montré que le critère d évaluation ainsi que les procédures de discrétisation proposées permettent de découvrir des variables secondaires pertinentes et d assurer des taux de prédiction importants. Le prétraitement des variables secondaires est réalisé dans ce chapitre ainsi que dans le chapitre précédent de façon univarié, c est-à-dire, en considérant une seule variable secondaire à la fois. Dans le chapitre 4 nous nous intéressons à un prétraitement multivarié (plusieurs variables à la fois) en se basant sur des itemsets de variables secondaires. Ceci permet de prendre en compte les corrélations potentielles qui peuvent exister entre ces variables. 84

91 4 Pré-traitement multivarié des variables secondaires Sommaire 4.1 Introduction Motivation Approche Évaluation d itemsets de variables secondaires Coût de construction d un itemset Évaluation de la variable secondaire associée à l itemset Critère d évaluation global Induction d itemsets de variables secondaires Conclusion Ce chapitre a fait l objet d une publication : [Lahbib et al., 2012a] 85

92 Chapitre 4 Pré-traitement multivarié des variables secondaires 4.1 Introduction La méthode de prétraitement d une variable secondaire présentée dans les Chapitres 2 et 3 (à savoir, de discrétisation et de groupement de valeurs) se limite au cas univarié, c est-à-dire celui d une seule variable secondaire. Nous proposons dans ce chapitre d étendre cette approche au prétraitement de plusieurs variables d une table en relation un-à-plusieurs avec la table cible. Nous proposons une approche de construction de variables à partir de plusieurs variables secondaires. Ensuite, nous proposons un critère d évaluation d une variable construite dans le contexte de classification supervisée. Nous introduisons un espace de modèles basés sur des itemsets de variables secondaires. Ces itemsets permettent de définir de nouvelles variables binaires dans la table secondaire, dont on va estimer la densité conditionnelle en réutilisant l approche du chapitre 2. Une distribution a priori est définie sur cet espace de modèles, permettant d obtenir ainsi un critère sans paramètre pour évaluer la pertinence des variables ainsi construites. Le reste de ce chapitre est organisé comme suit. La section 4.2 présente l intérêt du prétraitement multivarié dans le cadre de la fouille de données multi-tables. La section 4.3 introduit notre approche d évaluation d itemsets. Dans la section 4.4, nous détaillons le critère d évaluation proposé. Dans la section 4.5, nous discutons des différents problèmes d optimisation des itemsets et nous donnons quelques pistes de solutions. 4.2 Motivation Dans les chapitres 2 et 3, nous avons décrit une approche de prétraitement supervisé des variables descriptives secondaires. Les variables secondaires numériques sont discrétisées en intervalles et les variables catégorielles sont partitionnées en groupes de valeurs. Dans ces deux cas, le partitionnement s effectue de façon supervisée puisque nous prenons en compte la valeur de la variable cible lors de l évaluation. Cette analyse peut être qualifiée d univariée, puisque chaque variable secondaire est considérée indépendamment des autres. Le problème avec cette approche est que l on est incapable de détecter les éventuelles corrélations qui peuvent exister entre les variables secondaires. En effet, dans certains cas, une ou plusieurs variables explicatives peuvent être individuellement non informatives. Cependant, leur combinaison est éventuellement discriminante vis-à-vis de la classe. Exemple 4.1. Ce phénomène peut être illustré facilement dans le cas monotable classique avec la fonction XOR (Figure 4.1). En effet, aucune discrétisation univariée de la variable numériquex 1 (respectivementx 2 ) n est pertinente puisqu il y a le même nombre d individus des deux classes dans chaque intervalle. Par contre, lorsque 86

93 4.2 Motivation 100 X X 2 Figure 4.1: Corrélation de type XOR entre deux variables explicatives dans le cas Attribut-Valeur classique X 1 etx 2 sont considérées conjointement, avec le partitionnement adéquat, les deux classes peuvent êtres parfaitement séparées. Cette interaction multivariée entre deux ou plusieurs variables secondaires est plus difficile à illustrer dans le cas multi-tables. Nous essayons à travers l Exemple 4.2 de mettre en évidence l importance de considérer cette corrélation sur un problème de classification de caractères manuscrits qui peut être formalisé sous la forme d un problème de fouille de données multi-tables. Exemple 4.2. La base de données Digits 1 [Lecun et al., 1998] est composée de caractères manuscrits représentant des images de chiffres de 0 à 9. Dans sa version originale, cette base de données se présente sous un format tabulaire à plat où chaque ligne correspond à une image de taille Les données sont décrites par 784 variables (colonnes) qui représentent les pixels composant chaque image. Ces variables sont numériques, avec 256 niveaux de gris, ou peuvent être traitées de façon binaire avec la valeur 0 si le pixel est inférieur à un certain seuil de niveau de gris et à 1 dans le cas contraire. L objectif est de prédire la classe de ces digits (chiffre de 0 à 9). Cette base de données peut être représentée sous un format relationnel composé de deux tables. La Figure 4.2 illustre le schéma relationnel correspondant : chaque image (individu) s identifie à une ligne dans la table cible DIGIT, la table secondaire PIXEL décrit les pixels qui composent chaque image. Parmi ces pixels, on ne code que ceux mis à 1 selon la représentation seuillée sur le niveau de gris. Un caractère manuscrit, est alors associé au maximum à 784 lignes dans la table PIXEL. Un pixel est décrit par deux variables secondaires : X_POSITION et Y_POSITION qui représentent la position du pixel en abscisse et ordonnée dans l image originale. 1. Disponible sur 87

94 Chapitre 4 Pré-traitement multivarié des variables secondaires DIGIT DIGIT_ID (identifiant) CLASS PIXEL DIGIT_ID PIXEL_ID X_POSITION Y_POSITION Figure 4.2: Schéma relationnel de la base de données Digits Figure 4.3: Résumés d images de la base de données Digits représentant des 4 et des 9 Le problème se ramène alors à un problème de fouille de données multi-tables. Si l objectif est de prédire le chiffre représenté dans l image du caractère manuscrit, la Figure 4.3 montre qu il faut prendre en compte simultanément les valeurs des deux variables secondaires X_POSITION et Y_POSITION. Cette figure illustre des résumés d images de caractères manuscrits représentant des 4 et des 9. Il est clair que seule la variable X_POSITION (respectivement Y_POSITION) ne suffit pas pour reconnaître la classe. 4.3 Approche Afin de pouvoir prendre en compte conjointement plusieurs variables secondaires, nous proposons une approche en deux étapes. Dans un premier lieu, nous considérons des itemsets π de variables secondaires constitués d une conjonction d expressions de la forme (x S x ), oùxest une variable secondaire ets x est : un groupe de valeursv, sixest catégorielle, ou un intervalle [a 1,a 2 ], sixest numérique. Dans un second lieu, ces itemsets permettent de construire de nouvelles variables binairesa π dans la table secondaire selon que les enregistrements de cette table sont 88

95 4.3 Approche Figure 4.4: Itemset discriminant dans la base de données Digits.I X eti Y sont des intervalles de discrétisation des variables X_POSITION et Y_POSITION couverts ou non par l itemsetπ.a π est une variable secondaire évaluée à «vrai» pour les enregistrements secondaires couverts par l itemset π, et à «faux» sinon. Nous nous attendons à ce que les variablesa π ainsi construites captent l information prédictive contenue dans les variables secondaires qui apparaissent dans l itemsetπ. Exemple 4.3. Dans le problème de classification de chiffres manuscrits (Digits) de l Exemple 4.2, supposons que l on veuille prédire s il s agit d un «quatre» ou d un «neuf». Comme illustré dans la Figure 4.4, l itemsetπ: (X_POSITION I X ) (Y _POSITION I Y ) permet de spécifier une zone discriminante dans l espace bivarié des variables secondaires X_POSITION et Y_POSITION. Pour une image donnée (un individu), le nombre de pixels se trouvant dans cette zone permet de prédire avec précision la classe. Si l on considère la variable secondaire binairea π qui dénote si un pixel est couvert ou non parπ (c est-à-dire appartient ou non à la zone définie parπ), le chapitre 2 propose une approche pour estimer la densité de probabilité conditionnelle d une telle variable ainsi qu une extension du classifieur Bayésien Naïf. Dans le reste de ce chapitre, nous détaillons chacune des deux étapes introduites cidessus. Nous définissons par ailleurs un critère d évaluation des itemsets considérés. Ce critère se décompose en la somme de deux termes : (i) un coût de codage évaluant la construction de l itemsetπ, et (ii) un critère qui estime la pertinence de la variable A π par rapport à la variable cible, qui exploite l approche d évaluation des variables secondaires binaires introduite dans le chapitre 2. 89

Montrer encore