MESURES D'INTÉRÊT SUBJECTIF ET REPRÉSENTATION

Transcription

1 LABORATOIRE INFORMATIQUE, SIGNAUX ET SYSTÈMES DE SOPHIA ANTIPOLIS UMR 6070 MESURES D'INTÉRÊT SUBJECTIF ET REPRÉSENTATION DES CONNAISSANCES BRISSON Laurent Projet EXECO Rapport de recherche ISRN I3S/RR FR Octobre2004 LABORATOIRE I3S: Les Algorithmes / Euclide B 2000 route des Lucioles B.P Sophia-Antipolis Cedex, France Tél. (33) Télécopie : (33)

2 RÉSUMÉ : Ce rapport s'intéresse àl'utilité des règles découvertesen fouilles de données. Nous présentonsplusieurs mesures d'intérêt subjectif pour évaluer les règles générées. Ensuite, nous abordons le concept déontologie permettant de modéliser les connaissancesd'undomaine. Pourfinirnousproposonsuneméthodologieafinquelesontologiespuissentaiderauprocessusdefouille de données. MOTS CLÉS : fouille de données, mesures d intérêt subjectif, ontologie ABSTRACT: In this report, we are interested in the interestingness of rules extracted from data. We present several subjective interest measures in order to evaluate theses rules. Then we speak about the creation of ontology which allow to model knowledge. Finally we propose a methodology in order to ontologies help in the data mining process. KEY WORDS : data mining, subjective interest measures, ontology

3 Mesures d intérêt subjectif et représentation des connaissances Laurent BRISSON Etat d avancement de la thèse Encadrée par A. Cavarero et M. Collard Décembre 2003

4 Table des matières Table des matières... 2 Introduction... 3 I Les mesures d intérêt subjectif Définitions Utilisable Inattendu Relations entre utilisable et inattendu Méthodes pour trouver des modèles «utilisables» Les attentes de l utilisateur Identification des règles non utilisables Méthodes pour trouver des modèles inattendus Différentes définitions Les attentes de l utilisateur Les impressions générales Les systèmes de croyances KEFIR, un système dédié... 9 II La représentation des connaissances Définitions d Ontologie Cycle de vie d une ontologie Construction d une ontologie Définitions des objectifs et utilisation de scénarios Collecte des données Etude linguistique et sémantique Création de concepts Création d une taxonomie Formalisation Les différents langages de formalisation Les systèmes symboliques La logique de propositions La logique du premier ordre Les Graphes conceptuels III La représentation des connaissances au service du Data Mining Objectifs Utilisation Comment comparer ces descriptions de connaissances avec les modèles obtenus? Conclusion Bibliographie

5 Introduction Les techniques de data mining, permettent d extraire à partir de données volumineuses des connaissances implicites enfouies dans ces données. Les connaissances extraites peuvent prendre différentes formes ou modèles : description sous forme d agrégations et de généralisations, fonctions de régression, règles de classification, règles d association Les modèles découverts sont utilisés, en CRM (Customer Relationship Management), pour permettre à une compagnie de mieux comprendre la relation avec sa clientèle et mieux gérer ses ressources. La qualité d un modèle extrait tient à la fois à son pouvoir prédictif ou descriptif en termes de fiabilité et précision et à son utilité en termes d'intérêt, nouveauté et surprise. En ce qui concerne la précision différentes mesures existantes ont été étudiés dans [20] et nous avons pu constater que, bien que nécessaires, elles n étaient pas suffisantes pour exprimer l intérêt d un individu qui est très subjectif. Pour les caisses d'allocations familiales, ce thème de recherche trouve des applications appropriées par exemple pour extraire des modèles, règles ou motifs séquentiels traduisant le comportement des allocataires ainsi que leur relation avec leurs interlocuteurs à l'intérieur des centres. C est pourquoi ce travail s oriente d une part sur l étude de mesures d intérêt subjectif capables d appréhender l intérêt des agents des caisses d allocation familiales, et d autre part sur la création d une ontologie afin de pouvoir modéliser les connaissances des agents ainsi que la mémoire d entreprise existante. Ce rapport est composé de trois parties, la première développe les connaissances actuelles sur les mesures d intérêt subjectif, la deuxième les techniques de conception d ontologies et la dernière aborde mes objectifs et idées pour intégrer la représentation des connaissances aux algorithmes traditionnels de data mining. I Les mesures d intérêt subjectif 1. Définitions Les mesures d intérêt subjectif ont pour vocation de mesurer à quel point un modèle va intéresser l utilisateur du système. La difficulté au niveau de la mise au point de ses mesures est que l intérêt d un utilisateur du système varie selon l activité, l utilisateur, le domaine et même le temps. De plus, parfois les utilisateurs ne savent pas eux-mêmes ce qui peut les intéresser. Il est cependant possible de discerner deux grandes catégories de modèles intéressants : les modèles qui vont surprendre les utilisateurs, et les modèles utilisables par les utilisateurs. 1.1 Utilisable Une règle est intéressante si l utilisateur peut grâce à elle agir et en tirer un avantage. L utilisabilité est une mesure d intérêt subjective importante car beaucoup d utilisateurs sont souvent intéressés par des connaissances leur permettant de mieux faire leur travail grâce à des actions appropriées. Toutefois ce n est pas la seule mesure intéressante. [7] [11] [12] 3

6 1.2 Inattendu Une règle est intéressante si elle est inattendue ou inconnue de l utilisateur. Ce concept d inattendu se base sur le fait que si une règle surprend l utilisateur elle sera forcement intéressante. Ces règles inattendues sont donc intéressantes dans la mesure où elles contredisent nos «croyances». [3] [5] [7] 1.3 Relations entre utilisable et inattendu Selon Silberschatz [12] tous les modèles utilisables sont inattendus, donc seule l étude de l inattendu suffirait à extraire des modèles intéressants. Il est à mon avis dangereux de généraliser cette affirmation à tous les domaines. Il peut être envisageable que certains modèles attendus et utilisables soient intéressants car les utilisateurs de part la quantité de données auraient pu ne pas y porter attention. L objectif n est donc pas seulement de montrer des choses intéressantes car surprenantes mais aussi de mettre en évidence les modèles intéressants évidents et utilisables qui sont négligés par les utilisateurs. 2. Méthodes pour trouver des modèles «utilisables» 2.1 Les attentes de l utilisateur Cette méthode, comme les autres que nous verront par la suite, demande une participation active de l utilisateur qui doit exprimer de façon basique une partie de ses connaissances. La méthode de Liu consiste à extraire le modèles qui vont correspondre aux attentes de l utilisateur. Dans cette première phase aucun aspect inattendu ou utilisable est introduit. [7] a. La technique proposée L utilisateur doit fournir un ensemble de règles avec la même syntaxe que les règles générées. Les règles sont considérées comme des règles floues qui sont définies par des variables floues définies par : (x,t(x),u,g,m). X : nom de la variable vitesse T(x) : ensemble d expression définissant la variable U : ensemble de définition de la variable G : règle syntaxique générant le nom X de la variable pour chaque valeur M : règle sémantique associant à X un sens Un système de logique floue extrait alors les règles qui correspondent aux attentes de l utilisateur. b. L extraction de règles utilisables Afin d extraire les règles utilisables l utilisateur spécifie dans un premier temps toutes les actions possibles qu il puisse effectuer. Par exemple dans le cadre de la sécurité routière un responsable pourrait envisager les actions suivantes : ACTION 1 : Inciter la population à rester prudent en conduisant même dans les zones où la visibilité est bonne. ACTION 2 : Placer des radars dans les zones à faible visibilité 4

7 Pour chaque action l utilisateur spécifie les situations pour lesquelles il pourra effectuer l action. Les situations sont représentées par un ensemble de règles floues dans lesquelles les valeurs des variables sont représentées par une classe (ex : MAUVAISE_VISIBILITE, RAPIDE, LENT, ). Pour continuer dans le cadre de notre exemple on aurait : SITUATION POUR ACTION 1 : SITUATION POUR ACTION 2 : SI zone=bonne_visibilite ALORS blessure=légère SI zone=mauvaise_visibilite, vitesse=rapide ALORS blessure=mortelle Un système de logique floue extrait alors les règles qui correspondent aux situations envisagées par l utilisateur : 1. SI age>50, zone=ligne_droite ALORS blessure=légère 2. SI age>50, zone=croisement ALORS blessure=légère 3. SI zone=virage, vitesse>90 ALORS blessure=mortelle Il est important de remarque que l utilisateur ne doit pas fournir des situations qu il pense possible mais toutes les situations pour lesquelles une action est possible! Cette technique a l avantage de permettre de trouver les règles utilisables mais aussi de déterminer l action à entreprendre. 2.2 Identification des règles non utilisables Liu [3] propose une technique permettant d éliminer les règles non-utilisables qui ont été cependant considérées comme «intéressantes» par les différentes méthodes d élagage (qui conservent les règles les plus générales et suppriment les règles plus précises et pas très performantes) La méthode est objective mais peut être intéressante si elle simplifie la tâche des méthodes plus subjectives. Exemple : Nous sommes dans une situation où l on veut détecter les risques cardiovasculaires (BP représente la tension artérielle) : Voici les différentes règles générées par un algorithme : Une interprétation graphique des règles permet de dessiner ce schéma : 5

8 Si on veut effectuer une action sur R1 il vaut mieux l effectuer sur R2 ou R3 car une fois les tuples de ces 2 règles supprimées R1 n est plus utilisable. Il ne s agit cependant pas d éliminer toutes les règles ayant une faible confiance (les règles générales assez souvent) mais d éliminer les règles générales non-intéressantes à la lumière de règles plus précises! 3. Méthodes pour trouver des modèles inattendus 3.1 Différentes définitions De façon subjective un modèle inattendu est un modèle qui est susceptible de nous surprendre. Cependant, il est possible de formaliser ce concept de différentes manières. Liu propose une mesure de «distance» qui se base sur une comparaison syntaxique des règles et croyances. Pour Silberschatz, une règle est inattendue dans la mesure où elle perturbe le système de croyances et peut changer le degré de croyance (notion probabiliste). Enfin, selon Padmanabhan une règle inattendue est en contradiction logique avec une croyance (selon lui méthode plus simple et opérationnelle). 3.2 Les attentes de l utilisateur Cette méthode [7] est similaire à celle utilisée pour déterminer les patterns «utilisable» décrite en section 0. La nuance se situe au niveau de la fonction de «matching» qui est remplacée par un moyen d évaluer le degré de «surprise» de la règle générée. Liu fait la différence entre conséquence inattendue et cause inattendue. Et pour chacune d entre elles il note différemment selon qu il y est une contradiction entre les attributs ou juste des attributs identiques aux valeurs différentes. La principale difficulté réside dans l expression des connaissances, le format des règles est simple bien qu un peu limitatif et sûrement rapidement fastidieux à mettre en place dans un cas réel. 6

9 3.3 Les impressions générales a. Définitions Selon Liu [6] il existe deux principaux types de concepts : Les Impressions générales (GI) : L utilisateur n a pas de concept détaillé d un domaine mais il a quelques vagues sentiments. Par exemple dans le domaine d accord de crédit on pourrait dire que plus les revenus sont importants plus les chances d accord sont élevées. Les connaissances relativement précises (RPK) : L utilisateur a une idée très précise des choses. Si les revenus mensuels sont supérieurs à 5000 alors le crédit est toujours accordé. b. Représentation des impressions générales Liu n a étudié les impressions générales que dans le cadre particulier des règles de classement. Par rapport à la méthode précédente celle-ci met à disposition une plus grande variété d opérateurs pour nuancer les différentes expressions. Par exemple : a < -> C : plus a est petit plus il y a des chances que l on ait C a > -> C : plus a est petit plus il y a des chances que l on ait C a << -> C : si a est dans la moyenne a -> C : s il existe une relation a [S] -> C : si a appartient à S La méthode permettant de repérer les règles inattendues est semblable à celle utilisée pour les «attentes de l utilisateur» à quelques différences près dues à la structure des connaissances. 3.4 Les systèmes de croyances a. Création d un ensemble de croyances selon Silberschatz [11][12] L inattendu est très relié aux croyances d un individu. Ainsi il est important de mettre au point un bon système de croyances. Les croyances sont définies par Silberschatz comme des expressions logiques du premier ordre auxquelles on associe une «mesure de confiance» ou «degré de croyance». On peut classer les croyances en deux catégories : Les croyances «fortes» : Quelles que soient les nouvelles connaissances acquises ou les règles générées les croyances fortes demeurent exactes. Une contraction avec une croyance forte met en évidence un «bug» ou une corruption des données. Les croyances «légères» : Ce sont des croyances que l utilisateur aimerait confirmer ou voir évoluer selon les connaissances nouvellement acquises 7

10 Silberschatz propose différentes méthodes pour évaluer le degré de croyance : Approche Bayésienne : Le degré de croyance est défini comme une probabilité conditionnelle que la croyance existe étant donné certaines conditions supportant cette croyance. Approche de Dempster-Shafer : Le degré de croyance est la somme de toutes les probabilités des évènements B qui impliquent A Approche fréquentielle : Pour une croyance a -> b le degré de croyance est le nombre de tuples satisfaisant a et b sur le nombre de tuples ne satisfait que a. D autres approches (cyc, statistiques) ne sont pas valables dans certaines situations, d autres comme celle Bayésienne difficiles et contraignantes à mettre en place. b. Création d un ensemble de croyances selon Padmanabhan [8][9] Les croyances s expriment pour Padmanabhan sous la même forme que les règles générées. Les croyances doivent respecter un principe de monotonie (le but est d obtenir des croyances plus spécifiques). Les croyances doivent être vérifiées sur un ensemble statistiquement «assez grand». c. Le processus de raffinement [8][12] La découvert de règles inattendues et le raffinement de la connaissance sont deux aspects importants d un processus plus global : Les connaissances que l on a apriori d un domaine sont basées sur l expérience passée et dans certains cas les conditions ont pu changer et les connaissances doivent être remises en question! Au niveau du système de Silberschatz si une règle contredit : Une croyance forte : il y a un problème dans le recueil des données ou alors la règle est fausse! Une croyance légère : soit nous avons la même situation que dans le cas d une croyance forte, soit nous avons un véritable cas inattendu et dans ce cas il est important de mettre à jour la croyance! Le principal problème demeure au niveau du classement des deux types de croyances. 8

11 3.5 KEFIR, un système dédié Piatetsky-Shapiro a participé à la mise au point de KEFIR, un système dédié à l analyse du système de santé Américain (performances, efficacité, gestion des coûts). Cette approche prend en compte un intérêt subjectif mais les règles de production sont codées en dur et spécifiques au domaine d application. Phase 1 : Mesure de déviations par rapport aux données recueillis ou aux connaissances préalables. Phase 2 : Evaluation spécifique au domaine, notamment en terme de coûts. Phase 3 : Explication générée simplement par décomposition d une formule, ou analyse des éléments d un ensemble. Phase 4 : Recommandations facilement déductibles à partir d une base d actions disponibles Phase 5 : Rapport Final, système de templates à «trou» ou «variables» Le coût d un tel système est important. Cependant les résultats sont plus rapides et l évaluation de l intérêt plus précise. 9

12 II La représentation des connaissances 1. Définitions d Ontologie Le mot «Ontologie» vient du grec ontos pour être et de logos pour univers. C est un terme philosophique introduit au XIX ème siècle caractériser l étude des êtres dans notre univers. Le mot «Ontologie» possède différentes significations et demeure assez ambiguë. Il y a une quinzaine d années la communauté de la représentation de la connaissance transforme ce concept philosophie en objet : «une ontologie». Une ontologie peut donc être définie comme un ensemble d informations dans lequel sont définis les concepts utilisés dans un langage donné et qui décrit les relations logiques qu'ils entretiennent entre eux. Le but des ontologies est donc de définir quelles primitives avec leur sémantique associée sont nécessaires pour la représentation des connaissances dans un contexte donné [14]. En maintenant une représentation des notions humainement compréhensible, l ontologie capture l isomorphisme entre le système symbolique et les observations du monde réel. 2. Cycle de vie d une ontologie Selon Fernandez [15], lorsqu une ontologie devient importante le processus de création d une ontologie doit être considéré comme un projet à part entière, en conséquence des méthodes de managements doivent être utilisées. L équipe ACACIA de l INRIA a travaillé sur la création d ontologies et propose de modéliser le processus d évolution d une ontologie par le diagramme ci-dessous. Ce diagramme représente la fusion du cycle de vie d une mémoire corporative avec les propositions de Fernandez pour la création d une ontologie. Selon lui, les étapes clés du processus sont : la planification, la spécification, l acquisition des connaissances, la conceptualisation, la formalisation, l intégration, l implémentation, l évaluation et la maintenance. 10

13 Figure 1 Cycle de vie d une ontologie (Source : Rapport n 4396 de l INRIA) Il est important de remarquer, qu appliquée à un domaine en évolution une ontologie est appelée à évoluer. Ainsi la maintenance d une ontologie est une tâche vitale car l ontologie a pu être utilisée précédemment pour définir des briques de conceptualisation ou d implémentation et un changement non averti pourrait rendre caduque tout travail effectué précédemment. 3. Construction d une ontologie 3.1 Définitions des objectifs et utilisation de scénarios Fernandez [15], préconise de ne pas commencer le développement d une ontologie sans savoir quels seront ses buts et sa portée. Afin d identifier objectifs et limitations il est impératif de savoir pourquoi l ontologie va être créée et quels seront ses utilisateurs. Une première importante étape doit donc être la création d un document qui définit les spécifications de l ontologie. Une technique intéressante est l utilisation de scénarios identique à ceux déjà utilisés en génie logiciel. Les scénarios sont un point d entrée dans le projet car ils sont riches en informations définissant les problèmes existants et les désirs des utilisateurs d un système. Ils ont l avantage de permettre une communication en langage naturel tout en saisissant la situation et son contexte, les dépositaires, les problèmes et les solutions avec le vocabulaire qui leur est associé. 3.2 Collecte des données La collecte de données est la première étape de la création d une ontologie. Un des principes principaux à appliquer est de ne jamais empêcher l utilisateur de dire ce qu il sait, mais de l encourager à dire les choses d une manière qui sera facilement exploitable [16]. 11

14 Cette collecte de données s inscrit dans un processus comprenant les phases suivantes : - Préparation - Collecte - Pré-analyse et modélisation informelle - Vérifications - Formalisation et validation Il existe différentes techniques [15] à utiliser lors l acquisition de connaissances : - Des entretiens informels avec des experts dressant un brouillon des spécifications requises - L analyse de texte informelle, pour étudier les principaux concepts et pouvoir ébaucher une première représentation des connaissances - L analyse formelle de texte afin d identifier les différentes structures (définitions, affirmations, ) et le type de connaissances contenues dans chacune d elles (concepts, attributs, valeurs, relations) - Des entretiens structurés avec des experts pour obtenir des connaissances spécifiques et détaillées sur les concepts, leurs propriétés et leurs relations et évaluer les modèles mis au point Lors de cette phase il faut également faire bien attention à repérer les différentes terminologies ou ontologie existantes (plus ou moins explicitement) afin de les intégrer dans le modèle en cours de création. 3.3 Etude linguistique et sémantique Bachimont [14] décompose le processus de modélisation d une ontologie en trois étapes correspondant à trois niveaux : - le niveau sémantique qui décrit la sémantique en langage naturel des concepts - le niveau ontologique qui les décrit de façon formelle - le niveau informatique qui spécifie leur utilisation dans ce cadre précis Durant la collecte des données et la définition des objectifs différents termes sont identifiés, parfois plusieurs pour un même concept. L étude de la terminologie est au cœur de l ingénierie des connaissances et est en charge de sélectionner des termes candidats et de fournir une définition consensuelle. Le premier objectif est donc de formaliser le contexte et établir une terminologie commune à tous. Il faut cependant prendre garde lors de la création d un tel corpus, car les choix effectués risquent d introduire des biais difficiles ensuite à évaluer. La normalisation sémantique est le choix d un contexte de référence correspondant à la tâche ou au problème qui a motivé la création de l ontologie. Il est important que ce travail de normalisation soit effectué conjointement par l ingénieur des connaissances et les utilisateurs. Uschold et Gruninger [16] donne quelques lignes à suivre pour la création de définitions : 12

15 - Ecrire une définition en langage naturel aussi claire que possible - S assurer de la consistance avec les termes déjà existants - Indiquer les relations avec les termes couramment utilisés et qui sont similaires à celui en train d être défini - Eviter les définitions circulaires - La définition d un terme doit être nécessaire et suffisante autant que possible Lors de l étude des termes existants on peut tomber sur une des situations suivantes : - Le terme possède une et une seule définition : le cas idéal, rarement rencontré - Plusieurs termes ont la même définition : ce sont des synonymes, un seul doit être conservé et les autres mis dans un dictionnaire de synonymes - Un terme a plusieurs définitions : ici le terme est ambigu et les choses se doivent d être clarifiées Pour résoudre ces ambiguïtés plusieurs choix sont possibles : - Supprimer l utilisation d un terme trop ambigu - Clarifier les idées en définssent chaque concept avec quelques termes techniques - S il existe plusieurs concepts, ne choisir que celui qui mérite d être dans l ontologie - Choisir un nouveau terme pour chaque concept 3.4 Création de concepts Durant la phase d étude terminologique et sémantique, termes et définitions ont été recueillis. La tâche suivante est de conceptualiser toutes les notions sous-jacentes au vocabulaire utilisé. Dans [16], les auteurs utilisent la méthode suivante : - Placer le terme dans une catégorie - Conserver toutes les traces des décisions prises afin de pouvoir procéder à d éventuelles modifications - Grouper les termes similaires dans les mêmes catégories - Identifier les références sémantiques entre les catégories S ensuit alors le travail de conceptualisation où il est nécessaire de reconsidérer chaque catégorie afin d élimer le plus possible les similarités sémantiques entre catégories. Fernandez [15], a une approche quelque peu différentes car il structure le domaine de connaissances en verbes et en concepts. Les concepts sont décrit au moyen d un dictionnaire de données, de tables d attributs d instances, de tables d attributs de classes, de tables de constantes et d arbres de classification des attributs. Les verbes, quant à eux, représentent les actions possibles dans le domaine et sont généralement associés à un dictionnaire qui va indiquer les conditions pour que l action puisse être effectuée. 13

16 Dans [17] Gomez décrit les différentes activités de conceptualisation et les documents qui y sont associé : - Dictionnaire de données : identifie les concepts du domaine et leur sémantique, les attributs. - Arbre de classification de concepts : organise les concepts en taxonomie. - Table d attributs d instance : fournit des informations sur les attributs et leur valeur dans une instance. - Table d attributs de classe : fournit des informations sur un concept et non ces instances. Pour chaque concept du dictionnaire une table est crée. - Table de formules : contient des formules spécifiques au domaine pouvant utilisant différents attributs - Arbre de classification d attributs - Table des instances 3.5 Création d une taxonomie La création d une taxonomie est une étape importante dans la réalisation d une ontologie. Différentes approches peuvent être envisagées : - «Bottom-up» : on démarre avec les termes les plus spécifiques et la structure est construite par généralisation. Cette approche permet de créer des ontologies avec des concepts très détaillés - «Top-down» : on démarre avec les termes les plus génériques et la structure est construite par spécialisation. Cette approche permet de créer des ontologies très réutilisables car possédant un haut niveau d abstraction - «Middle-down» : les concepts centraux sont identifiés puis généralisés et spécialisés pour compléter la taxonomie. Cette approche permet l émergence de thématique et améliore la modularité de la taxonomie. Une taxonomie est en fait une classification basée sur les similarités. Sa présence est naturelle au sein de la représentation des connaissances car elle utilise des aptitudes inhérentes à chaque être humain : - classement et identification : afin de pouvoir associer un objet à une catégorie - classification ou clustering : afin de pouvoir créer des catégories à partir de groupes d objets La relation au cœur des taxonomies est la relation de subsomption. Cette relation permet de bâtir un mécanisme d héritage dans lequel un objet hérite des caractéristiques d un autre qui lui et supérieur dans la hiérarchie. Les taxonomies peuvent être créées avec différentes structures : arbres, treillis ou graphe à héritage multiple. Une ontologie ne se définie toutefois pas uniquement par ces concepts mais aussi par les relations existantes entre ces concepts. Une relation est définie par les concepts qu elle relie ; ces concepts sont la signature sémantique de la relation. 14

17 3.6 Formalisation Une ontologie peut s exprimer selon plusieurs degrés de formalisation allant des définitions les plus informelles en langage naturel aux expressions écrites en logique du premier ordre devant respecter une syntaxe et sémantique très stricte. Le degré de formalisation de l ontologie va dépendre principalement des besoins. On peut considérer les quatre degrés suivants : - très informel : exprimé en langage naturel - semi-informel : exprimé dans une forme restreinte et structurée du langage naturel - semi-formel : exprimé dans un langage artificiel défini formellement - rigoureusement formel : défini en termes utilisant une sémantique formelle, théorèmes et preuves Il est à retenir que les ontologies ont à être compréhensible à la fois par les humaines et les ordinateurs [18]. Pour obtenir un bon équilibre entre la précision technique et la compréhensibilité il est important pour chaque définition technique de conserver une description informelle de la définition. Enfin, comme l ontologie devra être exploitée par un ordinateur, il est nécessaire qu elle soit calculable. Et pour cela, il est nécessaire de l implémenter dans un langage formel. 4. Les différents langages de formalisation 4.1 Les systèmes symboliques Les systèmes symboliques sont des ensembles de symboles, états initiaux et règles de transformations permettant de créer de nouveaux états dans un système. Un système symbolique seul n a en lui-même aucun intérêt à moins qu on lui donne une interprétation, c est à dire que l on trouve l isomorphisme entre les états et les règles du système et le modèle et les inférences du domaine. Un système symbolique peut être formellement valide sans aucune interprétation mais il nécessite une interprétation pour être réellement valide. Les systèmes symboliques ne sont donc pas suffisant pour être utilisé en tant que langage de formalisation d une ontologie ; il est nécessaire d avoir un moyen d exprimer la sémantique du formalisme. 4.2 La logique de propositions La logique est la base des langages de formalisation. Elle constitue un système symbolique permettant d analyser les inférences et fournit une méthode scientifique formelle pour analyser des idées. La logique la plus simple est la logique de proposition définit sur la figure 2. 15

18 Figure 2 Définition de la logique de propositions (Source : Rapport n 4396 de l INRIA) Cependant, une logique sans interprétation n est autre qu un système symbolique sans aucun sens qui ne peut être utilisé dans une ontologie. Sur la figure 3 ont peut voir l interprétation de la logique de proposition. Figure 3 Interprétation de la logique de propositions (Source : Rapport n 4396 de l INRIA) Le principal problème que pose la logique de proposition au niveau ontologique est le fait que les propositions soient des symboles indivisibles et que seules les relations entre propositions 16

19 sont considérées sans tenir compte de la nature ou la structure de propositions. Il est donc nécessaire de d avoir un langage plus expressif permettant de différencier individus et catégories et représenter des relations entre individus. 4.3 La logique du premier ordre La logique du premier ordre inclus la logique de propositions et peut être définie de la façon suivante (cf. figure 4). Les prédicats et les quantificateurs permettent désormais de différencier les individus des catégories et d exprimer des relations entre individus. La figure 5 donne un aperçu de l interprétation de la logique du premier ordre. Cette logique est beaucoup plus expressive que la logique de propositions cependant certaines choses ne peuvent toujours pas être exprimées (notamment les propriétés des relations) et cette logique est semi-décidable, c est à dire qu il n existe pas d algorithme capable de prouver en un temps fini si une expression est démontrable. D autres langages de formalisation ont donc fait le choix de réduire leur expressivité afin de pouvoir exprimer les choses réellement utiles dans le cadre des ontologies. Un d entre eux est examiné dans la section suivante. Figure 4 Définition de la logique du premier ordre (Source : Rapport n 4396 de l INRIA) 17

20 Figure 5 Interprétation de la logique du premier ordre (Source : Rapport n 4396 de l INRIA) 4.4 Les Graphes conceptuels Les graphes conceptuels ont été conçus en s inspirant des graphes existentiels de Charles Sanders Peirce et des réseaux sémantiques utilisés en intelligence artificielle. Leur but est d exprimer des connaissances sous une forme logique précise compréhensible par des humains et adapté à un traitement automatisé. Facilement interprétables en langage naturel, les graphes conceptuels peuvent servir d intermédiaire pour traduire différents formalismes. Leur aspect graphique permet, quant à lui, une lecture facile des connaissances tout en assurant un cadre formel. - Les graphes existentiels et les réseaux sémantiques Peirce a développé un système de diagrammes appelés graphes existentiels, qui représentent les relations structures élémentaires dans un phénomène. Les graphes existentiels représentent donc des relations incluant les relations entre un ensemble de prémisse et une conclusion. Ils sont utiles pour vérifier quelles conclusions sont garanties par les prémisses. Ce système a été à l origine conçu par Peirce pour résoudre de complexes problèmes de logique. L'utilisation des graphes en représentation des connaissances pour l'ia vient de l'idée de représenter graphiquement des concepts et leurs liens. Le premier outil proposé est le réseau sémantique introduit en 1968 par Quillian. Son modèle de réseau avait pour ambition de constituer un modèle de la mémoire humaine. Par ailleurs, les graphes sont souvent utilisés pour abstraire les informations pertinentes et se concentrer seulement sur la topologie d'un problème, le graphe constituant un espace du problème. [19] 18

21 - Définition des graphes conceptuels Un graphe conceptuel est graphe orienté bipartite. Il possède deux types de nœuds différents : les nœuds conceptuels et les nœuds relationnels. Chaque arc relie deux nœuds de type différent. Certains nœuds conceptuels peuvent ne pas être reliés. Les concepts et relations possèdent tous deux un type et les relations ont une valence représentant le nombre de concepts qui leurs sont reliés. On appelle signature d une relation la liste des types des concepts liés à la relation. Deux relations du même type auront nécessairement la même signature. Les types sont organisés en hiérarchies structurées par une relation de subsomption. - Les différentes notations Les graphes conceptuels sont définis par une syntaxe abstraite, indépendante de toute notation, mais ce formalisme peut être représenté au moyen de différentes notations concrètes. Un graphe conceptuel peut être représenté sous forme graphique appelée DF (pour Display Form en anglais), sous forme du format d échange CGIF (Conceptual Graph Interchange Form) ou sous forme linéaire LF (Linear Form). Chaque graphe conceptuel possède également une représentation équivalente en logique des prédicats grâce aux format d échange de connaissances KIF (Knowledge Interchange Format). Exemple : Every cat is on a mat Dans le format DF, les rectangles représentent les concepts et les cercles les relations. Le format linéaire LF, permet d écrire : [Cat: ]->(On)->[Mat]. Etant donné que le format CGIF s exprime avec un sous-ensemble d unicode on ne peut utiliser le symbole qui est remplacé : [Mat: *y] (On?x?y) ou encore : (On [Mat]) La formule équivalente au format KIF s écrit : forall ((?x Cat)) (exists ((?y Mat)) (On?x?y))) Le graphe conceptuel peut également être représenté sous forme de prédicats : ( x:cat)( y:mat)on(x,y). 19

22 III La représentation des connaissances au service du Data Mining 1. Objectifs Pour les caisses d allocations familiales, ce thème de recherche trouve des applications appropriées par exemple pour extraire des modèles traduisant le comportement des allocataires ainsi que leur relation avec leurs interlocuteurs à l intérieur des centres. Dans le cadre du SID de nombreuses données sur les allocataires et les différents contacts ont été collectés. On peut donc envisager la mise au point de différents modèles visant à améliorer la prise de contact, la pertinence des informations transmises aux allocataires, la vitesse de traitement des dossiers, la satisfaction des clients ou même à diminuer les coûts de traitement. Cependant, il est impératif qu un dialogue avec un expert du domaine soit instauré afin de déterminer les objectifs les plus importants pour les CAF et pour lesquels il serait facilement possible de valider les résultats. De plus, il pourrait être intéressant de définir ces objectifs en fonction des différents utilisateurs menés à utiliser le système. Une fois le choix des objectifs effectué il s agira de développer une ontologie permettant la représentation de connaissances. Ces connaissances pourront tout aussi bien représenter une «mémoire d entreprise» contenant toutes les informations et procédures utilisées dans le domaine du contact allocataire que les connaissances propres à certains agents et pouvant être floues ou se contredire. L ontologie devra également modéliser les différentes actions possibles par les agents, ainsi que les croyances sur certains modèles acquises par expérience. Parallèlement au développement de l ontologie, un travail sur les mesures d intérêt subjectif doit être effectué afin de permettre l émergence de modèles surprenants ou utilisables par les agents des caisses d allocations familiales. Dans le cadre d un outil d aide à la décision il faudrait envisager de pouvoir également aider l utilisateur à estimer des priorités. Pour finir sur les objectifs, on ne peut oublier de parler des contraintes : une ontologie possède un cycle de vie et doit être maintenue, pour cela les utilisateurs devront pouvoir simplement la mettre à jour. Il est alors nécessaire qu un système de vérification soit intégré afin de s assurer que l ontologie demeure exploitable par des moyens algorithmiques. 2. Utilisation Les nombreux algorithmes de data mining existants permettront l élaboration de modèles. L ontologie et les mesures d intérêts subjectives peuvent intervenir de deux façons différentes : - en étant intégrés directement dans un algorithme d extraction de connaissances - en étant utilisés en filtre pour sélectionner les meilleurs modèles générés par un algorithme. Le choix de la méthode dépend bien évidemment de l algorithme utilisé qui diffère selon la tâche que l on effectue. En voici quelques exemples : 20

23 - Le classement ou classification supervisée La classification supervisée est une tâche de prédiction de variables catégorielles. Elle s'effectue en deux étapes : dans la première un modèle décrivant un ensemble de classes ou concepts est construit en analysant les attributs des exemples de la base de données. Chaque exemple appartient à une classe spécifique définie par son attribut de classe. L'ensemble des exemples ayant contribué à la construction du modèle constitue l'ensemble d'apprentissage. Etant donné que la classe de chaque exemple est fournie, cette phase est également appelée «apprentissage supervisé». Dans la deuxième étape le modèle est utilisé pour classer des exemples appartenant à un ensemble de test différent de l'ensemble d'apprentissage ; la précision du modèle sur l'ensemble de test pour lequel nous connaissons la classe de chacun des exemples est évaluée. Les structures les plus couramment utilisés sont les arbres de décision. - La classification non supervisée : A la différence de la classification supervisée, la classification non-supervisée (ou encore clustering) traite un ensemble d'exemples dont l'appartenance à une classe est inconnue. Son rôle est de regrouper les exemples en classes, groupes dans lesquels les exemples sont très similaires mais entre lesquels ces exemples sont très différents. La classification non supervisée doit donc découvrir les classes implicitement définies dans les données ; le concept de similarité revêt ici une importance capitale. - La recherche d'associations : Cette autre tâche que peut accomplir la fouille de données a pour but de trouver d'intéressantes associations ou corrélations entre les attributs d'un ensemble de données. A la différence de la tâche de classification le conséquent d'une règle d'association peut contenir plusieurs attributs, et tous les attributs peuvent être présents dans les prémisses. En ce sens, les règles d'association sont symétriques et celles de classification asymétriques. 3. Comment comparer ces descriptions de connaissances avec les modèles obtenus? Les mesures d intérêt subjectif vont devoir s adapter à l algorithme utilisé, différent selon la tâche à effectuer. Il est donc important d étudier les différents critères à établir pour comparer les modèles générés aux connaissances contenues dans l ontologie. Ces critères de comparaisons peuvent également être dépendants du type de connaissances considéré (description d une action, connaissance du domaine, connaissance à priori d un modèle). Ces critères peuvent être des mesures de distances entre structures de connaissances, la présence de contradictions logiques entre connaissances et modèles ou encore la perturbation que pourrait engendrer un modèle s il devait être intégré dans l ontologie. Des travaux ont déjà été effectués dans un domaine similaire, cependant ils diffèrent de nos objectifs car les seules connaissances modélisées étaient les croyances ou les impressions des utilisateurs sur un modèle particulier (méthode des templates, impressions générales, attentes des utilisateurs). De plus la représentation des connaissances choisie était de la même forme que les modèles générés, c'est-à-dire des règles. Bien entendu ce choix se justifie par un besoin de simplifier la recherche de modèles intéressants mais notre ambition est de réunir une «mémoire d entreprise» qui pourrait être utilisable pour différentes tâches (classement, 21

24 clustering, recherche d associations) et permettrait de gagner beaucoup en terme d expressivité. Un autre type de solution proposé est celui de Piatesky-Shapiro au travers du système KEFIR qui est dédié à l analyse de déviations. Nous pourrions envisager pour notre projet la création d un système dédié, cependant à l inverse du système de santé américain toutes les données des CAF ne sont pas numériques, un système basé sur les déviations ne peut donc être utilisé. De plus il serait intéressant que la solution théorique proposée puisse inclure une démarche data-mining réutilisable pour d autres types d applications CRM que la gestion du contact allocataire. Conclusion Ce rapport d avancement de la thèse avait pour but de justifier l orientation des travaux de recherches sur les domaines des mesures d intérêt subjectif et de la représentation des connaissances. Les prochaines étapes de travail vont consister d une part à approfondir les différentes solutions algorithmiques permettant d extraire de l ontologie les connaissances nécessaires à l évaluation de l intérêt des modèles générés et d autre part à modéliser le processus du traitement du dossier allocataire afin de préparer le terrain à la création d une ontologie. Cette modélisation pourrait notamment s inspirer des travaux sur la modélisation de processus effectués par Yves Callejas avec le CNEDI. Une partie importante de la démarche va donc consister à la mise en place de contacts avec différents partenaires afin d établir une meilleure communication sur les travaux existants et permettre un accès simplifié à la connaissance et l expérience de l entreprise sur le contact allocataire. 22

25 Bibliographie [1] Charu C. Aggarwal. Human-computer cooperative system for effective high dimensional clustering. In Knowledge Discovery and Data Mining, pages , [2] Mihael Ankerst, Martin Ester, and Hans-Peter Kriegel. Towards an effective cooperation of the user and the computer for classification. In Knowledge Discovery and Data Mining, pages , [3] Yiming Ma. Bing Liu, Wynne Hsu. Identifying non-actionable association rules. In CM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2001), [4] E. J. Horvitz, J. S. Breese, and M. Henrion. Decision theory in expert systems and artificial intelligence. International Journal of Approximate Reasoning, 2 : , [5] Mika Klemettinen, Heikki Mannila, Pirjo Ronkainen, Hannu Toivonen, and A. Inkeri Verkamo. Finding interesting rules from large sets of discovered association rules. In Nabil R. Adam, Bharat K. Bhargava, and Yelena Ye- sha, editors, Third International Conference on Information and Knowledge Management (CIKM'94), pages ACM Press, [6] Bing Liu, Wynne Hsu, and Shu Chen. Using general impressions to analyze discovered classification rules. In Knowledge Discovery and Data Mining, pages 31-36, [7] Bing Liu, Wynne Hsu, Lai-Fun Mun, and Hing-Yan Lee. Finding interesting patterns using user expectations. Knowledge and Data Engineering, 11(6) : , [8] B. Padmanabhan and A. Tuzhilin. Unexpectedness as a measure of interestingness in knowledge discovery, [9] Balaji Padmanabhan and Alexander Tuzhilin. Small is beautiful : discovering the minimal set of unexpected patterns. In Knowledge Discovery and Data Mining, pages 54-63, [10] G. Piatetsky-Shapiro and C. Matheus. The interestingness of deviations, [11] A. Silberschatz and A. Tuzhilin. What makes patterns interesting in knowledge discovery systems. Ieee Trans. On Knowledge And Data Engineering, 8 : , [12] Abraham Silberschatz and Alexander Tuzhilin. On subjective measures of interestingness in knowledge discovery. In Knowledge Discovery and Data Mining, pages , [13] E. Suzuki. Autonomous discovery of reliable exception rules. In Third International Conference on Knowledge Discovery and Data Mining, pages , [14] Bruno Bachimont. Engagement sémantique et engament ontologique : conception et réalisation d ontologies en ingénierie des connaissances in Ingénierie des connaissances, Evolutions récentes et nouveaux défis, Jean Charlet, Manuel Zacklad, Gilles Kassel, Didier Bourigault, Eyrolles 2000, ISBN

26 [15] M. Fernandnez, A. Gomez-Perez, and N. Juristo, METHONTOLOGY : From ontological arts towards ontological engineering. In Proceedings of the AAAI97 Spring Symposium Series on Ontological Engineering, Stanford, USA, pages 33 40, March 1997 [16] M. Uschold and Gruininger M. Ontologies : Principles, methods and applications. Knowledge Engineering Review, Vol. 11:2, , Also avaible as AIAI-TR-1991 from AIAI, The university of Edinburgh [17] Gómez-Pérez, A. ; Fernandez, M. ; De Vivente, A. Towards a method to conceptualize domain ontologies Workshop on ontological engineering. ECAI Pages [18] Riichiro Mizoguchi and Mitsuri Ikeda. Towards ontology engineering In Proceedings of the Joint 1997 Pasific Asian Conference on Expert Systems / Singapore International Conference on Intelligent Systems, pp. 259*-266, [19] Site web : [20] Laurent BRISSON, Etude de mesures d intérêt, pour modèles extraits par des techniques de data mining, Mémoire de DEA, Juin

Montrer encore