MESURES D'INTÉRÊT SUBJECTIF ET REPRÉSENTATION
|
|
|
- Quentin Bureau
- il y a 10 ans
- Total affichages :
Transcription
1 LABORATOIRE INFORMATIQUE, SIGNAUX ET SYSTÈMES DE SOPHIA ANTIPOLIS UMR 6070 MESURES D'INTÉRÊT SUBJECTIF ET REPRÉSENTATION DES CONNAISSANCES BRISSON Laurent Projet EXECO Rapport de recherche ISRN I3S/RR FR Octobre2004 LABORATOIRE I3S: Les Algorithmes / Euclide B 2000 route des Lucioles B.P Sophia-Antipolis Cedex, France Tél. (33) Télécopie : (33)
2 RÉSUMÉ : Ce rapport s'intéresse àl'utilité des règles découvertesen fouilles de données. Nous présentonsplusieurs mesures d'intérêt subjectif pour évaluer les règles générées. Ensuite, nous abordons le concept déontologie permettant de modéliser les connaissancesd'undomaine. Pourfinirnousproposonsuneméthodologieafinquelesontologiespuissentaiderauprocessusdefouille de données. MOTS CLÉS : fouille de données, mesures d intérêt subjectif, ontologie ABSTRACT: In this report, we are interested in the interestingness of rules extracted from data. We present several subjective interest measures in order to evaluate theses rules. Then we speak about the creation of ontology which allow to model knowledge. Finally we propose a methodology in order to ontologies help in the data mining process. KEY WORDS : data mining, subjective interest measures, ontology
3 Mesures d intérêt subjectif et représentation des connaissances Laurent BRISSON Etat d avancement de la thèse Encadrée par A. Cavarero et M. Collard Décembre 2003
4 Table des matières Table des matières... 2 Introduction... 3 I Les mesures d intérêt subjectif Définitions Utilisable Inattendu Relations entre utilisable et inattendu Méthodes pour trouver des modèles «utilisables» Les attentes de l utilisateur Identification des règles non utilisables Méthodes pour trouver des modèles inattendus Différentes définitions Les attentes de l utilisateur Les impressions générales Les systèmes de croyances KEFIR, un système dédié... 9 II La représentation des connaissances Définitions d Ontologie Cycle de vie d une ontologie Construction d une ontologie Définitions des objectifs et utilisation de scénarios Collecte des données Etude linguistique et sémantique Création de concepts Création d une taxonomie Formalisation Les différents langages de formalisation Les systèmes symboliques La logique de propositions La logique du premier ordre Les Graphes conceptuels III La représentation des connaissances au service du Data Mining Objectifs Utilisation Comment comparer ces descriptions de connaissances avec les modèles obtenus? Conclusion Bibliographie
5 Introduction Les techniques de data mining, permettent d extraire à partir de données volumineuses des connaissances implicites enfouies dans ces données. Les connaissances extraites peuvent prendre différentes formes ou modèles : description sous forme d agrégations et de généralisations, fonctions de régression, règles de classification, règles d association Les modèles découverts sont utilisés, en CRM (Customer Relationship Management), pour permettre à une compagnie de mieux comprendre la relation avec sa clientèle et mieux gérer ses ressources. La qualité d un modèle extrait tient à la fois à son pouvoir prédictif ou descriptif en termes de fiabilité et précision et à son utilité en termes d'intérêt, nouveauté et surprise. En ce qui concerne la précision différentes mesures existantes ont été étudiés dans [20] et nous avons pu constater que, bien que nécessaires, elles n étaient pas suffisantes pour exprimer l intérêt d un individu qui est très subjectif. Pour les caisses d'allocations familiales, ce thème de recherche trouve des applications appropriées par exemple pour extraire des modèles, règles ou motifs séquentiels traduisant le comportement des allocataires ainsi que leur relation avec leurs interlocuteurs à l'intérieur des centres. C est pourquoi ce travail s oriente d une part sur l étude de mesures d intérêt subjectif capables d appréhender l intérêt des agents des caisses d allocation familiales, et d autre part sur la création d une ontologie afin de pouvoir modéliser les connaissances des agents ainsi que la mémoire d entreprise existante. Ce rapport est composé de trois parties, la première développe les connaissances actuelles sur les mesures d intérêt subjectif, la deuxième les techniques de conception d ontologies et la dernière aborde mes objectifs et idées pour intégrer la représentation des connaissances aux algorithmes traditionnels de data mining. I Les mesures d intérêt subjectif 1. Définitions Les mesures d intérêt subjectif ont pour vocation de mesurer à quel point un modèle va intéresser l utilisateur du système. La difficulté au niveau de la mise au point de ses mesures est que l intérêt d un utilisateur du système varie selon l activité, l utilisateur, le domaine et même le temps. De plus, parfois les utilisateurs ne savent pas eux-mêmes ce qui peut les intéresser. Il est cependant possible de discerner deux grandes catégories de modèles intéressants : les modèles qui vont surprendre les utilisateurs, et les modèles utilisables par les utilisateurs. 1.1 Utilisable Une règle est intéressante si l utilisateur peut grâce à elle agir et en tirer un avantage. L utilisabilité est une mesure d intérêt subjective importante car beaucoup d utilisateurs sont souvent intéressés par des connaissances leur permettant de mieux faire leur travail grâce à des actions appropriées. Toutefois ce n est pas la seule mesure intéressante. [7] [11] [12] 3
6 1.2 Inattendu Une règle est intéressante si elle est inattendue ou inconnue de l utilisateur. Ce concept d inattendu se base sur le fait que si une règle surprend l utilisateur elle sera forcement intéressante. Ces règles inattendues sont donc intéressantes dans la mesure où elles contredisent nos «croyances». [3] [5] [7] 1.3 Relations entre utilisable et inattendu Selon Silberschatz [12] tous les modèles utilisables sont inattendus, donc seule l étude de l inattendu suffirait à extraire des modèles intéressants. Il est à mon avis dangereux de généraliser cette affirmation à tous les domaines. Il peut être envisageable que certains modèles attendus et utilisables soient intéressants car les utilisateurs de part la quantité de données auraient pu ne pas y porter attention. L objectif n est donc pas seulement de montrer des choses intéressantes car surprenantes mais aussi de mettre en évidence les modèles intéressants évidents et utilisables qui sont négligés par les utilisateurs. 2. Méthodes pour trouver des modèles «utilisables» 2.1 Les attentes de l utilisateur Cette méthode, comme les autres que nous verront par la suite, demande une participation active de l utilisateur qui doit exprimer de façon basique une partie de ses connaissances. La méthode de Liu consiste à extraire le modèles qui vont correspondre aux attentes de l utilisateur. Dans cette première phase aucun aspect inattendu ou utilisable est introduit. [7] a. La technique proposée L utilisateur doit fournir un ensemble de règles avec la même syntaxe que les règles générées. Les règles sont considérées comme des règles floues qui sont définies par des variables floues définies par : (x,t(x),u,g,m). X : nom de la variable vitesse T(x) : ensemble d expression définissant la variable U : ensemble de définition de la variable G : règle syntaxique générant le nom X de la variable pour chaque valeur M : règle sémantique associant à X un sens Un système de logique floue extrait alors les règles qui correspondent aux attentes de l utilisateur. b. L extraction de règles utilisables Afin d extraire les règles utilisables l utilisateur spécifie dans un premier temps toutes les actions possibles qu il puisse effectuer. Par exemple dans le cadre de la sécurité routière un responsable pourrait envisager les actions suivantes : ACTION 1 : Inciter la population à rester prudent en conduisant même dans les zones où la visibilité est bonne. ACTION 2 : Placer des radars dans les zones à faible visibilité 4
7 Pour chaque action l utilisateur spécifie les situations pour lesquelles il pourra effectuer l action. Les situations sont représentées par un ensemble de règles floues dans lesquelles les valeurs des variables sont représentées par une classe (ex : MAUVAISE_VISIBILITE, RAPIDE, LENT, ). Pour continuer dans le cadre de notre exemple on aurait : SITUATION POUR ACTION 1 : SITUATION POUR ACTION 2 : SI zone=bonne_visibilite ALORS blessure=légère SI zone=mauvaise_visibilite, vitesse=rapide ALORS blessure=mortelle Un système de logique floue extrait alors les règles qui correspondent aux situations envisagées par l utilisateur : 1. SI age>50, zone=ligne_droite ALORS blessure=légère 2. SI age>50, zone=croisement ALORS blessure=légère 3. SI zone=virage, vitesse>90 ALORS blessure=mortelle Il est important de remarque que l utilisateur ne doit pas fournir des situations qu il pense possible mais toutes les situations pour lesquelles une action est possible! Cette technique a l avantage de permettre de trouver les règles utilisables mais aussi de déterminer l action à entreprendre. 2.2 Identification des règles non utilisables Liu [3] propose une technique permettant d éliminer les règles non-utilisables qui ont été cependant considérées comme «intéressantes» par les différentes méthodes d élagage (qui conservent les règles les plus générales et suppriment les règles plus précises et pas très performantes) La méthode est objective mais peut être intéressante si elle simplifie la tâche des méthodes plus subjectives. Exemple : Nous sommes dans une situation où l on veut détecter les risques cardiovasculaires (BP représente la tension artérielle) : Voici les différentes règles générées par un algorithme : Une interprétation graphique des règles permet de dessiner ce schéma : 5
8 Si on veut effectuer une action sur R1 il vaut mieux l effectuer sur R2 ou R3 car une fois les tuples de ces 2 règles supprimées R1 n est plus utilisable. Il ne s agit cependant pas d éliminer toutes les règles ayant une faible confiance (les règles générales assez souvent) mais d éliminer les règles générales non-intéressantes à la lumière de règles plus précises! 3. Méthodes pour trouver des modèles inattendus 3.1 Différentes définitions De façon subjective un modèle inattendu est un modèle qui est susceptible de nous surprendre. Cependant, il est possible de formaliser ce concept de différentes manières. Liu propose une mesure de «distance» qui se base sur une comparaison syntaxique des règles et croyances. Pour Silberschatz, une règle est inattendue dans la mesure où elle perturbe le système de croyances et peut changer le degré de croyance (notion probabiliste). Enfin, selon Padmanabhan une règle inattendue est en contradiction logique avec une croyance (selon lui méthode plus simple et opérationnelle). 3.2 Les attentes de l utilisateur Cette méthode [7] est similaire à celle utilisée pour déterminer les patterns «utilisable» décrite en section 0. La nuance se situe au niveau de la fonction de «matching» qui est remplacée par un moyen d évaluer le degré de «surprise» de la règle générée. Liu fait la différence entre conséquence inattendue et cause inattendue. Et pour chacune d entre elles il note différemment selon qu il y est une contradiction entre les attributs ou juste des attributs identiques aux valeurs différentes. La principale difficulté réside dans l expression des connaissances, le format des règles est simple bien qu un peu limitatif et sûrement rapidement fastidieux à mettre en place dans un cas réel. 6
9 3.3 Les impressions générales a. Définitions Selon Liu [6] il existe deux principaux types de concepts : Les Impressions générales (GI) : L utilisateur n a pas de concept détaillé d un domaine mais il a quelques vagues sentiments. Par exemple dans le domaine d accord de crédit on pourrait dire que plus les revenus sont importants plus les chances d accord sont élevées. Les connaissances relativement précises (RPK) : L utilisateur a une idée très précise des choses. Si les revenus mensuels sont supérieurs à 5000 alors le crédit est toujours accordé. b. Représentation des impressions générales Liu n a étudié les impressions générales que dans le cadre particulier des règles de classement. Par rapport à la méthode précédente celle-ci met à disposition une plus grande variété d opérateurs pour nuancer les différentes expressions. Par exemple : a < -> C : plus a est petit plus il y a des chances que l on ait C a > -> C : plus a est petit plus il y a des chances que l on ait C a << -> C : si a est dans la moyenne a -> C : s il existe une relation a [S] -> C : si a appartient à S La méthode permettant de repérer les règles inattendues est semblable à celle utilisée pour les «attentes de l utilisateur» à quelques différences près dues à la structure des connaissances. 3.4 Les systèmes de croyances a. Création d un ensemble de croyances selon Silberschatz [11][12] L inattendu est très relié aux croyances d un individu. Ainsi il est important de mettre au point un bon système de croyances. Les croyances sont définies par Silberschatz comme des expressions logiques du premier ordre auxquelles on associe une «mesure de confiance» ou «degré de croyance». On peut classer les croyances en deux catégories : Les croyances «fortes» : Quelles que soient les nouvelles connaissances acquises ou les règles générées les croyances fortes demeurent exactes. Une contraction avec une croyance forte met en évidence un «bug» ou une corruption des données. Les croyances «légères» : Ce sont des croyances que l utilisateur aimerait confirmer ou voir évoluer selon les connaissances nouvellement acquises 7
10 Silberschatz propose différentes méthodes pour évaluer le degré de croyance : Approche Bayésienne : Le degré de croyance est défini comme une probabilité conditionnelle que la croyance existe étant donné certaines conditions supportant cette croyance. Approche de Dempster-Shafer : Le degré de croyance est la somme de toutes les probabilités des évènements B qui impliquent A Approche fréquentielle : Pour une croyance a -> b le degré de croyance est le nombre de tuples satisfaisant a et b sur le nombre de tuples ne satisfait que a. D autres approches (cyc, statistiques) ne sont pas valables dans certaines situations, d autres comme celle Bayésienne difficiles et contraignantes à mettre en place. b. Création d un ensemble de croyances selon Padmanabhan [8][9] Les croyances s expriment pour Padmanabhan sous la même forme que les règles générées. Les croyances doivent respecter un principe de monotonie (le but est d obtenir des croyances plus spécifiques). Les croyances doivent être vérifiées sur un ensemble statistiquement «assez grand». c. Le processus de raffinement [8][12] La découvert de règles inattendues et le raffinement de la connaissance sont deux aspects importants d un processus plus global : Les connaissances que l on a apriori d un domaine sont basées sur l expérience passée et dans certains cas les conditions ont pu changer et les connaissances doivent être remises en question! Au niveau du système de Silberschatz si une règle contredit : Une croyance forte : il y a un problème dans le recueil des données ou alors la règle est fausse! Une croyance légère : soit nous avons la même situation que dans le cas d une croyance forte, soit nous avons un véritable cas inattendu et dans ce cas il est important de mettre à jour la croyance! Le principal problème demeure au niveau du classement des deux types de croyances. 8
11 3.5 KEFIR, un système dédié Piatetsky-Shapiro a participé à la mise au point de KEFIR, un système dédié à l analyse du système de santé Américain (performances, efficacité, gestion des coûts). Cette approche prend en compte un intérêt subjectif mais les règles de production sont codées en dur et spécifiques au domaine d application. Phase 1 : Mesure de déviations par rapport aux données recueillis ou aux connaissances préalables. Phase 2 : Evaluation spécifique au domaine, notamment en terme de coûts. Phase 3 : Explication générée simplement par décomposition d une formule, ou analyse des éléments d un ensemble. Phase 4 : Recommandations facilement déductibles à partir d une base d actions disponibles Phase 5 : Rapport Final, système de templates à «trou» ou «variables» Le coût d un tel système est important. Cependant les résultats sont plus rapides et l évaluation de l intérêt plus précise. 9
12 II La représentation des connaissances 1. Définitions d Ontologie Le mot «Ontologie» vient du grec ontos pour être et de logos pour univers. C est un terme philosophique introduit au XIX ème siècle caractériser l étude des êtres dans notre univers. Le mot «Ontologie» possède différentes significations et demeure assez ambiguë. Il y a une quinzaine d années la communauté de la représentation de la connaissance transforme ce concept philosophie en objet : «une ontologie». Une ontologie peut donc être définie comme un ensemble d informations dans lequel sont définis les concepts utilisés dans un langage donné et qui décrit les relations logiques qu'ils entretiennent entre eux. Le but des ontologies est donc de définir quelles primitives avec leur sémantique associée sont nécessaires pour la représentation des connaissances dans un contexte donné [14]. En maintenant une représentation des notions humainement compréhensible, l ontologie capture l isomorphisme entre le système symbolique et les observations du monde réel. 2. Cycle de vie d une ontologie Selon Fernandez [15], lorsqu une ontologie devient importante le processus de création d une ontologie doit être considéré comme un projet à part entière, en conséquence des méthodes de managements doivent être utilisées. L équipe ACACIA de l INRIA a travaillé sur la création d ontologies et propose de modéliser le processus d évolution d une ontologie par le diagramme ci-dessous. Ce diagramme représente la fusion du cycle de vie d une mémoire corporative avec les propositions de Fernandez pour la création d une ontologie. Selon lui, les étapes clés du processus sont : la planification, la spécification, l acquisition des connaissances, la conceptualisation, la formalisation, l intégration, l implémentation, l évaluation et la maintenance. 10
13 Figure 1 Cycle de vie d une ontologie (Source : Rapport n 4396 de l INRIA) Il est important de remarquer, qu appliquée à un domaine en évolution une ontologie est appelée à évoluer. Ainsi la maintenance d une ontologie est une tâche vitale car l ontologie a pu être utilisée précédemment pour définir des briques de conceptualisation ou d implémentation et un changement non averti pourrait rendre caduque tout travail effectué précédemment. 3. Construction d une ontologie 3.1 Définitions des objectifs et utilisation de scénarios Fernandez [15], préconise de ne pas commencer le développement d une ontologie sans savoir quels seront ses buts et sa portée. Afin d identifier objectifs et limitations il est impératif de savoir pourquoi l ontologie va être créée et quels seront ses utilisateurs. Une première importante étape doit donc être la création d un document qui définit les spécifications de l ontologie. Une technique intéressante est l utilisation de scénarios identique à ceux déjà utilisés en génie logiciel. Les scénarios sont un point d entrée dans le projet car ils sont riches en informations définissant les problèmes existants et les désirs des utilisateurs d un système. Ils ont l avantage de permettre une communication en langage naturel tout en saisissant la situation et son contexte, les dépositaires, les problèmes et les solutions avec le vocabulaire qui leur est associé. 3.2 Collecte des données La collecte de données est la première étape de la création d une ontologie. Un des principes principaux à appliquer est de ne jamais empêcher l utilisateur de dire ce qu il sait, mais de l encourager à dire les choses d une manière qui sera facilement exploitable [16]. 11
14 Cette collecte de données s inscrit dans un processus comprenant les phases suivantes : - Préparation - Collecte - Pré-analyse et modélisation informelle - Vérifications - Formalisation et validation Il existe différentes techniques [15] à utiliser lors l acquisition de connaissances : - Des entretiens informels avec des experts dressant un brouillon des spécifications requises - L analyse de texte informelle, pour étudier les principaux concepts et pouvoir ébaucher une première représentation des connaissances - L analyse formelle de texte afin d identifier les différentes structures (définitions, affirmations, ) et le type de connaissances contenues dans chacune d elles (concepts, attributs, valeurs, relations) - Des entretiens structurés avec des experts pour obtenir des connaissances spécifiques et détaillées sur les concepts, leurs propriétés et leurs relations et évaluer les modèles mis au point Lors de cette phase il faut également faire bien attention à repérer les différentes terminologies ou ontologie existantes (plus ou moins explicitement) afin de les intégrer dans le modèle en cours de création. 3.3 Etude linguistique et sémantique Bachimont [14] décompose le processus de modélisation d une ontologie en trois étapes correspondant à trois niveaux : - le niveau sémantique qui décrit la sémantique en langage naturel des concepts - le niveau ontologique qui les décrit de façon formelle - le niveau informatique qui spécifie leur utilisation dans ce cadre précis Durant la collecte des données et la définition des objectifs différents termes sont identifiés, parfois plusieurs pour un même concept. L étude de la terminologie est au cœur de l ingénierie des connaissances et est en charge de sélectionner des termes candidats et de fournir une définition consensuelle. Le premier objectif est donc de formaliser le contexte et établir une terminologie commune à tous. Il faut cependant prendre garde lors de la création d un tel corpus, car les choix effectués risquent d introduire des biais difficiles ensuite à évaluer. La normalisation sémantique est le choix d un contexte de référence correspondant à la tâche ou au problème qui a motivé la création de l ontologie. Il est important que ce travail de normalisation soit effectué conjointement par l ingénieur des connaissances et les utilisateurs. Uschold et Gruninger [16] donne quelques lignes à suivre pour la création de définitions : 12
15 - Ecrire une définition en langage naturel aussi claire que possible - S assurer de la consistance avec les termes déjà existants - Indiquer les relations avec les termes couramment utilisés et qui sont similaires à celui en train d être défini - Eviter les définitions circulaires - La définition d un terme doit être nécessaire et suffisante autant que possible Lors de l étude des termes existants on peut tomber sur une des situations suivantes : - Le terme possède une et une seule définition : le cas idéal, rarement rencontré - Plusieurs termes ont la même définition : ce sont des synonymes, un seul doit être conservé et les autres mis dans un dictionnaire de synonymes - Un terme a plusieurs définitions : ici le terme est ambigu et les choses se doivent d être clarifiées Pour résoudre ces ambiguïtés plusieurs choix sont possibles : - Supprimer l utilisation d un terme trop ambigu - Clarifier les idées en définssent chaque concept avec quelques termes techniques - S il existe plusieurs concepts, ne choisir que celui qui mérite d être dans l ontologie - Choisir un nouveau terme pour chaque concept 3.4 Création de concepts Durant la phase d étude terminologique et sémantique, termes et définitions ont été recueillis. La tâche suivante est de conceptualiser toutes les notions sous-jacentes au vocabulaire utilisé. Dans [16], les auteurs utilisent la méthode suivante : - Placer le terme dans une catégorie - Conserver toutes les traces des décisions prises afin de pouvoir procéder à d éventuelles modifications - Grouper les termes similaires dans les mêmes catégories - Identifier les références sémantiques entre les catégories S ensuit alors le travail de conceptualisation où il est nécessaire de reconsidérer chaque catégorie afin d élimer le plus possible les similarités sémantiques entre catégories. Fernandez [15], a une approche quelque peu différentes car il structure le domaine de connaissances en verbes et en concepts. Les concepts sont décrit au moyen d un dictionnaire de données, de tables d attributs d instances, de tables d attributs de classes, de tables de constantes et d arbres de classification des attributs. Les verbes, quant à eux, représentent les actions possibles dans le domaine et sont généralement associés à un dictionnaire qui va indiquer les conditions pour que l action puisse être effectuée. 13
16 Dans [17] Gomez décrit les différentes activités de conceptualisation et les documents qui y sont associé : - Dictionnaire de données : identifie les concepts du domaine et leur sémantique, les attributs. - Arbre de classification de concepts : organise les concepts en taxonomie. - Table d attributs d instance : fournit des informations sur les attributs et leur valeur dans une instance. - Table d attributs de classe : fournit des informations sur un concept et non ces instances. Pour chaque concept du dictionnaire une table est crée. - Table de formules : contient des formules spécifiques au domaine pouvant utilisant différents attributs - Arbre de classification d attributs - Table des instances 3.5 Création d une taxonomie La création d une taxonomie est une étape importante dans la réalisation d une ontologie. Différentes approches peuvent être envisagées : - «Bottom-up» : on démarre avec les termes les plus spécifiques et la structure est construite par généralisation. Cette approche permet de créer des ontologies avec des concepts très détaillés - «Top-down» : on démarre avec les termes les plus génériques et la structure est construite par spécialisation. Cette approche permet de créer des ontologies très réutilisables car possédant un haut niveau d abstraction - «Middle-down» : les concepts centraux sont identifiés puis généralisés et spécialisés pour compléter la taxonomie. Cette approche permet l émergence de thématique et améliore la modularité de la taxonomie. Une taxonomie est en fait une classification basée sur les similarités. Sa présence est naturelle au sein de la représentation des connaissances car elle utilise des aptitudes inhérentes à chaque être humain : - classement et identification : afin de pouvoir associer un objet à une catégorie - classification ou clustering : afin de pouvoir créer des catégories à partir de groupes d objets La relation au cœur des taxonomies est la relation de subsomption. Cette relation permet de bâtir un mécanisme d héritage dans lequel un objet hérite des caractéristiques d un autre qui lui et supérieur dans la hiérarchie. Les taxonomies peuvent être créées avec différentes structures : arbres, treillis ou graphe à héritage multiple. Une ontologie ne se définie toutefois pas uniquement par ces concepts mais aussi par les relations existantes entre ces concepts. Une relation est définie par les concepts qu elle relie ; ces concepts sont la signature sémantique de la relation. 14
17 3.6 Formalisation Une ontologie peut s exprimer selon plusieurs degrés de formalisation allant des définitions les plus informelles en langage naturel aux expressions écrites en logique du premier ordre devant respecter une syntaxe et sémantique très stricte. Le degré de formalisation de l ontologie va dépendre principalement des besoins. On peut considérer les quatre degrés suivants : - très informel : exprimé en langage naturel - semi-informel : exprimé dans une forme restreinte et structurée du langage naturel - semi-formel : exprimé dans un langage artificiel défini formellement - rigoureusement formel : défini en termes utilisant une sémantique formelle, théorèmes et preuves Il est à retenir que les ontologies ont à être compréhensible à la fois par les humaines et les ordinateurs [18]. Pour obtenir un bon équilibre entre la précision technique et la compréhensibilité il est important pour chaque définition technique de conserver une description informelle de la définition. Enfin, comme l ontologie devra être exploitée par un ordinateur, il est nécessaire qu elle soit calculable. Et pour cela, il est nécessaire de l implémenter dans un langage formel. 4. Les différents langages de formalisation 4.1 Les systèmes symboliques Les systèmes symboliques sont des ensembles de symboles, états initiaux et règles de transformations permettant de créer de nouveaux états dans un système. Un système symbolique seul n a en lui-même aucun intérêt à moins qu on lui donne une interprétation, c est à dire que l on trouve l isomorphisme entre les états et les règles du système et le modèle et les inférences du domaine. Un système symbolique peut être formellement valide sans aucune interprétation mais il nécessite une interprétation pour être réellement valide. Les systèmes symboliques ne sont donc pas suffisant pour être utilisé en tant que langage de formalisation d une ontologie ; il est nécessaire d avoir un moyen d exprimer la sémantique du formalisme. 4.2 La logique de propositions La logique est la base des langages de formalisation. Elle constitue un système symbolique permettant d analyser les inférences et fournit une méthode scientifique formelle pour analyser des idées. La logique la plus simple est la logique de proposition définit sur la figure 2. 15
18 Figure 2 Définition de la logique de propositions (Source : Rapport n 4396 de l INRIA) Cependant, une logique sans interprétation n est autre qu un système symbolique sans aucun sens qui ne peut être utilisé dans une ontologie. Sur la figure 3 ont peut voir l interprétation de la logique de proposition. Figure 3 Interprétation de la logique de propositions (Source : Rapport n 4396 de l INRIA) Le principal problème que pose la logique de proposition au niveau ontologique est le fait que les propositions soient des symboles indivisibles et que seules les relations entre propositions 16
19 sont considérées sans tenir compte de la nature ou la structure de propositions. Il est donc nécessaire de d avoir un langage plus expressif permettant de différencier individus et catégories et représenter des relations entre individus. 4.3 La logique du premier ordre La logique du premier ordre inclus la logique de propositions et peut être définie de la façon suivante (cf. figure 4). Les prédicats et les quantificateurs permettent désormais de différencier les individus des catégories et d exprimer des relations entre individus. La figure 5 donne un aperçu de l interprétation de la logique du premier ordre. Cette logique est beaucoup plus expressive que la logique de propositions cependant certaines choses ne peuvent toujours pas être exprimées (notamment les propriétés des relations) et cette logique est semi-décidable, c est à dire qu il n existe pas d algorithme capable de prouver en un temps fini si une expression est démontrable. D autres langages de formalisation ont donc fait le choix de réduire leur expressivité afin de pouvoir exprimer les choses réellement utiles dans le cadre des ontologies. Un d entre eux est examiné dans la section suivante. Figure 4 Définition de la logique du premier ordre (Source : Rapport n 4396 de l INRIA) 17
20 Figure 5 Interprétation de la logique du premier ordre (Source : Rapport n 4396 de l INRIA) 4.4 Les Graphes conceptuels Les graphes conceptuels ont été conçus en s inspirant des graphes existentiels de Charles Sanders Peirce et des réseaux sémantiques utilisés en intelligence artificielle. Leur but est d exprimer des connaissances sous une forme logique précise compréhensible par des humains et adapté à un traitement automatisé. Facilement interprétables en langage naturel, les graphes conceptuels peuvent servir d intermédiaire pour traduire différents formalismes. Leur aspect graphique permet, quant à lui, une lecture facile des connaissances tout en assurant un cadre formel. - Les graphes existentiels et les réseaux sémantiques Peirce a développé un système de diagrammes appelés graphes existentiels, qui représentent les relations structures élémentaires dans un phénomène. Les graphes existentiels représentent donc des relations incluant les relations entre un ensemble de prémisse et une conclusion. Ils sont utiles pour vérifier quelles conclusions sont garanties par les prémisses. Ce système a été à l origine conçu par Peirce pour résoudre de complexes problèmes de logique. L'utilisation des graphes en représentation des connaissances pour l'ia vient de l'idée de représenter graphiquement des concepts et leurs liens. Le premier outil proposé est le réseau sémantique introduit en 1968 par Quillian. Son modèle de réseau avait pour ambition de constituer un modèle de la mémoire humaine. Par ailleurs, les graphes sont souvent utilisés pour abstraire les informations pertinentes et se concentrer seulement sur la topologie d'un problème, le graphe constituant un espace du problème. [19] 18
21 - Définition des graphes conceptuels Un graphe conceptuel est graphe orienté bipartite. Il possède deux types de nœuds différents : les nœuds conceptuels et les nœuds relationnels. Chaque arc relie deux nœuds de type différent. Certains nœuds conceptuels peuvent ne pas être reliés. Les concepts et relations possèdent tous deux un type et les relations ont une valence représentant le nombre de concepts qui leurs sont reliés. On appelle signature d une relation la liste des types des concepts liés à la relation. Deux relations du même type auront nécessairement la même signature. Les types sont organisés en hiérarchies structurées par une relation de subsomption. - Les différentes notations Les graphes conceptuels sont définis par une syntaxe abstraite, indépendante de toute notation, mais ce formalisme peut être représenté au moyen de différentes notations concrètes. Un graphe conceptuel peut être représenté sous forme graphique appelée DF (pour Display Form en anglais), sous forme du format d échange CGIF (Conceptual Graph Interchange Form) ou sous forme linéaire LF (Linear Form). Chaque graphe conceptuel possède également une représentation équivalente en logique des prédicats grâce aux format d échange de connaissances KIF (Knowledge Interchange Format). Exemple : Every cat is on a mat Dans le format DF, les rectangles représentent les concepts et les cercles les relations. Le format linéaire LF, permet d écrire : [Cat: ]->(On)->[Mat]. Etant donné que le format CGIF s exprime avec un sous-ensemble d unicode on ne peut utiliser le symbole qui est remplacé : [Mat: *y] (On?x?y) ou encore : (On [Mat]) La formule équivalente au format KIF s écrit : forall ((?x Cat)) (exists ((?y Mat)) (On?x?y))) Le graphe conceptuel peut également être représenté sous forme de prédicats : ( x:cat)( y:mat)on(x,y). 19
22 III La représentation des connaissances au service du Data Mining 1. Objectifs Pour les caisses d allocations familiales, ce thème de recherche trouve des applications appropriées par exemple pour extraire des modèles traduisant le comportement des allocataires ainsi que leur relation avec leurs interlocuteurs à l intérieur des centres. Dans le cadre du SID de nombreuses données sur les allocataires et les différents contacts ont été collectés. On peut donc envisager la mise au point de différents modèles visant à améliorer la prise de contact, la pertinence des informations transmises aux allocataires, la vitesse de traitement des dossiers, la satisfaction des clients ou même à diminuer les coûts de traitement. Cependant, il est impératif qu un dialogue avec un expert du domaine soit instauré afin de déterminer les objectifs les plus importants pour les CAF et pour lesquels il serait facilement possible de valider les résultats. De plus, il pourrait être intéressant de définir ces objectifs en fonction des différents utilisateurs menés à utiliser le système. Une fois le choix des objectifs effectué il s agira de développer une ontologie permettant la représentation de connaissances. Ces connaissances pourront tout aussi bien représenter une «mémoire d entreprise» contenant toutes les informations et procédures utilisées dans le domaine du contact allocataire que les connaissances propres à certains agents et pouvant être floues ou se contredire. L ontologie devra également modéliser les différentes actions possibles par les agents, ainsi que les croyances sur certains modèles acquises par expérience. Parallèlement au développement de l ontologie, un travail sur les mesures d intérêt subjectif doit être effectué afin de permettre l émergence de modèles surprenants ou utilisables par les agents des caisses d allocations familiales. Dans le cadre d un outil d aide à la décision il faudrait envisager de pouvoir également aider l utilisateur à estimer des priorités. Pour finir sur les objectifs, on ne peut oublier de parler des contraintes : une ontologie possède un cycle de vie et doit être maintenue, pour cela les utilisateurs devront pouvoir simplement la mettre à jour. Il est alors nécessaire qu un système de vérification soit intégré afin de s assurer que l ontologie demeure exploitable par des moyens algorithmiques. 2. Utilisation Les nombreux algorithmes de data mining existants permettront l élaboration de modèles. L ontologie et les mesures d intérêts subjectives peuvent intervenir de deux façons différentes : - en étant intégrés directement dans un algorithme d extraction de connaissances - en étant utilisés en filtre pour sélectionner les meilleurs modèles générés par un algorithme. Le choix de la méthode dépend bien évidemment de l algorithme utilisé qui diffère selon la tâche que l on effectue. En voici quelques exemples : 20
23 - Le classement ou classification supervisée La classification supervisée est une tâche de prédiction de variables catégorielles. Elle s'effectue en deux étapes : dans la première un modèle décrivant un ensemble de classes ou concepts est construit en analysant les attributs des exemples de la base de données. Chaque exemple appartient à une classe spécifique définie par son attribut de classe. L'ensemble des exemples ayant contribué à la construction du modèle constitue l'ensemble d'apprentissage. Etant donné que la classe de chaque exemple est fournie, cette phase est également appelée «apprentissage supervisé». Dans la deuxième étape le modèle est utilisé pour classer des exemples appartenant à un ensemble de test différent de l'ensemble d'apprentissage ; la précision du modèle sur l'ensemble de test pour lequel nous connaissons la classe de chacun des exemples est évaluée. Les structures les plus couramment utilisés sont les arbres de décision. - La classification non supervisée : A la différence de la classification supervisée, la classification non-supervisée (ou encore clustering) traite un ensemble d'exemples dont l'appartenance à une classe est inconnue. Son rôle est de regrouper les exemples en classes, groupes dans lesquels les exemples sont très similaires mais entre lesquels ces exemples sont très différents. La classification non supervisée doit donc découvrir les classes implicitement définies dans les données ; le concept de similarité revêt ici une importance capitale. - La recherche d'associations : Cette autre tâche que peut accomplir la fouille de données a pour but de trouver d'intéressantes associations ou corrélations entre les attributs d'un ensemble de données. A la différence de la tâche de classification le conséquent d'une règle d'association peut contenir plusieurs attributs, et tous les attributs peuvent être présents dans les prémisses. En ce sens, les règles d'association sont symétriques et celles de classification asymétriques. 3. Comment comparer ces descriptions de connaissances avec les modèles obtenus? Les mesures d intérêt subjectif vont devoir s adapter à l algorithme utilisé, différent selon la tâche à effectuer. Il est donc important d étudier les différents critères à établir pour comparer les modèles générés aux connaissances contenues dans l ontologie. Ces critères de comparaisons peuvent également être dépendants du type de connaissances considéré (description d une action, connaissance du domaine, connaissance à priori d un modèle). Ces critères peuvent être des mesures de distances entre structures de connaissances, la présence de contradictions logiques entre connaissances et modèles ou encore la perturbation que pourrait engendrer un modèle s il devait être intégré dans l ontologie. Des travaux ont déjà été effectués dans un domaine similaire, cependant ils diffèrent de nos objectifs car les seules connaissances modélisées étaient les croyances ou les impressions des utilisateurs sur un modèle particulier (méthode des templates, impressions générales, attentes des utilisateurs). De plus la représentation des connaissances choisie était de la même forme que les modèles générés, c'est-à-dire des règles. Bien entendu ce choix se justifie par un besoin de simplifier la recherche de modèles intéressants mais notre ambition est de réunir une «mémoire d entreprise» qui pourrait être utilisable pour différentes tâches (classement, 21
24 clustering, recherche d associations) et permettrait de gagner beaucoup en terme d expressivité. Un autre type de solution proposé est celui de Piatesky-Shapiro au travers du système KEFIR qui est dédié à l analyse de déviations. Nous pourrions envisager pour notre projet la création d un système dédié, cependant à l inverse du système de santé américain toutes les données des CAF ne sont pas numériques, un système basé sur les déviations ne peut donc être utilisé. De plus il serait intéressant que la solution théorique proposée puisse inclure une démarche data-mining réutilisable pour d autres types d applications CRM que la gestion du contact allocataire. Conclusion Ce rapport d avancement de la thèse avait pour but de justifier l orientation des travaux de recherches sur les domaines des mesures d intérêt subjectif et de la représentation des connaissances. Les prochaines étapes de travail vont consister d une part à approfondir les différentes solutions algorithmiques permettant d extraire de l ontologie les connaissances nécessaires à l évaluation de l intérêt des modèles générés et d autre part à modéliser le processus du traitement du dossier allocataire afin de préparer le terrain à la création d une ontologie. Cette modélisation pourrait notamment s inspirer des travaux sur la modélisation de processus effectués par Yves Callejas avec le CNEDI. Une partie importante de la démarche va donc consister à la mise en place de contacts avec différents partenaires afin d établir une meilleure communication sur les travaux existants et permettre un accès simplifié à la connaissance et l expérience de l entreprise sur le contact allocataire. 22
25 Bibliographie [1] Charu C. Aggarwal. Human-computer cooperative system for effective high dimensional clustering. In Knowledge Discovery and Data Mining, pages , [2] Mihael Ankerst, Martin Ester, and Hans-Peter Kriegel. Towards an effective cooperation of the user and the computer for classification. In Knowledge Discovery and Data Mining, pages , [3] Yiming Ma. Bing Liu, Wynne Hsu. Identifying non-actionable association rules. In CM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD-2001), [4] E. J. Horvitz, J. S. Breese, and M. Henrion. Decision theory in expert systems and artificial intelligence. International Journal of Approximate Reasoning, 2 : , [5] Mika Klemettinen, Heikki Mannila, Pirjo Ronkainen, Hannu Toivonen, and A. Inkeri Verkamo. Finding interesting rules from large sets of discovered association rules. In Nabil R. Adam, Bharat K. Bhargava, and Yelena Ye- sha, editors, Third International Conference on Information and Knowledge Management (CIKM'94), pages ACM Press, [6] Bing Liu, Wynne Hsu, and Shu Chen. Using general impressions to analyze discovered classification rules. In Knowledge Discovery and Data Mining, pages 31-36, [7] Bing Liu, Wynne Hsu, Lai-Fun Mun, and Hing-Yan Lee. Finding interesting patterns using user expectations. Knowledge and Data Engineering, 11(6) : , [8] B. Padmanabhan and A. Tuzhilin. Unexpectedness as a measure of interestingness in knowledge discovery, [9] Balaji Padmanabhan and Alexander Tuzhilin. Small is beautiful : discovering the minimal set of unexpected patterns. In Knowledge Discovery and Data Mining, pages 54-63, [10] G. Piatetsky-Shapiro and C. Matheus. The interestingness of deviations, [11] A. Silberschatz and A. Tuzhilin. What makes patterns interesting in knowledge discovery systems. Ieee Trans. On Knowledge And Data Engineering, 8 : , [12] Abraham Silberschatz and Alexander Tuzhilin. On subjective measures of interestingness in knowledge discovery. In Knowledge Discovery and Data Mining, pages , [13] E. Suzuki. Autonomous discovery of reliable exception rules. In Third International Conference on Knowledge Discovery and Data Mining, pages , [14] Bruno Bachimont. Engagement sémantique et engament ontologique : conception et réalisation d ontologies en ingénierie des connaissances in Ingénierie des connaissances, Evolutions récentes et nouveaux défis, Jean Charlet, Manuel Zacklad, Gilles Kassel, Didier Bourigault, Eyrolles 2000, ISBN
26 [15] M. Fernandnez, A. Gomez-Perez, and N. Juristo, METHONTOLOGY : From ontological arts towards ontological engineering. In Proceedings of the AAAI97 Spring Symposium Series on Ontological Engineering, Stanford, USA, pages 33 40, March 1997 [16] M. Uschold and Gruininger M. Ontologies : Principles, methods and applications. Knowledge Engineering Review, Vol. 11:2, , Also avaible as AIAI-TR-1991 from AIAI, The university of Edinburgh [17] Gómez-Pérez, A. ; Fernandez, M. ; De Vivente, A. Towards a method to conceptualize domain ontologies Workshop on ontological engineering. ECAI Pages [18] Riichiro Mizoguchi and Mitsuri Ikeda. Towards ontology engineering In Proceedings of the Joint 1997 Pasific Asian Conference on Expert Systems / Singapore International Conference on Intelligent Systems, pp. 259*-266, [19] Site web : [20] Laurent BRISSON, Etude de mesures d intérêt, pour modèles extraits par des techniques de data mining, Mémoire de DEA, Juin
Introduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Laboratoire 4 Développement d un système intelligent
DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement
Introduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Ingénierie et gestion des connaissances
Master Web Intelligence ICM Option Informatique Ingénierie et gestion des connaissances Philippe BEAUNE [email protected] 18 novembre 2008 Passer en revue quelques idées fondatrices de l ingénierie
Sujet de thèse CIFRE RESULIS / LGI2P
Ecole des Mines d Alès Laboratoire de Génie Informatique et d Ingénierie de Production LGI2P Nîmes Sujet de thèse CIFRE RESULIS / LGI2P Titre Domaine De l ingénierie des besoins à l ingénierie des exigences
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P
EUROCOPTER SAS Groupe EADS Marignane Ecole des Mines d Alès Laboratoire de Génie Informatique et d Ingénierie de Production LGI2P Nîmes Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P Titre Domaine
Université de Bangui. Modélisons en UML
Université de Bangui CRM Modélisons en UML Ce cours a été possible grâce à l initiative d Apollinaire MOLAYE qui m a contacté pour vous faire bénéficier de mes connaissances en nouvelles technologies et
LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN
LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas
Utilisation des tableaux sémantiques dans les logiques de description
Utilisation des tableaux sémantiques dans les logiques de description IFT6281 Web Sémantique Jacques Bergeron Département d informatique et de recherche opérationnelle Université de Montréal [email protected]
L apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML
basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML http://olivier-augereau.com Sommaire Introduction I) Les bases II) Les diagrammes
Évaluation et implémentation des langages
Évaluation et implémentation des langages Les langages de programmation et le processus de programmation Critères de conception et d évaluation des langages de programmation Les fondations de l implémentation
SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique
SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des
Pourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Data Mining. Master 1 Informatique - Mathématiques UAG
Data Mining Master 1 Informatique - Mathématiques UAG 1.1 - Introduction Data Mining? On parle de Fouille de données Data Mining Extraction de connaissances à partir de données Knowledge Discovery in Data
Une méthode d apprentissage pour la composition de services web
Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia [email protected],
Apprentissage Automatique
Apprentissage Automatique Introduction-I [email protected] www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax [email protected],
Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test
Grandes lignes Analyseur Statique de logiciels Temps RÉel Embarqués École Polytechnique École Normale Supérieure Mercredi 18 juillet 2005 1 Présentation d 2 Cadre théorique de l interprétation abstraite
Analyse,, Conception des Systèmes Informatiques
Analyse,, Conception des Systèmes Informatiques Méthode Analyse Conception Introduction à UML Génie logiciel Définition «Ensemble de méthodes, techniques et outils pour la production et la maintenance
LIVRE BLANC Décembre 2014
PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis
IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21
IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances
Les indices à surplus constant
Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté
Bases de données. Chapitre 1. Introduction
Références : Bases de données Pierre Wolper Email : [email protected] URL : http : //www.montefiore.ulg.ac.be/~pw/ http : //www.montefiore.ulg.ac.be/ ~pw/cours/bd.html Henry F. Korth, Abraham Silberschatz,
INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES
INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information
IFT2255 : Génie logiciel
IFT2255 : Génie logiciel Chapitre 6 - Analyse orientée objets Section 1. Introduction à UML Julie Vachon et Houari Sahraoui 6.1. Introduction à UML 1. Vers une approche orientée objet 2. Introduction ti
Chapitre VI- La validation de la composition.
Chapitre VI- La validation de la composition. Objectifs du chapitre : Expliquer les conséquences de l utilisation de règles de typage souples dans SEP. Présenter le mécanisme de validation des connexions
Intégration de la dimension sémantique dans les réseaux sociaux
Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI [email protected] 1 Contexte : Recommandation dans les réseaux sociaux
Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar [email protected]
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar [email protected] Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Travailler avec les télécommunications
Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la
Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication
Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication R. Carlos Nana Mbinkeu 1,3, C. Tangha 1, A. Chomnoue 1, A. Kuete
Introduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
INTRODUCTION AU DATA MINING
INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre
Introduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Génie logiciel avec UML. Notions sur le langage UML adapté pour les cours du programme Techniques de l informatique
Génie logiciel avec UML Notions sur le langage UML adapté pour les cours du programme Techniques de l informatique Claude Boutet Session hiver 2008 Modélisation de systèmes Table des matières TABLE DES
Formula Negator, Outil de négation de formule.
Formula Negator, Outil de négation de formule. Aymerick Savary 1,2, Mathieu Lassale 1,2, Jean-Louis Lanet 1 et Marc Frappier 2 1 Université de Limoges 2 Université de Sherbrooke Résumé. Cet article présente
Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions
Cours d introduction à l informatique Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Qu est-ce qu un Une recette de cuisine algorithme? Protocole expérimental
Présentation du Modèle de Référence pour les Bibliothèques FRBR
Submitted on: 03.08.2015 Présentation du Modèle de Référence pour les Bibliothèques FRBR French translation of the original paper: Introducing the FRBR Library Reference Model. Traduit par : Mélanie Roche,
Modélisation des données
Modélisation des données Le modèle Entité/Association Le MCD ou modèle Entité/Association est un modèle chargé de représenter sous forme graphique les informations manipulées par le système (l entreprise)
Chapitre 1 : Introduction aux bases de données
Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données
Incertitude et variabilité : la nécessité de les intégrer dans les modèles
Incertitude et variabilité : la nécessité de les intégrer dans les modèles M. L. Delignette-Muller Laboratoire de Biométrie et Biologie Evolutive VetAgro Sup - Université de Lyon - CNRS UMR 5558 24 novembre
La classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.
des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le
Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.
2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle
Introduction aux concepts d ez Publish
Introduction aux concepts d ez Publish Tutoriel rédigé par Bergfrid Skaara. Traduit de l Anglais par Benjamin Lemoine Mercredi 30 Janvier 2008 Sommaire Concepts d ez Publish... 3 Système de Gestion de
Méthodes d évolution de modèle produit dans les systèmes du type PLM
Résumé de thèse étendu Méthodes d évolution de modèle produit dans les systèmes du type PLM Seyed Hamedreza IZADPANAH Table des matières 1. Introduction...2 2. Approche «Ingénierie Dirigée par les Modèles»
Générer du code à partir d une description de haut niveau
Cedric Dumoulin Générer du code à partir d une description de haut niveau Ce projet vise à fournir un environnement de développement permettant de modéliser des UI Android à un haut niveau d abstraction,
Conception des bases de données : Modèle Entité-Association
Conception des bases de données : Modèle Entité-Association La modélisation d un problème, c est-à-dire le passage du monde réel à sa représentation informatique, se définit en plusieurs étapes pour parvenir
LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION
LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION DES NOMBRES par Jean-Luc BREGEON professeur formateur à l IUFM d Auvergne LE PROBLÈME DE LA REPRÉSENTATION DES NOMBRES On ne conçoit pas un premier enseignement
EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE
ème Colloque National AIP PRIMECA La Plagne - 7- avril 7 EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE Bruno Agard Département de Mathématiques et de Génie Industriel, École
Corps des nombres complexes, J Paul Tsasa
Corps des nombres complexes, J Paul Tsasa One Pager Février 2013 Vol. 5 Num. 011 Copyright Laréq 2013 http://www.lareq.com Corps des Nombres Complexes Définitions, Règles de Calcul et Théorèmes «Les idiots
Classification Automatique de messages : une approche hybride
RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,
INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES
INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et
WINDOWS SHAREPOINT SERVICES 2007
WINDOWS SHAREPOINT SERVICES 2007 I. TABLE DES MATIÈRES II. Présentation des «content types» (Type de contenu)... 2 III. La pratique... 4 A. Description du cas... 4 B. Création des colonnes... 6 C. Création
CONCEPTION Support de cours n 3 DE BASES DE DONNEES
CONCEPTION Support de cours n 3 DE BASES DE DONNEES Auteur: Raymonde RICHARD PRCE UBO PARTIE III. - LA DESCRIPTION LOGIQUE ET PHYSIQUE DES DONNEES... 2 A. Les concepts du modèle relationnel de données...
Degré de confiance pour les indicateurs de performance : degré de fiabilité du processus de production et écart significatif 1
Degré de confiance pour les indicateurs de performance : degré de fiabilité du processus de production et écart significatif 1 L utilisation des indicateurs de performance ne peut se faire de manière pertinente
Information utiles. [email protected]. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/
Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : [email protected] webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/
Chapitre I : le langage UML et le processus unifié
I. Introduction Les méthodes d analyse orientées objet sont initialement issues des milieux industriels. La préoccupation dominante de leurs auteurs est le génie logiciel, c est-àdire les principes et
APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE
SûretéGlobale.Org La Guitonnière 49770 La Meignanne Téléphone : +33 241 777 886 Télécopie : +33 241 200 987 Portable : +33 6 83 01 01 80 Adresse de messagerie : [email protected] APPORT DES
Introduction à la méthodologie de la recherche
MASTER DE RECHERCHE Relations Économiques Internationales 2006-2007 Introduction à la méthodologie de la recherche [email protected] Les Etapes de la Recherche Les étapes de la démarche Etape
Conception, architecture et urbanisation des systèmes d information
Conception, architecture et urbanisation des systèmes d information S. Servigne Maître de Conférences, LIRIS, INSA-Lyon, F-69621 Villeurbanne Cedex e-mail: [email protected] 1. Introduction
CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!
CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE Information importante : Ces conseils ne sont pas exhaustifs! Conseils généraux : Entre 25 et 60 pages (hormis références, annexes, résumé) Format d un
Propriétés du Document EMA. Résumé
Propriétés du Document Source du Document FSN OpenPaaS Titre du Document Définition et exploitation d un référentiel de processus collaboratifs : Rapport de synthèse quant aux référentiels existants Module(s)
Modèle Entité/Association
Base de données Modèle Entité/Association L3 Informatique Antoine Spicher [email protected] Contexte du cours Organisation du cours 1 ère partie (C. D.) Modèle et algèbre relationnel Langage SQL
Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie
Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même
Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie
Les 10 grands principes de l utilisation du data mining pour une gestion de la relation client réussie Découvrir les stratégies ayant fait leurs preuves et les meilleures pratiques Points clés : Planifier
UML et les Bases de Données
CNAM UML et les Bases de Données UML et les Bases de Données. Diagramme de classes / diagramme d objets (UML)...2.. Premier niveau de modélisation des données d une application...2.2. Les éléments de modélisation...2.2..
CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU
CommentWatcher plateforme Web open-source pour analyser les discussions sur des forums en ligne Marian-Andrei RIZOIU 2ème octobre 2013 BLEND 2013 Lyon, France Contexte Laboratoire ERIC Université Lumière
Chapitre 2. Eléments pour comprendre un énoncé
Chapitre 2 Eléments pour comprendre un énoncé Ce chapitre est consacré à la compréhension d un énoncé. Pour démontrer un énoncé donné, il faut se reporter au chapitre suivant. Les tables de vérité données
Logiciels de Gestion de Projet: Guide de sélection
Logiciels de Gestion de Projet: Guide de sélection Logiciels de Gestion de Projets: Guide de sélection PPM Software Selection Guide ETAPE 1: Faiblesses Organisationnelles identifier clairement vos besoins
2. Activités et Modèles de développement en Génie Logiciel
2. Activités et Modèles de développement en Génie Logiciel Bernard ESPINASSE Professeur à l'université d'aix-marseille Plan Les Activités du GL Analyse des besoins Spécification globale Conceptions architecturale
Hervé Couturier EVP, SAP Technology Development
Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud
Big Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
Cours 1 : La compilation
/38 Interprétation des programmes Cours 1 : La compilation Yann Régis-Gianas [email protected] PPS - Université Denis Diderot Paris 7 2/38 Qu est-ce que la compilation? Vous avez tous déjà
LA METHODE DU COUT CIBLE (TARGET COSTING)
LA METHODE DU COUT CIBLE (TARGET COSTING) Finalité de la démarche Optimiser les performances futures de profit du produit sur l ensemble de son cycle de vie. Prérequis Connaissance élémentaire de la problématique
Consulting & Knowledge Management. Résumé :
Ardans SAS au capital de 230 000 RCS Versailles B 428 744 593 SIRET 428 744 593 00024 2, rue Hélène Boucher - 78286 Guyancourt Cedex - France Tél. +33 (0)1 39 30 99 00 Fax +33 (0)1 39 30 99 01 www.ardans.com
Les diagrammes de modélisation
L approche Orientée Objet et UML 1 Plan du cours Introduction au Génie Logiciel L approche Orientée Objet et Notation UML Les diagrammes de modélisation Relations entre les différents diagrammes De l analyse
Démarches d urbanisation : réorganiser le Système d Information en structurant ses fonctions dans des blocs fonctionnels communicants.
Plan du chapitre Master Informatique et Systèmes Urbanisation des Systèmes d Information Architecture d Entreprise 04 Architecture du SI : identifier et décrire les services, structurer le SI 1 2 3 4 5
données en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Spécificités, Applications et Outils
Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala [email protected] http://chirouble.univ-lyon2.fr/~ricco/data-mining
Le Guide Pratique des Processus Métiers
Guides Pratiques Objecteering Le Guide Pratique des Processus Métiers Auteur : Version : 1.0 Copyright : Softeam Equipe Conseil Softeam Supervisée par Philippe Desfray Softeam 21 avenue Victor Hugo 75016
Université de Lorraine Licence AES LIVRET DE STAGE LICENCE 2014-2015
Université de Lorraine Licence AES LIVRET DE STAGE LICENCE 2014-2015 1 LA REDACTION DU RAPPORT DE STAGE Le mémoire ne doit pas consister à reprendre tels quels des documents internes de l entreprise ou
Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION
Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information
Le cinquième chapitre
Le cinquième chapitre Objectif : présenter les supports matériels ou immatériels permettant d'étayer cette nouvelle approche de la fonction maintenance. I. Evolution du domaine technique - Différents domaines
Cours de Master Recherche
Cours de Master Recherche Spécialité CODE : Résolution de problèmes combinatoires Christine Solnon LIRIS, UMR 5205 CNRS / Université Lyon 1 2007 Rappel du plan du cours 16 heures de cours 1 - Introduction
Métriques de performance pour les algorithmes et programmes parallèles
Métriques de performance pour les algorithmes et programmes parallèles 11 18 nov. 2002 Cette section est basée tout d abord sur la référence suivante (manuel suggéré mais non obligatoire) : R. Miller and
Principe et règles d audit
CHAPITRE 2 Principe et règles d audit 2.1. Principe d audit Le principe et les règles d audit suivent logiquement l exposé précédent. D abord, comme dans toute branche de l activité d une entreprise, l
Chapitre VIII. Les bases de données. Orientées Objet. Motivation
Chapitre VIII Motivation Le modèle relationnel connaît un très grand succès et s avère très adéquat pour les applications traditionnelles des bases de données (gestion) Les bases de données Orientées Objet
SECTION 5 BANQUE DE PROJETS
SECTION 5 BANQUE DE PROJETS INF 4018 BANQUE DE PROJETS - 1 - Banque de projets PROJET 2.1 : APPLICATION LOGICIELLE... 3 PROJET 2.2 : SITE WEB SÉMANTIQUE AVEC XML... 5 PROJET 2.3 : E-LEARNING ET FORMATION
Raisonnement probabiliste
Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte
Entrepôt de données 1. Introduction
Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de
Retour d expériences avec UML
Retour d expériences avec UML UML pour les systèmes biologiques Marie-Hélène Moirez-Charron, UMR AGIR, équipe MAGE INRA Toulouse mailto:[email protected] PLAN Contexte de travail UML,
THOT - Extraction de données et de schémas d un SGBD
THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) [email protected], [email protected] Mots clefs : Fouille d information, base de données, système
Développement d un interpréteur OCL pour une machine virtuelle UML.
ObjeXion Software Prototyping made easy SA au capital de 500 000 F Siret 421 565 565 00015 APE 722Z Téléphone : 03 89 35 70 75 Télécopie : 03 89 35 70 76 L embarcadère 5, rue Gutemberg 68 800 Vieux-Thann,
LE CADRE COMMUN DE REFERENCE LA CONVERGENCE DES DROITS 3 e forum franco-allemand
LE CADRE COMMUN DE REFERENCE LA CONVERGENCE DES DROITS 3 e forum franco-allemand Guillaume Wicker Professeur à l Université Montesquieu - Bordeaux IV 1 Je commencerais par cette interrogation : est-il
MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE»
MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE» Du cours Modélisation Semi -Formelle de Système d Information Du Professeur Jean-Pierre GIRAUDIN Décembre. 2002 1 Table de matière Partie 1...2 1.1
Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services
69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard
3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes
PLAN CYCLE DE VIE D'UN LOGICIEL EXPRESSION DES BESOINS SPÉCIFICATIONS DU LOGICIEL CONCEPTION DU LOGICIEL LA PROGRAMMATION TESTS ET MISE AU POINT DOCUMENTATION CONCLUSION C.Crochepeyre Génie Logiciel Diapason
