Une approche pour l extraction automatique de structures sémantiques de documents XML

Dimension: px
Commencer à balayer dès la page:

Download "Une approche pour l extraction automatique de structures sémantiques de documents XML"

Transcription

1 Une approche pour l extraction automatique de structures sémantiques de documents XML Salma Ben Mefteh*,**, Kaïs Khrouf*, Jamel Feki*, Maha Ben Kraiem*, Chantal Soulé-Dupuy** * Laboratoire Université de Sfax, B.P. 1088, 3018 Sfax, Tunisie. ** Laboratoire IRIT- Université Toulouse I Capitole, 2 rue du Doyen Gabriel Marty, Toulouse Cedex 9, France ailto: Chantal.Soule- RÉSUMÉ. La nature des sources d informations et les possibilités de description des documents disponibles via ces sources sont en constante évolution. Cette évolution, et l enrichissement des informations qui en découle, est accélérée par l expansion du Web, et la mise à disposition de documents de type XML. Or la structure logique de ces documents XML, au travers de balises du genre Contenu, Section, Paragraphe, ne reflète pas nécessairement la sémantique des documents. Le développement d outils automatisés permettant de déterminer les structures sémantiques de ces documents XML nous semble être une nécessité. A cette fin, nous proposons dans cet article une approche de structuration sémantique des documents XML. ABSTRACT. The nature of information sources together with the description alternatives for the documents available within these sources are constantly changing. This development, and the enrichment of information that follows, is accelerated by the expansion of the Web and the availability of XML documents. However, the logical structure of XML documents, through tags such as Content, Section, Paragraph, does not necessarily reflect the semantics of documents. The development of automated tools to determine the semantic structures of XML documents seems to be a necessity. For that, we propose in this paper a novel approach to determine semantic structures of XML documents. MOTS-CLÉS : Documents XML, Structures sémantiques, Ontologies. KEYWORDS: XML DOCUMENTS, SEMANTIC STRUCTURES, ONTOLOGIES.

2 1. Introduction La numérisation des documents et le développement des technologies Internet engendrent une augmentation permanente de la masse de documents disponibles. Face à cette masse documentaire, XML s est imposé comme format standard de documents. Ainsi, un nombre de plus en plus important de documents deviennent disponibles sous ce format. Ces documents XML peuvent être classés en deux types : les documents XML orienté-données et les documents XML orienté-texte. Les documents XML orienté-données sont constitués d un ensemble d éléments généralement courts et précis et sont similaires aux données relationnelles. Ce type de documents est principalement utilisé par les applications d échange des informations (i.e. les données transactionnelles). Nous constatons que les balises utilisées pour ce genre de documents décrivent généralement d une manière précise son contenu, et apportent la sémantique nécessaire à la description de l information (Exemples de balises : Article, Client, Quantité, Prix) Les documents XML orienté-texte sont des documents riches en texte et constituent des versions électroniques des documents papiers (i.e. les articles scientifiques, les rapports internes). Les balises utilisées pour ce genre de documents présentent la plupart du temps un découpage (structure) logique (Exemples de balises : Contenu, Section, Paragraphe). Ces balises ne décrivent en aucun cas la sémantique de leur contenu. Partant de là, le développement d outils automatisés permettant de décrire la sémantique des documents devient une nécessité. A cette fin, nous proposons une approche d annotation automatique des différents granules d un document XML permettant ainsi d inférer une structure sémantique pour ce de document. (Abascal, 2005) définit la structure sémantique comme étant «un ensemble de balises sémantiques représentant des concepts associés entre eux par des relations». Dans notre contexte, nous considérons que la structure sémantique est une structure superposée à la structure logique d un document XML et qui décrit la sémantique du contenu (en particulier de ses éléments textuels). Cet article est structuré comme suit. Nous commençons par un état de l art sur les travaux abordant l aspect sémantique des documents. Ensuite, nous décrivons la démarche que nous proposons pour l extraction des structures sémantiques qui complètent les structures logiques des documents. Les sections 4, 5 et 6 détaillent les étapes les plus importantes de la démarche proposée. Enfin, nous terminons cet article par les expérimentations réalisées et les résultats obtenus. 2. Etat de l art La plupart des travaux qui ont abordé l aspect sémantique des documents (entre autres les documents XML) se sont intéressés à la représentation sémantique des contenus.

3 En recherche d information, l aspect sémantique a été abordé afin d améliorer le nombre de documents pertinents restitués par rapport à une requête utilisateur. Certaines approches, comme celle de (Zargayouna & Sallouti, 2004), représentent les documents sous forme de vecteurs de termes selon le modèle vectoriel de Salton (Salton et al., 1983), tout en reliant ces termes aux concepts de l ontologie. Les termes de la requête utilisateur seront par la suite remplacés par les concepts associés afin que les réponses soient plus appropriées aux besoins des utilisateurs. L inconvénient majeur de ces travaux est l utilisation d une ontologie de concepts reliée à un corpus. Dans le même esprit, (Harrathi & Calabretto, 2010) ont indexé, en plus du contenu textuel des documents, leurs structures par des concepts en utilisant l ontologie WordNet. Cependant, cette ontologie générale pose le problème de couverture terminologique, c est-à-dire seuls les termes des documents ou des requêtes les plus communs sont référencés par des concepts. Dans (Baziz et al. 2007), le modèle de représentation sémantique des documents et des requêtes repose sur un réseau sémantique (ensemble de concepts reliés par des liens). Cependant, ces travaux ont montré que l indexation sémantique (i.e., l affectation d un ensemble de concepts à un document) n apporte pas de résultat probant sauf si elle est combinée avec une indexation classique basée sur les mots-clés. Des approches traitant de la classification de documents intègrent aussi la notion de sémantique du contenu. Par exemple, Gesche et al. (Gesche et al., 2010) utilisent des ontologies de domaine pour enrichir des textes courts (généralement, articles de presse). Ils proposent trois types d enrichissement : enrichissement par généralisation (Exemple, l actualité parlant de «Michaël Jackson» sera enrichie par le concept «Rock»), enrichissement par spécialisation («Sport» peut être enrichi par les sports médiatiques) et enrichissement par catégorisation (Ajout des métadonnées : Auteur, Année ). Par contre, la classification proposée dans cet article est supervisée, c est-à-dire que les classes de documents doivent être connues à priori. Dans (Upasana et al., 2010), les auteurs ont présenté une classification des textes basée sur les techniques statistiques et contextuels (sémantique). Cette classification est réalisée en plusieurs étapes : la constitution d un vecteur de termes pour le document, la constitution d un vecteur de termes pour chaque domaine (Médecine, Cryptographie ) en utilisant Wordnet. Ensuite, il s agit de calculer la similarité entre le vecteur de documents et l ensemble des vecteurs des domaines. Enfin, le vecteur de domaine ayant le score le plus élevé sera affecté au document approprié. Cependant, ces travaux ont utilisé Wordnet qui représente une ontologie trop générale et peu formalisée pour modéliser correctement un domaine donné. Dans la littérature, peu de travaux (Abascal, 2005), (Tagarelli & Grec, 2010) se sont intéressés à la structuration sémantique des documents. (Abascal, 2005) propose une approche qui vise à permettre l accès à l ensemble de documents (thèses) par leur contenu sémantique. Ils ont proposé un modèle de documents fondé sur l utilisation de nouvelles métadonnées rajoutées, appelés «tags sémantiques». Ces métadonnées permettent ainsi d affiner la recherche et de mieux satisfaire l utilisateur. Cependant, l approche proposée est destinée à un type particulier de

4 documents, à savoir : les thèses. (Tagarelli & Grec, 2010) proposent d enrichir sémantiquement les noms des balises d un document XML. Pour cela, chaque chemin 1 du document XML représente un réseau et chaque balise de ce chemin constitue une couche (l ensemble des sens de la balise en question, extraits de Wordnet). L étape suivante consiste à calculer la mesure de similarité entre les différentes couches afin de trouver le meilleur chemin dans le réseau. L utilisation de Wordnet peut causer des difficultés pour le choix du sens le plus approprié pour une balise donnée surtout pour les termes polysémiques 2. Comme complément aux travaux abordant l aspect sémantique des contenus, nous proposons dans ce papier un découpage sémantique des documents XML. Plus précisément, nous proposons une approche d extraction automatique de structures sémantiques pour les documents XML en se basant sur leurs structures logiques et contenus, contrairement aux travaux de (Tagarelli & Grec, 2010) qui se sont focalisés uniquement sur les noms de balises. Ces travaux permettent ainsi de visualiser et d interroger les documents XML selon le point de vue souhaité (logique, sémantique ou les deux à la fois). 3. Notre démarche Dans (Khrouf et al., 2011), nous avons proposé une approche pour la classification et l analyse multidimensionnelle des documents. Ces travaux regroupent les structures logiques identiques ou similaires des documents XML dans des structures génériques (Ben Messaoud et al., 2011). L approche proposée a été vérifiée et validée pour les documents XML orienté-données (généralement qui contiennent peu du texte). Nous souhaitons étendre ces travaux pour les documents orienté-texte (rapports, articles scientifiques, news ). A cette fin, nous proposons de dériver et de proposer, à partir de la structure logique et du contenu d un document XML orienté-texte, une structure qui reflète sa sémantique, c est l objet de cet article. La Figure 1 montre un exemple de structure logique et de sa structure sémantique pour un document XML. <Article> <Titre>Modeling for DSS</Titre> <Auteur>Dupond</Auteur> <Contenu> <Section>A dimension constitutes a component </Section> <Section>The multidimensional analyses allow to users </Section> </Contenu> </Article> Document XML Titre Article Auteur Contenu Section Section Structure logique Datawarehouse Design Null Dimension Structure sémantique Figure 1. Exemple de structure logique et de sa structure sémantique. 1 L ensemble des balises reliant la racine à l élément feuille du document. 2 Un terme polysémique est un terme qui peut avoir plusieurs sens différents.

5 La démarche que nous proposons pour l extraction automatique de telles structures sémantiques est illustrée dans la Figure2. Structure Spécifique + contenu L Documents XML L11 L12 L1n L111L121L123 L1m Structure Sémantique Phase 1 : Extraction des termes Ontologies Phase 2 : Choix d ontologie Phase 3 : Association des concepts aux éléments feuilles Entrepôt de documents S S11 S12 S1n S111S121S123 S1m Phase 5 : Affectation des métadonnées Phase 4 : Inférence de concepts Figure 2. Démarche de détermination de la structure sémantique. Cette démarche se décompose en cinq phases : Phase 1 : Extraction des termes. Il s agit dans cette phase d extraire les mots-clés significatifs des éléments feuilles du document (fragments textuels associés aux éléments feuilles). L extraction des mots-clés repose sur un processus d indexation classique, tel que défini en recherche d information (Baeza-Yates et al., 1999). Phase 2 : Choix de l ontologie. L objet de cette phase est de déterminer, parmi un ensemble d ontologies de domaines, celle qui convient le mieux pour décrire la sémantique du document, et ce à partir des mots-clés du langage d indexation généré lors de la phase précédente. Phase 3 : Association de concepts aux éléments feuilles. Cette phase consiste, pour chaque élément feuille de la structure logique, à rechercher, dans l ontologie de domaine retenue à la phase précédente, le concept le plus approprié à la description de sa sémantique (qui traduit le mieux la sémantique de l élément feuille compte tenu des mots-clés qui le décrivent). Le concept trouvé est alors associé à l élément feuille. Phase 4 : Inférence de concepts aux éléments non-feuilles. Les concepts des éléments feuilles servent ensuite à inférer les concepts à associer à leurs ascendants à partir de l ontologie sélectionnée. Les phases 2, 3 et 4 sont détaillées dans les sections suivantes de cet article. Phase 5 : Affectation des métadonnées. Cette phase consiste à garder les balises de la structure logique qui représentent des métadonnées (i.e. Auteur, Editeur,

6 Année). Les métadonnées utilisées lors de cette phase sont celles du Dublin Core 3 Nous avons choisi de réaliser cette phase à la fin de la démarche proposée et non au début afin de laisser la possibilité de remplacer certaines métadonnées (i.e. Titre, Résumé) par la sémantique qu elles présentent. 4. Choix de l ontologie Selon notre approche, un entrepôt peut contenir des documents appartenant à plusieurs domaines ou thématiques et dispose donc d un ensemble d ontologies dites «de domaine». Afin d apporter de la sémantique aux différents éléments constituant un document, nous recourons aux ontologies de l entrepôt. Une ontologie peut être définie comme étant «l ensemble structuré des termes et concepts représentant le sens d un champ d informations, que ce soit par les métadonnées d un espace de noms, ou les éléments d un domaine de connaissances» 4. Dans nos travaux, l ontologie est représentée par un ensemble de concepts d un domaine, ainsi que des relations entre ces concepts (Synonymie, antonymie, polysémie, homonymie ). 4.1 Pondération des ontologies et de leurs concepts Rappelons que notre objectif est de créer une structure sémantique, essentiellement en exploitant plusieurs ontologies de domaine. Se pose alors le problème du choix d une ontologie, c est-à-dire répondre à la question : quelle est l ontologie la mieux appropriée pour rechercher les concepts de la structure sémantique du document? Notons que dans cet article, nous nous focalisons aux documents traitant chacun un seul domaine. Pour cela, nous ne devons pas considérer comme équi-importants tous les concepts des différentes ontologies. En effet, si nous avons le choix entre un concept-père et un concept-fils pour un élément d un document, nous optons pour le concept-fils car il présente une information plus fine et plus spécifique. En conséquence, il nous semble important de pondérer les concepts d une ontologie de manière à donner plus d importance aux concepts les plus spécifiques (i.e., se trouvant en bas de la hiérarchie). De plus, nous considérons que le poids d une ontologie est égal à la somme des poids de ses concepts. Pour effectuer cette pondération, nous sommes confrontés à un problème de taille des ontologies. En effet, nous pouvons trouver des ontologies plus détaillées et plus élaborées que d autres (cf. Figure 3), ces ontologies ne doivent pas avoir alors 3 4

7 le même poids puisque ce poids sera réparti entre les différents concepts de l ontologie. Par exemple, si chacune des deux ontologies O 1 et O 2, possédant respectivement 4 et 10 concepts, ont un poids identique égal à 1, alors chaque concept de O 1 aura un poids de 0.25=1/4 et chaque concept de O 2 sera pondéré par 0.1=1/10. Normes Comptable (NC) 0.25 Information System (IS) 0.1 IFRS 0.25 GAAP 0.25 Norme Finançaise(NF) 0.25 File(FL) 0.1 Database(DB) 0.1 Data Warehouse(DW) 0.1 Storage(ST) Design(DS) Cube(C) 0.1 Fact(F) 0.1 Dimension(D) 0.1 Ontologie O 1 Poids(0 1 ) = 1 Ontologie O 2 Poids(0 2 ) = 1 Figure 3. Pondération non discriminante des concepts des ontologies O1 et O2. Cette pondération non discriminante est à éviter car les concepts des ontologies les moins élaborées auront plus d importance et seront donc privilégiées. Pour pallier cela, nous pondérons chaque ontologie par rapport au nombre de concepts qu elle contient. Le calcul du poids d une ontologie O k s effectue selon la Formule 1. Ce poids mesure l importance de l ontologie O k puisqu il est calculé relativement par rapport au nombre total des concepts de toutes les ontologies de l entrepôt. Où : Ok PO( O ) = N Oi i = 1 k * PO(O k ) est le poids de l ontologie O k tel que PO(O k ) ]0, N] PO(O k ) = N PO(O k ) < N Si N > 1 N Si N = 1 (l entrepôt contient une seule ontologie) O k ( O i ) est le nombre de concepts dans l ontologie O k (respectivement O i ), et N est le nombre d ontologies disponibles. Reprenons l exemple de la Figure 3, avec une pondération selon la Formule 1, nous obtenons les poids suivants : PO(O 1 ) = 0,571 et PO(O 2 ) = 1,429. A ce stade, nous devons répartir le poids de l ontologie entre ses différents concepts de manière à donner plus d importance aux éléments les plus spécifiques [1]

8 dans l arborescence. Ainsi, les concepts d un niveau 5 i de l ontologie auront un poids supérieur à celui de ceux du niveau i-1. L affectation des coefficients s effectue comme suit : chaque élément père reçoit un coefficient égal à son niveau dans l ontologie. Dans la Figure 4, on affecte 1 à la racine «Information System», 2 au concept «Data Warehouse» et 3 au concept. continuer l affectation des coefficients aux concepts feuilles en commençant par ceux du niveau le plus élevé et en n incrémentant le coefficient qu en passant d un niveau i au niveau i+1. Dans la Figure 4, on affecte 4 aux concepts «File» et «DataBase», 5 aux concepts «Storage», «Design» et «Cube», etc. L affectation de cette manière permet de favoriser plus les descendants et surtout les feuilles (le plus bas niveau). Cette affectation est réalisée par la fonction Coeff(C i, O k ). La Figure 4 présente un exemple d affectation des coefficients pour l ontologie O 2. Information System (IS) 1 File(FL) 4 Database(DB) 4 Data Warehouse(DW) 2 Storage(ST) Design(DS) Cube(C) 5 Fact(F) 6 Dimension(D) 6 OntologieO 2 Figure 4. Coefficients des niveaux des concepts de l ontologie O 2. A ce niveau, nous calculons une marge notée ε k (cf. Formule 2) qui sera utilisée pour la détermination des poids des concepts de l ontologie. En effet, ε constitue la marge entre un concept appartenant à un niveau i+1 par rapport à un concept d un niveau i dont l objectif est de favoriser les descendants qui apportent plus de sémantique que leurs ascendants. Où : εk PO ( Ok) = SO ( Ok) 2 Avec Ok SO ( Ok) = Coeff( C i, Ok) i = 1 PO(O k ) est le poids de l ontologie O k calculé selon la Formule 1, SO(O k ) est la somme des coefficients de l ontologie O k, Coeff(C i, O k ) est le coefficient du concept i dans l ontologie O k, O k est le nombre de concepts dans l ontologie O k. [2] 5 Un niveau dans une ontologie est tous les concepts situés à la même profondeur.

9 Dans le cas de l ontologie O 2 de la Figure 4, la valeur de ε est la suivante : ε PO( O2) = = = SO( O ) 2 ( ) = Nous déterminons à ce niveau le poids de base d un concept, noté λ k, c est-àdire sans tenir compte des coefficients des concepts. Il s agit de soustraire du poids de l ontologie la partie consacrée pour l ensemble des marges ( ε k * SO( Ok) ), divisé par le nombre de concepts. La formule est alors la suivante. Où : PO ( O k) λ k = εk O k * SO ( O k) PO(O k ) est le poids de l ontologie O k, SO(O k ) est la somme des coefficients des concepts de l ontologie O k, ε k est la marge d un niveau i+1 par rapport au niveau i, O k est le nombre de concepts dans l ontologie O k, [3] Le poids de base λ 2 d un concept de l ontologie O 2 est égal à : ( 2) * ( 2) PO O ε SO O (0.0008* 41) λ 2 = = = O2 10 Après avoir calculé le poids de base d un concept, il s agit à ce stade de calculer le poids effectif de chaque concept en tenant compte de la marge et de son coefficient, comme l indique la Formule 4. ε PC ( Ci, Ok) = λ k + ( k * Coeff ( Ci, Ok)) Où : λk est le poids de base d un concept de l ontologie O k, ε k est la marge d un niveau i+1 par rapport au niveau i de l ontologie O k, Coeff(C i, O k ) est le coefficient du concept i de l ontologie O k. Notons que ces Formules garantissent que la somme des poids de tous les concepts d une ontologie est égale au poids de l ontologie (soit à dans notre exemple pour l Ontologie O 2 ). De plus, elle diffère de celle utilisée dans la Figure 3 par le fait que les concepts feuilles auront plus d importance que les concepts pères. Les concepts de l ontologie O 2 auront alors les poids suivants (cf. Figure 5). [4]

10 Information System (IS) λ 2 +(ε 2 *1) Information System (IS) File(FL) Database(DB) λ 2 +(ε 2 *4) λ 2 +(ε 2 *4) Data Warehouse(DW) λ 2 +(ε 2 *2) File(FL) Database(DB) Data Warehouse(DW) Storage(ST) λ 2 +(ε 2 *5) Design(DS) λ 2 +(ε 2 *5) λ 2 +(ε 2 *3) Fact(F) λ 2 +(ε 2 *6) Cube(C) λ 2 +(ε 2 *5) Dimension(D) λ 2 +(ε 2 *6) Storage(ST) Design(DS) Fact(F) Ontologie O 2 Poids(0 2 ) = Figure 5. Poids des concepts de l ontologie O2 après pondération. Cube(C) Dimension(D) Choix d une ontologie pour un document Selon notre approche, un entrepôt contient des documents appartenant à plusieurs domaines et dispose donc d un ensemble d ontologies. Il s agit de déterminer une seule ontologie par document. Généralement, un document traite un seul domaine et qui peut parler, dans certains cas, d autres domaines mais dans des parties du document. C est la raison pour laquelle, nous avons opté pour affecter une seule ontologie à un document. Ainsi, pour chaque ontologie de l entrepôt, nous calculons dans un premier temps, le poids de chaque concept C i par rapport à chaque élément feuille E j du document d. (cf. Figure 6). Cette pondération est définie selon la Formule 5. PC( Ci, Ej) = freq( Ci, Ej) * PC( Ci, Ok) freq( Ci, d) j Ej d [5] Où : PC(C i, E j ) est le poids du concept C i par rapport à l élément E j, freq(c i, E j ) est la fréquence d apparition du concept C i dans l'élément E j, freq(c i, d) est la fréquence d apparition du concept C i dans le document d, et PC(C i, O k ) est le poids du concept C i dans son ontologie. Pour la correspondance des termes des documents avec les concepts des ontologies, nous avons utilisé les techniques de la Recherche d Information (Baeza- Yates et al., 1999) en plus d un dictionnaire de synonymie. B A D C Ontologie O 1 E 0.3 Document d Z Y X K W Ontologie O 2 Figure 6. Calcul des poids des concepts par rapport aux éléments du document.

11 Ensuite, nous calculons le poids de chaque concept C i par rapport à tout le document d. Ce poids est égal à la somme des poids de C i dans les différents éléments de d, selon la Formule 6. Où : m PC ( Ci, d ) = PC ( C i, Ej) j Ej d j = 1 PC (C i, d) est le poids du concept C i par rapport au document d, PC (C i, E j ) est le poids du concept C i par rapport à l élément E j, m est le nombre d éléments dans le document d. [6] A 0.9 X B D C Ontologie O 1 E 0.3 Document d 0.7 Z Y K W Ontologie O 2 Figure 7. Calcul des poids des concepts par rapport au document. Pour choisir l ontologie la plus appropriée par rapport au document d, nous additionnons les poids des différents concepts appartenant à l ontologie en question Ainsi, la Formule 7 donne le poids de l ontologie O k par rapport au document d. Où : O k PO ( O k, d ) = PC ( C i, d ) i = 1 PC (C i, d) est le poids du concept C i par rapport au document d (Formule 6), O k est le nombre de concepts de l ontologie O k. [7] A X B C Y K D Ontologie O 1 E Document d Z W Ontologie O 2 Figure 8. Calcul des poids des ontologies par rapport au document. Ainsi, l ontologie, ayant le poids le plus élevé, sera retenue pour le document. Dans notre exemple, c est l ontologie O 2 (avec un poids de 1.6) qui sera retenu pour d.

12 5. Affectation des concepts aux éléments feuilles L objectif de cette phase est d affecter un seul concept représentatif à chaque élément feuille du document, en se basant sur les poids des concepts calculés par la Formule 5. Pour un élément feuille E k, différents cas se présentent : Cas 1 : Aucun concept déterminé pour E k (Exemple : les éléments Auteur, Editeur, Année ). Le concept Null sera affecté. Cas 2 : Un seul concept déterminé pour E k ; il sera retenu comme concept représentatif. Cas 3 : Plusieurs concepts déterminés appartenant à une même hiérarchie. Dans ce cas : - Si les poids calculés pour ces concepts sont très proches (presque identiques), nous affectons à E k le concept le plus spécifique dans la hiérarchie. - Si les poids de ces concepts sont divergents, nous affectons à E k le concept ayant le poids le plus élevé, indépendamment de sa position dans la hiérarchie. Cas 4 : Plusieurs concepts déterminés pour E k appartenant à plusieurs hiérarchies dans l ontologie. Dans ce cas, nous affectons à E k le concept ayant le poids le plus élevé. A la fin de cette phase, chaque élément feuille est associé à un et un seul concept de l ontologie O 2 retenue. Il s agit maintenant d attribuer des concepts aux autres éléments (i.e., non feuilles) de la structure logique du document, par des règles d inférence que nous définissons dans la section suivante. 6. Inférence des concepts aux éléments non-feuilles Jusqu'à présent, nous avons déterminé, pour chaque élément feuille de la structure sémantique d un document, un concept choisi dans l ontologie retenue pour le document. Nous poursuivons notre objectif afin de finaliser la structure sémantique. Il s agit maintenant d attribuer des concepts aux éléments non feuilles de la structure et ceci en procédant par inférence des concepts des feuilles vers leurs ascendants de la façon suivante : Règle 1 : Un élément père ayant un seul fils aura le même concept que son fils. Règle 2 : Si un élément père possède plusieurs éléments fils dont les concepts appartiennent à une même hiérarchie de l ontologie, alors on associera à ce père le concept le plus générique des concepts associés à ses fils (cf. Figure 9). Règle 3 : Si un élément père possède plusieurs éléments fils dont les concepts appartiennent à plusieurs hiérarchies de l ontologie, alors le concept attribué à ce père est l ancêtre commun des concepts associés à ses fils (cf. Figure 10).

13 Information System (IS) File(FL) Database(DB) Data Warehouse(DW) Design(DS) Storage(ST) Cube(C)? Fact(F) Dimension(D) Ontologie O 2? Design Null? Design Null Dimension Structure sémantique Figure 9. Application de la règle 2. Dimension Structure sémantique Après application de la règle 2 Information System (IS) File(FL) Database(DB) Data Warehouse(DW) Design(DS) Storage(ST) Cube(C)? Fact(F) Dimension(D) Ontologie O 2 Data Warehouse Design Null Design Null Dimension Structure sémantique Figure 10. Application de la règle 3. Dimension Structure sémantique Après application de la règle 3 A l issue de cette étape d inférence, tous les éléments de la structure logique du document sont associés soit à des concepts de l ontologie choisie, soit à la valeur Null. Il s agit maintenant de récupérer les métadonnées de la structure logique, en se référant aux métadonnées de Dublin Core. Dans notre exemple, la structure sémantique obtenue au final (après les 5 phases) est celle présentée dans la Figure Expérimentations Pour valider notre approche, nous proposons de tester les formules proposées dans cet article sur une collection des documents, dans les domaines des Sciences et

14 de la Médecine (issus de Wikipedia) et 18 ontologies de domaine que nous avons définies. La base de test utilisée est décrite dans le tableau 1. Description Nombre Documents 240 Eléments feuilles 944 Eléments non feuilles 480 Ontologies 18 Concepts 223 Tableau 1. Caractéristiques de la base de tests Afin de vérifier et de valider l apport de la pondération des ontologies, nous avons réalisé 2 séries de tests : (1) sans tenir compte des poids des concepts des ontologies (Algorithme Sans_Poids) et (2) en tenant compte de la pondération automatique des concepts des ontologies (Algorithme Avec_Poids). Dans ce qui suit, nous présentons les différents résultats obtenus. Le tableau 2 présente le nombre d ontologies associées aux documents selon les deux algorithmes. Description Sans_Poids Avec_Poids Nombre de documents ayant été associés à une seule ontologie 215/ /240 Tableau 2. Nombre d ontologies associées aux documents. Nous observons dans le tableau 2, qu avec l algorithme Avec_Poids, une seule ontologie a été associée à chaque document. Alors que, avec l algorithme Sans_Poids, deux ontologies ou plus ont été associées à 25 (= ) documents. Ce qui représente une amélioration de % entre les deux algorithmes. Dans le tableau 3, nous avons examiné l association des ontologies aux documents pour savoir celles qui ont été correctement associées. Description Sans_Poids Avec_Poids Ontologies correctement associées Ontologies non correctement associées Tableau 3. Association des ontologies aux documents La pondération automatique des poids a amélioré l affectation des ontologies aux documents par rapport à l algorithme sans poids. Néanmoins, nous constatons que 10 documents parmi les 240 n ont pas été affectés aux bonnes ontologies, cela est dû au faite que les documents peuvent faire référence à d autres domaines. Nous nous intéressons maintenant à l apport de la pondération des concepts des ontologies sur l association de concepts aux éléments feuilles.

15 Description Sans_Poids Avec_Poids Nombre d éléments feuilles associés à un seul concept. 361/ /464 Nombre d éléments feuilles associés à plus qu un concept. 103/464 14/464 Tableau 4. Association des concepts aux éléments feuilles. Les documents intégrés dans la base de tests comprennent 944 éléments feuilles (480 éléments métadonnées comme Editeur et Date, et 464 éléments représentant des contenus textuels, tels que : Section et Paragraphe). Un seul concept a été associé à 361 éléments feuilles par l algorithme Sans_Poids et à 450 éléments feuilles par l algorithme Avec_Poids. Ce qui a apporté une amélioration de 19.18% entre les deux méthodes. Ces résultats s expliquent par le fait que dans un élément nous trouvons la même apparition d un concept et de son concept-fils, l algorithme Sans_Poids affecte ces deux concepts à l élément en question. Par contre, l algorithme Avec_Poids retient le concept fils (qui est plus précis) car la pondération automatique des ontologies proposée dans cette approche donne plus d importance aux concepts fils. Rappelons qu après l affectation des concepts aux éléments feuilles, nous nous intéressons à attribuer des concepts aux éléments non feuilles de la structure et ceci en procédant par inférence des concepts des feuilles vers leurs ascendants. Notre expérience consiste à tester le nombre d application des règles d inférences. Le tableau 5 présente le nombre d utilisation de chaque règle d inférence. Règles d inférence Nombre d utilisation Règle 1 78 Règle Règle 3 40 Tableau 5. Fréquence d utilisation des règles. Nous remarquons que la règle 2 est la plus utilisée. Cela peut s expliquer par le fait que les documents traités dans notre collection traitent un seul domaine. 8. Conclusion Ce travail présente une approche pour la définition des structures sémantiques des documents XML à partir de leurs structures spécifiques et de leurs contenus. Cette approche commence tout d abord par l extraction des termes significatifs pour les éléments feuilles (fragments textuels) d un document XML. Ensuite, nous déterminons l ontologie qui sera affectée au document, celle qui décrit sa sémantique. Par la suite, nous associons, à chaque élément de la structure spécifique du document, le concept significatif de l ontologie retenue. Enfin, nous dérivons les métadonnées à partir de la structure logique. Les expérimentations réalisées

16 montrent que la pondération automatique des ontologies a amélioré l affectation des ontologies aux documents et l association des concepts aux éléments feuilles. Dans (Khrouf et al., 2011), nous avons proposé une approche d analyse multidimensionnelle des documents XML orienté-données, en se basant essentiellement sur leur structure logique. La détermination des structures sémantiques comme définies dans cet article permettra d étendre les analyses multidimensionnelles aux documents XML orienté-texte. Plusieurs perspectives à ces travaux sont envisageables. Dans un premier temps, il est important de réaliser des expérimentations sur une collection plus importante de documents XML. Il nous faudra pour cela construire une collection de tests car il n existe pas à ce jour de bases dédiées à ce type de traitements. Nous comptons également étendre ces travaux par la possibilité d associer plusieurs structures sémantiques à un même document XML (multi-structuralité sémantique des documents) afin de traduire les points de vue de plusieurs lecteurs. 9. Bibliographie Abascal R., «Nouveau modèle de documents pour une bibliothèque numériques de thèses accessible par leur contenu sémantique», Thèse de doctorat, INSA, Lyon, Baeza-Yates R., Ribero-Neto B., «Modern Information Retrieval», Addison Wesley, Baziz M., Boughanem M., Prade H., «Une approche de représentation de l'information en RI basée sur les sous-arbres», Conférence en Recherche d'information et Applications (CORIA 2007), p , Saint-Etienne, France, Ben Messaoud I., Feki J., Khrouf K., Zurfluh G., «Unification of XML Document Structures for DOCW», International Conference on Enterprise Information Systems (ICEIS 11), p , Beijing, China, Gesche S., Egyed-Zsigmond E., Calabretto S., Caplat G., Beney J., «Classification supervisée sémantique d articles de presse en français», Atelier Recherche d'information Sémantique, Marseille, France, Harrathi R., Calabretto S. «Une approche de recherche sémantique dans les documents semistructurés», Atelier Recherche d Information Sémantique, Marseille, France, Khrouf K., Feki J., Soulé-Dupuy C., «An Approach for Multidimensional Analysis of Documents», International Conference on Information Systems and Economic Intelligence, p , Marrakech, Maroc, Salton G., Fox E.A., Wu H., «Introduction to Modern Information Retrieval», McGraw Hill International Book Company, Tagarelli A., Greco S., «Semantic clustering of XML documents», ACM Transactions on Information Systems (TOIS), Volume 28, Issue 1, January Upasana P., Chakraverty S., Rahul J., «Context Driven Technique for Document Classification», International Conference on Advances in Computer Science, India, Zargayouna, H., Salotti, S., «Mesure de similarité dans une ontologie pour l'indexation sémantique de documents XML», Ingénieries des Connaissances (IC 2004), 2004.

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Une méthode d apprentissage pour la composition de services web

Une méthode d apprentissage pour la composition de services web Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Intégration de la dimension sémantique dans les réseaux sociaux

Intégration de la dimension sémantique dans les réseaux sociaux Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Contexte : Recommandation dans les réseaux sociaux

Plus en détail

SemWeb : Interrogation sémantique du web avec XQuery. Les membres du projet SemWeb

SemWeb : Interrogation sémantique du web avec XQuery. Les membres du projet SemWeb SemWeb : Interrogation sémantique du web avec XQuery Les membres du projet SemWeb Contexte et objectifs Le projet SemWeb s inscrit dans les efforts de recherche et de développement actuels pour construire

Plus en détail

Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation

Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation 443 Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation Diem Le Thi Hoang Equipe MRIM, Laboratoire CLIPS-IMAG 38041 Grenoble Cedex 9, France

Plus en détail

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht.

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht. Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht.fr 1 MVC et le web 27/05/14 2 L'évolution des systèmes informatiques

Plus en détail

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques Guide de recherche documentaire à l usage des doctorants Partie : Exploiter les bases de données académiques Sylvia Cheminel Dernière mise à jour : décembre 04 PANORAMA DES SOURCES DOCUMENTAIRES ACADEMIQUES...

Plus en détail

Intelligence Economique - Business Intelligence

Intelligence Economique - Business Intelligence Intelligence Economique - Business Intelligence Notion de Business Intelligence Dès qu'il y a une entreprise, il y a implicitement intelligence économique (tout comme il y a du marketing) : quelle produit

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

Construction d'un entrepôt de métadonnées - LOM Application: E-learning

Construction d'un entrepôt de métadonnées - LOM Application: E-learning Construction d'un entrepôt de métadonnées - LOM Application: E-learning Nawel Iles, Azzeddine Chikh, Sidi Mohammed Chouiti Faculté des sciences de l ingénieur Université de Tlemcen Algérie (n_iles/ az_chikh

Plus en détail

RI sociale : intégration de propriétés sociales dans un modèle de recherche

RI sociale : intégration de propriétés sociales dans un modèle de recherche RI sociale : intégration de propriétés sociales dans un modèle de recherche Ismail Badache 1 Institut de Recherche en Informatique de Toulouse, UMR 5505 CNRS, SIG 118 Route de Narbonne F-31062 Toulouse

Plus en détail

IBM Content Analytics Libérer l Information

IBM Content Analytics Libérer l Information IBM Content Analytics Libérer l Information Patrick HOFLEITNER patrick_hofleitner@fr.ibm.com Août 2011 TABLE DES MATIERES RESUME...3 INTRODUCTION...4 LA PROBLEMATIQUE...5 1 L EXPLOSION DU CONTENU NON-STRUCTURE...5

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

Entreposage de données complexes pour la médecine d anticipation personnalisée

Entreposage de données complexes pour la médecine d anticipation personnalisée Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée

Plus en détail

Ressources lexicales au service de recherche et d indexation des images

Ressources lexicales au service de recherche et d indexation des images RECITAL 2011, Montpellier, 27 juin - 1er juillet 2011 Ressources lexicales au service de recherche et d indexation des images Inga Gheorghita 1,2 (1) ATILF-CNRS, Nancy-Université (UMR 7118), France (2)

Plus en détail

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux

Plus en détail

ProxiDocs : un outil de cartographie et de catégorisation thématique de corpus

ProxiDocs : un outil de cartographie et de catégorisation thématique de corpus ProxiDocs : un outil de cartographie et de catégorisation thématique de corpus Thibault ROY 1 et Pierre BEUST 1 1 GREYC- ISLanD CNRS UMR 6072 Université de Caen 14032 Caen Cedex France thibault.roy@etu.info.unicaen.fr,

Plus en détail

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services 69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

ISTEX, vers des services innovants d accès à la connaissance

ISTEX, vers des services innovants d accès à la connaissance ISTEX, vers des services innovants d accès à la connaissance Synthèse rédigée par Raymond Bérard, directeur de l ABES, à partir du dossier de candidature d ISTEX aux Initiatives d excellence et des réunions

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Initiation à la recherche documentaire

Initiation à la recherche documentaire Initiation à la recherche documentaire 1 Objectifs Cette séance est destinée à reprendre les principes de la démarche documentaire pour construire un parcours pertinent en terme de méthodologie et de résultats

Plus en détail

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise BUSINESS INTELLIGENCE Une vision cockpit : utilité et apport pour l'entreprise 1 Présentation PIERRE-YVES BONVIN, SOLVAXIS BERNARD BOIL, RESP. SI, GROUPE OROLUX 2 AGENDA Définitions Positionnement de la

Plus en détail

Les modes de recherche sur le Web 2.0

Les modes de recherche sur le Web 2.0 Les modes de recherche sur le Web 2.0 1 Sommaire 1. Contexte 2. Le collaboratif : les moteurs thématiques 3. La syndication des résultats de recherche 4. Les connaissances : des moteurs 2 1 1. Moteurs

Plus en détail

SÉMINAIRE TECHNIQUE SERVICES À VALEURS AJOUTÉES

SÉMINAIRE TECHNIQUE SERVICES À VALEURS AJOUTÉES SÉMINAIRE TECHNIQUE SERVICES À VALEURS AJOUTÉES NANCY 18-19 MARS 2015 Jean-Marie Pierrel Université de Lorraine OBJECTIFS DES SERVICES À VALEURS AJOUTÉES Définir des services à valeurs ajoutées sur la

Plus en détail

Approche hybride de reconstruction de facettes planes 3D

Approche hybride de reconstruction de facettes planes 3D Cari 2004 7/10/04 14:50 Page 67 Approche hybride de reconstruction de facettes planes 3D Ezzeddine ZAGROUBA F. S.T, Dept. Informatique. Lab. d Informatique, Parallélisme et Productique. Campus Universitaire.

Plus en détail

Recherche bibliographique

Recherche bibliographique Séminaire «Maîtrise de l information scientifique» Recherche bibliographique Dernière mise à jour : 07/01/2015 - Auteur : Frédérique Flamerie Recherche bibliographique : méthode & outils La recherche bibliographique

Plus en détail

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE ème Colloque National AIP PRIMECA La Plagne - 7- avril 7 EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE Bruno Agard Département de Mathématiques et de Génie Industriel, École

Plus en détail

Accès personnalisé multicritères à de multiples sources d informations.

Accès personnalisé multicritères à de multiples sources d informations. Lyon - France Accès personnalisé multicritères à de multiples sources d informations. Samir kechid Université des Sciences et de la Technologie Houari Boumediene. USTHB BP 32 El Alia Bab Ezzouar Alger

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

UE 8 Systèmes d information de gestion Le programme

UE 8 Systèmes d information de gestion Le programme UE 8 Systèmes d information de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur Indications

Plus en détail

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Solutions PME VIPDev Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise. Cette offre est basée sur la mise à disposition de l ensemble de nos compétences techniques et créatives au service

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

Présentation générale du projet data.bnf.fr

Présentation générale du projet data.bnf.fr Présentation générale du projet data.bnf.fr La Bibliothèque nationale a mis en œuvre un nouveau projet, qui a pour but de rendre ses données plus utiles sur le web. Ceci nécessite de transformer données

Plus en détail

Projet : Plan Assurance Qualité

Projet : Plan Assurance Qualité Projet : Document : Plan Assurance Qualité 2UP_SPEC_DEV1 VERSION 1.00 Objet Ce document a pour objectif de définir la démarche d analyse et de conception objet ainsi les activités liées. Auteur Eric PAPET

Plus en détail

D origine destiné à la conception de blog, WordPress est devenu l outil incontournable dans la liste des systèmes de gestion de contenus..

D origine destiné à la conception de blog, WordPress est devenu l outil incontournable dans la liste des systèmes de gestion de contenus.. WordPress - CMS open-source Permet de créer simplement des sites internet ou de blogs. D origine destiné à la conception de blog, WordPress est devenu l outil incontournable dans la liste des systèmes

Plus en détail

Le Guide Pratique des Processus Métiers

Le Guide Pratique des Processus Métiers Guides Pratiques Objecteering Le Guide Pratique des Processus Métiers Auteur : Version : 1.0 Copyright : Softeam Equipe Conseil Softeam Supervisée par Philippe Desfray Softeam 21 avenue Victor Hugo 75016

Plus en détail

Systèmes d information et bases de données (niveau 1)

Systèmes d information et bases de données (niveau 1) Systèmes d information et bases de données (niveau 1) Cours N 1 Violaine Prince Plan du cours 1. Bibliographie 2. Introduction aux bases de données 3. Les modèles 1. Hiérarchique 2. Réseau 3. Relationnel

Plus en détail

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne Présentation du produit SAP s SAP pour les PME SAP BusinessObjects Business Intelligence, édition Edge Objectifs En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille

Plus en détail

TRAVAUX DE RECHERCHE DANS LE

TRAVAUX DE RECHERCHE DANS LE TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT

Plus en détail

Bases de données multidimensionnelles OLAP. OnLine Analytical Processing

Bases de données multidimensionnelles OLAP. OnLine Analytical Processing Bases de données multidimensionnelles OLAP OnLine Analytical Processing OLAP OLAP (On Line Analytical Processing): Ensemble des outils nécessaires pour la mise en place d'un Système d'information décisionnel

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Les documents primaires / Les documents secondaires

Les documents primaires / Les documents secondaires Les documents primaires / Les documents secondaires L information est la «matière première». Il existe plusieurs catégories pour décrire les canaux d information (les documents) : - Les documents primaires

Plus en détail

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Cours Base de données relationnelles. M. Boughanem, IUP STRI Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),

Plus en détail

Université Paris XI Faculté des sciences d Orsay THÈSE. présentée pour l obtention du grade de Docteur en Sciences de l Université Paris-Sud XI Orsay

Université Paris XI Faculté des sciences d Orsay THÈSE. présentée pour l obtention du grade de Docteur en Sciences de l Université Paris-Sud XI Orsay N d ordre : 8563 Université Paris XI Faculté des sciences d Orsay THÈSE présentée pour l obtention du grade de Docteur en Sciences de l Université Paris-Sud XI Orsay Par Cédric JACQUIOT Spécialité : INFORMATIQUE

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Bases de Données Avancées

Bases de Données Avancées 1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,

Plus en détail

Cognit Ive Cas d utilisation

Cognit Ive Cas d utilisation Cognit Ive Cas d utilisation 96-98, rue de Montreuil - 75011 Paris _ opicot@ _ + 33 (0)1 40 09 71 55 Sommaire Présentation de la plateforme Cognit Ive SemanticMail : Traitement sémantique des mails Projets

Plus en détail

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence É C O L E D I N G É N I E U R D E S T E C H N O L O G I E S D E L I N F O R M A T I O N E T D E L A C O M M U N I C A T I O N Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION Mentions

Plus en détail

THESE. En vue de l obtention du DOCTORAT DE L UNIVERSITE DE TOULOUSE. Délivré par l UNIVERSITE DE TOULOUSE III Paul SABATIER. Par.

THESE. En vue de l obtention du DOCTORAT DE L UNIVERSITE DE TOULOUSE. Délivré par l UNIVERSITE DE TOULOUSE III Paul SABATIER. Par. THESE En vue de l obtention du DOCTORAT DE L UNIVERSITE DE TOULOUSE Délivré par l UNIVERSITE DE TOULOUSE III Paul SABATIER Spécialité : INFORMATIQUE Par Mohamed Mbarki GESTION DE L HETEROGENEITE DOCUMENTAIRE

Plus en détail

Les principaux domaines de l informatique

Les principaux domaines de l informatique Les principaux domaines de l informatique... abordés dans le cadre de ce cours: La Programmation Les Systèmes d Exploitation Les Systèmes d Information La Conception d Interfaces Le Calcul Scientifique

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte 1Les bases : vos objectifs 2 Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Plus en détail

Le Web sémantique, une infrastructure d'intégration de sources de données

Le Web sémantique, une infrastructure d'intégration de sources de données Le Web sémantique, une infrastructure d'intégration de sources de données Chantal Reynaud Université Paris X & LRI (Université Paris-Sud & CNRS), UR INRIA Futurs Plan de l'exposé 1. Importance du point

Plus en détail

arxiv:0707.1304v1 [cs.db] 9 Jul 2007

arxiv:0707.1304v1 [cs.db] 9 Jul 2007 Hadj Mahboubi, Kamel Aouiche, Jérôme Darmont ERIC, Université Lumière Lyon 2 5 avenue Pierre Mendès-France 69676 Bron Cedex { hmahboubi kaouiche jdarmont}@eric.univ-lyon2.fr arxiv:0707.1304v1 [cs.db] 9

Plus en détail

Hervé Couturier EVP, SAP Technology Development

Hervé Couturier EVP, SAP Technology Development Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

Modélisation multidimensionnelle des données complexes : application aux données médicales

Modélisation multidimensionnelle des données complexes : application aux données médicales Modélisation multidimensionnelle des données complexes : application aux données médicales Sommaire : Midouni Sid Ahmed Djallal Version 9 08/06/05 1. Introduction... 3 2. Etat de l art... 4 3. Modélisation

Plus en détail

L accès en ligne aux manuscrits Possibilités de XML, systèmes de navigation, référencement

L accès en ligne aux manuscrits Possibilités de XML, systèmes de navigation, référencement L accès en ligne aux manuscrits Possibilités de XML, systèmes de navigation, référencement Raphaële Mouren, Enssib (raphaele.mouren@enssib.fr) Isabelle Westeel, Bibliothèque municipale de Lille (iwesteel@mairie-lille.fr)

Plus en détail

Créer le schéma relationnel d une base de données ACCESS

Créer le schéma relationnel d une base de données ACCESS Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...

Plus en détail

Ingénierie et gestion des connaissances

Ingénierie et gestion des connaissances Master Web Intelligence ICM Option Informatique Ingénierie et gestion des connaissances Philippe BEAUNE Philippe.Beaune@emse.fr 18 novembre 2008 Passer en revue quelques idées fondatrices de l ingénierie

Plus en détail

Comportements et sentiments. De l ambiguïté dans les émotions? Pierre Molette LERASS PsyCom Toulouse mai 2014

Comportements et sentiments. De l ambiguïté dans les émotions? Pierre Molette LERASS PsyCom Toulouse mai 2014 Comportements et sentiments. De l ambiguïté dans les émotions? Pierre Molette LERASS PsyCom Toulouse mai 2014 www.tropes.fr www.owledge.org www.lerass.com 2 Différentes approches pour l analyse de textes

Plus en détail

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Problématiques de recherche. Figure Research Agenda for service-oriented computing Problématiques de recherche 90 Figure Research Agenda for service-oriented computing Conférences dans le domaine ICWS (International Conference on Web Services) Web services specifications and enhancements

Plus en détail

1 - Informatisation du PCS

1 - Informatisation du PCS FICHE N 25 : LES OUTILS INFORMATIQUES Le développement des outils informatiques laisse entrevoir une possible utilisation de ces derniers dans le cadre de la gestion d un événement de sécurité civile.

Plus en détail

Concevoir sa stratégie de recherche d information

Concevoir sa stratégie de recherche d information Concevoir sa stratégie de recherche d information Réalisé : mars 2007 Dernière mise à jour : mars 2011 Bibliothèque HEC Paris Contact : biblio@hec.fr 01 39 67 94 78 Cette création est mise à disposition

Plus en détail

THESE. Présentée devant. L Université Paul Sabatier de Toulouse. en vue de l obtention du

THESE. Présentée devant. L Université Paul Sabatier de Toulouse. en vue de l obtention du Laboratoire IRIT Pôle SIG-EVI THESE Présentée devant L Université Paul Sabatier de Toulouse en vue de l obtention du Doctorat de l Université Paul Sabatier Spécialité Informatique Par Nathalie HERNANDEZ

Plus en détail

THÈSE. En vue de l'obtention du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE

THÈSE. En vue de l'obtention du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE THÈSE En vue de l'obtention du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE Délivré par l'université Toulouse III - Paul Sabatier Discipline ou spécialité : Informatique et applications Présentée et soutenue par

Plus en détail

Présentations personnelles. filière IL

Présentations personnelles. filière IL Présentations personnelles filière IL Résumé Liste de sujets de présentations personnelles. Chaque présentation aborde un sujet particulier, l'objectif étant que la lecture du rapport ainsi que l'écoute

Plus en détail

Dixit 12. Retour d expérience. La veille en temps-réel dans le secteur de l'audiovisuel et animation d'une communauté d'entreprises

Dixit 12. Retour d expérience. La veille en temps-réel dans le secteur de l'audiovisuel et animation d'une communauté d'entreprises Dixit 12 Retour d expérience La veille en temps-réel dans le secteur de l'audiovisuel et animation d'une communauté d'entreprises Présentation du Pole Media Grand Paris 90 structures: entreprises, collectivités,

Plus en détail

Architectures d'intégration de données

Architectures d'intégration de données Architectures d'intégration de données Dan VODISLAV Université de Cergy-ontoise Master Informatique M1 Cours IED lan Intégration de données Objectifs, principes, caractéristiques Architectures type d'intégration

Plus en détail

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

GKR. Geological Knowledge Representation Base de connaissances métallogéniques GKR Geological Knowledge Representation Base de connaissances métallogéniques Objets Organiser un ensemble d informations complexes et hétérogènes pour orienter l exploration minière aux échelles tactiques

Plus en détail

Une plate-forme open-source de recherche d information sémantique

Une plate-forme open-source de recherche d information sémantique Une plate-forme open-source de recherche d information sémantique Ines Bannour, Haïfa Zargayouna Laboratoire d Informatique de l université Paris-Nord (LIPN) - UMR 7030 Université Paris 13 - CNRS 99, avenue

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles) SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients

Plus en détail

Gestion collaborative de documents

Gestion collaborative de documents Gestion collaborative de documents ANT box, le logiciel qui simplifie votre GED Les organisations (entreprises, collectivités, associations...) génèrent chaque jour des millions de documents, e-mails,

Plus en détail

BI2 : Un profil UML pour les Indicateurs Décisionnels

BI2 : Un profil UML pour les Indicateurs Décisionnels BI2 : Un profil UML pour les Indicateurs Décisionnels Sandro Bimonte Irstea, TSCF, 9 Av. Blaise Pascal, 63178, Aubière, France sandro.bimonte@irstea.fr Thème de Recherche MOTIVE www.irstea.fr 2 Plan Motivations

Plus en détail

Intégration de données hétérogènes et réparties. Anne Doucet Anne.Doucet@lip6.fr

Intégration de données hétérogènes et réparties. Anne Doucet Anne.Doucet@lip6.fr Intégration de données hétérogènes et réparties Anne Doucet Anne.Doucet@lip6.fr 1 Plan Intégration de données Architectures d intégration Approche matérialisée Approche virtuelle Médiateurs Conception

Plus en détail

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013 Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,

Plus en détail

140. Modélisation des données Historisation

140. Modélisation des données Historisation Modélisation de logiciels de gestion 140. Modélisation des données Historisation 1 Préambule Dans les chapitres précédents, nous avons appris à concevoir des modèles de données relativement élaborés en

Plus en détail

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences

Plus en détail

Bilan de thèse à mi-parcours

Bilan de thèse à mi-parcours Bilan de thèse à mi-parcours Benjamin Lévy 26 mars 2012 Introduction La thèse de doctorat d informatique (école doctorale 130, EDITE) dont le titre officiel est le suivant : Avatars capables d écoute,

Plus en détail

Préparer un état de l art

Préparer un état de l art Préparer un état de l art Khalil DRIRA LAAS-CNRS, Toulouse Unité de recherche ReDCAD École Nationale d ingénieurs de Sfax Étude de l état de l art? Une étude ciblée, approfondie et critique des travaux

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

SCI6052 Information documentaire numérique École de bibliothéconomie et des sciences de l information

SCI6052 Information documentaire numérique École de bibliothéconomie et des sciences de l information SCI6052 (Automne 2014) cours 6 1/32 SCI6052 Information documentaire numérique École de bibliothéconomie et des sciences de l information Cours 6 Systèmes de gestion de bases de données (SGBD) textuels

Plus en détail

THÈSE. en vue de l obtention du. présentée et soutenue par. Ronan Tournier. Titre : Analyse en ligne (OLAP) de documents. Jury :

THÈSE. en vue de l obtention du. présentée et soutenue par. Ronan Tournier. Titre : Analyse en ligne (OLAP) de documents. Jury : UNIVERSITE TOULOUSE III PAUL SABATIER U.F.R. MATHEMATIQUES INFORMATIQUE GESTION (MIG) ECOLE DOCTORALE MATHEMATIQUE, INFORMATIQUE ET TELECOMUNICATION DE TOULOUSE (MITT) THÈSE en vue de l obtention du DOCTORAT

Plus en détail

Navigation et appariement d objets géographiques dans une ontologie

Navigation et appariement d objets géographiques dans une ontologie Navigation et appariement d objets géographiques dans une ontologie Rémy Brisson, Omar Boussaïd Pierre Gançarski, Anne Puissant, Nicolas Durand ERIC EA 3083, Université Lumière Lyon 2, 5 avenue Pierre

Plus en détail

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21 IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances

Plus en détail

10 Intégration de données sur le web

10 Intégration de données sur le web 10 Intégration de données sur le web 240 Requête utilisateur : Où est-ce que je peux voir les films qui ont participé au dernier Festival de Cannes? Je voudrais les résumés et critiques des films de Pedro

Plus en détail

AVERTISSEMENT. D autre part, toute contrefaçon, plagiat, reproduction illicite de ce travail expose à des poursuites pénales.

AVERTISSEMENT. D autre part, toute contrefaçon, plagiat, reproduction illicite de ce travail expose à des poursuites pénales. AVERTISSEMENT Ce document est le fruit d un long travail approuvé par le jury de soutenance et mis à disposition de l ensemble de la communauté universitaire élargie. Il est soumis à la propriété intellectuelle

Plus en détail

AGROBASE : un système de gestion de données expérimentales

AGROBASE : un système de gestion de données expérimentales AGROBASE : un système de gestion de données expérimentales Daniel Wallach, Jean-Pierre RELLIER To cite this version: Daniel Wallach, Jean-Pierre RELLIER. AGROBASE : un système de gestion de données expérimentales.

Plus en détail

Introduction au WEB Sémantique Cours 2 : Ontologies

Introduction au WEB Sémantique Cours 2 : Ontologies Cours 2 : Ontologies ESIL Université de la méditerranée Odile.Papini@esil.univmed.fr http://odile.papini.perso.esil.univmed.fr/index.html Plan du cours 1 Introduction 2 3 4 5 Bibliographie I Supports de

Plus en détail

La recherche documentaire et la recherche d informations professionnelles. BU Sciences BIU Montpellier PPE 2012

La recherche documentaire et la recherche d informations professionnelles. BU Sciences BIU Montpellier PPE 2012 La recherche documentaire et la recherche d informations professionnelles 1 Introduction : la pratique étudiante Où commencez vous habituellement votre recherche d information? 84% des étudiants de 1er

Plus en détail

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et

Plus en détail