Une approche pour l extraction automatique de structures sémantiques de documents XML

Dimension: px
Commencer à balayer dès la page:

Download "Une approche pour l extraction automatique de structures sémantiques de documents XML"

Transcription

1 Une approche pour l extraction automatique de structures sémantiques de documents XML Salma Ben Mefteh*,**, Kaïs Khrouf*, Jamel Feki*, Maha Ben Kraiem*, Chantal Soulé-Dupuy** * Laboratoire Université de Sfax, B.P. 1088, 3018 Sfax, Tunisie. ** Laboratoire IRIT- Université Toulouse I Capitole, 2 rue du Doyen Gabriel Marty, Toulouse Cedex 9, France ailto: Chantal.Soule- RÉSUMÉ. La nature des sources d informations et les possibilités de description des documents disponibles via ces sources sont en constante évolution. Cette évolution, et l enrichissement des informations qui en découle, est accélérée par l expansion du Web, et la mise à disposition de documents de type XML. Or la structure logique de ces documents XML, au travers de balises du genre Contenu, Section, Paragraphe, ne reflète pas nécessairement la sémantique des documents. Le développement d outils automatisés permettant de déterminer les structures sémantiques de ces documents XML nous semble être une nécessité. A cette fin, nous proposons dans cet article une approche de structuration sémantique des documents XML. ABSTRACT. The nature of information sources together with the description alternatives for the documents available within these sources are constantly changing. This development, and the enrichment of information that follows, is accelerated by the expansion of the Web and the availability of XML documents. However, the logical structure of XML documents, through tags such as Content, Section, Paragraph, does not necessarily reflect the semantics of documents. The development of automated tools to determine the semantic structures of XML documents seems to be a necessity. For that, we propose in this paper a novel approach to determine semantic structures of XML documents. MOTS-CLÉS : Documents XML, Structures sémantiques, Ontologies. KEYWORDS: XML DOCUMENTS, SEMANTIC STRUCTURES, ONTOLOGIES.

2 1. Introduction La numérisation des documents et le développement des technologies Internet engendrent une augmentation permanente de la masse de documents disponibles. Face à cette masse documentaire, XML s est imposé comme format standard de documents. Ainsi, un nombre de plus en plus important de documents deviennent disponibles sous ce format. Ces documents XML peuvent être classés en deux types : les documents XML orienté-données et les documents XML orienté-texte. Les documents XML orienté-données sont constitués d un ensemble d éléments généralement courts et précis et sont similaires aux données relationnelles. Ce type de documents est principalement utilisé par les applications d échange des informations (i.e. les données transactionnelles). Nous constatons que les balises utilisées pour ce genre de documents décrivent généralement d une manière précise son contenu, et apportent la sémantique nécessaire à la description de l information (Exemples de balises : Article, Client, Quantité, Prix) Les documents XML orienté-texte sont des documents riches en texte et constituent des versions électroniques des documents papiers (i.e. les articles scientifiques, les rapports internes). Les balises utilisées pour ce genre de documents présentent la plupart du temps un découpage (structure) logique (Exemples de balises : Contenu, Section, Paragraphe). Ces balises ne décrivent en aucun cas la sémantique de leur contenu. Partant de là, le développement d outils automatisés permettant de décrire la sémantique des documents devient une nécessité. A cette fin, nous proposons une approche d annotation automatique des différents granules d un document XML permettant ainsi d inférer une structure sémantique pour ce de document. (Abascal, 2005) définit la structure sémantique comme étant «un ensemble de balises sémantiques représentant des concepts associés entre eux par des relations». Dans notre contexte, nous considérons que la structure sémantique est une structure superposée à la structure logique d un document XML et qui décrit la sémantique du contenu (en particulier de ses éléments textuels). Cet article est structuré comme suit. Nous commençons par un état de l art sur les travaux abordant l aspect sémantique des documents. Ensuite, nous décrivons la démarche que nous proposons pour l extraction des structures sémantiques qui complètent les structures logiques des documents. Les sections 4, 5 et 6 détaillent les étapes les plus importantes de la démarche proposée. Enfin, nous terminons cet article par les expérimentations réalisées et les résultats obtenus. 2. Etat de l art La plupart des travaux qui ont abordé l aspect sémantique des documents (entre autres les documents XML) se sont intéressés à la représentation sémantique des contenus.

3 En recherche d information, l aspect sémantique a été abordé afin d améliorer le nombre de documents pertinents restitués par rapport à une requête utilisateur. Certaines approches, comme celle de (Zargayouna & Sallouti, 2004), représentent les documents sous forme de vecteurs de termes selon le modèle vectoriel de Salton (Salton et al., 1983), tout en reliant ces termes aux concepts de l ontologie. Les termes de la requête utilisateur seront par la suite remplacés par les concepts associés afin que les réponses soient plus appropriées aux besoins des utilisateurs. L inconvénient majeur de ces travaux est l utilisation d une ontologie de concepts reliée à un corpus. Dans le même esprit, (Harrathi & Calabretto, 2010) ont indexé, en plus du contenu textuel des documents, leurs structures par des concepts en utilisant l ontologie WordNet. Cependant, cette ontologie générale pose le problème de couverture terminologique, c est-à-dire seuls les termes des documents ou des requêtes les plus communs sont référencés par des concepts. Dans (Baziz et al. 2007), le modèle de représentation sémantique des documents et des requêtes repose sur un réseau sémantique (ensemble de concepts reliés par des liens). Cependant, ces travaux ont montré que l indexation sémantique (i.e., l affectation d un ensemble de concepts à un document) n apporte pas de résultat probant sauf si elle est combinée avec une indexation classique basée sur les mots-clés. Des approches traitant de la classification de documents intègrent aussi la notion de sémantique du contenu. Par exemple, Gesche et al. (Gesche et al., 2010) utilisent des ontologies de domaine pour enrichir des textes courts (généralement, articles de presse). Ils proposent trois types d enrichissement : enrichissement par généralisation (Exemple, l actualité parlant de «Michaël Jackson» sera enrichie par le concept «Rock»), enrichissement par spécialisation («Sport» peut être enrichi par les sports médiatiques) et enrichissement par catégorisation (Ajout des métadonnées : Auteur, Année ). Par contre, la classification proposée dans cet article est supervisée, c est-à-dire que les classes de documents doivent être connues à priori. Dans (Upasana et al., 2010), les auteurs ont présenté une classification des textes basée sur les techniques statistiques et contextuels (sémantique). Cette classification est réalisée en plusieurs étapes : la constitution d un vecteur de termes pour le document, la constitution d un vecteur de termes pour chaque domaine (Médecine, Cryptographie ) en utilisant Wordnet. Ensuite, il s agit de calculer la similarité entre le vecteur de documents et l ensemble des vecteurs des domaines. Enfin, le vecteur de domaine ayant le score le plus élevé sera affecté au document approprié. Cependant, ces travaux ont utilisé Wordnet qui représente une ontologie trop générale et peu formalisée pour modéliser correctement un domaine donné. Dans la littérature, peu de travaux (Abascal, 2005), (Tagarelli & Grec, 2010) se sont intéressés à la structuration sémantique des documents. (Abascal, 2005) propose une approche qui vise à permettre l accès à l ensemble de documents (thèses) par leur contenu sémantique. Ils ont proposé un modèle de documents fondé sur l utilisation de nouvelles métadonnées rajoutées, appelés «tags sémantiques». Ces métadonnées permettent ainsi d affiner la recherche et de mieux satisfaire l utilisateur. Cependant, l approche proposée est destinée à un type particulier de

4 documents, à savoir : les thèses. (Tagarelli & Grec, 2010) proposent d enrichir sémantiquement les noms des balises d un document XML. Pour cela, chaque chemin 1 du document XML représente un réseau et chaque balise de ce chemin constitue une couche (l ensemble des sens de la balise en question, extraits de Wordnet). L étape suivante consiste à calculer la mesure de similarité entre les différentes couches afin de trouver le meilleur chemin dans le réseau. L utilisation de Wordnet peut causer des difficultés pour le choix du sens le plus approprié pour une balise donnée surtout pour les termes polysémiques 2. Comme complément aux travaux abordant l aspect sémantique des contenus, nous proposons dans ce papier un découpage sémantique des documents XML. Plus précisément, nous proposons une approche d extraction automatique de structures sémantiques pour les documents XML en se basant sur leurs structures logiques et contenus, contrairement aux travaux de (Tagarelli & Grec, 2010) qui se sont focalisés uniquement sur les noms de balises. Ces travaux permettent ainsi de visualiser et d interroger les documents XML selon le point de vue souhaité (logique, sémantique ou les deux à la fois). 3. Notre démarche Dans (Khrouf et al., 2011), nous avons proposé une approche pour la classification et l analyse multidimensionnelle des documents. Ces travaux regroupent les structures logiques identiques ou similaires des documents XML dans des structures génériques (Ben Messaoud et al., 2011). L approche proposée a été vérifiée et validée pour les documents XML orienté-données (généralement qui contiennent peu du texte). Nous souhaitons étendre ces travaux pour les documents orienté-texte (rapports, articles scientifiques, news ). A cette fin, nous proposons de dériver et de proposer, à partir de la structure logique et du contenu d un document XML orienté-texte, une structure qui reflète sa sémantique, c est l objet de cet article. La Figure 1 montre un exemple de structure logique et de sa structure sémantique pour un document XML. <Article> <Titre>Modeling for DSS</Titre> <Auteur>Dupond</Auteur> <Contenu> <Section>A dimension constitutes a component </Section> <Section>The multidimensional analyses allow to users </Section> </Contenu> </Article> Document XML Titre Article Auteur Contenu Section Section Structure logique Datawarehouse Design Null Dimension Structure sémantique Figure 1. Exemple de structure logique et de sa structure sémantique. 1 L ensemble des balises reliant la racine à l élément feuille du document. 2 Un terme polysémique est un terme qui peut avoir plusieurs sens différents.

5 La démarche que nous proposons pour l extraction automatique de telles structures sémantiques est illustrée dans la Figure2. Structure Spécifique + contenu L Documents XML L11 L12 L1n L111L121L123 L1m Structure Sémantique Phase 1 : Extraction des termes Ontologies Phase 2 : Choix d ontologie Phase 3 : Association des concepts aux éléments feuilles Entrepôt de documents S S11 S12 S1n S111S121S123 S1m Phase 5 : Affectation des métadonnées Phase 4 : Inférence de concepts Figure 2. Démarche de détermination de la structure sémantique. Cette démarche se décompose en cinq phases : Phase 1 : Extraction des termes. Il s agit dans cette phase d extraire les mots-clés significatifs des éléments feuilles du document (fragments textuels associés aux éléments feuilles). L extraction des mots-clés repose sur un processus d indexation classique, tel que défini en recherche d information (Baeza-Yates et al., 1999). Phase 2 : Choix de l ontologie. L objet de cette phase est de déterminer, parmi un ensemble d ontologies de domaines, celle qui convient le mieux pour décrire la sémantique du document, et ce à partir des mots-clés du langage d indexation généré lors de la phase précédente. Phase 3 : Association de concepts aux éléments feuilles. Cette phase consiste, pour chaque élément feuille de la structure logique, à rechercher, dans l ontologie de domaine retenue à la phase précédente, le concept le plus approprié à la description de sa sémantique (qui traduit le mieux la sémantique de l élément feuille compte tenu des mots-clés qui le décrivent). Le concept trouvé est alors associé à l élément feuille. Phase 4 : Inférence de concepts aux éléments non-feuilles. Les concepts des éléments feuilles servent ensuite à inférer les concepts à associer à leurs ascendants à partir de l ontologie sélectionnée. Les phases 2, 3 et 4 sont détaillées dans les sections suivantes de cet article. Phase 5 : Affectation des métadonnées. Cette phase consiste à garder les balises de la structure logique qui représentent des métadonnées (i.e. Auteur, Editeur,

6 Année). Les métadonnées utilisées lors de cette phase sont celles du Dublin Core 3 Nous avons choisi de réaliser cette phase à la fin de la démarche proposée et non au début afin de laisser la possibilité de remplacer certaines métadonnées (i.e. Titre, Résumé) par la sémantique qu elles présentent. 4. Choix de l ontologie Selon notre approche, un entrepôt peut contenir des documents appartenant à plusieurs domaines ou thématiques et dispose donc d un ensemble d ontologies dites «de domaine». Afin d apporter de la sémantique aux différents éléments constituant un document, nous recourons aux ontologies de l entrepôt. Une ontologie peut être définie comme étant «l ensemble structuré des termes et concepts représentant le sens d un champ d informations, que ce soit par les métadonnées d un espace de noms, ou les éléments d un domaine de connaissances» 4. Dans nos travaux, l ontologie est représentée par un ensemble de concepts d un domaine, ainsi que des relations entre ces concepts (Synonymie, antonymie, polysémie, homonymie ). 4.1 Pondération des ontologies et de leurs concepts Rappelons que notre objectif est de créer une structure sémantique, essentiellement en exploitant plusieurs ontologies de domaine. Se pose alors le problème du choix d une ontologie, c est-à-dire répondre à la question : quelle est l ontologie la mieux appropriée pour rechercher les concepts de la structure sémantique du document? Notons que dans cet article, nous nous focalisons aux documents traitant chacun un seul domaine. Pour cela, nous ne devons pas considérer comme équi-importants tous les concepts des différentes ontologies. En effet, si nous avons le choix entre un concept-père et un concept-fils pour un élément d un document, nous optons pour le concept-fils car il présente une information plus fine et plus spécifique. En conséquence, il nous semble important de pondérer les concepts d une ontologie de manière à donner plus d importance aux concepts les plus spécifiques (i.e., se trouvant en bas de la hiérarchie). De plus, nous considérons que le poids d une ontologie est égal à la somme des poids de ses concepts. Pour effectuer cette pondération, nous sommes confrontés à un problème de taille des ontologies. En effet, nous pouvons trouver des ontologies plus détaillées et plus élaborées que d autres (cf. Figure 3), ces ontologies ne doivent pas avoir alors 3 4

7 le même poids puisque ce poids sera réparti entre les différents concepts de l ontologie. Par exemple, si chacune des deux ontologies O 1 et O 2, possédant respectivement 4 et 10 concepts, ont un poids identique égal à 1, alors chaque concept de O 1 aura un poids de 0.25=1/4 et chaque concept de O 2 sera pondéré par 0.1=1/10. Normes Comptable (NC) 0.25 Information System (IS) 0.1 IFRS 0.25 GAAP 0.25 Norme Finançaise(NF) 0.25 File(FL) 0.1 Database(DB) 0.1 Data Warehouse(DW) 0.1 Storage(ST) Design(DS) Cube(C) 0.1 Fact(F) 0.1 Dimension(D) 0.1 Ontologie O 1 Poids(0 1 ) = 1 Ontologie O 2 Poids(0 2 ) = 1 Figure 3. Pondération non discriminante des concepts des ontologies O1 et O2. Cette pondération non discriminante est à éviter car les concepts des ontologies les moins élaborées auront plus d importance et seront donc privilégiées. Pour pallier cela, nous pondérons chaque ontologie par rapport au nombre de concepts qu elle contient. Le calcul du poids d une ontologie O k s effectue selon la Formule 1. Ce poids mesure l importance de l ontologie O k puisqu il est calculé relativement par rapport au nombre total des concepts de toutes les ontologies de l entrepôt. Où : Ok PO( O ) = N Oi i = 1 k * PO(O k ) est le poids de l ontologie O k tel que PO(O k ) ]0, N] PO(O k ) = N PO(O k ) < N Si N > 1 N Si N = 1 (l entrepôt contient une seule ontologie) O k ( O i ) est le nombre de concepts dans l ontologie O k (respectivement O i ), et N est le nombre d ontologies disponibles. Reprenons l exemple de la Figure 3, avec une pondération selon la Formule 1, nous obtenons les poids suivants : PO(O 1 ) = 0,571 et PO(O 2 ) = 1,429. A ce stade, nous devons répartir le poids de l ontologie entre ses différents concepts de manière à donner plus d importance aux éléments les plus spécifiques [1]

8 dans l arborescence. Ainsi, les concepts d un niveau 5 i de l ontologie auront un poids supérieur à celui de ceux du niveau i-1. L affectation des coefficients s effectue comme suit : chaque élément père reçoit un coefficient égal à son niveau dans l ontologie. Dans la Figure 4, on affecte 1 à la racine «Information System», 2 au concept «Data Warehouse» et 3 au concept. continuer l affectation des coefficients aux concepts feuilles en commençant par ceux du niveau le plus élevé et en n incrémentant le coefficient qu en passant d un niveau i au niveau i+1. Dans la Figure 4, on affecte 4 aux concepts «File» et «DataBase», 5 aux concepts «Storage», «Design» et «Cube», etc. L affectation de cette manière permet de favoriser plus les descendants et surtout les feuilles (le plus bas niveau). Cette affectation est réalisée par la fonction Coeff(C i, O k ). La Figure 4 présente un exemple d affectation des coefficients pour l ontologie O 2. Information System (IS) 1 File(FL) 4 Database(DB) 4 Data Warehouse(DW) 2 Storage(ST) Design(DS) Cube(C) 5 Fact(F) 6 Dimension(D) 6 OntologieO 2 Figure 4. Coefficients des niveaux des concepts de l ontologie O 2. A ce niveau, nous calculons une marge notée ε k (cf. Formule 2) qui sera utilisée pour la détermination des poids des concepts de l ontologie. En effet, ε constitue la marge entre un concept appartenant à un niveau i+1 par rapport à un concept d un niveau i dont l objectif est de favoriser les descendants qui apportent plus de sémantique que leurs ascendants. Où : εk PO ( Ok) = SO ( Ok) 2 Avec Ok SO ( Ok) = Coeff( C i, Ok) i = 1 PO(O k ) est le poids de l ontologie O k calculé selon la Formule 1, SO(O k ) est la somme des coefficients de l ontologie O k, Coeff(C i, O k ) est le coefficient du concept i dans l ontologie O k, O k est le nombre de concepts dans l ontologie O k. [2] 5 Un niveau dans une ontologie est tous les concepts situés à la même profondeur.

9 Dans le cas de l ontologie O 2 de la Figure 4, la valeur de ε est la suivante : ε PO( O2) = = = SO( O ) 2 ( ) = Nous déterminons à ce niveau le poids de base d un concept, noté λ k, c est-àdire sans tenir compte des coefficients des concepts. Il s agit de soustraire du poids de l ontologie la partie consacrée pour l ensemble des marges ( ε k * SO( Ok) ), divisé par le nombre de concepts. La formule est alors la suivante. Où : PO ( O k) λ k = εk O k * SO ( O k) PO(O k ) est le poids de l ontologie O k, SO(O k ) est la somme des coefficients des concepts de l ontologie O k, ε k est la marge d un niveau i+1 par rapport au niveau i, O k est le nombre de concepts dans l ontologie O k, [3] Le poids de base λ 2 d un concept de l ontologie O 2 est égal à : ( 2) * ( 2) PO O ε SO O (0.0008* 41) λ 2 = = = O2 10 Après avoir calculé le poids de base d un concept, il s agit à ce stade de calculer le poids effectif de chaque concept en tenant compte de la marge et de son coefficient, comme l indique la Formule 4. ε PC ( Ci, Ok) = λ k + ( k * Coeff ( Ci, Ok)) Où : λk est le poids de base d un concept de l ontologie O k, ε k est la marge d un niveau i+1 par rapport au niveau i de l ontologie O k, Coeff(C i, O k ) est le coefficient du concept i de l ontologie O k. Notons que ces Formules garantissent que la somme des poids de tous les concepts d une ontologie est égale au poids de l ontologie (soit à dans notre exemple pour l Ontologie O 2 ). De plus, elle diffère de celle utilisée dans la Figure 3 par le fait que les concepts feuilles auront plus d importance que les concepts pères. Les concepts de l ontologie O 2 auront alors les poids suivants (cf. Figure 5). [4]

10 Information System (IS) λ 2 +(ε 2 *1) Information System (IS) File(FL) Database(DB) λ 2 +(ε 2 *4) λ 2 +(ε 2 *4) Data Warehouse(DW) λ 2 +(ε 2 *2) File(FL) Database(DB) Data Warehouse(DW) Storage(ST) λ 2 +(ε 2 *5) Design(DS) λ 2 +(ε 2 *5) λ 2 +(ε 2 *3) Fact(F) λ 2 +(ε 2 *6) Cube(C) λ 2 +(ε 2 *5) Dimension(D) λ 2 +(ε 2 *6) Storage(ST) Design(DS) Fact(F) Ontologie O 2 Poids(0 2 ) = Figure 5. Poids des concepts de l ontologie O2 après pondération. Cube(C) Dimension(D) Choix d une ontologie pour un document Selon notre approche, un entrepôt contient des documents appartenant à plusieurs domaines et dispose donc d un ensemble d ontologies. Il s agit de déterminer une seule ontologie par document. Généralement, un document traite un seul domaine et qui peut parler, dans certains cas, d autres domaines mais dans des parties du document. C est la raison pour laquelle, nous avons opté pour affecter une seule ontologie à un document. Ainsi, pour chaque ontologie de l entrepôt, nous calculons dans un premier temps, le poids de chaque concept C i par rapport à chaque élément feuille E j du document d. (cf. Figure 6). Cette pondération est définie selon la Formule 5. PC( Ci, Ej) = freq( Ci, Ej) * PC( Ci, Ok) freq( Ci, d) j Ej d [5] Où : PC(C i, E j ) est le poids du concept C i par rapport à l élément E j, freq(c i, E j ) est la fréquence d apparition du concept C i dans l'élément E j, freq(c i, d) est la fréquence d apparition du concept C i dans le document d, et PC(C i, O k ) est le poids du concept C i dans son ontologie. Pour la correspondance des termes des documents avec les concepts des ontologies, nous avons utilisé les techniques de la Recherche d Information (Baeza- Yates et al., 1999) en plus d un dictionnaire de synonymie. B A D C Ontologie O 1 E 0.3 Document d Z Y X K W Ontologie O 2 Figure 6. Calcul des poids des concepts par rapport aux éléments du document.

11 Ensuite, nous calculons le poids de chaque concept C i par rapport à tout le document d. Ce poids est égal à la somme des poids de C i dans les différents éléments de d, selon la Formule 6. Où : m PC ( Ci, d ) = PC ( C i, Ej) j Ej d j = 1 PC (C i, d) est le poids du concept C i par rapport au document d, PC (C i, E j ) est le poids du concept C i par rapport à l élément E j, m est le nombre d éléments dans le document d. [6] A 0.9 X B D C Ontologie O 1 E 0.3 Document d 0.7 Z Y K W Ontologie O 2 Figure 7. Calcul des poids des concepts par rapport au document. Pour choisir l ontologie la plus appropriée par rapport au document d, nous additionnons les poids des différents concepts appartenant à l ontologie en question Ainsi, la Formule 7 donne le poids de l ontologie O k par rapport au document d. Où : O k PO ( O k, d ) = PC ( C i, d ) i = 1 PC (C i, d) est le poids du concept C i par rapport au document d (Formule 6), O k est le nombre de concepts de l ontologie O k. [7] A X B C Y K D Ontologie O 1 E Document d Z W Ontologie O 2 Figure 8. Calcul des poids des ontologies par rapport au document. Ainsi, l ontologie, ayant le poids le plus élevé, sera retenue pour le document. Dans notre exemple, c est l ontologie O 2 (avec un poids de 1.6) qui sera retenu pour d.

12 5. Affectation des concepts aux éléments feuilles L objectif de cette phase est d affecter un seul concept représentatif à chaque élément feuille du document, en se basant sur les poids des concepts calculés par la Formule 5. Pour un élément feuille E k, différents cas se présentent : Cas 1 : Aucun concept déterminé pour E k (Exemple : les éléments Auteur, Editeur, Année ). Le concept Null sera affecté. Cas 2 : Un seul concept déterminé pour E k ; il sera retenu comme concept représentatif. Cas 3 : Plusieurs concepts déterminés appartenant à une même hiérarchie. Dans ce cas : - Si les poids calculés pour ces concepts sont très proches (presque identiques), nous affectons à E k le concept le plus spécifique dans la hiérarchie. - Si les poids de ces concepts sont divergents, nous affectons à E k le concept ayant le poids le plus élevé, indépendamment de sa position dans la hiérarchie. Cas 4 : Plusieurs concepts déterminés pour E k appartenant à plusieurs hiérarchies dans l ontologie. Dans ce cas, nous affectons à E k le concept ayant le poids le plus élevé. A la fin de cette phase, chaque élément feuille est associé à un et un seul concept de l ontologie O 2 retenue. Il s agit maintenant d attribuer des concepts aux autres éléments (i.e., non feuilles) de la structure logique du document, par des règles d inférence que nous définissons dans la section suivante. 6. Inférence des concepts aux éléments non-feuilles Jusqu'à présent, nous avons déterminé, pour chaque élément feuille de la structure sémantique d un document, un concept choisi dans l ontologie retenue pour le document. Nous poursuivons notre objectif afin de finaliser la structure sémantique. Il s agit maintenant d attribuer des concepts aux éléments non feuilles de la structure et ceci en procédant par inférence des concepts des feuilles vers leurs ascendants de la façon suivante : Règle 1 : Un élément père ayant un seul fils aura le même concept que son fils. Règle 2 : Si un élément père possède plusieurs éléments fils dont les concepts appartiennent à une même hiérarchie de l ontologie, alors on associera à ce père le concept le plus générique des concepts associés à ses fils (cf. Figure 9). Règle 3 : Si un élément père possède plusieurs éléments fils dont les concepts appartiennent à plusieurs hiérarchies de l ontologie, alors le concept attribué à ce père est l ancêtre commun des concepts associés à ses fils (cf. Figure 10).

13 Information System (IS) File(FL) Database(DB) Data Warehouse(DW) Design(DS) Storage(ST) Cube(C)? Fact(F) Dimension(D) Ontologie O 2? Design Null? Design Null Dimension Structure sémantique Figure 9. Application de la règle 2. Dimension Structure sémantique Après application de la règle 2 Information System (IS) File(FL) Database(DB) Data Warehouse(DW) Design(DS) Storage(ST) Cube(C)? Fact(F) Dimension(D) Ontologie O 2 Data Warehouse Design Null Design Null Dimension Structure sémantique Figure 10. Application de la règle 3. Dimension Structure sémantique Après application de la règle 3 A l issue de cette étape d inférence, tous les éléments de la structure logique du document sont associés soit à des concepts de l ontologie choisie, soit à la valeur Null. Il s agit maintenant de récupérer les métadonnées de la structure logique, en se référant aux métadonnées de Dublin Core. Dans notre exemple, la structure sémantique obtenue au final (après les 5 phases) est celle présentée dans la Figure Expérimentations Pour valider notre approche, nous proposons de tester les formules proposées dans cet article sur une collection des documents, dans les domaines des Sciences et

14 de la Médecine (issus de Wikipedia) et 18 ontologies de domaine que nous avons définies. La base de test utilisée est décrite dans le tableau 1. Description Nombre Documents 240 Eléments feuilles 944 Eléments non feuilles 480 Ontologies 18 Concepts 223 Tableau 1. Caractéristiques de la base de tests Afin de vérifier et de valider l apport de la pondération des ontologies, nous avons réalisé 2 séries de tests : (1) sans tenir compte des poids des concepts des ontologies (Algorithme Sans_Poids) et (2) en tenant compte de la pondération automatique des concepts des ontologies (Algorithme Avec_Poids). Dans ce qui suit, nous présentons les différents résultats obtenus. Le tableau 2 présente le nombre d ontologies associées aux documents selon les deux algorithmes. Description Sans_Poids Avec_Poids Nombre de documents ayant été associés à une seule ontologie 215/ /240 Tableau 2. Nombre d ontologies associées aux documents. Nous observons dans le tableau 2, qu avec l algorithme Avec_Poids, une seule ontologie a été associée à chaque document. Alors que, avec l algorithme Sans_Poids, deux ontologies ou plus ont été associées à 25 (= ) documents. Ce qui représente une amélioration de % entre les deux algorithmes. Dans le tableau 3, nous avons examiné l association des ontologies aux documents pour savoir celles qui ont été correctement associées. Description Sans_Poids Avec_Poids Ontologies correctement associées Ontologies non correctement associées Tableau 3. Association des ontologies aux documents La pondération automatique des poids a amélioré l affectation des ontologies aux documents par rapport à l algorithme sans poids. Néanmoins, nous constatons que 10 documents parmi les 240 n ont pas été affectés aux bonnes ontologies, cela est dû au faite que les documents peuvent faire référence à d autres domaines. Nous nous intéressons maintenant à l apport de la pondération des concepts des ontologies sur l association de concepts aux éléments feuilles.

15 Description Sans_Poids Avec_Poids Nombre d éléments feuilles associés à un seul concept. 361/ /464 Nombre d éléments feuilles associés à plus qu un concept. 103/464 14/464 Tableau 4. Association des concepts aux éléments feuilles. Les documents intégrés dans la base de tests comprennent 944 éléments feuilles (480 éléments métadonnées comme Editeur et Date, et 464 éléments représentant des contenus textuels, tels que : Section et Paragraphe). Un seul concept a été associé à 361 éléments feuilles par l algorithme Sans_Poids et à 450 éléments feuilles par l algorithme Avec_Poids. Ce qui a apporté une amélioration de 19.18% entre les deux méthodes. Ces résultats s expliquent par le fait que dans un élément nous trouvons la même apparition d un concept et de son concept-fils, l algorithme Sans_Poids affecte ces deux concepts à l élément en question. Par contre, l algorithme Avec_Poids retient le concept fils (qui est plus précis) car la pondération automatique des ontologies proposée dans cette approche donne plus d importance aux concepts fils. Rappelons qu après l affectation des concepts aux éléments feuilles, nous nous intéressons à attribuer des concepts aux éléments non feuilles de la structure et ceci en procédant par inférence des concepts des feuilles vers leurs ascendants. Notre expérience consiste à tester le nombre d application des règles d inférences. Le tableau 5 présente le nombre d utilisation de chaque règle d inférence. Règles d inférence Nombre d utilisation Règle 1 78 Règle Règle 3 40 Tableau 5. Fréquence d utilisation des règles. Nous remarquons que la règle 2 est la plus utilisée. Cela peut s expliquer par le fait que les documents traités dans notre collection traitent un seul domaine. 8. Conclusion Ce travail présente une approche pour la définition des structures sémantiques des documents XML à partir de leurs structures spécifiques et de leurs contenus. Cette approche commence tout d abord par l extraction des termes significatifs pour les éléments feuilles (fragments textuels) d un document XML. Ensuite, nous déterminons l ontologie qui sera affectée au document, celle qui décrit sa sémantique. Par la suite, nous associons, à chaque élément de la structure spécifique du document, le concept significatif de l ontologie retenue. Enfin, nous dérivons les métadonnées à partir de la structure logique. Les expérimentations réalisées

16 montrent que la pondération automatique des ontologies a amélioré l affectation des ontologies aux documents et l association des concepts aux éléments feuilles. Dans (Khrouf et al., 2011), nous avons proposé une approche d analyse multidimensionnelle des documents XML orienté-données, en se basant essentiellement sur leur structure logique. La détermination des structures sémantiques comme définies dans cet article permettra d étendre les analyses multidimensionnelles aux documents XML orienté-texte. Plusieurs perspectives à ces travaux sont envisageables. Dans un premier temps, il est important de réaliser des expérimentations sur une collection plus importante de documents XML. Il nous faudra pour cela construire une collection de tests car il n existe pas à ce jour de bases dédiées à ce type de traitements. Nous comptons également étendre ces travaux par la possibilité d associer plusieurs structures sémantiques à un même document XML (multi-structuralité sémantique des documents) afin de traduire les points de vue de plusieurs lecteurs. 9. Bibliographie Abascal R., «Nouveau modèle de documents pour une bibliothèque numériques de thèses accessible par leur contenu sémantique», Thèse de doctorat, INSA, Lyon, Baeza-Yates R., Ribero-Neto B., «Modern Information Retrieval», Addison Wesley, Baziz M., Boughanem M., Prade H., «Une approche de représentation de l'information en RI basée sur les sous-arbres», Conférence en Recherche d'information et Applications (CORIA 2007), p , Saint-Etienne, France, Ben Messaoud I., Feki J., Khrouf K., Zurfluh G., «Unification of XML Document Structures for DOCW», International Conference on Enterprise Information Systems (ICEIS 11), p , Beijing, China, Gesche S., Egyed-Zsigmond E., Calabretto S., Caplat G., Beney J., «Classification supervisée sémantique d articles de presse en français», Atelier Recherche d'information Sémantique, Marseille, France, Harrathi R., Calabretto S. «Une approche de recherche sémantique dans les documents semistructurés», Atelier Recherche d Information Sémantique, Marseille, France, Khrouf K., Feki J., Soulé-Dupuy C., «An Approach for Multidimensional Analysis of Documents», International Conference on Information Systems and Economic Intelligence, p , Marrakech, Maroc, Salton G., Fox E.A., Wu H., «Introduction to Modern Information Retrieval», McGraw Hill International Book Company, Tagarelli A., Greco S., «Semantic clustering of XML documents», ACM Transactions on Information Systems (TOIS), Volume 28, Issue 1, January Upasana P., Chakraverty S., Rahul J., «Context Driven Technique for Document Classification», International Conference on Advances in Computer Science, India, Zargayouna, H., Salotti, S., «Mesure de similarité dans une ontologie pour l'indexation sémantique de documents XML», Ingénieries des Connaissances (IC 2004), 2004.

Structuration sémantique des documents XML : Expérimentations et évaluation

Structuration sémantique des documents XML : Expérimentations et évaluation Structuration sémantique des documents XML : Expérimentations et évaluation Salma Ben Meftah* ² Kaïs Khrouf* ² Jamel Feki* ² Chantal Soulé- Dupuy** * Laboratoire MIRACL, Université de Sfax, B.P. 1088,

Plus en détail

Indexation et interrogation de photos de presse décrites en MPEG-7

Indexation et interrogation de photos de presse décrites en MPEG-7 Indexation et interrogation de photos de presse décrites en MPEG-7 Emmanuel Bruno Jacques Le Maitre Elisabeth Murisasco Laboratoire SIS, Equipe Informatique Université de Toulon et du Var Bâtiment R, BP

Plus en détail

Indexation de sous-collections pour l amélioration de la haute précision

Indexation de sous-collections pour l amélioration de la haute précision Indexation de sous-collections pour l amélioration de la haute précision Joëlson Randriamparany *,** *IRIT, Institut de Recherche Informatique de Toulouse Université Paul Sabatier Toulouse III 118 Route

Plus en détail

Contexte général de l étude

Contexte général de l étude 1 2 Contexte général de l étude Les entrepôts de données associés à des outils d analyse On Line Analytical Processing (OLAP), représentent une solution effective pour l informatique décisionnelle (Immon,

Plus en détail

Les documents primaires / Les documents secondaires

Les documents primaires / Les documents secondaires Les documents primaires / Les documents secondaires L information est la «matière première». Il existe plusieurs catégories pour décrire les canaux d information (les documents) : - Les documents primaires

Plus en détail

Système adaptatif d aide à la génération de requêtes de médiation

Système adaptatif d aide à la génération de requêtes de médiation Système adaptatif d aide à la génération de requêtes de médiation Dimitre Kostadinov Verónika Peralta Assia Soukane Xiaohui Xue Laboratoire PRiSM, Université de Versailles 45 avenue des Etats-Unis 78035

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Vectorisation du modèle d appariement pour la recherche d images par le contenu

Vectorisation du modèle d appariement pour la recherche d images par le contenu - Vectorisation du modèle d appariement pour la recherche d images par le contenu Hanen Karamti 1 MIRACL, Université de Sfax Route de Tunis Km 10 B.P. 242, 3021, Sfax, Tunisie karamti.hanen@gmail.com RÉSUMÉ.

Plus en détail

Une méthode d apprentissage pour la composition de services web

Une méthode d apprentissage pour la composition de services web Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,

Plus en détail

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Modèle de recherche contextuelle orientée contenu pour un corpus de documents XML

Modèle de recherche contextuelle orientée contenu pour un corpus de documents XML Modèle de recherche contextuelle orientée contenu pour un corpus de documents XML Ounas ASFARI SUPÉLEC, Département Informatique Plateau de Moulon 3 rue Joliot-Curie 992 GIF SUR YVETTE CEDEX France Ounas.asfari@supelec.fr

Plus en détail

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques Guide de recherche documentaire à l usage des doctorants Partie : Exploiter les bases de données académiques Sylvia Cheminel Dernière mise à jour : décembre 04 PANORAMA DES SOURCES DOCUMENTAIRES ACADEMIQUES...

Plus en détail

Rapport de méthodologie:

Rapport de méthodologie: Rapport de méthodologie: "Laboratoire on chip/lab-on-chip/loc" REMARQUE : La méthode employée est en tout point similaire à celle utilisée en groupe. Contents Rapport de méthodologie:... 1 "Laboratoire

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

pratiques. Nous avons abondamment illustré l'application correcte et efficace des nombreuses pratiques en assurance qualité par des cas pratiques.

pratiques. Nous avons abondamment illustré l'application correcte et efficace des nombreuses pratiques en assurance qualité par des cas pratiques. Cet ouvrage s inscrit dans le cadre d une problématique globale portant sur l amélioration de la qualité du logiciel pour des organismes qui ont atteint un certain niveau de maturité. Il cherche à rapprocher

Plus en détail

12.2.5. La Banque de données santé publique (BDSP)

12.2.5. La Banque de données santé publique (BDSP) 12. Approfondir ses connaissances autour d un sujet droit ou qu un accord avec l éditeur autorise les gestionnaires de la base à pointer vers le document original. Les bases de données bibliographiques

Plus en détail

Rédiger un rapport technique

Rédiger un rapport technique Rédiger un rapport technique Prof. N. Fatemi Plan Introduction Présentation écrite Programmation du travail Rédaction Conseils génériques Références 2 Introduction Objectifs du cours Savoir étudier un

Plus en détail

Initiation à la recherche documentaire

Initiation à la recherche documentaire Initiation à la recherche documentaire 1 Objectifs Cette séance est destinée à reprendre les principes de la démarche documentaire pour construire un parcours pertinent en terme de méthodologie et de résultats

Plus en détail

Construction et enrichissement automatique d ontologie à partir de ressources externes

Construction et enrichissement automatique d ontologie à partir de ressources externes Construction et enrichissement automatique d ontologie à partir de ressources externes JFO 2009 Jeudi 3 décembre 2009 E. Kergosien (LIUPPA, Pau) M. Kamel (IRIT- UPS, Toulouse) M. Sallabery (LIUPPA, Pau)

Plus en détail

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille La Veille multilingue : outils et ressources pour les traducteurs Jean-Paul PINTE Institut Catholique de Lille Premier Colloque International sur la veille multilingue Genève les 28 et 29 mai 2008 Nous

Plus en détail

UNE DÉMARCHE D ANALYSE À BASE DE PATRONS POUR LA DÉCOUVERTE DES BESOINS MÉTIER D UN SID

UNE DÉMARCHE D ANALYSE À BASE DE PATRONS POUR LA DÉCOUVERTE DES BESOINS MÉTIER D UN SID 1 UNE DÉMARCHE D ANALYSE À BASE DE PATRONS POUR LA DÉCOUVERTE DES BESOINS MÉTIER D UN SID 31 janvier 2012 Bordeaux Présentée par :Mme SABRI Aziza Encadrée par : Mme KJIRI Laila Plan 2 Contexte Problématique

Plus en détail

Contributions à l étude des mesures sémantiques

Contributions à l étude des mesures sémantiques Contributions à l étude des mesures sémantiques École des mines d Alès Sébastien Harispe Plan Contributions à l étude des mesures sémantiques Estimation d IC par les fonctions de croyance Plan Contributions

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Design Patterns. Pourquoi utiliser des patterns? Pourquoi utiliser des patterns? Les patterns vue de loin. D où viennent les design patterns?

Design Patterns. Pourquoi utiliser des patterns? Pourquoi utiliser des patterns? Les patterns vue de loin. D où viennent les design patterns? Noël NOVELLI ; Université de la Méditerranée ; LIF et Département d Informatique Case 901 ; 163 avenue de Luminy 13 288 MARSEILLE cedex 9 Design Patterns D où viennent les design patterns? D où viennent

Plus en détail

La recherche documentaire et la recherche d informations professionnelles. BU Sciences BIU Montpellier PPE 2012

La recherche documentaire et la recherche d informations professionnelles. BU Sciences BIU Montpellier PPE 2012 La recherche documentaire et la recherche d informations professionnelles 1 Introduction : la pratique étudiante Où commencez vous habituellement votre recherche d information? 84% des étudiants de 1er

Plus en détail

Vers l automatisation de la construction de systèmes de médiation pour le commerce électronique

Vers l automatisation de la construction de systèmes de médiation pour le commerce électronique Vers l automatisation de la construction de systèmes de médiation pour le commerce électronique I. Introduction C. Reynaud, G. Giraldo Université Paris-Sud, CNRS UMR 8623, INRIA-Futurs L.R.I., Bâtiment

Plus en détail

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information

Plus en détail

Veille technologique en télécommunications

Veille technologique en télécommunications Veille technologique en télécommunications Khalid EL HIMDI Ismail KASSOU Hamid MACHCHOUR 1 Techniques d analyse de contenus L analyse de contenus est au cœur de la gestion du cycle de vie de l information

Plus en détail

Recommandation dans les réseaux sociaux professionnels

Recommandation dans les réseaux sociaux professionnels Recommandation dans les réseaux sociaux professionnels Application sur un réseau bibliographique 6 mai 2010 Objectif et Motivation Techniques utilisées Algorithme exhaustive de recherche de toutes les

Plus en détail

Impact des Réseaux Sociaux sur le Processus de Recherche d Information

Impact des Réseaux Sociaux sur le Processus de Recherche d Information Impact des Réseaux Sociaux sur le Processus de Recherche d Information Chahrazed Bouhini Laboratoire Hubert Curien, UMR CNRS 5516 18 rue du professeur Benoît Lauras 42000 Saint-Etienne Chahrazed.Bouhini@univ-st-etienne.fr

Plus en détail

Construction d'un entrepôt de métadonnées - LOM Application: E-learning

Construction d'un entrepôt de métadonnées - LOM Application: E-learning Construction d'un entrepôt de métadonnées - LOM Application: E-learning Nawel Iles, Azzeddine Chikh, Sidi Mohammed Chouiti Faculté des sciences de l ingénieur Université de Tlemcen Algérie (n_iles/ az_chikh

Plus en détail

LES ENTREPOTS DE DOCUMENTS : GESTION DES VERSIONS

LES ENTREPOTS DE DOCUMENTS : GESTION DES VERSIONS LES ENTREPOTS DE DOCUMENTS : GESTION DES VERSIONS Kaïs KHROUF (*), Mohamed MBARKI (**), Franck RAVAT (**), Chantal SOULE-DUPUY (**), Nathalie VALLES-PARLANGEAU (**) khrouf.kais@isecs.rnu.tn, mbarki@irit.fr,

Plus en détail

Apprentissage de structure dans les réseaux bayésiens pour

Apprentissage de structure dans les réseaux bayésiens pour Apprentissage de structure dans les réseaux bayésiens pour la détection d événements vidéo Siwar Baghdadi 1, Claire-Hélène Demarty 1, Guillaume Gravier 2, et Patrick Gros 3 1 Thomson R&D France, 1 av Belle

Plus en détail

Nous trouvons là les deux thématiques abordées par les deux parties de l ouvrage.

Nous trouvons là les deux thématiques abordées par les deux parties de l ouvrage. $YDQWSURSRV La mise en œuvre du pilotage des systèmes de production constitue un enjeu sensible en raison, d une part, de l accroissement du niveau d automatisation de ceux-ci et, d autre part, de la multiplication

Plus en détail

L INFORMATION GEOGRAPHIQUE

L INFORMATION GEOGRAPHIQUE Champs sur Marne ENSG/CERSIG Le 19-nove.-02 L INFORMATION GEOGRAPHIQUE Archivage Le Système d information géographique rassemble de l information afin de permettre son utilisation dans des applications

Plus en détail

RIHANE Abdelhamid Maitre de conférences Université de Constantine (ALGERIE) Abde_abd25@yahoo.fr

RIHANE Abdelhamid Maitre de conférences Université de Constantine (ALGERIE) Abde_abd25@yahoo.fr Pour la mise en place d une bibliothèque numérique au sein de la Faculté des Nouvelles Technologies de l Information et de la Communication à l Université de Constantine (Algérie) RIHANE Abdelhamid Maitre

Plus en détail

TECHNIQUES CARTOGRAPHIQUES

TECHNIQUES CARTOGRAPHIQUES TECHNIQUES CARTOGRAPHIQUES L automatisation de la cartographie par Anne Ruas Articles reproduits : «Construction des cartes générales à petite échelle à l aide d un système expert», par Jean- Claude Müller

Plus en détail

Qu est-ce qu un catalogue?

Qu est-ce qu un catalogue? Qu est-ce qu un catalogue? Nathalie Piérache Novembre 2008 1 Qu est-ce qu un catalogue? Plan du cours Les catalogues Définition Bref historique des catalogues de bibliothèque Le rôle du catalogue Le catalogue

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

Systèmes d information et bases de données (niveau 1)

Systèmes d information et bases de données (niveau 1) Systèmes d information et bases de données (niveau 1) Cours N 1 Violaine Prince Plan du cours 1. Bibliographie 2. Introduction aux bases de données 3. Les modèles 1. Hiérarchique 2. Réseau 3. Relationnel

Plus en détail

Une extension pour RDF/RDFS utilisant des relations procédurales

Une extension pour RDF/RDFS utilisant des relations procédurales Une extension pour RDF/RDFS utilisant des relations procédurales Jean-François Baget * * INRIA Sophia-Antipolis & LIRMM(CNRS - UM2) LIRMM, 161 rue Ada, 34392 Montpellier Cedex 5 baget@lirmm.fr RÉSUMÉ.

Plus en détail

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

Intelligence Economique - Business Intelligence

Intelligence Economique - Business Intelligence Intelligence Economique - Business Intelligence Notion de Business Intelligence Dès qu'il y a une entreprise, il y a implicitement intelligence économique (tout comme il y a du marketing) : quelle produit

Plus en détail

Management par les processus Les facteurs clés de succès. Lionel Di Maggio Master 1 MIAGE

Management par les processus Les facteurs clés de succès. Lionel Di Maggio Master 1 MIAGE Management par les processus Les facteurs clés de succès Lionel Di Maggio Master 1 MIAGE 1 1. Objectifs et définitions 2. Le retour sur investissement des démarches 3. Les éléments structurants 4. Mise

Plus en détail

Chapitre 2 : Conception de base de données relationnelle

Chapitre 2 : Conception de base de données relationnelle Chapitre 2 : Conception de base de données relationnelle Le modèle entité-association 1. Les concepts de base 1.1 Introduction Avant que la base de données ne prenne une forme utilisable par le SGBD il

Plus en détail

Accès au Contenu Informationnel pour les Masses de Données de Documents

Accès au Contenu Informationnel pour les Masses de Données de Documents Accès au Contenu Informationnel pour les Masses de Données de Documents Grappa LILLE 3 - UR Futurs INRIA MOSTRARE Laboratoire d Informatique de Paris 6 Laboratoire de Recherche en Informatique Orsay -

Plus en détail

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES. 12 mars 2015

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES. 12 mars 2015 PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES 12 mars 2015 Sommaire La plateforme Sciencesconf.org Le portail L espace conférence Site web Gestion scientifique Dépôt, sélection, envoi de mails, édition

Plus en détail

Offre de formation de troisième cycle (LMD)

Offre de formation de troisième cycle (LMD) Offre de formation de troisième cycle (LMD) (Arrêté n 250 du 28 juillet 2009, fixant l organisation de la formation de troisième en vue de l obtention du diplôme de doctorat) Etablissement Faculté / Institut

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

Fonctionnalités avancées de Word

Fonctionnalités avancées de Word BIBLIOTHÈQUE UNIVERSITAIRE DE LILLE 1 Thèses et littérature grise Fonctionnalités avancées de Word Bibliothèque de l université des sciences et technologies de Lille 1 Diffusion électronique des thèses

Plus en détail

Un modèle de qualité de l information

Un modèle de qualité de l information Rami Harrathi*, Sylvie Calabretto* * * LIRIS CNRS UMR 5205 - INSA de Lyon, Bâtiment Blaise Pascal 7, avenue Jean Capelle, F-69621 Villeurbanne Cedex Rharrathi @yahoo.fr **LIRIS CNRS UMR 5205 - INSA de

Plus en détail

Outil de documentation sur la réduction D : Système d archivage de l analyse de la réduction

Outil de documentation sur la réduction D : Système d archivage de l analyse de la réduction Outil de documentation sur la réduction D : Système d archivage de l analyse de la réduction A : Analyse des émissions sectorielles clés B : Dispositions institutionnelles pour les activités de réduction

Plus en détail

Génération d une visualisation personnalisée

Génération d une visualisation personnalisée Génération d une visualisation personnalisée Mohamed Mouine RALI-DIRO Université de montréal mouinemo@iro.umontreal.ca Résumé. Nous présentons une méthode permettant de calculer les besoins et les préférences

Plus en détail

La cartographie des brevets au service de la propriété industrielle

La cartographie des brevets au service de la propriété industrielle Forum technologique d Afrique de l Ouest et Centrale pour l exploitation industrielle des résultats de recherche en Afrique La cartographie des brevets au service de la propriété industrielle Une revue

Plus en détail

140. Modélisation des données Historisation

140. Modélisation des données Historisation Modélisation de logiciels de gestion 140. Modélisation des données Historisation 1 Préambule Dans les chapitres précédents, nous avons appris à concevoir des modèles de données relativement élaborés en

Plus en détail

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES 7 avril 2014 ! Sommaire La plateforme Sciencesconf.org Le portail L espace conférence Site web Gestion scientifique Dépôt, sélection, envoi de mails, édition

Plus en détail

Spring IDE. Mise en œuvre. Eclipse

Spring IDE. Mise en œuvre. Eclipse A Spring IDE Bien que Spring mette à disposition d intéressants mécanismes afin d améliorer l architecture des applications Java EE en se fondant sur l injection de dépendances et la programmation orientée

Plus en détail

DEPARTEMENT D ETUDES EUROPEENNES ECONOMIQUES

DEPARTEMENT D ETUDES EUROPEENNES ECONOMIQUES DEPARTEMENT D ETUDES EUROPEENNES ECONOMIQUES GUIDE DES ETUDIANTS Ce guide est destiné à vous introduire au fonctionnement du Collège et du Département d études économiques européennes, en présentant les

Plus en détail

Les modes de recherche sur le Web 2.0

Les modes de recherche sur le Web 2.0 Les modes de recherche sur le Web 2.0 1 Sommaire 1. Contexte 2. Le collaboratif : les moteurs thématiques 3. La syndication des résultats de recherche 4. Les connaissances : des moteurs 2 1 1. Moteurs

Plus en détail

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE Paul Pașcu, Assist Prof, PhD, Ștefan cel Mare University of Suceava Abstract: This article aims to present a number

Plus en détail

Top_Keyword: Agrégation de motsclefs dans un environnement OLAP

Top_Keyword: Agrégation de motsclefs dans un environnement OLAP SIG/ED Top_Keyword: Agrégation de motsclefs dans un environnement OLAP Franck Ravat, Olivier Teste, Ronan Tournier, Gilles Zurfluh. IRIT: Institut de Recherche en Informatique de Toulouse. tournier@irit.fr

Plus en détail

Fusion de classifiers visuels et textuels pour un système de recherche d images

Fusion de classifiers visuels et textuels pour un système de recherche d images Fusion de classifiers visuels et textuels pour un système de recherche d images Sabrina Tollari, Hervé Glotin, Jacques Le Maitre Université du Sud Toulon-Var Giens, 16 juin 2004 1 Plan Problématique Du

Plus en détail

INGÉNIERIE DES CONNAISSANCES BCT (3b)

INGÉNIERIE DES CONNAISSANCES BCT (3b) 08.12.1999 INGÉNIERIE DES CONNAISSANCES BCT (3b) Nathalie Aussenac-Gilles (IRIT) Jean Charlet (DSI/AP-HP) Ingénierie des connaissances BCT (N. Aussenac-Gilles, J. Charlet) BCT-1 PLAN La notion de BCT :

Plus en détail

INDEXATION DE DOCUMENTS AUDIOVISUELS. Yannick Prié LIRIS UMR 5205 CNRS - Université Claude Bernard Lyon 1 Journées VISA 18 décembre 2008

INDEXATION DE DOCUMENTS AUDIOVISUELS. Yannick Prié LIRIS UMR 5205 CNRS - Université Claude Bernard Lyon 1 Journées VISA 18 décembre 2008 INDEXATION DE DOCUMENTS AUDIOVISUELS Yannick Prié LIRIS UMR 5205 CNRS - Université Claude Bernard Lyon 1 Journées VISA 18 décembre 2008 Présentation MCF informatique Université Claude Bernard Lyon 1 Equipe

Plus en détail

Information géographique: mode d'emploi!

Information géographique: mode d'emploi! Information géographique: mode d'emploi! " Comment décrire et documenter ses données? " Journées d animation CIGAL ~ 19 avril 2012 Maison de la Région Alsace Strasbourg Amphithéâtre Rez-de-chaussée Qu

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

Intégration de la dimension sémantique dans les réseaux sociaux

Intégration de la dimension sémantique dans les réseaux sociaux Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Contexte : Recommandation dans les réseaux sociaux

Plus en détail

Le système SMART 1. Indexation

Le système SMART 1. Indexation Le système SMART Le système SMART (System for the Mechanical Analysis and Retrieval of Text) (aussi appelé Salton's Magic Automatic Retrieval Technique:-) est un système de RI expérimental. Il utilise

Plus en détail

Le Programme «Archives Audiovisuelles de la Recherche»

Le Programme «Archives Audiovisuelles de la Recherche» 1 Maison des Sciences de l Homme (MSH) Equipe Sémiotique Cognitive et Nouveaux Médias (ESCoM) Le Programme «Archives Audiovisuelles de la Recherche» GAAV (version 1.0) un logiciel de gestion d archives

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

Projet : Plan Assurance Qualité

Projet : Plan Assurance Qualité Projet : Document : Plan Assurance Qualité 2UP_SPEC_DEV1 VERSION 1.00 Objet Ce document a pour objectif de définir la démarche d analyse et de conception objet ainsi les activités liées. Auteur Eric PAPET

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Section 9. Établissement de rapports et communication des résultats

Section 9. Établissement de rapports et communication des résultats Section 9 Établissement de rapports et communication des résultats 135 Établissement de rapports et communication des résultats Distribuer rapidement les résultats aux parties prenantes. Choisir le moyen

Plus en détail

Use Cases. Introduction

Use Cases. Introduction Use Cases Introduction Avant d aborder la définition et la conception des UC il est bon de positionner le concept du UC au sein du processus de développement. Le Processus de développement utilisé ici

Plus en détail

TABLEAU DE BORD : SYSTEME D INFORMATION ET OUTIL DE PILOTAGE DE LA PERFOMANCE

TABLEAU DE BORD : SYSTEME D INFORMATION ET OUTIL DE PILOTAGE DE LA PERFOMANCE TABLEAU DE BORD : SYSTEME D INFORMATION ET OUTIL DE PILOTAGE DE LA PERFOMANCE INTRODUCTION GENERALE La situation concurrentielle des dernières années a confronté les entreprises à des problèmes économiques.

Plus en détail

Introduction aux concepts d ez Publish

Introduction aux concepts d ez Publish Introduction aux concepts d ez Publish Tutoriel rédigé par Bergfrid Skaara. Traduit de l Anglais par Benjamin Lemoine Mercredi 30 Janvier 2008 Sommaire Concepts d ez Publish... 3 Système de Gestion de

Plus en détail

LES BREVETS comme moyen d accès. Introduction. http://patentscope.wipo.int/

LES BREVETS comme moyen d accès. Introduction. http://patentscope.wipo.int/ LES BREVETS comme moyen d accès à la TECHNOLOGIE Introduction http://patentscope.wipo.int/ 2 Les brevets constituent une vaste source d informations couvrant chaque domaine de la technologie. Il est facile

Plus en détail

Introduction au WEB Sémantique Cours 1 : Qu est ce que le WEB sémantique?

Introduction au WEB Sémantique Cours 1 : Qu est ce que le WEB sémantique? Cours 1 : Qu est ce que le WEB sémantique? ESIL Université de la méditerranée Odile.Papini@esil.univmed.fr http://odile.papini.perso.esil.univmed.fr/index.html Plan du cours Introduction 1 Introduction

Plus en détail

MEDLINE BANQUE DE DONNÉES EN MÉDECINE INTERFACE PUBMED INITIATION

MEDLINE BANQUE DE DONNÉES EN MÉDECINE INTERFACE PUBMED INITIATION MEDLINE BANQUE DE DONNÉES EN MÉDECINE INTERFACE PUBMED INITIATION document préparé par : CSSS-IUGS SERVICE DE BIBLIOTHÈQUE Janvier 2008 INTRODUCTION Medline est une banque de données bibliographique produite

Plus en détail

B.8 Analyse d évolutions topographiques élémentaires pour le suivi de phénomènes géographiques

B.8 Analyse d évolutions topographiques élémentaires pour le suivi de phénomènes géographiques B.8 Analyse d évolutions topographiques élémentaires pour le suivi de phénomènes géographiques Patricia Bordin Introduction À leur début, dans les années 1980, les SIG (Systèmes d Information Géographiques)

Plus en détail

Référence Etnic Architecture des applications

Référence Etnic Architecture des applications Référence Etnic Architecture des applications Table des matières 1. Introduction... 2 2. Architecture... 2 2.1 Démarche générale... 2 2.2 Modèle d architecture... 3 2.3 Découpe d une architecture applicative...

Plus en détail

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES ANF Sciencesconf Meudon 10/11 octobre 2013 http://www.sciencesconf.org ! Sommaire La plateforme Sciencesconf.org Le portail L espace conférence Site web Gestion

Plus en détail

Première étape vers une navigation référentielle par l image pour l assistance à la conception des ambiances lumineuses

Première étape vers une navigation référentielle par l image pour l assistance à la conception des ambiances lumineuses Première étape vers une navigation référentielle par l image pour l assistance à la conception des ambiances lumineuses Salma Chaabouni * Jean-Claude Bignon * Gilles Halin * * CRAI ( Centre de Recherche

Plus en détail

Bien comprendre les fonctionnalités d'une GED

Bien comprendre les fonctionnalités d'une GED Bien comprendre les fonctionnalités d'une GED StarXpert 2011 STARXPERT - Siège social : 100 rue des Fougères 69009 LYON SAS au capital de 40 000 - Siret : 449 436 732 00035 - NAF : 723Z Table des matières

Plus en détail

DECHARGEMENT ET CHARGEMENT MASSIF DES DONNEES

DECHARGEMENT ET CHARGEMENT MASSIF DES DONNEES DECHARGEMENT ET CHARGEMENT MASSIF DES DONNEES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas être

Plus en détail

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. 2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

L évolution du catalogage :

L évolution du catalogage : Réseau Documentation Archives des ministères sociaux Journée d étude 2 et 3 février 2012 Le document dans l environnement numérique Ruptures et continuités L évolution du catalogage : modèle FRBR (Functional

Plus en détail

Application de la logique floue à un modèle de recherche d information basé sur la proximité

Application de la logique floue à un modèle de recherche d information basé sur la proximité Application de la logique floue à un modèle de recherche d information basé sur la proximité Fuzzy set theory applied to a proximity model for information retrieval Michel BEIGBEDER 1 Annabelle MERCIER

Plus en détail

Ecole Préparatoire SNV Université d Oran Semestre 02 2014/2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z.

Ecole Préparatoire SNV Université d Oran Semestre 02 2014/2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z. Ecole Préparatoire SNV Université d Oran Semestre 02 2014/2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z. TALEB Avec quel outil? Comment? Trouvez-vous facilement l information?

Plus en détail

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006 Les outils de veille sur Internet Panorama, évolutions, nouveautés Myriel Brouland SCIP France -10 Mai 2006 1 La veille en France: une situation paradoxale Une situation contrastée Une prise de conscience

Plus en détail

Référencement dans des bases de données

Référencement dans des bases de données Marketing Site web du guide des ressources pour l édition de revues numériques Coordination : Ghislaine Chartron et Jean-Michel Salaun Doctorant en science de l'information La création numérique, ou la

Plus en détail

Dixit 12. Retour d expérience. La veille en temps-réel dans le secteur de l'audiovisuel et animation d'une communauté d'entreprises

Dixit 12. Retour d expérience. La veille en temps-réel dans le secteur de l'audiovisuel et animation d'une communauté d'entreprises Dixit 12 Retour d expérience La veille en temps-réel dans le secteur de l'audiovisuel et animation d'une communauté d'entreprises Présentation du Pole Media Grand Paris 90 structures: entreprises, collectivités,

Plus en détail

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES. h tt p : / / w w w. s c i e n c e s c o n f. o rg

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES. h tt p : / / w w w. s c i e n c e s c o n f. o rg PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES h tt p : / / w w w. s c i e n c e s c o n f. o rg Sommaire Introduction Le portail Sciencesconf.org L espace conférence Site web Inscription Gestion scientifique

Plus en détail

Annotation Semi-automatique de Grandes BD Images : Approche par Graphes de Voisinage

Annotation Semi-automatique de Grandes BD Images : Approche par Graphes de Voisinage Lyon - France Annotation Semi-automatique de Grandes BD Images : Approche par Graphes de Voisinage Hakim Hacid Université Lumière Lyon 2 Laboratoire ERIC - 5, avenue Pierre Mendès-France 69676 Bron cedex

Plus en détail

L informatique des entrepôts de données

L informatique des entrepôts de données L informatique des entrepôts de données Daniel Lemire SEMAINE 8 Introduction à OLAP 8.1. Présentation de la semaine Le modèle OLAP (Online Analytical Processing) est un modèle quasiomniprésent en intelligence

Plus en détail

Le modèle européen MoReq mars 2001

Le modèle européen MoReq mars 2001 Le modèle européen MoReq mars 2001 présentation de la version française Marie-Anne Chabin Réunion PIN 01/09/04 1 Model Requirements for the Management of Electronic Records Modèle d exigences pour l organisation

Plus en détail

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr Une classification hiérarchique de variables discrètes basée sur l information mutuelle en pré-traitement d un algorithme de sélection de variables pertinentes. Hélène Desmier ab, Pascale Kuntz a & Ivan

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail