Une approche pour l extraction automatique de structures sémantiques de documents XML

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "Une approche pour l extraction automatique de structures sémantiques de documents XML"

Transcription

1 Une approche pour l extraction automatique de structures sémantiques de documents XML Salma Ben Mefteh*,**, Kaïs Khrouf*, Jamel Feki*, Maha Ben Kraiem*, Chantal Soulé-Dupuy** * Laboratoire Université de Sfax, B.P. 1088, 3018 Sfax, Tunisie. ** Laboratoire IRIT- Université Toulouse I Capitole, 2 rue du Doyen Gabriel Marty, Toulouse Cedex 9, France ailto: Chantal.Soule- RÉSUMÉ. La nature des sources d informations et les possibilités de description des documents disponibles via ces sources sont en constante évolution. Cette évolution, et l enrichissement des informations qui en découle, est accélérée par l expansion du Web, et la mise à disposition de documents de type XML. Or la structure logique de ces documents XML, au travers de balises du genre Contenu, Section, Paragraphe, ne reflète pas nécessairement la sémantique des documents. Le développement d outils automatisés permettant de déterminer les structures sémantiques de ces documents XML nous semble être une nécessité. A cette fin, nous proposons dans cet article une approche de structuration sémantique des documents XML. ABSTRACT. The nature of information sources together with the description alternatives for the documents available within these sources are constantly changing. This development, and the enrichment of information that follows, is accelerated by the expansion of the Web and the availability of XML documents. However, the logical structure of XML documents, through tags such as Content, Section, Paragraph, does not necessarily reflect the semantics of documents. The development of automated tools to determine the semantic structures of XML documents seems to be a necessity. For that, we propose in this paper a novel approach to determine semantic structures of XML documents. MOTS-CLÉS : Documents XML, Structures sémantiques, Ontologies. KEYWORDS: XML DOCUMENTS, SEMANTIC STRUCTURES, ONTOLOGIES.

2 1. Introduction La numérisation des documents et le développement des technologies Internet engendrent une augmentation permanente de la masse de documents disponibles. Face à cette masse documentaire, XML s est imposé comme format standard de documents. Ainsi, un nombre de plus en plus important de documents deviennent disponibles sous ce format. Ces documents XML peuvent être classés en deux types : les documents XML orienté-données et les documents XML orienté-texte. Les documents XML orienté-données sont constitués d un ensemble d éléments généralement courts et précis et sont similaires aux données relationnelles. Ce type de documents est principalement utilisé par les applications d échange des informations (i.e. les données transactionnelles). Nous constatons que les balises utilisées pour ce genre de documents décrivent généralement d une manière précise son contenu, et apportent la sémantique nécessaire à la description de l information (Exemples de balises : Article, Client, Quantité, Prix) Les documents XML orienté-texte sont des documents riches en texte et constituent des versions électroniques des documents papiers (i.e. les articles scientifiques, les rapports internes). Les balises utilisées pour ce genre de documents présentent la plupart du temps un découpage (structure) logique (Exemples de balises : Contenu, Section, Paragraphe). Ces balises ne décrivent en aucun cas la sémantique de leur contenu. Partant de là, le développement d outils automatisés permettant de décrire la sémantique des documents devient une nécessité. A cette fin, nous proposons une approche d annotation automatique des différents granules d un document XML permettant ainsi d inférer une structure sémantique pour ce de document. (Abascal, 2005) définit la structure sémantique comme étant «un ensemble de balises sémantiques représentant des concepts associés entre eux par des relations». Dans notre contexte, nous considérons que la structure sémantique est une structure superposée à la structure logique d un document XML et qui décrit la sémantique du contenu (en particulier de ses éléments textuels). Cet article est structuré comme suit. Nous commençons par un état de l art sur les travaux abordant l aspect sémantique des documents. Ensuite, nous décrivons la démarche que nous proposons pour l extraction des structures sémantiques qui complètent les structures logiques des documents. Les sections 4, 5 et 6 détaillent les étapes les plus importantes de la démarche proposée. Enfin, nous terminons cet article par les expérimentations réalisées et les résultats obtenus. 2. Etat de l art La plupart des travaux qui ont abordé l aspect sémantique des documents (entre autres les documents XML) se sont intéressés à la représentation sémantique des contenus.

3 En recherche d information, l aspect sémantique a été abordé afin d améliorer le nombre de documents pertinents restitués par rapport à une requête utilisateur. Certaines approches, comme celle de (Zargayouna & Sallouti, 2004), représentent les documents sous forme de vecteurs de termes selon le modèle vectoriel de Salton (Salton et al., 1983), tout en reliant ces termes aux concepts de l ontologie. Les termes de la requête utilisateur seront par la suite remplacés par les concepts associés afin que les réponses soient plus appropriées aux besoins des utilisateurs. L inconvénient majeur de ces travaux est l utilisation d une ontologie de concepts reliée à un corpus. Dans le même esprit, (Harrathi & Calabretto, 2010) ont indexé, en plus du contenu textuel des documents, leurs structures par des concepts en utilisant l ontologie WordNet. Cependant, cette ontologie générale pose le problème de couverture terminologique, c est-à-dire seuls les termes des documents ou des requêtes les plus communs sont référencés par des concepts. Dans (Baziz et al. 2007), le modèle de représentation sémantique des documents et des requêtes repose sur un réseau sémantique (ensemble de concepts reliés par des liens). Cependant, ces travaux ont montré que l indexation sémantique (i.e., l affectation d un ensemble de concepts à un document) n apporte pas de résultat probant sauf si elle est combinée avec une indexation classique basée sur les mots-clés. Des approches traitant de la classification de documents intègrent aussi la notion de sémantique du contenu. Par exemple, Gesche et al. (Gesche et al., 2010) utilisent des ontologies de domaine pour enrichir des textes courts (généralement, articles de presse). Ils proposent trois types d enrichissement : enrichissement par généralisation (Exemple, l actualité parlant de «Michaël Jackson» sera enrichie par le concept «Rock»), enrichissement par spécialisation («Sport» peut être enrichi par les sports médiatiques) et enrichissement par catégorisation (Ajout des métadonnées : Auteur, Année ). Par contre, la classification proposée dans cet article est supervisée, c est-à-dire que les classes de documents doivent être connues à priori. Dans (Upasana et al., 2010), les auteurs ont présenté une classification des textes basée sur les techniques statistiques et contextuels (sémantique). Cette classification est réalisée en plusieurs étapes : la constitution d un vecteur de termes pour le document, la constitution d un vecteur de termes pour chaque domaine (Médecine, Cryptographie ) en utilisant Wordnet. Ensuite, il s agit de calculer la similarité entre le vecteur de documents et l ensemble des vecteurs des domaines. Enfin, le vecteur de domaine ayant le score le plus élevé sera affecté au document approprié. Cependant, ces travaux ont utilisé Wordnet qui représente une ontologie trop générale et peu formalisée pour modéliser correctement un domaine donné. Dans la littérature, peu de travaux (Abascal, 2005), (Tagarelli & Grec, 2010) se sont intéressés à la structuration sémantique des documents. (Abascal, 2005) propose une approche qui vise à permettre l accès à l ensemble de documents (thèses) par leur contenu sémantique. Ils ont proposé un modèle de documents fondé sur l utilisation de nouvelles métadonnées rajoutées, appelés «tags sémantiques». Ces métadonnées permettent ainsi d affiner la recherche et de mieux satisfaire l utilisateur. Cependant, l approche proposée est destinée à un type particulier de

4 documents, à savoir : les thèses. (Tagarelli & Grec, 2010) proposent d enrichir sémantiquement les noms des balises d un document XML. Pour cela, chaque chemin 1 du document XML représente un réseau et chaque balise de ce chemin constitue une couche (l ensemble des sens de la balise en question, extraits de Wordnet). L étape suivante consiste à calculer la mesure de similarité entre les différentes couches afin de trouver le meilleur chemin dans le réseau. L utilisation de Wordnet peut causer des difficultés pour le choix du sens le plus approprié pour une balise donnée surtout pour les termes polysémiques 2. Comme complément aux travaux abordant l aspect sémantique des contenus, nous proposons dans ce papier un découpage sémantique des documents XML. Plus précisément, nous proposons une approche d extraction automatique de structures sémantiques pour les documents XML en se basant sur leurs structures logiques et contenus, contrairement aux travaux de (Tagarelli & Grec, 2010) qui se sont focalisés uniquement sur les noms de balises. Ces travaux permettent ainsi de visualiser et d interroger les documents XML selon le point de vue souhaité (logique, sémantique ou les deux à la fois). 3. Notre démarche Dans (Khrouf et al., 2011), nous avons proposé une approche pour la classification et l analyse multidimensionnelle des documents. Ces travaux regroupent les structures logiques identiques ou similaires des documents XML dans des structures génériques (Ben Messaoud et al., 2011). L approche proposée a été vérifiée et validée pour les documents XML orienté-données (généralement qui contiennent peu du texte). Nous souhaitons étendre ces travaux pour les documents orienté-texte (rapports, articles scientifiques, news ). A cette fin, nous proposons de dériver et de proposer, à partir de la structure logique et du contenu d un document XML orienté-texte, une structure qui reflète sa sémantique, c est l objet de cet article. La Figure 1 montre un exemple de structure logique et de sa structure sémantique pour un document XML. <Article> <Titre>Modeling for DSS</Titre> <Auteur>Dupond</Auteur> <Contenu> <Section>A dimension constitutes a component </Section> <Section>The multidimensional analyses allow to users </Section> </Contenu> </Article> Document XML Titre Article Auteur Contenu Section Section Structure logique Datawarehouse Design Null Dimension Structure sémantique Figure 1. Exemple de structure logique et de sa structure sémantique. 1 L ensemble des balises reliant la racine à l élément feuille du document. 2 Un terme polysémique est un terme qui peut avoir plusieurs sens différents.

5 La démarche que nous proposons pour l extraction automatique de telles structures sémantiques est illustrée dans la Figure2. Structure Spécifique + contenu L Documents XML L11 L12 L1n L111L121L123 L1m Structure Sémantique Phase 1 : Extraction des termes Ontologies Phase 2 : Choix d ontologie Phase 3 : Association des concepts aux éléments feuilles Entrepôt de documents S S11 S12 S1n S111S121S123 S1m Phase 5 : Affectation des métadonnées Phase 4 : Inférence de concepts Figure 2. Démarche de détermination de la structure sémantique. Cette démarche se décompose en cinq phases : Phase 1 : Extraction des termes. Il s agit dans cette phase d extraire les mots-clés significatifs des éléments feuilles du document (fragments textuels associés aux éléments feuilles). L extraction des mots-clés repose sur un processus d indexation classique, tel que défini en recherche d information (Baeza-Yates et al., 1999). Phase 2 : Choix de l ontologie. L objet de cette phase est de déterminer, parmi un ensemble d ontologies de domaines, celle qui convient le mieux pour décrire la sémantique du document, et ce à partir des mots-clés du langage d indexation généré lors de la phase précédente. Phase 3 : Association de concepts aux éléments feuilles. Cette phase consiste, pour chaque élément feuille de la structure logique, à rechercher, dans l ontologie de domaine retenue à la phase précédente, le concept le plus approprié à la description de sa sémantique (qui traduit le mieux la sémantique de l élément feuille compte tenu des mots-clés qui le décrivent). Le concept trouvé est alors associé à l élément feuille. Phase 4 : Inférence de concepts aux éléments non-feuilles. Les concepts des éléments feuilles servent ensuite à inférer les concepts à associer à leurs ascendants à partir de l ontologie sélectionnée. Les phases 2, 3 et 4 sont détaillées dans les sections suivantes de cet article. Phase 5 : Affectation des métadonnées. Cette phase consiste à garder les balises de la structure logique qui représentent des métadonnées (i.e. Auteur, Editeur,

6 Année). Les métadonnées utilisées lors de cette phase sont celles du Dublin Core 3 Nous avons choisi de réaliser cette phase à la fin de la démarche proposée et non au début afin de laisser la possibilité de remplacer certaines métadonnées (i.e. Titre, Résumé) par la sémantique qu elles présentent. 4. Choix de l ontologie Selon notre approche, un entrepôt peut contenir des documents appartenant à plusieurs domaines ou thématiques et dispose donc d un ensemble d ontologies dites «de domaine». Afin d apporter de la sémantique aux différents éléments constituant un document, nous recourons aux ontologies de l entrepôt. Une ontologie peut être définie comme étant «l ensemble structuré des termes et concepts représentant le sens d un champ d informations, que ce soit par les métadonnées d un espace de noms, ou les éléments d un domaine de connaissances» 4. Dans nos travaux, l ontologie est représentée par un ensemble de concepts d un domaine, ainsi que des relations entre ces concepts (Synonymie, antonymie, polysémie, homonymie ). 4.1 Pondération des ontologies et de leurs concepts Rappelons que notre objectif est de créer une structure sémantique, essentiellement en exploitant plusieurs ontologies de domaine. Se pose alors le problème du choix d une ontologie, c est-à-dire répondre à la question : quelle est l ontologie la mieux appropriée pour rechercher les concepts de la structure sémantique du document? Notons que dans cet article, nous nous focalisons aux documents traitant chacun un seul domaine. Pour cela, nous ne devons pas considérer comme équi-importants tous les concepts des différentes ontologies. En effet, si nous avons le choix entre un concept-père et un concept-fils pour un élément d un document, nous optons pour le concept-fils car il présente une information plus fine et plus spécifique. En conséquence, il nous semble important de pondérer les concepts d une ontologie de manière à donner plus d importance aux concepts les plus spécifiques (i.e., se trouvant en bas de la hiérarchie). De plus, nous considérons que le poids d une ontologie est égal à la somme des poids de ses concepts. Pour effectuer cette pondération, nous sommes confrontés à un problème de taille des ontologies. En effet, nous pouvons trouver des ontologies plus détaillées et plus élaborées que d autres (cf. Figure 3), ces ontologies ne doivent pas avoir alors 3 4

7 le même poids puisque ce poids sera réparti entre les différents concepts de l ontologie. Par exemple, si chacune des deux ontologies O 1 et O 2, possédant respectivement 4 et 10 concepts, ont un poids identique égal à 1, alors chaque concept de O 1 aura un poids de 0.25=1/4 et chaque concept de O 2 sera pondéré par 0.1=1/10. Normes Comptable (NC) 0.25 Information System (IS) 0.1 IFRS 0.25 GAAP 0.25 Norme Finançaise(NF) 0.25 File(FL) 0.1 Database(DB) 0.1 Data Warehouse(DW) 0.1 Storage(ST) Design(DS) Cube(C) 0.1 Fact(F) 0.1 Dimension(D) 0.1 Ontologie O 1 Poids(0 1 ) = 1 Ontologie O 2 Poids(0 2 ) = 1 Figure 3. Pondération non discriminante des concepts des ontologies O1 et O2. Cette pondération non discriminante est à éviter car les concepts des ontologies les moins élaborées auront plus d importance et seront donc privilégiées. Pour pallier cela, nous pondérons chaque ontologie par rapport au nombre de concepts qu elle contient. Le calcul du poids d une ontologie O k s effectue selon la Formule 1. Ce poids mesure l importance de l ontologie O k puisqu il est calculé relativement par rapport au nombre total des concepts de toutes les ontologies de l entrepôt. Où : Ok PO( O ) = N Oi i = 1 k * PO(O k ) est le poids de l ontologie O k tel que PO(O k ) ]0, N] PO(O k ) = N PO(O k ) < N Si N > 1 N Si N = 1 (l entrepôt contient une seule ontologie) O k ( O i ) est le nombre de concepts dans l ontologie O k (respectivement O i ), et N est le nombre d ontologies disponibles. Reprenons l exemple de la Figure 3, avec une pondération selon la Formule 1, nous obtenons les poids suivants : PO(O 1 ) = 0,571 et PO(O 2 ) = 1,429. A ce stade, nous devons répartir le poids de l ontologie entre ses différents concepts de manière à donner plus d importance aux éléments les plus spécifiques [1]

8 dans l arborescence. Ainsi, les concepts d un niveau 5 i de l ontologie auront un poids supérieur à celui de ceux du niveau i-1. L affectation des coefficients s effectue comme suit : chaque élément père reçoit un coefficient égal à son niveau dans l ontologie. Dans la Figure 4, on affecte 1 à la racine «Information System», 2 au concept «Data Warehouse» et 3 au concept. continuer l affectation des coefficients aux concepts feuilles en commençant par ceux du niveau le plus élevé et en n incrémentant le coefficient qu en passant d un niveau i au niveau i+1. Dans la Figure 4, on affecte 4 aux concepts «File» et «DataBase», 5 aux concepts «Storage», «Design» et «Cube», etc. L affectation de cette manière permet de favoriser plus les descendants et surtout les feuilles (le plus bas niveau). Cette affectation est réalisée par la fonction Coeff(C i, O k ). La Figure 4 présente un exemple d affectation des coefficients pour l ontologie O 2. Information System (IS) 1 File(FL) 4 Database(DB) 4 Data Warehouse(DW) 2 Storage(ST) Design(DS) Cube(C) 5 Fact(F) 6 Dimension(D) 6 OntologieO 2 Figure 4. Coefficients des niveaux des concepts de l ontologie O 2. A ce niveau, nous calculons une marge notée ε k (cf. Formule 2) qui sera utilisée pour la détermination des poids des concepts de l ontologie. En effet, ε constitue la marge entre un concept appartenant à un niveau i+1 par rapport à un concept d un niveau i dont l objectif est de favoriser les descendants qui apportent plus de sémantique que leurs ascendants. Où : εk PO ( Ok) = SO ( Ok) 2 Avec Ok SO ( Ok) = Coeff( C i, Ok) i = 1 PO(O k ) est le poids de l ontologie O k calculé selon la Formule 1, SO(O k ) est la somme des coefficients de l ontologie O k, Coeff(C i, O k ) est le coefficient du concept i dans l ontologie O k, O k est le nombre de concepts dans l ontologie O k. [2] 5 Un niveau dans une ontologie est tous les concepts situés à la même profondeur.

9 Dans le cas de l ontologie O 2 de la Figure 4, la valeur de ε est la suivante : ε PO( O2) = = = SO( O ) 2 ( ) = Nous déterminons à ce niveau le poids de base d un concept, noté λ k, c est-àdire sans tenir compte des coefficients des concepts. Il s agit de soustraire du poids de l ontologie la partie consacrée pour l ensemble des marges ( ε k * SO( Ok) ), divisé par le nombre de concepts. La formule est alors la suivante. Où : PO ( O k) λ k = εk O k * SO ( O k) PO(O k ) est le poids de l ontologie O k, SO(O k ) est la somme des coefficients des concepts de l ontologie O k, ε k est la marge d un niveau i+1 par rapport au niveau i, O k est le nombre de concepts dans l ontologie O k, [3] Le poids de base λ 2 d un concept de l ontologie O 2 est égal à : ( 2) * ( 2) PO O ε SO O (0.0008* 41) λ 2 = = = O2 10 Après avoir calculé le poids de base d un concept, il s agit à ce stade de calculer le poids effectif de chaque concept en tenant compte de la marge et de son coefficient, comme l indique la Formule 4. ε PC ( Ci, Ok) = λ k + ( k * Coeff ( Ci, Ok)) Où : λk est le poids de base d un concept de l ontologie O k, ε k est la marge d un niveau i+1 par rapport au niveau i de l ontologie O k, Coeff(C i, O k ) est le coefficient du concept i de l ontologie O k. Notons que ces Formules garantissent que la somme des poids de tous les concepts d une ontologie est égale au poids de l ontologie (soit à dans notre exemple pour l Ontologie O 2 ). De plus, elle diffère de celle utilisée dans la Figure 3 par le fait que les concepts feuilles auront plus d importance que les concepts pères. Les concepts de l ontologie O 2 auront alors les poids suivants (cf. Figure 5). [4]

10 Information System (IS) λ 2 +(ε 2 *1) Information System (IS) File(FL) Database(DB) λ 2 +(ε 2 *4) λ 2 +(ε 2 *4) Data Warehouse(DW) λ 2 +(ε 2 *2) File(FL) Database(DB) Data Warehouse(DW) Storage(ST) λ 2 +(ε 2 *5) Design(DS) λ 2 +(ε 2 *5) λ 2 +(ε 2 *3) Fact(F) λ 2 +(ε 2 *6) Cube(C) λ 2 +(ε 2 *5) Dimension(D) λ 2 +(ε 2 *6) Storage(ST) Design(DS) Fact(F) Ontologie O 2 Poids(0 2 ) = Figure 5. Poids des concepts de l ontologie O2 après pondération. Cube(C) Dimension(D) Choix d une ontologie pour un document Selon notre approche, un entrepôt contient des documents appartenant à plusieurs domaines et dispose donc d un ensemble d ontologies. Il s agit de déterminer une seule ontologie par document. Généralement, un document traite un seul domaine et qui peut parler, dans certains cas, d autres domaines mais dans des parties du document. C est la raison pour laquelle, nous avons opté pour affecter une seule ontologie à un document. Ainsi, pour chaque ontologie de l entrepôt, nous calculons dans un premier temps, le poids de chaque concept C i par rapport à chaque élément feuille E j du document d. (cf. Figure 6). Cette pondération est définie selon la Formule 5. PC( Ci, Ej) = freq( Ci, Ej) * PC( Ci, Ok) freq( Ci, d) j Ej d [5] Où : PC(C i, E j ) est le poids du concept C i par rapport à l élément E j, freq(c i, E j ) est la fréquence d apparition du concept C i dans l'élément E j, freq(c i, d) est la fréquence d apparition du concept C i dans le document d, et PC(C i, O k ) est le poids du concept C i dans son ontologie. Pour la correspondance des termes des documents avec les concepts des ontologies, nous avons utilisé les techniques de la Recherche d Information (Baeza- Yates et al., 1999) en plus d un dictionnaire de synonymie. B A D C Ontologie O 1 E 0.3 Document d Z Y X K W Ontologie O 2 Figure 6. Calcul des poids des concepts par rapport aux éléments du document.

11 Ensuite, nous calculons le poids de chaque concept C i par rapport à tout le document d. Ce poids est égal à la somme des poids de C i dans les différents éléments de d, selon la Formule 6. Où : m PC ( Ci, d ) = PC ( C i, Ej) j Ej d j = 1 PC (C i, d) est le poids du concept C i par rapport au document d, PC (C i, E j ) est le poids du concept C i par rapport à l élément E j, m est le nombre d éléments dans le document d. [6] A 0.9 X B D C Ontologie O 1 E 0.3 Document d 0.7 Z Y K W Ontologie O 2 Figure 7. Calcul des poids des concepts par rapport au document. Pour choisir l ontologie la plus appropriée par rapport au document d, nous additionnons les poids des différents concepts appartenant à l ontologie en question Ainsi, la Formule 7 donne le poids de l ontologie O k par rapport au document d. Où : O k PO ( O k, d ) = PC ( C i, d ) i = 1 PC (C i, d) est le poids du concept C i par rapport au document d (Formule 6), O k est le nombre de concepts de l ontologie O k. [7] A X B C Y K D Ontologie O 1 E Document d Z W Ontologie O 2 Figure 8. Calcul des poids des ontologies par rapport au document. Ainsi, l ontologie, ayant le poids le plus élevé, sera retenue pour le document. Dans notre exemple, c est l ontologie O 2 (avec un poids de 1.6) qui sera retenu pour d.

12 5. Affectation des concepts aux éléments feuilles L objectif de cette phase est d affecter un seul concept représentatif à chaque élément feuille du document, en se basant sur les poids des concepts calculés par la Formule 5. Pour un élément feuille E k, différents cas se présentent : Cas 1 : Aucun concept déterminé pour E k (Exemple : les éléments Auteur, Editeur, Année ). Le concept Null sera affecté. Cas 2 : Un seul concept déterminé pour E k ; il sera retenu comme concept représentatif. Cas 3 : Plusieurs concepts déterminés appartenant à une même hiérarchie. Dans ce cas : - Si les poids calculés pour ces concepts sont très proches (presque identiques), nous affectons à E k le concept le plus spécifique dans la hiérarchie. - Si les poids de ces concepts sont divergents, nous affectons à E k le concept ayant le poids le plus élevé, indépendamment de sa position dans la hiérarchie. Cas 4 : Plusieurs concepts déterminés pour E k appartenant à plusieurs hiérarchies dans l ontologie. Dans ce cas, nous affectons à E k le concept ayant le poids le plus élevé. A la fin de cette phase, chaque élément feuille est associé à un et un seul concept de l ontologie O 2 retenue. Il s agit maintenant d attribuer des concepts aux autres éléments (i.e., non feuilles) de la structure logique du document, par des règles d inférence que nous définissons dans la section suivante. 6. Inférence des concepts aux éléments non-feuilles Jusqu'à présent, nous avons déterminé, pour chaque élément feuille de la structure sémantique d un document, un concept choisi dans l ontologie retenue pour le document. Nous poursuivons notre objectif afin de finaliser la structure sémantique. Il s agit maintenant d attribuer des concepts aux éléments non feuilles de la structure et ceci en procédant par inférence des concepts des feuilles vers leurs ascendants de la façon suivante : Règle 1 : Un élément père ayant un seul fils aura le même concept que son fils. Règle 2 : Si un élément père possède plusieurs éléments fils dont les concepts appartiennent à une même hiérarchie de l ontologie, alors on associera à ce père le concept le plus générique des concepts associés à ses fils (cf. Figure 9). Règle 3 : Si un élément père possède plusieurs éléments fils dont les concepts appartiennent à plusieurs hiérarchies de l ontologie, alors le concept attribué à ce père est l ancêtre commun des concepts associés à ses fils (cf. Figure 10).

13 Information System (IS) File(FL) Database(DB) Data Warehouse(DW) Design(DS) Storage(ST) Cube(C)? Fact(F) Dimension(D) Ontologie O 2? Design Null? Design Null Dimension Structure sémantique Figure 9. Application de la règle 2. Dimension Structure sémantique Après application de la règle 2 Information System (IS) File(FL) Database(DB) Data Warehouse(DW) Design(DS) Storage(ST) Cube(C)? Fact(F) Dimension(D) Ontologie O 2 Data Warehouse Design Null Design Null Dimension Structure sémantique Figure 10. Application de la règle 3. Dimension Structure sémantique Après application de la règle 3 A l issue de cette étape d inférence, tous les éléments de la structure logique du document sont associés soit à des concepts de l ontologie choisie, soit à la valeur Null. Il s agit maintenant de récupérer les métadonnées de la structure logique, en se référant aux métadonnées de Dublin Core. Dans notre exemple, la structure sémantique obtenue au final (après les 5 phases) est celle présentée dans la Figure Expérimentations Pour valider notre approche, nous proposons de tester les formules proposées dans cet article sur une collection des documents, dans les domaines des Sciences et

14 de la Médecine (issus de Wikipedia) et 18 ontologies de domaine que nous avons définies. La base de test utilisée est décrite dans le tableau 1. Description Nombre Documents 240 Eléments feuilles 944 Eléments non feuilles 480 Ontologies 18 Concepts 223 Tableau 1. Caractéristiques de la base de tests Afin de vérifier et de valider l apport de la pondération des ontologies, nous avons réalisé 2 séries de tests : (1) sans tenir compte des poids des concepts des ontologies (Algorithme Sans_Poids) et (2) en tenant compte de la pondération automatique des concepts des ontologies (Algorithme Avec_Poids). Dans ce qui suit, nous présentons les différents résultats obtenus. Le tableau 2 présente le nombre d ontologies associées aux documents selon les deux algorithmes. Description Sans_Poids Avec_Poids Nombre de documents ayant été associés à une seule ontologie 215/ /240 Tableau 2. Nombre d ontologies associées aux documents. Nous observons dans le tableau 2, qu avec l algorithme Avec_Poids, une seule ontologie a été associée à chaque document. Alors que, avec l algorithme Sans_Poids, deux ontologies ou plus ont été associées à 25 (= ) documents. Ce qui représente une amélioration de % entre les deux algorithmes. Dans le tableau 3, nous avons examiné l association des ontologies aux documents pour savoir celles qui ont été correctement associées. Description Sans_Poids Avec_Poids Ontologies correctement associées Ontologies non correctement associées Tableau 3. Association des ontologies aux documents La pondération automatique des poids a amélioré l affectation des ontologies aux documents par rapport à l algorithme sans poids. Néanmoins, nous constatons que 10 documents parmi les 240 n ont pas été affectés aux bonnes ontologies, cela est dû au faite que les documents peuvent faire référence à d autres domaines. Nous nous intéressons maintenant à l apport de la pondération des concepts des ontologies sur l association de concepts aux éléments feuilles.

15 Description Sans_Poids Avec_Poids Nombre d éléments feuilles associés à un seul concept. 361/ /464 Nombre d éléments feuilles associés à plus qu un concept. 103/464 14/464 Tableau 4. Association des concepts aux éléments feuilles. Les documents intégrés dans la base de tests comprennent 944 éléments feuilles (480 éléments métadonnées comme Editeur et Date, et 464 éléments représentant des contenus textuels, tels que : Section et Paragraphe). Un seul concept a été associé à 361 éléments feuilles par l algorithme Sans_Poids et à 450 éléments feuilles par l algorithme Avec_Poids. Ce qui a apporté une amélioration de 19.18% entre les deux méthodes. Ces résultats s expliquent par le fait que dans un élément nous trouvons la même apparition d un concept et de son concept-fils, l algorithme Sans_Poids affecte ces deux concepts à l élément en question. Par contre, l algorithme Avec_Poids retient le concept fils (qui est plus précis) car la pondération automatique des ontologies proposée dans cette approche donne plus d importance aux concepts fils. Rappelons qu après l affectation des concepts aux éléments feuilles, nous nous intéressons à attribuer des concepts aux éléments non feuilles de la structure et ceci en procédant par inférence des concepts des feuilles vers leurs ascendants. Notre expérience consiste à tester le nombre d application des règles d inférences. Le tableau 5 présente le nombre d utilisation de chaque règle d inférence. Règles d inférence Nombre d utilisation Règle 1 78 Règle Règle 3 40 Tableau 5. Fréquence d utilisation des règles. Nous remarquons que la règle 2 est la plus utilisée. Cela peut s expliquer par le fait que les documents traités dans notre collection traitent un seul domaine. 8. Conclusion Ce travail présente une approche pour la définition des structures sémantiques des documents XML à partir de leurs structures spécifiques et de leurs contenus. Cette approche commence tout d abord par l extraction des termes significatifs pour les éléments feuilles (fragments textuels) d un document XML. Ensuite, nous déterminons l ontologie qui sera affectée au document, celle qui décrit sa sémantique. Par la suite, nous associons, à chaque élément de la structure spécifique du document, le concept significatif de l ontologie retenue. Enfin, nous dérivons les métadonnées à partir de la structure logique. Les expérimentations réalisées

16 montrent que la pondération automatique des ontologies a amélioré l affectation des ontologies aux documents et l association des concepts aux éléments feuilles. Dans (Khrouf et al., 2011), nous avons proposé une approche d analyse multidimensionnelle des documents XML orienté-données, en se basant essentiellement sur leur structure logique. La détermination des structures sémantiques comme définies dans cet article permettra d étendre les analyses multidimensionnelles aux documents XML orienté-texte. Plusieurs perspectives à ces travaux sont envisageables. Dans un premier temps, il est important de réaliser des expérimentations sur une collection plus importante de documents XML. Il nous faudra pour cela construire une collection de tests car il n existe pas à ce jour de bases dédiées à ce type de traitements. Nous comptons également étendre ces travaux par la possibilité d associer plusieurs structures sémantiques à un même document XML (multi-structuralité sémantique des documents) afin de traduire les points de vue de plusieurs lecteurs. 9. Bibliographie Abascal R., «Nouveau modèle de documents pour une bibliothèque numériques de thèses accessible par leur contenu sémantique», Thèse de doctorat, INSA, Lyon, Baeza-Yates R., Ribero-Neto B., «Modern Information Retrieval», Addison Wesley, Baziz M., Boughanem M., Prade H., «Une approche de représentation de l'information en RI basée sur les sous-arbres», Conférence en Recherche d'information et Applications (CORIA 2007), p , Saint-Etienne, France, Ben Messaoud I., Feki J., Khrouf K., Zurfluh G., «Unification of XML Document Structures for DOCW», International Conference on Enterprise Information Systems (ICEIS 11), p , Beijing, China, Gesche S., Egyed-Zsigmond E., Calabretto S., Caplat G., Beney J., «Classification supervisée sémantique d articles de presse en français», Atelier Recherche d'information Sémantique, Marseille, France, Harrathi R., Calabretto S. «Une approche de recherche sémantique dans les documents semistructurés», Atelier Recherche d Information Sémantique, Marseille, France, Khrouf K., Feki J., Soulé-Dupuy C., «An Approach for Multidimensional Analysis of Documents», International Conference on Information Systems and Economic Intelligence, p , Marrakech, Maroc, Salton G., Fox E.A., Wu H., «Introduction to Modern Information Retrieval», McGraw Hill International Book Company, Tagarelli A., Greco S., «Semantic clustering of XML documents», ACM Transactions on Information Systems (TOIS), Volume 28, Issue 1, January Upasana P., Chakraverty S., Rahul J., «Context Driven Technique for Document Classification», International Conference on Advances in Computer Science, India, Zargayouna, H., Salotti, S., «Mesure de similarité dans une ontologie pour l'indexation sémantique de documents XML», Ingénieries des Connaissances (IC 2004), 2004.

Structuration sémantique des documents XML : Expérimentations et évaluation

Structuration sémantique des documents XML : Expérimentations et évaluation Structuration sémantique des documents XML : Expérimentations et évaluation Salma Ben Meftah* ² Kaïs Khrouf* ² Jamel Feki* ² Chantal Soulé- Dupuy** * Laboratoire MIRACL, Université de Sfax, B.P. 1088,

Plus en détail

Indexation et interrogation de photos de presse décrites en MPEG-7

Indexation et interrogation de photos de presse décrites en MPEG-7 Indexation et interrogation de photos de presse décrites en MPEG-7 Emmanuel Bruno Jacques Le Maitre Elisabeth Murisasco Laboratoire SIS, Equipe Informatique Université de Toulon et du Var Bâtiment R, BP

Plus en détail

Les documents primaires / Les documents secondaires

Les documents primaires / Les documents secondaires Les documents primaires / Les documents secondaires L information est la «matière première». Il existe plusieurs catégories pour décrire les canaux d information (les documents) : - Les documents primaires

Plus en détail

Initiation à la recherche documentaire

Initiation à la recherche documentaire Initiation à la recherche documentaire 1 Objectifs Cette séance est destinée à reprendre les principes de la démarche documentaire pour construire un parcours pertinent en terme de méthodologie et de résultats

Plus en détail

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et

Plus en détail

Rédiger un rapport technique

Rédiger un rapport technique Rédiger un rapport technique Prof. N. Fatemi Plan Introduction Présentation écrite Programmation du travail Rédaction Conseils génériques Références 2 Introduction Objectifs du cours Savoir étudier un

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Référencement dans des bases de données

Référencement dans des bases de données Marketing Site web du guide des ressources pour l édition de revues numériques Coordination : Ghislaine Chartron et Jean-Michel Salaun Doctorant en science de l'information La création numérique, ou la

Plus en détail

Indexation de sous-collections pour l amélioration de la haute précision

Indexation de sous-collections pour l amélioration de la haute précision Indexation de sous-collections pour l amélioration de la haute précision Joëlson Randriamparany *,** *IRIT, Institut de Recherche Informatique de Toulouse Université Paul Sabatier Toulouse III 118 Route

Plus en détail

Contexte général de l étude

Contexte général de l étude 1 2 Contexte général de l étude Les entrepôts de données associés à des outils d analyse On Line Analytical Processing (OLAP), représentent une solution effective pour l informatique décisionnelle (Immon,

Plus en détail

Système adaptatif d aide à la génération de requêtes de médiation

Système adaptatif d aide à la génération de requêtes de médiation Système adaptatif d aide à la génération de requêtes de médiation Dimitre Kostadinov Verónika Peralta Assia Soukane Xiaohui Xue Laboratoire PRiSM, Université de Versailles 45 avenue des Etats-Unis 78035

Plus en détail

Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif

Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif 1 Introduction à l'analyse de contenu qualitative : Voyage au pays du qualitatif Narration pour présentation Prezi (http://prezi.com/5tjog4mzpuhh/analyse-de-donneestextuelles-analyse-de-contenu-qualitative/)

Plus en détail

Rapport de méthodologie:

Rapport de méthodologie: Rapport de méthodologie: "Laboratoire on chip/lab-on-chip/loc" REMARQUE : La méthode employée est en tout point similaire à celle utilisée en groupe. Contents Rapport de méthodologie:... 1 "Laboratoire

Plus en détail

TECHNIQUES CARTOGRAPHIQUES

TECHNIQUES CARTOGRAPHIQUES TECHNIQUES CARTOGRAPHIQUES L automatisation de la cartographie par Anne Ruas Articles reproduits : «Construction des cartes générales à petite échelle à l aide d un système expert», par Jean- Claude Müller

Plus en détail

MATHÉMATIQUES. Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN

MATHÉMATIQUES. Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN MATHÉMATIQUES Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN Mars 2001 MATHÉMATIQUES Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN Mars 2001 Direction

Plus en détail

Gestion multi-stocks

Gestion multi-stocks Gestion multi-stocks Dans l architecture initiale du logiciel IDH-STOCK, 11 champs obligatoires sont constitués. Ces champs ne peuvent être supprimés. Ils constituent l ossature de base de la base de données

Plus en détail

RIHANE Abdelhamid Maitre de conférences Université de Constantine (ALGERIE) Abde_abd25@yahoo.fr

RIHANE Abdelhamid Maitre de conférences Université de Constantine (ALGERIE) Abde_abd25@yahoo.fr Pour la mise en place d une bibliothèque numérique au sein de la Faculté des Nouvelles Technologies de l Information et de la Communication à l Université de Constantine (Algérie) RIHANE Abdelhamid Maitre

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

pratiques. Nous avons abondamment illustré l'application correcte et efficace des nombreuses pratiques en assurance qualité par des cas pratiques.

pratiques. Nous avons abondamment illustré l'application correcte et efficace des nombreuses pratiques en assurance qualité par des cas pratiques. Cet ouvrage s inscrit dans le cadre d une problématique globale portant sur l amélioration de la qualité du logiciel pour des organismes qui ont atteint un certain niveau de maturité. Il cherche à rapprocher

Plus en détail

UNE DÉMARCHE D ANALYSE À BASE DE PATRONS POUR LA DÉCOUVERTE DES BESOINS MÉTIER D UN SID

UNE DÉMARCHE D ANALYSE À BASE DE PATRONS POUR LA DÉCOUVERTE DES BESOINS MÉTIER D UN SID 1 UNE DÉMARCHE D ANALYSE À BASE DE PATRONS POUR LA DÉCOUVERTE DES BESOINS MÉTIER D UN SID 31 janvier 2012 Bordeaux Présentée par :Mme SABRI Aziza Encadrée par : Mme KJIRI Laila Plan 2 Contexte Problématique

Plus en détail

ENRICHIR LES DONNEES DE DETAILS ACCEDEES A TRAVERS UN RAPPORT OLAP

ENRICHIR LES DONNEES DE DETAILS ACCEDEES A TRAVERS UN RAPPORT OLAP ENRICHIR LES DONNEES DE DETAILS ACCEDEES A TRAVERS UN RAPPORT OLAP SAS Web Report Studio offre depuis de nombreuses versions la possibilité de visualiser les observations spécifiques à partir des données

Plus en détail

TABLEAU DE BORD : SYSTEME D INFORMATION ET OUTIL DE PILOTAGE DE LA PERFOMANCE

TABLEAU DE BORD : SYSTEME D INFORMATION ET OUTIL DE PILOTAGE DE LA PERFOMANCE TABLEAU DE BORD : SYSTEME D INFORMATION ET OUTIL DE PILOTAGE DE LA PERFOMANCE INTRODUCTION GENERALE La situation concurrentielle des dernières années a confronté les entreprises à des problèmes économiques.

Plus en détail

EVOLUTIONS EXOGENES. REVER S.A. Belgique Tél : +32 71 20 71 61 http://www.rever.eu

EVOLUTIONS EXOGENES. REVER S.A. Belgique Tél : +32 71 20 71 61 http://www.rever.eu EVOLUTIONS EXOGENES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas être considérés comme un engagement

Plus en détail

Méthodologie de conceptualisation BI

Méthodologie de conceptualisation BI Méthodologie de conceptualisation BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information

Plus en détail

SÉMINAIRE TECHNIQUE SERVICES À VALEURS AJOUTÉES

SÉMINAIRE TECHNIQUE SERVICES À VALEURS AJOUTÉES SÉMINAIRE TECHNIQUE SERVICES À VALEURS AJOUTÉES NANCY 18-19 MARS 2015 Jean-Marie Pierrel Université de Lorraine OBJECTIFS DES SERVICES À VALEURS AJOUTÉES Définir des services à valeurs ajoutées sur la

Plus en détail

DECHARGEMENT ET CHARGEMENT MASSIF DES DONNEES

DECHARGEMENT ET CHARGEMENT MASSIF DES DONNEES DECHARGEMENT ET CHARGEMENT MASSIF DES DONNEES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas être

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

140. Modélisation des données Historisation

140. Modélisation des données Historisation Modélisation de logiciels de gestion 140. Modélisation des données Historisation 1 Préambule Dans les chapitres précédents, nous avons appris à concevoir des modèles de données relativement élaborés en

Plus en détail

Outil de documentation sur la réduction D : Système d archivage de l analyse de la réduction

Outil de documentation sur la réduction D : Système d archivage de l analyse de la réduction Outil de documentation sur la réduction D : Système d archivage de l analyse de la réduction A : Analyse des émissions sectorielles clés B : Dispositions institutionnelles pour les activités de réduction

Plus en détail

Le modèle de données

Le modèle de données Le modèle de données Introduction : Une fois que l étude des besoins est complétée, deux points importants sont à retenir : Les données du système étudié Les traitements effectués par le système documentaire.

Plus en détail

Fonctionnalités avancées de Word

Fonctionnalités avancées de Word BIBLIOTHÈQUE UNIVERSITAIRE DE LILLE 1 Thèses et littérature grise Fonctionnalités avancées de Word Bibliothèque de l université des sciences et technologies de Lille 1 Diffusion électronique des thèses

Plus en détail

Qu est-ce qu un catalogue?

Qu est-ce qu un catalogue? Qu est-ce qu un catalogue? Nathalie Piérache Novembre 2008 1 Qu est-ce qu un catalogue? Plan du cours Les catalogues Définition Bref historique des catalogues de bibliothèque Le rôle du catalogue Le catalogue

Plus en détail

DOCSaaS Cloud Computing Solutions

DOCSaaS Cloud Computing Solutions DOCSaaS Cloud Computing Solutions LA Plateforme Multiservices Documentaires spécialisée dans le document d entreprise www.docsaas.fr Gagnez en sérénité Mettez du «SMART» dans votre gestion documentaire.

Plus en détail

10 Prototypage rapide de logiciel pour les systèmes avioniques

10 Prototypage rapide de logiciel pour les systèmes avioniques Introduction Le contexte aéronautique 1 a depuis plusieurs années mis en évidence le besoin croissant de technologies de sécurité permettant d éviter des utilisations malveillantes des matériels ou services

Plus en détail

Vectorisation du modèle d appariement pour la recherche d images par le contenu

Vectorisation du modèle d appariement pour la recherche d images par le contenu - Vectorisation du modèle d appariement pour la recherche d images par le contenu Hanen Karamti 1 MIRACL, Université de Sfax Route de Tunis Km 10 B.P. 242, 3021, Sfax, Tunisie karamti.hanen@gmail.com RÉSUMÉ.

Plus en détail

Analyse de l évolution de la structure des ménages dans l enquête sur le budget des ménages

Analyse de l évolution de la structure des ménages dans l enquête sur le budget des ménages Analyse de l évolution de la structure des ménages dans l enquête sur le budget des ménages S. Winandy, R. Palm OCA GxABT/ULg oca.gembloux@ulg.ac.be décembre 2011 1 Introduction La Direction Générale Statistique

Plus en détail

Rapport concernant le dossier HDR de. M. Dr. Slimane HAMMOUDI

Rapport concernant le dossier HDR de. M. Dr. Slimane HAMMOUDI Prof. Michel LEONARD Département des Systèmes d Information Faculté des Sciences Économiques et Sociales CUI Batelle Bât A 7 route de Drize CH-1227 Carouge Tél. +41 22 379 02 27 Fax. +41 22 379 02 79 Rapport

Plus en détail

Les quatrièmes et l histoire des arts

Les quatrièmes et l histoire des arts Les quatrièmes et l histoire des arts Objectifs documentaires Mettre en œuvre l ensemble des savoirs en recherche et maîtrise de l information pour réaliser un dossier documentaire. Objectifs disciplinaires

Plus en détail

INGÉNIERIE DES CONNAISSANCES BCT (3b)

INGÉNIERIE DES CONNAISSANCES BCT (3b) 08.12.1999 INGÉNIERIE DES CONNAISSANCES BCT (3b) Nathalie Aussenac-Gilles (IRIT) Jean Charlet (DSI/AP-HP) Ingénierie des connaissances BCT (N. Aussenac-Gilles, J. Charlet) BCT-1 PLAN La notion de BCT :

Plus en détail

XML pour la mise en valeur des informations

XML pour la mise en valeur des informations XML pour la mise en valeur des informations Exploitez l'intelligence des documents! DIRO - Cours IFT3225 Une présentation d Irosoft Inc. Alain Lavoie Septembre 2011 Qui suis-je? Alain Lavoie B.Sc. Mathématique-Informatique

Plus en détail

GUIDE PRATIQUE COMPTABILITE CREANCIERS. Version 1.0 du 27 septembre 2013

GUIDE PRATIQUE COMPTABILITE CREANCIERS. Version 1.0 du 27 septembre 2013 GUIDE PRATIQUE COMPTABILITE CREANCIERS Version 1.0 du 27 septembre 2013 Table des matières 1. Introduction... 3 1.1. Les comptabilités auxiliaires... 3 2. Paramètres de bases... 3 2.1. Les conditions de

Plus en détail

Use Cases. Introduction

Use Cases. Introduction Use Cases Introduction Avant d aborder la définition et la conception des UC il est bon de positionner le concept du UC au sein du processus de développement. Le Processus de développement utilisé ici

Plus en détail

Groupe Eyrolles, 2003, ISBN : 2-212-11317-X

Groupe Eyrolles, 2003, ISBN : 2-212-11317-X Groupe Eyrolles, 2003, ISBN : 2-212-11317-X 3 Création de pages dynamiques courantes Dans le chapitre précédent, nous avons installé et configuré tous les éléments indispensables à la mise en œuvre d une

Plus en détail

L accès en ligne aux manuscrits Possibilités de XML, systèmes de navigation, référencement

L accès en ligne aux manuscrits Possibilités de XML, systèmes de navigation, référencement L accès en ligne aux manuscrits Possibilités de XML, systèmes de navigation, référencement Raphaële Mouren, Enssib (raphaele.mouren@enssib.fr) Isabelle Westeel, Bibliothèque municipale de Lille (iwesteel@mairie-lille.fr)

Plus en détail

plate-forme PaaS (Audit)

plate-forme PaaS (Audit) Contrôle d accès dans une plate-forme PaaS (Audit) Ahmed BOUCHAMI, Olivier PERRIN, LORIA Introduction La sécurité d une plate-forme collaborative nécessite un module d authentification et un module de

Plus en détail

Cours. Base de données. Bac SI: Sciences de l informatique. Démarche de détermination de la structure d'une base de données

Cours. Base de données. Bac SI: Sciences de l informatique. Démarche de détermination de la structure d'une base de données 26/07/2015 Par : Hamdi Yasser 1 Cours Base de données Bac SI: Sciences de l informatique Démarche de détermination de la structure d'une base de données Une base de données est une collection de données

Plus en détail

Construction et enrichissement automatique d ontologie à partir de ressources externes

Construction et enrichissement automatique d ontologie à partir de ressources externes Construction et enrichissement automatique d ontologie à partir de ressources externes JFO 2009 Jeudi 3 décembre 2009 E. Kergosien (LIUPPA, Pau) M. Kamel (IRIT- UPS, Toulouse) M. Sallabery (LIUPPA, Pau)

Plus en détail

Introduction à la gestion de projets. Laurent Poinsot. Introduction. 26 janvier 2009

Introduction à la gestion de projets. Laurent Poinsot. Introduction. 26 janvier 2009 26 janvier 2009 Le modèle du est une méthodologie de développement logiciel qui est devenue un standard de l industrie logicielle. Ce modèle est constitué de deux phases : l une est dite descendante et

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

Design Patterns. Pourquoi utiliser des patterns? Pourquoi utiliser des patterns? Les patterns vue de loin. D où viennent les design patterns?

Design Patterns. Pourquoi utiliser des patterns? Pourquoi utiliser des patterns? Les patterns vue de loin. D où viennent les design patterns? Noël NOVELLI ; Université de la Méditerranée ; LIF et Département d Informatique Case 901 ; 163 avenue de Luminy 13 288 MARSEILLE cedex 9 Design Patterns D où viennent les design patterns? D où viennent

Plus en détail

CRÉER DES NUAGES DE MOTS CLÉS EN SMS

CRÉER DES NUAGES DE MOTS CLÉS EN SMS CRÉER DES NUAGES DE MOTS CLÉS EN SMS Depuis quelques mois, on peut voir apparaître dans divers périodiques ou sur différents sites des nuages de mots clés (voir site du GRISMS) permettant d être dirigé

Plus en détail

Les stratégies de rupture

Les stratégies de rupture DOSSIER Les stratégies de rupture sous la direction de Laurence Lehmann-Ortega Pierre Roy DOSSIER LAURENCE LEHMANN-ORTEGA HEC Paris PIERRE ROY Université Montpellier 1, ISEM Introduction Une nouvelle

Plus en détail

Résumé du chapitre 8 Ressources et interblocage

Résumé du chapitre 8 Ressources et interblocage Résumé du chapitre 8 Ressources et interblocage Jacques Mossière 12 août 2004 1 Introduction Ce chapitre est consacré à l étude d un problème classique dans les systèmes, l interblocage, c est à dire l

Plus en détail

Projet : Plan Assurance Qualité

Projet : Plan Assurance Qualité Projet : Document : Plan Assurance Qualité 2UP_SPEC_DEV1 VERSION 1.00 Objet Ce document a pour objectif de définir la démarche d analyse et de conception objet ainsi les activités liées. Auteur Eric PAPET

Plus en détail

1 - Informatisation du PCS

1 - Informatisation du PCS FICHE N 25 : LES OUTILS INFORMATIQUES Le développement des outils informatiques laisse entrevoir une possible utilisation de ces derniers dans le cadre de la gestion d un événement de sécurité civile.

Plus en détail

Les modes de recherche sur le Web 2.0

Les modes de recherche sur le Web 2.0 Les modes de recherche sur le Web 2.0 1 Sommaire 1. Contexte 2. Le collaboratif : les moteurs thématiques 3. La syndication des résultats de recherche 4. Les connaissances : des moteurs 2 1 1. Moteurs

Plus en détail

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE

L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE L ANALYSE DU RISQUE DE FAILLITE PAR LE BIAIS DES SYSTÈMES DE L INTELLIGENCE ARTIFICIELLE Paul Pașcu, Assist Prof, PhD, Ștefan cel Mare University of Suceava Abstract: This article aims to present a number

Plus en détail

Le modèle de données

Le modèle de données Le modèle de données Introduction : Une fois que l étude des besoins est complétée, deux points importants sont à retenir : Les données du système étudié Les traitements effectués par le système documentaire.

Plus en détail

La recherche documentaire et la recherche d informations professionnelles. BU Sciences BIU Montpellier PPE 2012

La recherche documentaire et la recherche d informations professionnelles. BU Sciences BIU Montpellier PPE 2012 La recherche documentaire et la recherche d informations professionnelles 1 Introduction : la pratique étudiante Où commencez vous habituellement votre recherche d information? 84% des étudiants de 1er

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

Veille technologique en télécommunications

Veille technologique en télécommunications Veille technologique en télécommunications Khalid EL HIMDI Ismail KASSOU Hamid MACHCHOUR 1 Techniques d analyse de contenus L analyse de contenus est au cœur de la gestion du cycle de vie de l information

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Valoriser vos bases de connaissances avec AMI Help Desk. AMI Enterprise Discovery version 3.9

Valoriser vos bases de connaissances avec AMI Help Desk. AMI Enterprise Discovery version 3.9 Valoriser vos bases de connaissances avec AMI Help Desk AMI Enterprise Discovery version 3.9 Février 2005 Sommaire 1 Objectifs d AMI Help Desk...3 2 Principes de fonctionnement...3 2.1 Mode de travail

Plus en détail

LES DÉTERMINANTS DE MATRICES

LES DÉTERMINANTS DE MATRICES LES DÉTERMINANTS DE MATRICES Sommaire Utilité... 1 1 Rappel Définition et composantes d'une matrice... 1 2 Le déterminant d'une matrice... 2 3 Calcul du déterminant pour une matrice... 2 4 Exercice...

Plus en détail

RECUEIL POLITIQUE DES

RECUEIL POLITIQUE DES RECUEIL DES RÈGLES DE GESTION POLITIQUE DE GESTION INTÉGRÉE DES DOCUMENTS (PO-24) RECUEIL DES RÈGLES DE GESTION POLITIQUE DE GESTION INTÉGRÉE DES DOCUMENTS (PO-24) Adoptée par le Conseil d'administration

Plus en détail

Analyse des coûts projetés de la plate-forme SAP HANA

Analyse des coûts projetés de la plate-forme SAP HANA Étude Total Economic Impact réalisée par Forrester Pour SAP Directrice du projet : Shaheen Parks Avril 2014 Analyse des coûts projetés de SAP HANA Économies réalisables en migrant vers SAP HANA Synthèse

Plus en détail

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille La Veille multilingue : outils et ressources pour les traducteurs Jean-Paul PINTE Institut Catholique de Lille Premier Colloque International sur la veille multilingue Genève les 28 et 29 mai 2008 Nous

Plus en détail

Nous trouvons là les deux thématiques abordées par les deux parties de l ouvrage.

Nous trouvons là les deux thématiques abordées par les deux parties de l ouvrage. $YDQWSURSRV La mise en œuvre du pilotage des systèmes de production constitue un enjeu sensible en raison, d une part, de l accroissement du niveau d automatisation de ceux-ci et, d autre part, de la multiplication

Plus en détail

Rappel sur les bases de données

Rappel sur les bases de données Rappel sur les bases de données 1) Généralités 1.1 Base de données et système de gestion de base de donnés: définitions Une base de données est un ensemble de données stockées de manière structurée permettant

Plus en détail

PHYSIQUE. 5 e secondaire. Optique PHY-5041-2 DÉFINITION DU DOMAINE D EXAMEN

PHYSIQUE. 5 e secondaire. Optique PHY-5041-2 DÉFINITION DU DOMAINE D EXAMEN PHYSIQUE 5 e secondaire Optique PHY-5041-2 DÉFINITION DU DOMAINE D EXAMEN MAI 1999 Quebec PHYSIQUE 5 e secondaire Optique PHY-5041-2 DÉFINITION DU DOMAINE D EXAMEN MAI 1999 Direction de la formation générale

Plus en détail

Livret du Stagiaire en Informatique

Livret du Stagiaire en Informatique Université François-Rabelais de Tours Campus de Blois UFR Sciences et Techniques Département Informatique Livret du Stagiaire en Informatique Licence 3ème année Master 2ème année Année 2006-2007 Responsable

Plus en détail

Homophone. Année et sujet: 6e année. Domaine : Français. Enseignant : Philippe Ledaga. Attente : C4. publier ses textes.

Homophone. Année et sujet: 6e année. Domaine : Français. Enseignant : Philippe Ledaga. Attente : C4. publier ses textes. Homophone Année et sujet: 6e année Domaine : Français Enseignant : Philippe Ledaga Attente : C4. publier ses textes. C5. intégrer ses connaissances des référents de la francophonie d ici et d ailleurs

Plus en détail

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Problématiques de recherche. Figure Research Agenda for service-oriented computing Problématiques de recherche 90 Figure Research Agenda for service-oriented computing Conférences dans le domaine ICWS (International Conference on Web Services) Web services specifications and enhancements

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

Chapitre 4 Modélisation et Conception de BD

Chapitre 4 Modélisation et Conception de BD Pourquoi une modélisation préalable? Chapitre 4 Modélisation et Conception de BD Il est difficile de modéliser un domaine sous une forme directement utilisable par un SGBD. Stockage physique Cohérence/intégrité

Plus en détail

Méthodologies de développement de logiciels de gestion

Méthodologies de développement de logiciels de gestion Méthodologies de développement de logiciels de gestion Chapitre 5 Traits caractéristiques des deux approches de méthodologie Présentation réalisée par P.-A. Sunier Professeur à la HE-Arc de Neuchâtel http://lgl.isnetne.ch

Plus en détail

Offre de formation de troisième cycle (LMD)

Offre de formation de troisième cycle (LMD) Offre de formation de troisième cycle (LMD) (Arrêté n 250 du 28 juillet 2009, fixant l organisation de la formation de troisième en vue de l obtention du diplôme de doctorat) Etablissement Faculté / Institut

Plus en détail

Apprentissage de structure dans les réseaux bayésiens pour

Apprentissage de structure dans les réseaux bayésiens pour Apprentissage de structure dans les réseaux bayésiens pour la détection d événements vidéo Siwar Baghdadi 1, Claire-Hélène Demarty 1, Guillaume Gravier 2, et Patrick Gros 3 1 Thomson R&D France, 1 av Belle

Plus en détail

Référentiels partagés. Définition et positionnement dans le SI

Référentiels partagés. Définition et positionnement dans le SI Référence : CNRS / DSI / REFERENTIELS / Référentiels_applications_v5.doc Date : janvier 2005 Version : 5.0 Auteurs : Equipe Référentiels du projet RUE (Référentiels Urbanisation EAI) Passage de la version

Plus en détail

Chapitre 2 : Conception de base de données relationnelle

Chapitre 2 : Conception de base de données relationnelle Chapitre 2 : Conception de base de données relationnelle Le modèle entité-association 1. Les concepts de base 1.1 Introduction Avant que la base de données ne prenne une forme utilisable par le SGBD il

Plus en détail

UNIVERSITE DE LORRAINE CALCIUM

UNIVERSITE DE LORRAINE CALCIUM UNIVERSITE DE LORRAINE CALCIUM Outil pour la gestion des dossiers médicaux des étudiants dans les services universitaires de médecine préventive Table des matières CALCIUM... 0 I. L INFORMATION GÉRÉE PAR

Plus en détail

Recherche documentaire avec BCDI 3 : méthodologie

Recherche documentaire avec BCDI 3 : méthodologie Lycée Blaise Pascal CDI Cécile Querrioux Eric Valière Liliane Denis Recherche documentaire avec BCDI 3 : méthodologie Le logiciel documentaire BCDI3 permet de trouver : des références de documents présents

Plus en détail

PCA appliqué à la 2D et 3D Dernière mise à jour : avril 2011

PCA appliqué à la 2D et 3D Dernière mise à jour : avril 2011 Projet 2009 2010 Biométrie 3D PCA appliqué à la 2D et 3D Dernière mise à jour : avril 2011 Département : TIC Mots clés : Biométrie, Analyse d images, Vision, Caméra thermique, Caméra temps de vol, Détection

Plus en détail

Information géographique: mode d'emploi!

Information géographique: mode d'emploi! Information géographique: mode d'emploi! " Comment décrire et documenter ses données? " Journées d animation CIGAL ~ 19 avril 2012 Maison de la Région Alsace Strasbourg Amphithéâtre Rez-de-chaussée Qu

Plus en détail

Contributions à l étude des mesures sémantiques

Contributions à l étude des mesures sémantiques Contributions à l étude des mesures sémantiques École des mines d Alès Sébastien Harispe Plan Contributions à l étude des mesures sémantiques Estimation d IC par les fonctions de croyance Plan Contributions

Plus en détail

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES

PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES PLATEFORME DE GESTION DE CONGRÈS SCIENTIFIQUES ANF Sciencesconf Meudon 10/11 octobre 2013 http://www.sciencesconf.org ! Sommaire La plateforme Sciencesconf.org Le portail L espace conférence Site web Gestion

Plus en détail

RT 2.6. Module 4 : Création des bases de données géographiques historiques

RT 2.6. Module 4 : Création des bases de données géographiques historiques RT 2.6 Module 4 : Création des bases de données géographiques historiques 1. Présentation générale du processus... 2 2. Pré-traitements de données... 3 2.1 Création des fichiers shapes à différentes dates

Plus en détail

UE 8 Systèmes d information de gestion Le programme

UE 8 Systèmes d information de gestion Le programme UE 8 Systèmes d information de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur Indications

Plus en détail

Algorithmique et Programmation Projets 2012/2013

Algorithmique et Programmation Projets 2012/2013 3 Dames 3. Objectif Il s agit d écrire un programme jouant aux Dames selon les règles. Le programme doit être le meilleur possible. Vous utiliserez pour cela l algorithme α β de recherche du meilleur coup

Plus en détail

Charte. Qualité et Service VOTRE SATISFACTION 2009-2010 NOTRE PRIORITÉ : Recherche et Information. Développement de Clientèle

Charte. Qualité et Service VOTRE SATISFACTION 2009-2010 NOTRE PRIORITÉ : Recherche et Information. Développement de Clientèle Charte Qualité et Service 2009-2010 NOTRE PRIORITÉ : VOTRE SATISFACTION TOUTES VOS SOLUTIONS D INFORMATION ET DE GESTION Recherche et Information Solution de Gestion Métier Gestion du Risque Développement

Plus en détail

Création d un catalogue en ligne

Création d un catalogue en ligne 5 Création d un catalogue en ligne Au sommaire de ce chapitre Fonctionnement théorique Définition de jeux d enregistrements Insertion de contenu dynamique Aperçu des données Finalisation de la page de

Plus en détail

La cartographie des brevets au service de la propriété industrielle

La cartographie des brevets au service de la propriété industrielle Forum technologique d Afrique de l Ouest et Centrale pour l exploitation industrielle des résultats de recherche en Afrique La cartographie des brevets au service de la propriété industrielle Une revue

Plus en détail

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006 Les outils de veille sur Internet Panorama, évolutions, nouveautés Myriel Brouland SCIP France -10 Mai 2006 1 La veille en France: une situation paradoxale Une situation contrastée Une prise de conscience

Plus en détail

GUIDE DES BONNES PRATIQUES SEO

GUIDE DES BONNES PRATIQUES SEO GUIDE DES BONNES PRATIQUES SEO 1 Aujourd hui, les moteurs de recherche comme Google sont de plus en plus précis pour détecter les sites intéressants et le référencement est à l heure actuelle incontournable

Plus en détail

Taxonomie Design et implantation

Taxonomie Design et implantation Taxonomie Design et implantation AIIM First Canadian Chapter - Montréal 21 février 2012 1 Sommaire de la présentation Taxonomie : définitions et exemples Taxonomie Pourquoi utiliser une taxonomie? Comment

Plus en détail

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques Guide de recherche documentaire à l usage des doctorants Partie : Exploiter les bases de données académiques Sylvia Cheminel Dernière mise à jour : décembre 04 PANORAMA DES SOURCES DOCUMENTAIRES ACADEMIQUES...

Plus en détail

et de la feuille de styles.

et de la feuille de styles. Feuilles de style / mars 2007 Manuel d'utilisation du modèle enssib et de la feuille de styles. Writer Open Office Service des produits documentaires Contact : Richard Grenier 2e étage enssib Tél : 04

Plus en détail