UNIVERSITÉ DU QUÉBEC À MONTRÉAL REFORMULATION AUTOMATIQUE DE REQUÊTES PAR INTÉGRATION D'ÉLÉMENTS SYNTAXIQUES DANS LE CADRE DU REPÉRAGE DE

Dimension: px
Commencer à balayer dès la page:

Download "UNIVERSITÉ DU QUÉBEC À MONTRÉAL REFORMULATION AUTOMATIQUE DE REQUÊTES PAR INTÉGRATION D'ÉLÉMENTS SYNTAXIQUES DANS LE CADRE DU REPÉRAGE DE"

Transcription

1

2 UNIVERSITÉ DU QUÉBEC À MONTRÉAL REFORMULATION AUTOMATIQUE DE REQUÊTES PAR INTÉGRATION D'ÉLÉMENTS SYNTAXIQUES DANS LE CADRE DU REPÉRAGE DE L'INFORMATION EN FRANÇAIS SUR LE WEB THÈSE PRÉSENTÉE COMME EXIGENCE PARTIELLE DU DOCTORAT EN INFORMATIQUE COGNITIVE PAR EMMANUEL CHIEZE AVRIL 2006

3 REMERCIEMENTS Je tiens à remercier mon directeur de thèse, Lorne H. Bouchard, professeur au département d'informatique de l'uqam, et ma codirectrice de thèse, Louisette Emirkanian, professeure au département de linguistique et de didactique des langues de l'uqam, pour leur soutien, leurs encouragements et leurs bons conseils tout au long de ce projet de longue haleine. Je tiens à remercier les deux examinateurs de la proposition de thèse, Robert Godin, professeur au département d'informatique de l'uqam, et Denis Bouchard, professeur au département de linguistique et de didactique des langues, pour avoir pris le temps de lire ma proposition et de me faire part de leurs recommandations. Je tiens également à remercier les membres du jury de soutenance de thèse (noms à venir) pour avoir pris le temps de lire la thèse et de me faire part de leurs observations.

4 v TABLE DES MATIÈRES LISTES DES FIGURES... xi LISTE DES TABLEAUX... xii LISTE DES ACRONYMES... xv RÉSUMÉ... xvi INTRODUCTION... 1 CHAPITRE 1 PROBLÉMATIQUE RI et interrogation de bases de données Niveau de structuration des données Types de besoins en information Les différents types de Repérage de l'information Principes de la mise en œuvre du RI La représentation des documents dans la base de données documentaire Exécution de requêtes dans le modèle plein texte Spécificités du RI sur le Web Le Web comme collection de documents Spécificités des moteurs de recherche du Web Le comportement des utilisateurs de moteurs de recherche du Web Aspects cognitifs du RI Problématique générale du RI du point de vue cognitif... 22

5 vi Aspects cognitifs de la reformulation de requêtes Limites associées au modèle du sac de mots Évaluation des hypothèses sous-tendant le modèle du sac de mots Augmentation du rappel Augmentation de la précision Intégration d'expressions au RI sur le Web Sources potentielles d'expressions utilisables en RI Intégration des expressions à l'exécution de requêtes Conclusion CHAPITRE 2 INTÉGRATION D'EXPRESSIONS AU RI SUR LE WEB PAR REFORMULATION DE REQUÊTES Revue de la littérature sur l'extraction d'expressions Généralités sur l extraction d expressions Approches symboliques d'extraction d'expressions Approches statistiques d'extraction d'expressions Approches mixtes d'extraction d'expressions Une extraction d'expressions basée sur la fréquence Principes régissant l'extraction d'expressions dans un contexte de reformulation de requêtes orientées vers la précision Comptabilisation de la fréquence des chaînes de mots contenues dans les passages Sélection des chaînes de mots autonomes Prise en compte de la nature linguistique des chaînes de mots Une sélection mixte des chaînes de mots autonomes Regroupement des expressions obtenues... 72

6 vii Rapprochement des expressions de plusieurs mots et de leurs acronymes Rapprochement de mots et d abréviations de ces mots Rapprochement de variantes morphologiques Rapprochement de lemmes ne variant que par l'ordre de leurs termes Reformulation des requêtes Reformulation initiale de la requête Reformulations successives de la requête Expressions non exclusivement constituées de termes de la requête initiale Conclusion CHAPITRE 3 CADRE EXPÉRIMENTAL Choix d'une collection de documents et d'un moteur de recherche Utilisation d'une collection standard de documents Critères de sélection d'un moteur de recherche existant du Web Spécification des requêtes avec Google Exécution des requêtes par Google Spécification de la source des expressions Détermination des passages à utiliser Préparation des passages utilisés Évaluation des paramètres de l'extraction d'expressions et de la reformulation de requêtes Présentation des requêtes de tests utilisées pour paramétrer la méthode Évaluation des paramètres de la méthode Contrainte additionnelle sur la reformulation de requêtes

7 viii 3.4 Évaluation qualitative de la reformulation des requêtes Nombre de pages associées aux reformulations des requêtes Analyse des expressions extraites Analyse des regroupements d'expressions effectués Exécution de la requête avec ou sans prépositions et articles Conclusion CHAPITRE 4 ÉVALUATION DE LA MÉTHODE L'évaluation classique du RI Le paradigme de Cranfield L'approche de TREC et le pooling Mesures de performance du RI dans de grandes collections de documents Évaluation de la performance du RI sans évaluation de la pertinence des documents Hypothèse de l'objectivité de la pertinence d'un document Vers une évaluation à plusieurs niveaux de la pertinence des documents Différentes échelles de pertinence Mesures de la performance associées à une évaluation multivaluée de la pertinence Cadre expérimental de l'évaluation de notre méthode Détermination du jeu de requêtes d'évaluation Évaluation de la pertinence des documents Mesures de la performance des requêtes Évaluation du caractère effectif de la reformulation de requêtes Conclusion

8 ix CHAPITRE 5 RÉSULTATS DE L'ÉVALUATION Efficacité du processus de reformulation de requêtes Un processus non trivial de reformulation de requêtes Évaluation de la qualité de la reformulation des requêtes Impact de la reformulation des requêtes sur leurs résultats Caractérisation du jeu de requêtes utilisé Précisions sur l'évaluation de la pertinence des documents Caractérisation des requêtes du jeu d'évaluation Évaluation de l'impact de la reformulation sur la précision des requêtes Évaluation globale Examen des requêtes les plus affectées par la reformulation sous forme d'expression Synthèse et discussion des résultats Le processus d'extraction d'expressions Le processus de reformulation de requêtes La mise en oeuvre de la reformulation avec Google Le jeu de requêtes utilisé Les limites fondamentales associées à l'emploi d'expressions dans la formulation de requêtes Conclusion CONCLUSION ANNEXE A LISTE DES PRÉPOSITIONS, CONJONCTIONS, ARTICLES ET MOTS VIDES. 213 A.1 Prépositions, articles et conjonctions A.2 Mots vides issus des classes syntaxiques fermées, et séquences vides dérivées

9 x A.3 Autres mots vides ANNEXE B REQUÊTES DU JEU DE TEST ANNEXE C NOMBRE DE DOCUMENTS ASSOCIÉS AU REQUÊTES DU JEU DE TEST ANNEXE D REQUÊTES DU JEU D'ÉVALUATION BIBLIOGRAPHIE

10 xi LISTES DES FIGURES Figure 1.1 Le RI ad hoc dans les recherches de données informatisées...10 Figure 3.1 Copie d'écran du résultat de la requête recyclage ordures exécutée sur Google Figure 3.2 Exemple de requête TREC...110

11 xii LISTE DES TABLEAUX Tableau 1.1 Stratégies de reformulation des requêtes booléennes (rétroaction positive)...43 Tableau 2.1 Tableau 2.2 Tableau 2.3 Tableau 2.4 Tableau 2.5 Quelques exemples de l'application de notre méthode de racinisation...77 Résultat de l'extraction d'expressions (limité aux expressions ne contenant que des termes de la requête) : requête destruction de la forêt tropicale en amérique du sud.81 Résultat de l'extraction d'expressions (limité aux expressions ne contenant que des termes de la requête) : requête compagnies aériennes européennes et américaines...82 Résultat de l'extraction d'expressions (limité aux expressions ne contenant que des termes de la requête) : requête libre circulation des personnes en europe...83 Résultat de l'extraction d'expressions (limité aux expressions ne contenant que des termes de la requête) : requête économie de l'estonie...83 Tableau 2.6 Résultat de l'extraction d'expressions : requête oléoducs mondiaux...84 Tableau 3.1 Tableau 3.2 Tableau 3.3 Tableau 3.4 Tableau 3.5 Impact des prépositions sur le tri des documents : comparaison des 10 premiers résultats des requêtes peine de mort et peine mort Impact de l'ordre des mots sur le tri des documents : comparaison des 10 premiers résultats des requêtes peine mort et mort peine...97 Validation de l'évaluation de la taille des résultats faite par Google...98 Extraction de la page HTML de résultats des passages servant à l'extraction des expressions (5 premiers résultats de la requête recyclage ordures) Simplification des passages servant à l'extraction des expressions (5 premiers résultats de la requête recyclage ordures) Tableau 3.6 Source des requêtes du jeu de test de notre méthode Tableau 3.7 Tableau 3.8 Tableau 3.9 Requêtes du jeu de test identifiant moins de 100 documents Fixation du seuil S autonomie : expressions aberrantes exclusivement constituées de termes de la requête Fixation du seuil S autonomie : autres expressions aberrantes Tableau 3.10 Évaluation de S abréviation...116

12 xiii Tableau 3.11 Répartition des expressions extraites selon le nombre de mots non vides employés.120 Tableau 3.12 Répartition des expressions extraites selon leur structure syntaxique de surface Tableau 3.13 Liste des acronymes identifiés dans le jeu de test Tableau 3.14 Tableau 3.15 Liste des abréviations identifiées dans le jeu de test Liste des abréviations non identifiées dans le jeu de test Tableau 3.16 Variations dérivationnelles identifiées dans le jeu de test Tableau 3.17 Tableau 3.18 Tableau 3.19 Tableau 3.20 Variantes dérivationnelles non identifiées dans le jeu de test Regroupements d'expression dont l'ordre des lemmes varie (jeu de test) Regroupement d'expressions variant par leurs prépositions, conjonctions ou articles (jeu de test) Exécution de requêtes avec et sans prépositions (jeu de test) Tableau 4.1 Échelle de pertinence à 4 niveaux (Chignell et al, 1999) Tableau 4.2 Échelle de pertinence à 3 niveaux (Hawking, 2001) Tableau 4.3 Échelle de pertinence à 5 niveaux (Toms et al, 2002) Tableau 4.4 Échelle de pertinence à 4 niveaux (Sormunen, 2002) Tableau 4.5 Traduction française des requêtes anglaises du jeu d'évaluation Tableau 4.6 Échelle de pertinence à 4 niveaux retenue pour notre étude Tableau 4.7 Paramétrisation du DCG retenue dans notre étude : comparaison du poids assigné à chaque rang dans notre étude et dans une étude d'utilisateurs Tableau 4.8 Calcul détaillé de K (p) ((1,2,3,4,5),(1,6,4,3,2)) Tableau 5.1 Tableau 5.2 Tableau 5.3 Tableau 5.4 Répartition du nombre de requêtes par type de réécriture et selon le nombre de mots de la requête initiale Requêtes ayant nécessité un assouplissement de leur reformulation initiale Évaluation des différences entre les 10 premiers résultats des exécutions initiale et reformulée, par type de réécriture Détermination de la catégorie d'une requête Tableau 5.5 DCG moyen des requêtes initiales, par catégorie et sous-catégorie de requêtes

13 xiv Tableau 5.6 Tableau 5.7 Tableau 5.8 Tableau 5.9 Importance relative des catégories et sous-catégories de requêtes dans l'exécution initiale, en terme de nombre de documents et de nombre de requêtes associés Requêtes présentant des cas d'homonymie ou de polysémie pour l'être humain Requêtes présentant des cas d'homonymie ou de polysémie artificielle Variation de DCG suite à la reformulation de requêtes, par catégorie de requêtes..181 Tableau 5.10 Variation de DCG suite à la reformulation de requêtes, par type de reformulation.182 Tableau 5.11 Tableau 5.12 Tableau 5.13 Répartition des documents évalués par niveau de pertinence et sous-catégorie de pertinence Répartition des requêtes selon le type de reformulation effectuée et selon la variation de DCG observée Évaluation du nombre de requêtes ayant un nombre donné de documents du résultat initial satisfaisant à la reformulation Tableau 5.14 Requêtes les plus affectées par la reformulation Tableau 5.15 Tableau 5.16 Requêtes du jeu d'évaluation présentant des incohérences entre les sections Description et Narrative Requêtes du jeu d'évaluation dont le titre représente le BI sous-jacent de façon partielle...200

14 xv LISTE DES ACRONYMES ASL BI CLEF DCG EI EM ESL MAP QA RI TREC URL Average Search Length Besoin en information Cross Language Evaluation Forum Discounted Cumulative Gain Extraction d'information Expectative Mutuelle Expected Search Length Mean uninterpolated Average Precision Question Answering Repérage de l'information Text REtrieval Conference Uniform Resource Locator

15 RÉSUMÉ Notre thèse s'inscrit dans le cadre du repérage de l'information ad hoc sur le Web, dont l'enjeu principal réside dans l'amélioration de la précision dans les premiers résultats des requêtes. Nous proposons une méthode originale de reformulation automatique de requêtes visant à l'amélioration de la précision des requêtes sur le Web, et qui fonctionne sans utiliser de connaissances a priori sur un quelconque domaine de connaissances. Notre méthode repose sur l'hypothèse que la spécification explicite des liens syntaxiques entre les termes de la requête permet de réduire l'ambiguïté de cette dernière, et donc d'en augmenter la précision. Elle consiste à reformuler une requête sous forme de liste de mots en une requête constituée d'une ou plusieurs expressions. Elle se déroule en trois étapes : extraction d'expressions des résultats de la requête initiale, regroupement de ces termes en classes sémantiques selon des heuristiques simples, puis reformulation de la requête par substitution des expressions obtenues aux termes simples de la requête intiale les composant. Les deux premières étapes utilisent certaines connaissances linguistiques générales du français, et sont donc spécifiques à cette langue, quoiqu'elles pourraient certainement être facilement adaptées à d'autres langues. Aucune ressource lexicale n'est utilisée dans ce processus, qui est également indépendant de toute théorie ou formalisme spécifique de la linguistique computationnelle. Cette méthode de reformulation de requêtes repose en revanche sur certains paramètres, qui dépendent du cadre expérimental utilisé pour mettre en œuvre la méthode. Nous avons décidé d'utiliser directement la portion du Web indexée par un moteur de recherche généraliste populaire pour procéder à notre expérimentation. Nous avons alors utilisé un jeu de requêtes de tests afin de fixer expérimentalement la valeur des paramètres utilisés dans notre méthode d'extraction d'expressions et de reformulation de requêtes. Pour procéder à l'évaluation de notre méthode, nous avons utilisé une échelle d'évaluation de la pertinence à 4 niveaux associée à une mesure proposée récemment, le DCG, pour évaluer la performance de notre reformulation par rapport à l'exécution de la requête initiale par le moteur de recherche. Nous avons alors constitué un jeu de requêtes d'évaluation distinct de celui utilisé pour paramétrer la méthode. Nous avons montré que le processus de reformulation de requêtes que nous avons étudié est efficace, au sens où il génère des reformulations non triviales, de qualité et en général aisément interprétables par un être humain. Du point de vue de l'amélioration de la précision toutefois, nous n'avons pas pu montrer que notre méthode visant à expliciter directement des relations syntaxiques entre les termes de la requête initiale était globalement plus performante que la méthode implicite employée par le moteur de recherche, qui prend en compte la proximité des termes de la requête dans les documents pour trier ces derniers. Notre méthode améliore les résultats de certaines requêtes, mais nous n'avons trouvé aucun critère caractérisant ces dernières. Il existe toutefois des requêtes que notre méthode ne peut traiter : ce sont celles pour lesquelles il n'existe aucune configuration syntaxique récurrente entre les termes de la requête. Et inversement, il existe de nombreuses requêtes où la spécification explicite de la configuration syntaxique semble inutile, car une seule configuration naturelle semble exister. La prise en compte de la proximité des termes dans les documents suffit donc dans ces cas-là. Nous avons identifié quelques améliorations possibles à notre processus de reformulation de requêtes, mais avons montré que leur prise en compte ne changerait pas les conclusions auxquelles nous sommes arrivé. En effet, nous avons observé que les requêtes du jeu d'évaluation étaient souvent sous-spécifiées, mais rarement ambiguës. L'amélioration de la précision des requêtes sur le Web passe donc soit par l'ajout

16 xvii de termes additionnels dans un processus de reformulation de requêtes, soit par un processus de regroupement des documents de la requête initiale en sous-ensembles traitant chacun d'une facette particulière du thème spécifié par la requête intiale. MOTS-CLÉS : REPÉRAGE DE L'INFORMATION, WEB, MOTEURS DE RECHERCHE, REFORMULATION DE REQUÊTES KEYWORDS: INFORMATION RETRIEVAL, WEB, SEARCH ENGINES, QUERY REFORMULATION

17 1 INTRODUCTION Le Repérage de l'information (RI) est la discipline consistant à étudier des algorithmes informatiques permettant de trouver dans une base documentaire les documents pertinents à un besoin en information (BI) donné. Cette discipline issue de la bibliothéconomie a connu un regain d'intérêt considérable avec le développement du Web, qui a conduit à une explosion du nombre de documents disponibles dans une même collection et a un besoin grandissant de pouvoir identifier rapidement les documents traitant d'un sujet donné. Des moteurs de recherche du Web à accès public ont été conçus par différentes entreprises. Altavista était considéré comme à la pointe du développement dans ce domaine dans les années 1990, pour céder la place à Google dans les années Le RI sur le Web pose de nombreux défis techniques, tels que l'identification des documents, puisque n'importe qui peut rendre publiques de nouvelles pages sur le Web sans nécessairement en avertir les moteurs de recherche, leur rapatriement sur le site du moteur de recherche, le stockage et l'indexation de l'énorme volume de données que représentent l'ensemble des pages rapatriées ainsi que le traitement de gros volumes de requêtes d'utilisateurs. Nous avons préféré nous intéresser ici à la question fondamentale du RI : comment faire le lien entre le BI d'un utilisateur et le contenu des documents? La difficulté de cette question ne réside pas dans le fait que nous manquons de connaissances en informatique ou que la puissance de calcul des ordinateurs actuels est inadéquate. C'est en fait une question centrale des sciences cognitives qui est posée ici : comment passer d'une représentation interne de connaissances dans le cerveau de l'auteur d'un texte à sa représentation externe sous la forme d'une suite de mots, puis comment passer de cette représentation externe à la représentation interne que chaque lecteur du texte se fait dans son cerveau? Le seul objet observable dans ce processus est la représentation externe. On ne peut faire que des hypothèses sur les différentes représentations internes en jeu dans ce processus. La seule chose que l'on sache est que ces représentations varieront d'un individu à l'autre : deux lecteurs d'un même texte s'en feront des images mentales différentes, en fonction notamment de leurs connaissances préalables sur le domaine de référence, de leurs objectifs de lecture, du temps qu'ils ont à y consacrer...

18 2 L'approche du RI consiste à demander à un utilisateur ayant un BI à satisfaire à formuler une requête traduisant son BI sous la forme de listes de mots, puis à comparer cette requête aux différents documents connus du moteur de recherche de façon à trier les documents du plus pertinent au moins pertinent, en excluant les documents absolument non pertinents. Le RI ne travaille donc que sur des représentations externes de connaissances. Traditionnellement, le RI considère ces représentations de connaissances, qui incluent tant les documents que les requêtes des utilisateurs, comme de simples multi-ensembles de mots, ignorant de ce fait l'existence de relations syntaxiques entre les mots ou encore l'existence de relations pragmatiques résultant du simple voisinage de plusieurs mots dans un document donné. Il ignore également l'existence de variations morphologiques, considérant chaque variation comme un mot indépendant. Il ne prend pas plus en compte les phénomènes sémantiques, qui font qu'un mot donné peut avoir des sens distincts dans le cas de la polysémie, voire incompatibles dans le cas de l'homonymie, et qui font qu'une même idée peut se traduire dans des termes variés en raison de l'existence de relations par exemple de synonymie ou d'hyponymie. Cette approche, théoriquement extrêmement éloignée des complexités linguistiques et cognitives présentes dans les documents, présente l'avantage de pouvoir être associée à des algorithmes numériques efficaces permettant de rapprocher requêtes et documents. En pratique toutefois, on observe de légères variations par rapport à l'image présentée ci-dessus : ainsi certains moteurs de recherche (sur le Web ou en dehors) peuvent prendre en compte certaines variations morphologiques courantes, ou encore permettre la spécification de contraintes de proximité entre certains mots de la requête. Bien qu'imparfaits, les résultats obtenus étaient suffisamment bons pour que cette approche soit poursuivie, y compris sur le Web. Néanmoins, le RI sur le Web pose des défis additionnels par rapport au RI standard. Ainsi les collections de documents servant au RI standard sont généralement centrées sur un domaine de connaissances particulier, contrairement au Web qui est une collection généraliste. Cet état de fait augmente considérablement le risque que les termes composant une requête soient ambigus. De plus, le nombre de documents susceptibles d'être retournés par une requête sur le Web est de plusieurs ordres de grandeur supérieur à ceux identifiés par une requête classique. Or les utilisateurs du Web sont plus exigeants que ceux du RI classique, car ils limitent généralement leur consultation des résultats aux 10 premiers résultats d'une requête (et souvent à moins), ce qui impose une contrainte de performance plus élevée sur les requêtes du Web. De plus, ces utilisateurs sont généralement plus paresseux qu'en RI classique, dans le sens où ils formuleront des requêtes beaucoup plus courtes. Le risque que ces requêtes soient ambiguës s'accroît en conséquence. Il y a donc place à amélioration dans les résultats des moteurs de recherche du Web.

19 3 Nous avons choisi d'étudier un aspect particulier généralement non pris en compte dans l'exécution des requêtes, à savoir l'existence de liens syntaxiques entre les mots de la requête, qui sont intéressants en ce qu'ils reflètent l'existence de liens sémantiques ou pragmatiques entre ces mêmes termes. Nous proposons une approche permettant de détecter l'existence de tels liens puis de les intégrer de façon automatique dans des requêtes soumises par des utilisateurs, dans le but d'en améliorer les résultats par rapport à l'exécution de la requête sous la forme d'une simple liste de mots. Nous évaluerons ensuite l'efficacité de cette approche, et sa capacité à améliorer effectivement la qualité des résultats. Nous effectuerons dans le premier chapitre une revue de la littérature décrivant la problématique générale du RI plein texte et celle plus particulière du RI plein texte sur le Web. Nous étudierons ensuite les limites du modèle plein texte du point de vue cognitif, avant d'en examiner les limites du point de vue de la sémantique. Nous explorerons ensuite la voie qui nous semble la plus prometteuse pour tenter de pallier, ne serait-ce que partiellement, les limites du modèle plein texte, à savoir une reformulation automatique des requêtes de l'utilisateur qui prend en compte les expressions. Le deuxième chapitre sera consacré à la présentation de notre méthode de reformulation de requêtes, qui comporte trois étapes : extraction d'expressions saillantes des premiers résultats de la requête initiale, regroupement de ces expressions en classes d'équivalence sémantique, puis reformulation de la requête initiale. La réécriture de la requête devra tenir compte des spécificités du modèle booléen assorti d'un tri de type vectoriel utilisé sur le Web. Cette présentation sera précédée d'une revue de la littérature sur les mécanismes d'extraction d'expressions à partir d'un corpus. Le troisième chapitre présentera le cadre expérimental dans lequel nous évaluerons notre méthode. Nous justifierons en particulier le fait que nous travaillerons directement sur le Web, en complémentarité avec un moteur de recherche existant, plutôt que sur une collection fixe de documents. Nous présenterons alors ce moteur de recherche en détail. Nous procèderons ensuite au paramétrage de notre méthode de reformulation de requêtes, effectué au moyen d'un jeu de requêtes de tests et vérifierons la qualité des reformulations obtenues pour ce jeu de requêtes. Le quatrième chapitre sera consacré au cadre d'évaluation de notre méthode de reformulation de requêtes. Nous examinerons dans un premier temps l'évolution de l'évaluation du RI depuis les expériences de Cranfield jusqu'à TREC : il s'agit d'une évaluation classique de la performance du RI faisant appel à une évaluation binaire et supposément objective de la pertinence des documents. Nous aborderons dans un deuxième temps des propositions plus récentes, permettant de modéliser de façon plus réaliste la performance du RI en intégrant une pertinence multi-valuée et en prenant en compte

20 4 explicitement le rang des documents évalués dans le résultat des requêtes. Nous serons alors en mesure de présenter dans un troisième temps le cadre dans lequel se fera l'évaluation de notre méthode, qui tiendra compte des avantages et des inconvénients des méthodes présentées auparavant. Nous présenterons également le jeu de requêtes d'évaluation, distinct du jeu de requêtes de tests ayant servi au paramétrage de notre méthode de reformulation de requêtes. Le cinquième et dernier chapitre donnera les résultats de l'évaluation de notre méthode : nous apporterons des précisions sur les critères d'évaluation des documents, puis nous étudierons a posteriori les requêtes soumises à l'évaluation, avant d'évaluer globalement l'apport de notre méthode de reformulation de requêtes du point de vue du RI. Nous analyserons alors de façon détaillée les requêtes ayant le plus souffert ou bénéficié de cette reformulation, et présenterons ensuite une synthèse de ces analyses. Des voies de recherches ultérieures découlant seront finalement présentées en conclusion.

21 5 CHAPITRE 1 PROBLÉMATIQUE Notre recherche s'inscrit dans le cadre de l'utilisation des moteurs de recherche du Web et vise à l'amélioration de leur performance, jugée peu satisfaisante à ce jour. Pour cela, nous situerons dans un premier temps le Repérage de l'information (RI) dans le cadre plus général des techniques d'interrogation de bases de données. Dans un second temps, nous détaillerons le modèle fondamental permettant de mettre en œuvre le RI, le modèle plein texte, et en établirons les limites. Dans un troisième temps, nous présenterons les spécificités du RI sur le Web. Dans un quatrième temps, nous étudierons les limites du modèle plein texte du point de vue cognitif, avant d'en examiner dans un cinquième temps les limites du point de vue de la sémantique. Dans un sixième et dernier temps, nous explorerons la voie qui nous semble la plus prometteuse pour tenter de pallier, ne serait-ce que partiellement, les limites du modèle plein texte, à savoir une reformulation automatique des requêtes de l'utilisateur qui prend en compte les expressions. 1.1 RI et interrogation de bases de données De nombreux systèmes informatiques exploitent avec succès des bases de données 1, et permettent à l'utilisateur de chercher efficacement l'information dont il a besoin. Ce n'est cependant pas le cas des bases documentaires textuelles. En raison des difficultés mêmes que posent les recherches d'information dans les bases documentaires, une discipline s'est créée autour de leur étude : le Repérage de l'information (RI), qui s'intéresse à la recherche d'information dans des données multimédia (textes, images, bandes sonores, vidéos) au moyen de systèmes informatiques. Nous nous 1 Ce terme est pris ici dans son sens le plus général possible, à savoir une collection d'informations numérisées, sans restriction quant au degré de contrôle des données ou à leur niveau de structuration. Il englobe donc les bases de données structurées, les bases documentaires, les bases de connaissances.

22 6 restreindrons dans le cadre de ce travail aux données textuelles ; le terme RI y sera donc utilisé dans le sens de Repérage de l'information textuelle, sauf mention contraire explicite. Par ailleurs, le terme recherche d'information sera utilisé pour désigner les activités mises en œuvre par l'utilisateur pour satisfaire un besoin en information (BI) particulier, tandis que le repérage de l'information (en minuscules) désignera les activités réalisées par un système informatique pour identifier dans une base de données les documents pouvant satisfaire les BI de l'utilisateur. Il convient donc d'examiner les causes de la différence de performance que l'on observe entre les recherches d'information dans les bases de données structurées et les recherches d'information textuelle, où performance s'entend ici par degré de satisfaction du BI de l'utilisateur. Nous allons voir que ces causes résident tant dans le niveau de la structuration des données, que dans la nature même du BI. Cela nous permettra ainsi de situer le RI dans le cadre plus général des recherches d'information dans des bases de données, avant de délimiter le type particulier de RI auquel nous nous intéresserons, le RI ad hoc. Ce dernier a ceci de particulier que les BI de l'utilisateur varient d'une requête à l'autre, et ne se cantonnent pas nécessairement à un domaine particulier de la connaissance. Il n'est donc pas possible dans ce cadre d'utiliser des connaissances a priori, ni sur l'utilisateur, ni sur les domaines qui l'intéressent, ni de constituer un historique des requêtes de l'utilisateur et de l'utilisation qu'il a fait des résultats à des fins d'amélioration de requêtes futures Niveau de structuration des données Les données en informatique de gestion sont définies et structurées de façon précise, dans le cadre d'un schéma de base de données ne laissant pas de place à l'ambiguïté sémantique lorsqu'il est conçu sans redondance des données. Il n'y a pour chaque donnée qu'une seule façon d'y accéder, du point de vue logique. Ainsi pour obtenir le salaire annuel de l'employé X, il n'y a d'autres choix que de chercher la valeur de l'attribut salaire de la rangée de la table des employés pour laquelle l'attribut nom vaut X. De telles données ne nécessitent aucune interprétation particulière (Hjørland, 1997, p. 140). Une des conséquences de cet état de fait est que l'exhaustivité de la recherche est garantie : soit l'on trouve la donnée, soit on ne la trouve pas et l'on est alors certain qu'elle n'existe pas dans la base de données. La situation est toute autre avec des informations contenues dans des bases de données textuelles, car quelle que soit la langue dans laquelle les textes sont rédigés, il existe de multiples façons de désigner la même réalité, et donc autant de points d'accès à cette information. Ainsi des documents mentionneront les termes plus spécifiques pour désigner le salaire (traitement, rente, solde) ou plus

23 7 généraux (revenus, rétribution) pour désigner la même notion, et dans d'autres cas, la phrase contenant l'information ne mentionnera aucun de ces termes. Ce sera au lecteur d'inférer que l'information est bien un salaire en fonction du contexte. En conséquence, à moins de parcourir à la main chaque document de la base de données documentaires, ce qui est en contradiction avec la notion même de RI, on ne peut garantir l'exhaustivité de la recherche. Inversement, il se peut que l'information retrouvée ne soit pas celle recherchée en raison des ambiguïtés inhérentes au langage naturel, comme dans la phrase "le traitement de M. X a coûté 4000 $" où il est question de traitement médical et non de salaire. On peut donc affirmer d'ores et déjà que la recherche d'information textuelle est de par sa nature même un processus où règne l'incertitude, au contraire de la recherche d'information dans une base de données classique. Ceci est dû au fait que les données textuelles ont une sémantique complexe mais implicite, qui ne se reflète pas au niveau de leur structure syntaxique. Du point de vue informatique, l'information textuelle est non structurée. Sparck-Jones qualifie le problème du RI d'insoluble en général (1992). Hjørland (1997, p. 142) nous en donne quant à lui la preuve par l'absurde : considérons une requête X dans un modèle donné, considérée comme parfaite, i.e. identifiant tous les documents pertinents à un BI et uniquement ceuxlà. Il est alors toujours possible d'ajouter un document à la base de données qui satisfait la requête mais non le BI (si la requête d'origine est formulée par R, il suffit par exemple d'ajouter à la base un document donc le contenu serait "Ce document ne porte pas sur R"), ou au contraire d'ajouter un document qui satisfait le BI mais non la requête. Dans les deux cas, la requête n'est plus parfaite. De plus, la notion de pertinence à un BI est subjective et peut évoluer dans le temps. Autrement dit, la nature même du RI fait en sorte qu'il s'agira toujours d'un processus donnant des résultats approximatifs, un processus intrinsèquement basé sur la notion d'essai erreur (Blair, 2002b). On se doit néanmoins d'essayer de les améliorer. Le RI s'intéresse à des données non structurées du point de vue informatique. D'autres disciplines s'intéressent à de telles données également : nous allons donc préciser les spécificités du RI, qui se distingue de ces autres disciplines par la nature du BI traité Types de besoins en information Il existe deux types de BI. Le premier type est de nature similaire à celle des requêtes exécutées sur des bases de données relationnelles : il s'agit de questions fermées (Kupiec, 1999), i.e. de requêtes ayant pour réponse un ensemble fini de données. Les tâches d'extraction d'information (EI) et de Question

24 8 Answering (QA) font partie de cette catégorie, et elles sont en général appliquées à un corpus spécialisé, issu d'un domaine spécifique. On peut également ranger dans cette catégorie les tâches de recherche de pages personnelles sur le Web ou de sites d'organisations. Le RI quant à lui traite avant tout de questions ouvertes, i.e. de questions pour lesquelles il n'existe pas de réponse complète et définitive. Le RI est en effet une recherche d'information destinée à permettre au recherchiste de résoudre un problème complexe, et non une simple recherche de faits ou de données. Il vise à identifier les documents permettant d'aider à la résolution du problème, et non à produire directement les réponses. De plus, au fur et à mesure que le recherchiste évalue les documents qui lui sont soumis et acquiert une compréhension plus fine de son problème, son BI est susceptible d'évoluer, de se préciser ou de prendre une nouvelle direction. Ingwersen (1992, p. 159) note cependant que les systèmes informatiques de repérage d'information effectuent quant à eux un traitement de données, plus ou moins sophistiqué, et non un repérage d'information au sens propre. En effet, contrairement à la notion de donnée qui est objective, celle d'information est subjective : une information est une donnée dont un individu particulier a besoin pour résoudre un problème particulier. L'information est donc toujours définie par rapport à son récepteur. En conséquence, ce qui constitue une information à un moment donné pour un individu particulier pourra n'être qu'une simple donnée ultérieurement pour la même personne, ou à tout moment pour un autre individu. Il apparaît alors évident qu'un système informatique, qui n'a pas d'existence autonome dans ce monde, ne peut avoir de BI sinon dans un sens métaphorique. Ce défaut d'impédance entre le niveau auquel se place le recherchiste, le niveau informationnel, et celui auquel le système de RI travaille, celui du traitement de données, ne nous semble pas toujours clairement perçu. Cela pourrait expliquer une part de l'insatisfaction éprouvée par les recherchistes devant les résultats décevants obtenus des divers systèmes de RI. Nous venons de voir que le RI s'intéressait à des BI ouverts et à des données non structurées. Il existe toutefois différentes variantes de RI, dont le RI sur le Web qui nous intéresse ici. Nous allons donc situer ce dernier dans le cadre général du RI.

25 Les différents types de Repérage de l'information Il existe différentes variétés de RI, chacune ayant ses propres exigences. On distingue communément :! le RI sur collection fixe, qui comprend deux variantes :! la recherche ad hoc : il s'agit pour l'utilisateur de satisfaire un besoin non récurrent en information.! la catégorisation de documents : il s'agit d'assigner à chaque document la catégorie qui lui convient le mieux parmi une série de catégories prédéfinies par l'utilisateur.! le RI sur une collection évoluant dans le temps, qui comprend deux variantes :! le filtrage de documents : il s'agit de repérer les documents satisfaisant à un besoin constant en information dans un flot de documents.! le routage de documents : il s'agit d'assigner à chaque document la ou les catégories auxquelles il peut se rapporter, catégories prédéfinies par l'utilisateur encore une fois. Il s'agit donc d'une catégorisation sur un flot de documents. Les trois dernières variétés ont ceci de spécifique par rapport à la première qu'elles mettent en jeu un BI fixe. Il est ainsi possible de définir ce dernier de façon beaucoup plus précise et complète que dans le cas du repérage ad hoc, et cela se fait généralement via un profil d'utilisateur. Cependant, étant donné que notre recherche se situe exclusivement dans le cadre de l'utilisation des moteurs de recherche du Web, un cas particulier de repérage ad hoc de l'information, nous ne pourrons faire appel à des profils d'utilisateur. La Figure 1.1 ci-dessous représente visuellement la place qu'occupe le RI ad hoc, dans l'ensemble des recherches de données en informatique.

26 10 Nature de la recherche Question fermée Question ouverte Nature des données Structurées informatiquement Non structurées informatiquement Requêtes dans une base de données structurées (relationnelle ou autre) Extraction d'information, Question Answering N/D Repérage d'information BI fixe : Classification,Routage, Filtrage BI variable : RI ad hoc Figure 1.1 Le RI ad hoc dans les recherches de données informatisées Le RI ad hoc peut à son tour être subdivisé en plusieurs variantes, présentant chacune ses propres défis :! le RI exhaustif : Blair (1990, p. 75) distingue les recherches exhaustives des autres recherches. Leur but est d'identifier tous les documents pertinents à un BI. On peut les rencontrer dans le contexte de la recherche de brevets ou dans celui de la jurisprudence. L'exhaustivité, essentielle dans ce cas, impose des contraintes particulières sur les techniques utilisées. En contrepartie, l'utilisateur sera probablement plus disposé à tolérer une certaine lenteur du système comme prix à payer pour cette exhaustivité. Ce type de recherche est néanmoins très spécialisé, et ne s'applique pas généralement pas dans le cas du Web.! le RI centré sur la nouveauté de l'information : ce type de RI vise à ne présenter que des documents apportant des éléments d'information nouveaux par rapport à ceux précédemment identifiés dans le résultat. Ce type de RI vient de faire son apparition, puisque sa première évaluation dans TREC a eu lieu en 2004 dans le cadre du Novelty Track ( le RI centré sur une précision élevée au sein des premiers documents : ce type de RI correspond à celui couramment pratiqué sur le Web, puisque en pratique, 60% des utilisateurs de moteurs de recherche du Web ne consultent jamais plus que les 10 premiers documents du résultat d'une requête (Jansen et Pooch, 2001).

27 11 C'est donc au RI ad hoc centré sur une précision élevée au sein des premiers documents que nous nous intéresserons dans ce travail. En conclusion, le RI s'intéresse à des processus, les recherches d'information, où règne l'incertitude :! en raison du décalage existant entre la structure informatique très simple des textes et leur sémantique complexe, non apparente au niveau de la structure des données,! en raison de la complexité des langues et du caractère non biunivoque de la relation entre une langue donnée et le monde extérieur décrit par cette langue,! en raison de la nature subjective et évolutive de la notion d'information et de BI. Le RI sur le Web auquel nous nous intéressons ici s'inscrit dans le cadre d'un RI ad hoc généraliste, dans lequel le système informatique ne dispose d'aucune connaissance sur le recherchiste ni sur ses domaines d'intérêts. Plus spécifiquement, le RI sur le Web traite les requêtes des utilisateurs en ayant comme objectif de renvoyer des résultats ayant une précision élevée au sein des premiers documents. Nous allons à présent spécifier les principes régissant la mise en œuvre du RI, afin de dégager progressivement des pistes d'amélioration de ce dernier. 1.2 Principes de la mise en œuvre du RI Dans un premier temps, nous examinerons le modèle adopté pour représenter les documents, le modèle plein texte, pour ensuite aborder les différents types d'approches proposées pour associer requêtes et documents La représentation des documents dans la base de données documentaire Deux types fondamentaux de bases de données documentaires coexistent : celles où les documents sont représentés par des fiches descriptives structurées, comprenant de la méta-information telle que l'auteur et le titre du document ou encore des mots-clés ou un résumé associés au document, et celles

28 12 où les documents sont représentés par leur contenu. Il est également possible d'envisager des bases de données hybrides, combinant les deux types d'information. Le premier type d'approche correspond aux systèmes bibliothécaires classiques ainsi qu'aux répertoires du Web tels que Yahoo, qui en constituent une variante très simplifiée, une seule catégorie, choisie au sein d'une liste prédéfinie, représentant le document. Le second type d'approche, appelé plein texte, correspond aux moteurs de recherche du Web qui nous intéressent ici. Afin d'accéder rapidement au contenu des documents, un type particulier d'index, le fichier inversé, est utilisé. Ce dernier indexe tous les mots de chaque document, en indiquant éventuellement sa fréquence d'utilisation ou ses positions dans le document afin de permettre des recherches plus raffinées. Dans certains cas, seuls les termes des classes grammaticales ouvertes sont indexés, les autres étant considérés comme des mots vides (stopwords). Même quand cette pratique n'est pas adoptée, il est rare que la représentation des documents dans l'index permette de reconstituer complètement ces derniers. Ainsi les moteurs de recherche du Web indexent en général tous les termes des documents dont ils ont connaissance, mais ne gardent pas trace de leurs signes de ponctuation ni des marques de paragraphe ou autres subdivisions du texte original. Ce type d'indexation a donc elle aussi un caractère réducteur. De plus, dans certains cas, tels que celui du moteur de recherche AltaVista, le document lui-même n'est pas conservé dans la base de données : seule sa représentation dans l'index plein texte l'est. Enfin, la plupart des moteurs de recherche conservent également des informations sur les conditions de production et d'indexation du document, alors considérées comme de la méta-information par opposition au contenu même des documents. L'avantage principal de l'indexation plein texte sur la représentation par mots-clés réside dans la facilité d'automatisation du processus, ce qui explique sa popularité grandissante avec l'accroissement du volume des bases de données documentaires. Son inconvénient principal est qu'il n'existe aucune normalisation de la représentation des contenus. La représentation plein texte suppose implicitement que la signification des documents réside complètement dans les termes qu'ils emploient, ce que Jurafsky et Martin (2000, p. 646) qualifient d'une interprétation extrême du principe de la compositionnalité de la sémantique. Elle suppose également qu'il existe une correspondance bijective entre la forme d'un mot et son sens. Par ailleurs, au niveau cognitif, l'approche plein texte estime que l'utilisateur est capable de prévoir les termes caractérisant le mieux les documents pertinents à son besoin, i.e. les termes apparaissant dans

29 13 ces documents et uniquement dans ceux-ci (Blair, 1990, p. 50). Il traduira alors son BI en une requête constituée de ces termes caractéristiques. Ces deux catégories d'hypothèse, d'ordre sémantique et d'ordre cognitif, ne sont vraies qu'en toute première approximation. À ce jour, il n'existe cependant aucune alternative viable d'un point de vue calculatoire, donc nous continuons d'utiliser l'indexation plein texte. Nous allons à présent étudier plus spécifiquement les requêtes et leur mode d'exécution dans le modèle plein texte Exécution de requêtes dans le modèle plein texte Dans le modèle plein texte, le RI rapproche les documents, considérés comme des multi-ensembles de mots, des requêtes par un calcul particulier. Il existe trois approches de base, chacune comportant de multiples variantes :! approche booléenne : la requête est une formule booléenne combinant des mots par des opérateurs booléens, et les documents du résultat sont ceux satisfaisant exactement la requête. Il s'agit essentiellement d'un filtrage de documents. Notons que ce type de représentation des requêtes exige de la part de l'utilisateur un effort particulier, et est d'un abord difficile pour l'utilisateur moyen (Blair, 1990, p. 46). Un autre inconvénient de cette méthode réside dans l'absence de tri dans le résultat. Dans les cas où des centaines de documents sont identifiés, le modèle booléen n'offre aucun mécanisme permettant de retourner en premier les documents qui correspondraient le plus à la requête.! approche vectorielle : la requête est une liste de mots, et tant les documents que la requête sont considérés comme des vecteurs dans l'espace à très hautes dimensions des mots de l'index. Le rapprochement entre requête et documents se fait alors par un calcul de similitude généralement basé sur l'angle entre le vecteur requête et chacun des vecteurs documents. Il s'agit essentiellement d'un filtrage sommaire de documents, consistant à exclure les documents ne contenant aucun des termes de la requête, suivi d'un ordonnancement des documents filtrés. Il existe de multiples variantes de cette approche qui se distinguent soit par le choix de la mesure de similitude entre vecteurs, soit par celui des pondérations associées aux termes de la requête et à ceux des documents. Une pondération classique est le tf.idf (term frequency. inverse document frequency), proposé Salton et McGill (1983), afin de tenir compte du fait qu'un terme très fréquent dans la

30 14 langue est sûrement moins discriminant du point de vue informationnel qu'un terme moins fréquent (facteur idf), et du fait que généralement, plus un document emploie un terme donné, mieux ce terme caractérise le contenu de ce document (facteur tf). Une critique pouvant être adressée à ce modèle est le fait qu'il suppose que toutes les dimensions sont orthogonales, donc que les mots sont employés de façon indépendante les uns des autres. Toutefois, les tentatives d'élargissement du modèle vectoriel pour prendre en compte les cooccurrences des paires de termes n'ont pas apporté d'amélioration notable des performances du modèle, tout en le compliquant considérablement au niveau calculatoire (Baeza-Yates et Ribeiro-Neto, 1999, p ). En conséquence, l'approximation de l'indépendance des termes individuels semble acceptable en pratique, dans le cas où les termes sont tous des mots simples. De nos jours, plus aucun moteur de recherche du Web n'est directement basé sur ce modèle, mais tous incorporent un élément vectoriel au sein d'une approche booléenne, comme nous allons le spécifier ci-dessous.! approche probabiliste (Sparck-Jones, Walker et Robertson, 1998) : la requête est du même type que dans le modèle vectoriel, mais elle est traitée sur une base théorique tout à fait différente basée sur le calcul de la probabilité qu'un document soit pertinent à une requête donnée et l'application du théorème de Bayes. Il n'est pas certain que ce modèle donne des résultats pratiques d'une efficacité supérieure à celle du modèle vectoriel (Baeza-Yates et Ribeiro-Neto, 1999, p. 34), et à notre connaissance, aucun moteur de recherche du Web n'est basé sur ce modèle. Nous n'évoquerons donc plus ce modèle par la suite. Les modèles booléen et vectoriel semblent a priori opposés, le premier opérant un filtrage des documents basé sur la spécification d'une formule logique reliant différents termes, le second opérant un classement des documents basé sur la spécification d'une simple liste de termes. Il existe cependant un supermodèle englobant les deux approches, le modèle booléen étendu (Extended Boolean Model) de Salton, Fox et Wu (1983). Ce modèle considère des métriques variées appelées p-distances pour calculer la proximité de la requête à chaque document. Dans le cas où p a la valeur minimale de 1, le modèle obtenu est alors le modèle vectoriel, tandis que dans celui où p a la valeur maximale!, le modèle obtenu est alors celui de la logique floue, une extension de la logique booléenne classique. Le modèle booléen étendu n'a cependant jamais été réellement utilisé en dehors des deux cas classiques en raison de la lourdeur calculatoire associée à sa mise en œuvre pour les valeurs de p autres que 1 et! (Baeza-Yates et Ribeiro-Neto, 1999, p. 41). Mentionnons l'existence de deux autres types de requêtes, à côté des requêtes booléennes et des requêtes sous forme de listes de mots :

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Dans cette définition, il y a trois notions clés: documents, requête, pertinence. Introduction à la RI 1. Définition Un système de recherche d'information (RI) est un système qui permet de retrouver les documents pertinents à une requête d'utilisateur, à partir d'une base de documents

Plus en détail

Gestion collaborative de documents

Gestion collaborative de documents Gestion collaborative de documents ANT box, le logiciel qui simplifie votre GED Les organisations (entreprises, collectivités, associations...) génèrent chaque jour des millions de documents, e-mails,

Plus en détail

Ecole Préparatoire SNV Université d Oran Semestre 02 2014/2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z.

Ecole Préparatoire SNV Université d Oran Semestre 02 2014/2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z. Ecole Préparatoire SNV Université d Oran Semestre 02 2014/2015 Matière : Travaux d Initiative Personnelle Encadrés (TIPE) Prof. M. Z. TALEB Avec quel outil? Comment? Trouvez-vous facilement l information?

Plus en détail

Annexe A de la norme 110

Annexe A de la norme 110 Annexe A de la norme 110 RAPPORTS D ÉVALUATION PRÉPARÉS AUX FINS DES TEXTES LÉGAUX OU RÉGLEMENTAIRES OU DES INSTRUCTIONS GÉNÉRALES CONCERNANT LES VALEURS MOBILIÈRES Introduction 1. L'annexe A a pour objet

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL J. TICHON(1) (2), J.-M. TOULOTTE(1), G. TREHOU (1), H. DE ROP (2) 1. INTRODUCTION Notre objectif est de réaliser des systèmes de communication

Plus en détail

Initiation à la recherche documentaire

Initiation à la recherche documentaire Initiation à la recherche documentaire 1 Objectifs Cette séance est destinée à reprendre les principes de la démarche documentaire pour construire un parcours pertinent en terme de méthodologie et de résultats

Plus en détail

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels Plan Brève introduction à la recherche d!information sur le Web à base d!agents logiciels Bernard ESPINASSE Université d!aix-marseille 2010 Rappels sur les agents logiciels Problématique de la RI sur le

Plus en détail

Systèmes de transport public guidés urbains de personnes

Systèmes de transport public guidés urbains de personnes service technique des Remontées mécaniques et des Transports guidés Systèmes de transport public guidés urbains de personnes Principe «GAME» (Globalement Au Moins Équivalent) Méthodologie de démonstration

Plus en détail

NC 06 Norme comptable relative aux Immobilisations incorporelles

NC 06 Norme comptable relative aux Immobilisations incorporelles NC 06 Norme comptable relative aux Immobilisations incorporelles Objectif 01. Une entreprise peut acquérir des éléments incorporels ou peut elle-même les développer. Ces éléments peuvent constituer des

Plus en détail

Recherche d'information dans Internet Introduction

Recherche d'information dans Internet Introduction 1 Journées annuelles de santé publique 2001 Le monde de la santé publique au bout des doigts Moteurs de recherche, répertoires et métamoteurs présenté par Christine Dufour Recherche d'information dans

Plus en détail

PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS

PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS Février 2011 Édition produite par : Le Service de l accès à l information et des ressources documentaires du ministère de la Santé et des Services

Plus en détail

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie TRAITEMENT AUTOMATIQUE DES LANGUES Licence d'informatique 2ème Année Semestre 1 Département d'informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/tal.html Plan Définition

Plus en détail

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

Fiche méthodologique Rédiger un cahier des charges

Fiche méthodologique Rédiger un cahier des charges Fiche méthodologique Rédiger un cahier des charges Plan de la fiche : 1 : Présentation de la fiche 2 : Introduction : les grands principes 3 : Contenu, 1 : positionnement et objectifs du projet 4 : Contenu,

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

Qu est-ce qu un résumé?

Qu est-ce qu un résumé? Méthodologie d analyse et de mémoire Résumer un texte Quelques astuces et techniques Licence GSINFO Département GEII IUT d Évry N. Abchiche Mimouni 1 Qu est-ce qu un résumé? Exprime de façon brève, les

Plus en détail

TEXT MINING. 10.6.2003 1 von 7

TEXT MINING. 10.6.2003 1 von 7 TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre

Plus en détail

Contrôle interne et organisation comptable de l'entreprise

Contrôle interne et organisation comptable de l'entreprise Source : "Comptable 2000 : Les textes de base du droit comptable", Les Éditions Raouf Yaïch. Contrôle interne et organisation comptable de l'entreprise Le nouveau système comptable consacre d'importants

Plus en détail

MATHÉMATIQUES. Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN

MATHÉMATIQUES. Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN MATHÉMATIQUES Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN Mars 2001 MATHÉMATIQUES Les préalables pour l algèbre MAT-P020-1 DÉFINITION DU DOMAINE D EXAMEN Mars 2001 Direction

Plus en détail

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES 4 mars 1996 FRANCAIS Original : RUSSE COMMISSION DE STATISTIQUE et COMMISSION ECONOMIQUE POUR L'EUROPE CONFERENCE DES STATISTICIENS EUROPEENS OFFICE STATISTIQUE DES COMMUNAUTES EUROPEENNES (EUROSTAT) ORGANISATION

Plus en détail

Formation à la recherche documentaire sur le web

Formation à la recherche documentaire sur le web Formation à la recherche documentaire sur le web Objectif : Savoir effectuer des recherches pertinentes sur Internet Savoir distinguer les informations fiables sur Internet Savoir effectuer des recherches

Plus en détail

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux. UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases

Plus en détail

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions I.1 Introduction La Recherche d Information (RI) peut être définie comme une activité dont la finalité est de localiser et de délivrer un ensemble de documents à un utilisateur en fonction de son besoin

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

SEP 2B juin 20. Guide méthodologique de calcul du coût d une prestation

SEP 2B juin 20. Guide méthodologique de calcul du coût d une prestation SEP 2B juin 20 12 Guide méthodologique de calcul du coût d une Sommaire Préambule 3 Objectif et démarche 3 1 Les objectifs de la connaissance des coûts 4 2 Définir et identifier une 5 Calculer le coût

Plus en détail

GUIDE PRATIQUE DU REFERENCEMENT NATUREL

GUIDE PRATIQUE DU REFERENCEMENT NATUREL GUIDE PRATIQUE DU REFERENCEMENT NATUREL Auteur Walid Gabteni, Consultant SEO édition du 20 Juin 2015 Source officielle du guide pratique du référencement naturel : https://upload.wikimedia.org/wikipedia/commons/f/f3/guide_pratique_du_référencem

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

Info-assurance Séance d information de l IASB du 19 mars 2015

Info-assurance Séance d information de l IASB du 19 mars 2015 www.pwc.com/ca/insurance Info-assurance Séance d information de l IASB du 19 mars 2015 Puisque divers points de vue sont analysés lors des réunions de l IASB, et qu il est souvent difficile de décrire

Plus en détail

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS Annuaire Ouvrage publié en principe chaque année ou selon une périodicité proche de l'année, qui donne une liste de noms de personnes ou d'organismes

Plus en détail

Rapport d'analyse des besoins

Rapport d'analyse des besoins Projet ANR 2011 - BR4CP (Business Recommendation for Configurable products) Rapport d'analyse des besoins Janvier 2013 Rapport IRIT/RR--2013-17 FR Redacteur : 0. Lhomme Introduction...4 La configuration

Plus en détail

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées : a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN

Plus en détail

Plan. Exemple: Application bancaire. Introduction. OCL Object Constraint Language Le langage de contraintes d'uml

Plan. Exemple: Application bancaire. Introduction. OCL Object Constraint Language Le langage de contraintes d'uml OCL Object Constraint Language Le langage de contraintes d'uml Plan 1. Introduction 2. Les principaux concepts d'ocl Object Constraint Language 1 Object Constraint Language 2 Exemple: une application bancaire

Plus en détail

MS PROJECT 2000. Prise en main. Date: Mars 2003. Anère MSI. 12, rue Chabanais 75 002 PARIS E mail : jcrussier@anere.com Site : www.anere.

MS PROJECT 2000. Prise en main. Date: Mars 2003. Anère MSI. 12, rue Chabanais 75 002 PARIS E mail : jcrussier@anere.com Site : www.anere. DOCUMENTATION MS PROJECT 2000 Prise en main Date: Mars 2003 Anère MSI 12, rue Chabanais 75 002 PARIS E mail : jcrussier@anere.com Site : www.anere.com Le présent document est la propriété exclusive d'anère

Plus en détail

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS 1 sur 9 COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS (L'article intégral est paru dans Gestions Hospitalières n 357 de juin-juillet 1996) Pour plus d'informations concernant

Plus en détail

O b s e r v a t o i r e E V A P M. Taxonomie R. Gras - développée

O b s e r v a t o i r e E V A P M. Taxonomie R. Gras - développée O b s e r v a t o i r e E V A P M É q u i p e d e R e c h e r c h e a s s o c i é e à l ' I N R P Taxonomie R. Gras - développée Grille d'analyse des objectifs du domaine mathématique et de leurs relations

Plus en détail

LE PROBLEME DU PLUS COURT CHEMIN

LE PROBLEME DU PLUS COURT CHEMIN LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs

Plus en détail

LA RECHERCHE DOCUMENTAIRE

LA RECHERCHE DOCUMENTAIRE LA RECHERCHE DOCUMENTAIRE Introduction I. Les étapes de la recherche d'information II. Méthodologie spécifique 2.1 Bibliothèque 2.2 Internet Conclusion INTRODUCTION Lorsque on débute une réflexion sur

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

OASIS www.oasis-open.org/committees/xacml/docs/docs.shtml Date de publication

OASIS www.oasis-open.org/committees/xacml/docs/docs.shtml Date de publication Statut du Committee Working Draft document Titre XACML Language Proposal, version 0.8 (XACML : XML Access Control Markup Language) Langage de balisage du contrôle d'accès Mot clé Attestation et sécurité

Plus en détail

Distinguer entre «Enregistrer» et «Sauvegarder»

Distinguer entre «Enregistrer» et «Sauvegarder» Compétence D1.4 IV - : Pérenniser ses données IV Assurer une sauvegarde 33 Compresser / Décompresser un fichier ou un ensemble de fichiers / dossiers 35 A. Assurer une sauvegarde Distinguer entre «Enregistrer»

Plus en détail

Concevoir sa stratégie de recherche d information

Concevoir sa stratégie de recherche d information Concevoir sa stratégie de recherche d information Réalisé : mars 2007 Dernière mise à jour : mars 2011 Bibliothèque HEC Paris Contact : biblio@hec.fr 01 39 67 94 78 Cette création est mise à disposition

Plus en détail

Journal officiel de l'union européenne

Journal officiel de l'union européenne 20.5.2014 L 148/29 RÈGLEMENT DÉLÉGUÉ (UE) N o 528/2014 DE LA COMMISSION du 12 mars 2014 complétant le règlement (UE) n o 575/2013 du Parlement européen et du Conseil en ce qui concerne les normes techniques

Plus en détail

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT Animé par A.COMLAN ADCOSOFT 14/02/2014-15H 1 Programme du webséminaire : Introduction Partie I Optimisation des Balises TITLE et META Partie II Optimisation du

Plus en détail

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION DES NOMBRES par Jean-Luc BREGEON professeur formateur à l IUFM d Auvergne LE PROBLÈME DE LA REPRÉSENTATION DES NOMBRES On ne conçoit pas un premier enseignement

Plus en détail

L'évolution de VISUAL MESSAGE CENTER Architecture et intégration

L'évolution de VISUAL MESSAGE CENTER Architecture et intégration L'évolution de VISUAL MESSAGE CENTER Architecture et intégration Sommaire Résumé exécutif Base technologique : VISUAL Message Center 2 3 VISUAL Message Center Core Engine VISUAL Message Center Extended

Plus en détail

Le test s'est déroulé en trois étapes successives

Le test s'est déroulé en trois étapes successives TEST SUR LES BASES BIBLIOGRAPHIQUES Rapport* du bureau Marcel van Dijk L'étude qui suit présente les résultats du test quantitatif et qualitatif de 5 bases bibliographiques disponibles en France : BNOPALE

Plus en détail

Le taux d'actualisation en assurance

Le taux d'actualisation en assurance The Geneva Papers on Risk and Insurance, 13 (No 48, July 88), 265-272 Le taux d'actualisation en assurance par Pierre Devolder* Introduction Le taux d'actualisation joue un role determinant dans Ia vie

Plus en détail

Mémoire DEA Système d'information Management and Technology of Information Systems

Mémoire DEA Système d'information Management and Technology of Information Systems Mémoire DEA Système d'information Management and Technology of Information Systems Titre : Expérience sur l'utilisation de conjonctions de termes et la prise en compte des dépendances entre termes d'indexation

Plus en détail

Communiqué de Lancement

Communiqué de Lancement Direction du Marketing Produits Sage - Division Mid Market Communiqué de Lancement Rapprochement Bancaire 1000 Produit : Rapprochement Bancaire 1000 Bases de Données : Oracle - MS/SQL Server Microsoft

Plus en détail

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.

Plus en détail

Recherche bibliographique

Recherche bibliographique Séminaire «Maîtrise de l information scientifique» Recherche bibliographique Dernière mise à jour : 07/01/2015 - Auteur : Frédérique Flamerie Recherche bibliographique : méthode & outils La recherche bibliographique

Plus en détail

Bachelier Bibliothécaire- Documentaliste!

Bachelier Bibliothécaire- Documentaliste! Bachelier Bibliothécaire- Documentaliste Structure du profil d'enseignement et du programme d'études détaillé Année académique : 2015-2016 Haute Ecole Paul-Henri Spaak Catégorie sociale (IESSID) 1 1. Le

Plus en détail

Langage HTML (2 partie) <HyperText Markup Language> <tv>lt La Salle Avignon BTS IRIS</tv>

Langage HTML (2 partie) <HyperText Markup Language> <tv>lt La Salle Avignon BTS IRIS</tv> Langage HTML (2 partie) «Je n'ai fait que prendre le principe d - hypertexte et le relier au principe du TCP et du DNS et alors boum! ce fut le World Wide Web!» Tim Berners-Lee

Plus en détail

NORME INTERNATIONALE D AUDIT 260 COMMUNICATION DES QUESTIONS SOULEVÉES À L OCCASION DE L AUDIT AUX PERSONNES CONSTITUANT LE GOUVERNEMENT D'ENTREPRISE

NORME INTERNATIONALE D AUDIT 260 COMMUNICATION DES QUESTIONS SOULEVÉES À L OCCASION DE L AUDIT AUX PERSONNES CONSTITUANT LE GOUVERNEMENT D'ENTREPRISE NORME INTERNATIONALE D AUDIT 260 COMMUNICATION DES QUESTIONS SOULEVÉES À L OCCASION DE L AUDIT AUX PERSONNES CONSTITUANT LE GOUVERNEMENT D'ENTREPRISE SOMMAIRE Paragraphes Introduction... 1-4 Personnes

Plus en détail

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES Dossier G11 - Interroger une base de données La base de données Facturation contient tout un ensemble d'informations concernant la facturation de la SAFPB (société anonyme de fabrication de produits de

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

Etablissement et dépôt des comptes consolidés et du rapport de gestion consolidé

Etablissement et dépôt des comptes consolidés et du rapport de gestion consolidé Département Informations micro-économiques Service Centrale des bilans boulevard de Berlaimont 14 - BE-1000 Bruxelles tél. 02 221 30 01 - fax 02 221 32 66 e-mail: centraledesbilans@nbb.be - site Internet:

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

Méthodologies de développement de logiciels de gestion

Méthodologies de développement de logiciels de gestion Méthodologies de développement de logiciels de gestion Chapitre 5 Traits caractéristiques des deux approches de méthodologie Présentation réalisée par P.-A. Sunier Professeur à la HE-Arc de Neuchâtel http://lgl.isnetne.ch

Plus en détail

ANALYSE DE RISQUE AVEC LA MÉTHODE MEHARI Eric Papet e.papet@dev1-0.com Co-Fondateur SSII DEV1.0 Architecte Logiciel & Sécurité Lead Auditor ISO 27001

ANALYSE DE RISQUE AVEC LA MÉTHODE MEHARI Eric Papet e.papet@dev1-0.com Co-Fondateur SSII DEV1.0 Architecte Logiciel & Sécurité Lead Auditor ISO 27001 ANALYSE DE RISQUE AVEC LA MÉTHODE MEHARI Eric Papet e.papet@dev1-0.com Co-Fondateur SSII DEV1.0 Architecte Logiciel & Sécurité Lead Auditor ISO 27001 PLAN Introduction Générale Introduction MEHARI L'analyse

Plus en détail

Orientations sur la solvabilité du groupe

Orientations sur la solvabilité du groupe EIOPA-BoS-14/181 FR Orientations sur la solvabilité du groupe EIOPA Westhafen Tower, Westhafenplatz 1-60327 Frankfurt Germany - Tel. + 49 69-951119-20; Fax. + 49 69-951119-19; email: info@eiopa.europa.eu

Plus en détail

ManageEngine IT360 : Gestion de l'informatique de l'entreprise

ManageEngine IT360 : Gestion de l'informatique de l'entreprise ManageEngine IT360 Présentation du produit ManageEngine IT360 : Gestion de l'informatique de l'entreprise Améliorer la prestation de service à l'aide d'une approche intégrée de gestion des performances

Plus en détail

LES INTERFACES HOMME-MACHINE

LES INTERFACES HOMME-MACHINE LES INTERFACES HOMME-MACHINE 1 ère Partie : Introduction aux Interfaces Homme-Machine 2 ème Partie : Notions de base sur les Sciences Cognitives 3 ème Partie : Recommandations ergonomiques 4 ème Partie

Plus en détail

Nom-Projet MODELE PLAN DE MANAGEMENT DE PROJET

Nom-Projet MODELE PLAN DE MANAGEMENT DE PROJET Nom-Projet MODELE PLAN DE MANAGEMENT DE PROJET Glossaire La terminologie propre au projet, ainsi que les abréviations et sigles utilisés sont définis dans le Glossaire. Approbation Décision formelle, donnée

Plus en détail

POLITIQUE DOCUMENTAIRE DE LA BIBLIOTHÈQUE DU LYCÉE-COLLÈGE DES CREUSETS

POLITIQUE DOCUMENTAIRE DE LA BIBLIOTHÈQUE DU LYCÉE-COLLÈGE DES CREUSETS POLITIQUE DOCUMENTAIRE DE LA BIBLIOTHÈQUE DU LYCÉE-COLLÈGE DES CREUSETS La bibliothèque du Lycée-Collège des Creusets, dans sa fonction de bibliothèque scolaire, vise le développement d'une offre documentaire

Plus en détail

Référencement naturel

Référencement naturel Référencement naturel 1er novembre 2011 Pour optimiser votre positionnement dans les moteurs de recherche, renforcer votre visibilité en ligne et améliorer le contenu de votre site web pour le référencement

Plus en détail

Annexe sur la maîtrise de la qualité

Annexe sur la maîtrise de la qualité Version du 09/07/08 Annexe sur la maîtrise de la qualité La présente annexe précise les modalités d'application, en matière de maîtrise de la qualité, de la circulaire du 7 janvier 2008 fixant les modalités

Plus en détail

La contrefaçon par équivalence en France

La contrefaçon par équivalence en France BREVETS La contrefaçon par équivalence en France I. Introduction Si l'on considère une revendication de brevet qui remplit les conditions de validité au regard de l'art antérieur, le cas de contrefaçon

Plus en détail

PROSOP : un système de gestion de bases de données prosopographiques

PROSOP : un système de gestion de bases de données prosopographiques PROSOP : un système de gestion de bases de données prosopographiques Introduction : Ce document présente l outil en développement PROSOP qui permet la gestion d'une base de donnée prosopographique de la

Plus en détail

Optimiser le référencement naturel de son site web

Optimiser le référencement naturel de son site web Rodez, le 15 avril 2011 Les moteurs de recherche Les moteurs utilisés dans le monde Les moteurs utilisés en Europe Où clique un internaute? Référencement «payant» 35-40% des clics sur Google Référencement

Plus en détail

INTERNET, C'EST QUOI?

INTERNET, C'EST QUOI? INTERNET, C'EST QUOI? Internet, c'est quoi? «Internet est le réseau informatique mondial qui rend accessibles au public des services variés comme le courrier électronique, la messagerie instantanée et

Plus en détail

ORACLE TUNING PACK 11G

ORACLE TUNING PACK 11G ORACLE TUNING PACK 11G PRINCIPALES CARACTÉRISTIQUES : Conseiller d'optimisation SQL (SQL Tuning Advisor) Mode automatique du conseiller d'optimisation SQL Profils SQL Conseiller d'accès SQL (SQL Access

Plus en détail

Université de Lausanne

Université de Lausanne Université de Lausanne Records management et archivage électronique : cadre normatif Page 2 Ce qui se conçoit bien s énonce clairement Nicolas Boileau Page 3 Table des matières Qu est- ce que le «records

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Recherche Web B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques basés sur les documents

Plus en détail

CONDITIONS PARTICULIÈRES DES HÉBERGEMENTS MUTUALISES DE SITES INTERNET

CONDITIONS PARTICULIÈRES DES HÉBERGEMENTS MUTUALISES DE SITES INTERNET CONDITIONS PARTICULIÈRES DES HÉBERGEMENTS MUTUALISES DE SITES INTERNET Version en date du 18 avril 2010 Page 1 / 6 Les présentes Conditions Particulières sont conclues entre : D'une part la SARL INULOGIC,

Plus en détail

La recherche d'information sur Internet

La recherche d'information sur Internet La recherche d'information sur Internet Compétence du socle : Je sais utiliser les fonctions principales d'un outil de recherche sur le Web (moteur de recherche, annuaire...) CDI du collège Léon Cazeneuve

Plus en détail

Norme comptable relative aux provisions techniques dans les entreprises d assurance et/ou de réassurance NC 29

Norme comptable relative aux provisions techniques dans les entreprises d assurance et/ou de réassurance NC 29 Norme comptable relative aux provisions techniques dans les entreprises d assurance et/ou de réassurance NC 29 Objectif de la norme 01 L activité d assurance et/ou de réassurance se caractérise par : une

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Thème 5. Proposition d'une activité d'exploration élève : Micro-trottoir «Qu'est-ce qu'une entreprise?»

Thème 5. Proposition d'une activité d'exploration élève : Micro-trottoir «Qu'est-ce qu'une entreprise?» Thème 5. Proposition d'une activité d'exploration élève : Micro-trottoir «Qu'est-ce qu'une entreprise?» Propriétés Description Intitulé court Proposition d'une activité d'exploration élève de type Micro-trottoir

Plus en détail

Dématérialisation et document numérique (source APROGED)

Dématérialisation et document numérique (source APROGED) Dématérialisation et document numérique (source APROGED) La dématérialisation se répand très rapidement dans tous les domaines d'activités. Depuis l'origine, le concept de dématérialisation repose sur

Plus en détail

Freeway 7. Nouvelles fonctionnalités

Freeway 7. Nouvelles fonctionnalités ! Freeway 7 Nouvelles fonctionnalités À propos de ce guide... 3 Nouvelles fonctionnalités en un coup d'oeil... 3 À propos de la conception d'un site web réactif... 3 Travailler avec les pages pour créer

Plus en détail

CHAPITRE VIII : Les circuits avec résistances ohmiques

CHAPITRE VIII : Les circuits avec résistances ohmiques CHAPITRE VIII : Les circuits avec résistances ohmiques VIII. 1 Ce chapitre porte sur les courants et les différences de potentiel dans les circuits. VIII.1 : Les résistances en série et en parallèle On

Plus en détail

Brock. Rapport supérieur

Brock. Rapport supérieur Simplification du processus de demande d aide financière dans les établissementss : Étude de cas à l Université Brock Rapport préparé par Higher Education Strategy Associates et Canadian Education Project

Plus en détail

multi process 25 RUE Benoît Malon 42300 ROANNE

multi process 25 RUE Benoît Malon 42300 ROANNE multi process 25 RUE Benoît Malon 42300 ROANNE Tél : 04 77 70 14 66 Fax : 04 77 70 01 78 www.mpi42.fr contact@mpi42.fr CREATION DE SITE WEB Il faut distinguer plusieurs étapes pour la création d un site

Plus en détail

Série sur les Principes de Bonnes Pratiques de Laboratoire et Vérification du Respect de ces Principes Numéro 4 (version révisée)

Série sur les Principes de Bonnes Pratiques de Laboratoire et Vérification du Respect de ces Principes Numéro 4 (version révisée) Non classifié ENV/JM/MONO(99)20 ENV/JM/MONO(99)20 Or. Ang. Non classifié Organisation de Coopération et de Développement Economiques OLIS : 22-Oct-1999 Organisation for Economic Co-operation and Development

Plus en détail

Guide de création de site web optimisé

Guide de création de site web optimisé Guide de création de site web optimisé Vous trouverez ci-après un résumé des différents points à prendre en compte pour créer un site web optimisé pour les moteurs de recherche en termes de code HTML et

Plus en détail

Travail collaboratif à distance

Travail collaboratif à distance UNIVERSITE ABDELMALEK ESSAADI FACULTE POLYDISCIPLINAIRE LARACHE 2012-2013 Travail collaboratif à distance P r o f e sse u r A z iz M A B ROU K P r. a z i z. m a b r o u k. f p l @ g m a i l. c o m S.E.G

Plus en détail

Le modèle de données

Le modèle de données Le modèle de données Introduction : Une fois que l étude des besoins est complétée, deux points importants sont à retenir : Les données du système étudié Les traitements effectués par le système documentaire.

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

Baccalauréat technologique

Baccalauréat technologique Baccalauréat technologique Épreuve relative aux enseignements technologiques transversaux, épreuve de projet en enseignement spécifique à la spécialité et épreuve d'enseignement technologique en langue

Plus en détail

Nouveau Web Client marquant, Cumulus Video Cloud, optimisations de la base de données, et plus..

Nouveau Web Client marquant, Cumulus Video Cloud, optimisations de la base de données, et plus.. INFORMATION PRODUIT : Quoi de Neuf dans Cumulus 9.0? Nouveau Web Client marquant, Cumulus Video Cloud, optimisations de la base de données, et plus.. Les nouveautés marquantes et les améliorations disponibles

Plus en détail

2. Activités et Modèles de développement en Génie Logiciel

2. Activités et Modèles de développement en Génie Logiciel 2. Activités et Modèles de développement en Génie Logiciel Bernard ESPINASSE Professeur à l'université d'aix-marseille Plan Les Activités du GL Analyse des besoins Spécification globale Conceptions architecturale

Plus en détail