Mémoire DEA Système d'information Management and Technology of Information Systems

Dimension: px
Commencer à balayer dès la page:

Download "Mémoire DEA Système d'information Management and Technology of Information Systems"

Transcription

1 Mémoire DEA Système d'information Management and Technology of Information Systems Titre : Expérience sur l'utilisation de conjonctions de termes et la prise en compte des dépendances entre termes d'indexation dans le cadre du filtrage adaptatif. Etudiant : BISIAUX Cédric Le 27 juin 2003 Encadré par : Brouard Christophe

2

3 RESUME L'objet de ce mémoire est la présentation d'une évolution du système RELIEFS (RELevance Information Fuzzy System). RELIEFS est un système de filtrage adaptatif de documents textuels. Il se base sur la présence ou l'absence de termes pour sélectionner ou rejeter les documents qui lui sont présentés, et il utilise le retour de pertinence de l'utilisateur (oui ce document est pertinent, non ce document ne l'est pas) pour s'adapter à la demande de l'utilisateur. Dans sa version actuelle, le système considère la présence des termes indépendamment les uns des autres. Il ne tient, par exemple, pas compte du contexte dans lequel le mot est employé (autres mots présents dans son voisinage) et des relations de synonymie ou d'hyperonymie qui peuvent exister avec d'autres mots (cette fois-ci hors du document présenté). Bien que la première version du système donne des résultats satisfaisants, une évolution consiste à prendre en compte ces aspects (écartées dans la majeure partie des modèles de recherche d'information). Sur la base de travaux antérieurs et d'une analyse de la notion de dépendance, nous avons proposé une solution intégrant la notion de contexte. Nous avons implémenté cette solution et nous l'avons expérimenté sur un corpus de communiqués de presse utilisé dans le cadre de la conférence TREC11. Mots-clefs : Filtrage adaptatif, pertinence, dépendances, conjonctions de mots, système de recherche d'information. ABSTRACT The report deals with a the presentation of an evolution of the system RELIEFS (RELevance Information Fuzzy System). RELIEFS is a system of adaptive filtering of textual documents. It is based on the presence or the absence of terms to select or reject the documents which are presented to him and it uses the return of relevance of the user (yes this document is relevant, not this document is not it) to adapt at the request of the user. In its current version, the system considers the presence of the terms independently to each other. It does not hold for example not account of the context in which the word is employed (other words present in its vicinity) and of the relations of synonymy or hyperonymy which can exist with other words (this time out of the document presented). Although the first version of the system gives satisfactory results, an evolution consists in taking into account these aspects (isolated in the major part of the models of search for information). On the basis of former work and an analysis of the concept of dependence, we proposed a solution integrating the concept of context. We implemented this solution and tried out we it on a corpus of press releases used within the framework of conference TREC11. Keywords: Adaptive filtering, relevance, dependences, words conjunctions, retrieval information system.

4

5 REMERCIEMENTS Je tiens à remercier mon responsable de stage, Christophe Brouard, pour tous ses conseils, commentaires et explications. Je le remercie pour l'écoute qu'il m'a apporté et qui m'a permit de bien amorcer et de faire évoluer cette recherche. je remercie aussi l'équipe MRIM qui a constituée un agréable cadre de travail. Les réunions de l'équipe ont apporté beaucoup d'échanges et de discussions. Les présentations qui y ont été faites, ont permis de partager des points de vue, mais aussi de lever des interrogations sur les recherches exposées et ainsi les faire évoluer. Enfin, je remercie Céline et Raymond pour leur soutien et pour la correction du document, ainsi que leurs commentaires.

6

7 TABLE DES MATIERES TABLE DES MATIERES 1 INTRODUCTION EXPOSE DE LA PROBLEMATIQUE Présentation de la tâche de filtrage La tâche de filtrage en général Les sous-tâches de TREC Les systèmes de filtrages Formule de Rocchio Formule OKAPI Présentation de RELIEFS Représentation des documents et requêtes a Construction du réseau associatif b Règle d'apprentissage Fonction de correspondance Réglage des seuils du système Ce que l'on veut faire Les conjonctions Les dépendances INDEXATION PAR CONJONCTION DE TERMES ET PRISE EN COMPTE DES DEPENDANCES DANS LES MODELES DE RI Modèles de RI Prise en compte des dépendances L'extension de requête Illustration du problème de dépendance Utilisation de conjonctions de termes Modèle vectoriel Représentation des documents et requêtes a Les schémas de pondération b Combinaison des pondérations Fonction de correspondance Prise en compte des dépendances dans le modèle vectoriel a Modèle Latent Semantic Indexing b Modèle DSIR [Besançon 2002] Conjonctions de termes dans le modèle vectoriel Modèle logique Représentation des documents et requêtes Fonction de correspondance Evolution du modèle logique de base Prise en compte des dépendances dans le modèle logique Conjonctions dans le modèle logique Modèle probabiliste Représentation des documents et de la requête Fonction de correspondance Prise en compte des dépendances dans le modèle probabiliste Conjonctions dans le modèle probabiliste

8 TABLE DES MATIERES 3.7 Modèle de réseaux de neurones Représentation des documents et Requêtes Les fonctions de correspondances a Approche par mesure du cosinus [Wilkinson et Hingston 1991] b Approche probabiliste d'un réseau de neurone [Kwok 1995] La prise en compte des dépendances dans le modèle des réseaux de neurones Conjonctions dans le modèle des réseaux de neurones MODIFICATION DE RELIEFS EN VUE DE LA PRISE EN COMPTE DES CONJONCTIONS DE TERMES ET DE LA DEPENDANCE ENTRE LES TERMES D'INDEXATION Le modèle Construction des conjonctions Analyse du problème de dépendances Validation Expériences a Première expérience b Seconde expérience c Troisième expérience Discussion a Expérience b Expérience c Expérience d Evolution du système Conclusion...57 BIBLIOGRAPHIE

9 INTRODUCTION 1 INTRODUCTION Ce sujet de DEA traite de la prise en compte des dépendances entre termes pour l'indexation de documents textuels. Cet aspect est rarement traité dans les modèles de recherche d'information du fait des difficultés de traitement introduites, et de la relative absence d'amélioration généralement constatée. Ainsi, le calcul de la contribution d'un mot dans l'évaluation de la pertinence du document dans lequel il survient n'intègre généralement pas les autres mots présents dans le document. On sommera par exemple les contributions de deux mots synonymes comme on somme les contributions de deux mots qui n'ont pas de rapport l'un avec l'autre. En se plaçant dans l'espace des sens et non dans celui des termes, on peut pourtant légitimement se demander si finalement, dans le cas des synonymes, on ne commet pas l'erreur de compter deux fois une contribution qui devrait n'être comptée qu'une fois. Par ailleurs, la présence d'un mot particulier dans un texte est précisée par les autres mots présents dans le même texte (contexte). Un mot peut décrire plusieurs sens (polysémie), et cette richesse du langage est compréhensible pour un lecteur, car il se sert du contexte pour lever l'ambiguïté. Mais cette richesse devient problématique pour les systèmes de recherche d'information puisqu'il faut alors modéliser ces dépendances. Il semble ainsi important de tenir compte de la présence des autres mots du document pour évaluer la contribution d'un mot particulier, car ces derniers peuvent en modifier ou en préciser le sens. Dans le cadre de ce mémoire de DEA, nos recherches ont pour but la prise en compte de ces dépendances en les incluant dans la fonction qui évalue la correspondance entre requêtes et documents (appelée communément fonction de correspondance). Dans notre étude, le système qui est utilisé est le système RELIEFS [Brouard 2002a], qui est un système pour le filtrage adaptatif de documents textuels. Nous essayons de faire évoluer ce système afin d'y inclure une solution de traitement de ces dépendances au travers de sa fonction de correspondance. L'articulation de ce document est la suivante : dans le chapitre deux, nous exposerons la problématique qui est liée au sujet. Dans le chapitre trois, nous verrons comment cette dépendance est traitée dans les modèles majeurs de la recherche d'information. Le quatrième chapitre présentera la solution que l'on propose, ainsi que les expériences qui nous permettent de l'évaluer. Le dernier chapitre conclut sur ce stage et présente les réflexions que nous suggérons dans cette recherche et les perspectives de ces travaux. 9

10 EXPOSE DE LA PROBLEMATIQUE 2 EXPOSE DE LA PROBLEMATIQUE 2.1 Présentation de la tâche de filtrage La tâche de filtrage en général Dans la plupart des systèmes de recherches d'informations, les documents demeurent relativement statiques tandis que de nouvelles requêtes sont soumises au système. Ce mode opérationnel se nomme la recherche "ad hoc", qui est la plus commune des tâches utilisateur. Dans le cadre du filtrage, au contraire la requête reste relativement statique tandis que de nouveaux documents sont injectés dans la base (ou la quittent). On retrouve ce type de situations dans le cadre des systèmes de bourses en lignes 1 ou les sites d'informations en lignes 2. Dans la tâche de filtrage [Belkin et Croft 1992], un profil utilisateur doit décrire les préférences de l'utilisateur. Un tel profil est alors comparé aux documents entrants afin d'essayer de déterminer ceux qui pourraient être intéressants pour cet utilisateur particulier. Actuellement, cette approche est utilisée pour sélectionner un article parmi une collection d'articles entrant chaque jour pour les systèmes de dépêches. D'autres scénarii potentiels pour l'application du filtrage sont inclus dans le choix des décisions juridiques ou des articles du journal quotidien. Concrètement, la tâche de filtrage permet simplement d'indiquer à l'utilisateur les documents qui sont susceptibles de l'intéresser. Le système de filtrage détermine les documents qui sont vraiment pertinents et qui méritent d'être présentés à l'utilisateur. Si aucun ordre n'est présenté à l'utilisateur, la tâche de filtrage met en place dans son processus un ordonnancement interne pour déterminer les documents pertinents. Par exemple, tous les documents supérieurs à un seuil donné sont sélectionnés. Les autres sont alors écartés. Dans la tâche de filtrage, l'étape importante consiste en la construction d'un profil utilisateur qui reflète correctement les préférences de cet utilisateur. De nombreuses approches pour construire les profils utilisateurs ont été proposées. En voici quelques-unes : Une approche simpliste pour la construction d'un profil utilisateur est de construire ce profil en utilisant, pour le décrire, des mots-clés qui seront fournis par l'utilisateur lui-même. Cette approche est simpliste car elle fait appel à l'utilisateur à tous les niveaux. En fait, si l'utilisateur n'est pas familier du processus donnant les documents, il pourrait trouver assez difficile de fournir les mots-clés qui décrivent convenablement ses préférences dans ce contexte. En outre, une tentative par l'utilisateur de se familiariser avec le vocabulaire des documents pourrait se transformer en exercice pénible et long. Ainsi, bien que ceci soit une possibilité, nous ne pouvons demander à l'utilisateur de décrire précisément son profil, car ceci serait laborieux. Une alternative est de collecter des informations sur les préférences de l'utilisateur pour construire un profil utilisateur de manière dynamique. Au début, l'utilisateur fournit un ensemble de mots-clés décrivant ses préférences afin de permettre au système de construire un profil initial. A l'arrivée de nouveaux documents, le système utilise le profil utilisateur pour choisir les documents pouvant potentiellement l'intéresser. Par un processus de retour de pertinence ("Relevance feedback" en anglais), l'utilisateur n'indique pas seulement les 1 Exemple le site de boursorama.com, 2 exemple le site de l'afp ou les services dépêches de moteur de recherche comme voilà.fr ou encore les journaux comme lemonde.fr 10

11 EXPOSE DE LA PROBLEMATIQUE documents pertinents mais aussi les documents non-pertinents (figure 2.1). Le système utilise ces informations pour ajuster la description du profil utilisateur qui reflètera les nouvelles préférences. Cette procédure provoque une évolution constante du profil utilisateur. Ce profil se stabilise après plusieurs recherches, une fois que le profil est défini au plus proche des préférences utilisateur. retour de pertinence (oui,pertinent ou non, pas pertinent) sélection flux de documents document courant rejet utilisateur Figure 2.1 : Représentation d'un système de filtrage Figure 0 La difficulté majeure du filtrage est de décrire le mieux possible les préférences utilisateur au sein de son profil. L'approche la plus commune est de collecter les informations sur l'utilisateur pour constituer ce profil, extraire ses préférences de ces informations, et modifier le profil en concordance Les sous-tâches de TREC La conférence annuelle Text REtrieval Conference 3 est organisée chaque année sous l'égide du National Institute of Standards and Technology (NIST) sous le patronage de la DARPA. Elle offre un forum d évaluation et de discussions pour la communauté scientifique qui se consacre au traitement automatique des textes en général, et au filtrage en particulier. Un ensemble de tâches différentes est proposé aux différents participants qui soumettent des résultats à autant de tâches qu'ils le souhaitent. Certaines tâches font uniquement appel à des approches issues du traitement automatique du langage naturel. D'autres, comme la tâche de filtrage, nécessitent l'utilisation de méthodes à base de statistiques. Une description générale de la onzième édition de cette conférence (TREC-2002) peut-être trouvée dans [Voorhees et Buckland, 2002]. La tâche de filtrage proposée à TREC se décompose en trois sous-tâches : 3 Toutes les informations et publications relatives à cette conférence sont disponibles sur : 11

12 EXPOSE DE LA PROBLEMATIQUE 1. Le filtrage adaptatif (adaptive filtering) consiste à construire un premier modèle grâce à une requête formulée en langage naturel, puis à simuler un flux de documents. Le système peut tirer parti de la pertinence ou de la non-pertinence des documents sélectionnés pour s améliorer au fil du temps. 2. Le filtrage par lots (batch filtering) consiste à utiliser une base de documents préalablement étiquetés pour construire un modèle. Pour chaque document d un flux, le système doit prendre une décision binaire et peut utiliser, comme précédemment, la classe des documents sélectionnés pour s améliorer. 3. Pour le routage (routing), le système dispose également d une base de documents étiquetés pour l apprentissage. Les documents de la base de test doivent être ensuite ordonnés, du plus pertinent au moins pertinent. Le système ne doit donc pas effectuer une décision binaire, mais il doit être capable de calculer un score de pertinence. Il est toujours possible de passer du routage au filtrage par lots en considérant que les documents dont le score est au-dessus d un certain seuil sont pertinents. Il est nécessaire de choisir un "bon" seuil, ce qui n'est pas trivial : un système performant pour le routage peut être médiocre pour le filtrage par lots si le seuil n'est pas correctement choisi. 2.2 Les systèmes de filtrages Les systèmes de filtrages représentent les profils utilisateurs par une liste de termes pondérés. Ces systèmes sont conçus à partir de deux ingrédients principaux. Le premier concerne la mise à jour des poids associés aux termes. Le second concerne le calcul de la correspondance entre les documents et les profils Formule de Rocchio La formule de Rocchio [Rocchio 1971] propose un mode de calcul des poids. Elle transforme automatiquement une requête initiale (représentée par un vecteur de termes noté Q 0 ) en une nouvelle requête (représentée par un vecteur noté Q 1 ). Un ensemble de documents répondant à la requête initiale est proposé à un utilisateur qui les jugent (retour de pertinence). La nouvelle requête Q 1 est construite grâce à la formule de Rocchio, dont l idée est d ajouter à la requête initiale les termes des documents pertinents et de lui retrancher les termes des documents non pertinents : b g Q1 = a Q0 + Âd- - Âd (2.1) R N R dœr dœ( N -R) Dans cette formule, les documents sont représentés par un vecteur d, R est l ensemble des documents pertinents, R son cardinal et N le nombre total de documents de la collection; le triplet (a, b, g) est choisi en fonction de l importance que l on souhaite donner à chaque terme. La principale motivation est qu en pratique, la requête originale (Q 0 ) peut contenir d'importantes informations. Par ailleurs, les informations contenues dans les documents 12

13 EXPOSE DE LA PROBLEMATIQUE pertinents sont souvent plus importantes que les informations contenues dans les documents non-pertinents. C'est ce que suggère la constante g qui est inférieure à la constante b. Une approche alternative est de prendre g=0, ce qui nous ramène à une stratégie positive de "feedback". Cette formule de mise à jour des poids peut être associée à différents modèles classiques de RI pour le calcul de la correspondance entre documents et requêtes (modèle vectoriel ou modèle probabiliste) Formule OKAPI Le modèle probabiliste Okapi, dont les idées sont développées par Robertson, prend en compte la fréquence des termes dans les documents. Il a été testé plusieurs fois avec succès pour les campagnes TREC [Robertson et al 1994]. Ce modèle inclut un mode particulier de mise à jour des poids que nous détaillons ici. Ce modèle utilise l'idée d'expansion de requête en fonction du retour d'informations obtenu des documents pertinents. Le retour d'informations est l'apport de nouveaux termes qui permettent de désigner la composition possible d'un document que l'on juge pertinent. Le calcul des poids des termes dans le système OKAPI évolue en fonction des documents pertinents déjà trouvés par le système. Il repose sur la formule de Robertson et Sparck Jones [Robertson et Sparck Jones 1976] : w (1) ( r+ 0.5)/( R-r+ 0.5) = log ( n-r+ 0.5)/( N-n-R+ r+ 0.5) où N est le nombre de document de la collection n est le nombre de document contenant le terme R est le nombre de document pertinents connus pour une requête donné r est le nombre de document pertinents contenant le terme La fonction permettant de décrire le score d'un document est la suivante : (1) ( k1+ 1) tf ( k3+ 1) qtf w + k Q. Œ dl Q K tf k qtf avdl avdl 2 3 dl  T où Q représente la requête contenant les termes T K est égale à k 1 ((1-b)+b.dl/avdl) k 1, k 2, k 3 sont des paramètres qui dépendent de la nature de la requête tf est la fréquence d'occurrence d'un terme pour un document donné qtf est la fréquence du terme dans la requête dl et avdl sont respectivement la longueur du document et la longueur moyenne des documents L'évolution du système repose sur l'évolution de la requête. Cette évolution tient du fait que lors de retours d'informations du système, sur les documents pertinents, le système ordonne les termes présents dans ce document pertinent en fonction du poids de ces termes. Ce classement des termes, qui évolue à chaque retour de pertinence, permet de faire évoluer la 13

14 EXPOSE DE LA PROBLEMATIQUE requête. En effet, le système sélectionne les x premiers termes de cette ordre afin de les inclure dans la requête de base. Ces termes sélectionnés dépendent ainsi de leur position dans l'ordonnancement qui est fait après chaque arrivée de documents jugés pertinents pour la requête. Le formule de mise à jour peut être combinée à d'autres formules pour le calcul de la correspondance (exemples : modèle vectoriel ou probabiliste). 2.3 Présentation de RELIEFS Le système RELIEFS [Brouard 2000a] (RElevance Information Extraction Fuzzy System) est un système pour le filtrage adaptatif de documents textuels. Son fonctionnement s'inspire des mécanismes cognitifs pour les processus de sélection d'informations. Ce système repose sur un ensemble de mécanismes de base renvoyant à la notion d'activation et de propagation d'activation pour la sélection d'informations "pertinentes". Ce système a été implémenté et testé pour la tâche de filtrage adaptatif de TREC-9 [Brouard et Nie 2000] et TREC-2002 [Brouard 2002a]. La formalisation de la pertinence se définit comme une résonance dans un réseau de concept associé Représentation des documents et requêtes a Construction du réseau associatif Dans le cadre de la sélection de documents textuels, les stimulis sont représentés par les différents termes (ou mots) des documents. La requête est symbolisée par le nœud requête qui représente la pertinence d'un document. Le nœud requête est unique et distinct pour chaque requête présentée au système. Un réseau, liant les nœuds représentant les différents mots présents dans les documents et le nœud requête, est mis à jour continuellement (figure 2.2). (représentation de la requête) pertinence Connexions associatives mot i (représentation du document) Figure 2.2 : Réseau construit et mis à jour par RELIEFS [Brouard 2002b] 14

15 EXPOSE DE LA PROBLEMATIQUE Lorsqu'un document se présente, les termes présents dans ce document vont activer les nœuds correspondants dans le réseau et agir comme des indices de la pertinence du document. Un bon indice est un terme dont la résonance avec le nœud requête est importante (les deux implications sont fortes t i ÆQ et QÆt i ). La pertinence globale du document est calculée sur la base de l'ensemble des mots vis-à-vis du nœud requête. Pour adapter le système au besoin de l'utilisateur, le système doit apprendre à partir des retours de pertinence (relevance feedback) provenant de l'utilisateur pour les documents qui lui ont été proposé par le système précédemment. Cet apprentissage consiste à modifier la valeur des connexions entre les mots et le nœud requête b Règle d'apprentissage Etant donné un document et un jugement de pertinence, il faut mettre à jour les connexions présentes dans la structure. Soient W AB(k-1) et W ABk les évaluations de la connexion orientée du nœud A vers le nœud B, avant et après la prise en compte de la k ième observation (un couple document jugement de pertinence, que l'on note). Soit m A (o k ) une valeur indiquant la présence ou l'absence de l'objet A dans O k (1 si présent et 0 si absent). La règle d'apprentissage proposée est : w ABk aw = AB( k -1) + m ( O A a + m ( O A k k ). m ( O ) B k ) k 1 avec  - a = m A ( O k ) (2.2) i= 1 Dans notre cas, A et B correspondent respectivement à un mot (représenté par un nœud du document) et à la "pertinence" (représentée par un nœud requête) ou inversement. La règle fonctionne de la façon suivante : - Si A et B sont présents dans l'observation, la connexion de A vers B et la connexion inverse sont renforcées. On prend ainsi en compte le jugement de l'utilisateur en augmentant le poids des mots apparaissant dans le document jugé pertinent. - Si A est présent et B ne l'est pas, la connexion de A vers B est affaiblie et la connexion inverse reste inchangée. Si A est un mot et B le nœud requête, ceci revient à affaiblir le poids attribué à un mot qui apparaît dans un document jugé comme non pertinent par l'utilisateur. Si A est le nœud requête et B est un mot, ceci revient à affaiblir le poids attribué à un mot qui n'apparaît pas dans un document jugé comme pertinent par l'utilisateur. Le numérateur de la règle (2.2) correspond précisément à la forme générale de la règle de Hebb dont le principe est associatif (si deux nœuds sont activités simultanément, leurs connexions sont renforcées). Le dénominateur permet de normaliser le poids. La règle associative présentée permet donc simplement de calculer de façon incrémentale la fréquence relative de documents pertinents sachant la présence d'un mot ainsi que la fréquence d'un mot dans les documents pertinents Fonction de correspondance La fonction de pertinence pour un document est évaluée par une résonance. Afin d'évaluer la pertinence entre un document et une requête, [Brouard 2002b] décompose ces 15

16 EXPOSE DE LA PROBLEMATIQUE évaluations en calculant la résonance de chacun des mots présents dans les documents. La qualité de résonance d'un mot indique sa capacité à propager l'activation vers le nœud requête et à recevoir une activation de ce même nœud. Le poids de la connexion orientée du mot i vers le nœud requête est appelé W ir et le poids de la connexion inverse est appelé W Ri. Ainsi, la résonance entre le mot i et la requête est représentée par le produit de ces deux poids W ir. W Ri. L'absence d'un mot est donc d'autant plus pénalisante que ce mot est résonant avec la requête, c'est-à-dire que W ir.w Ri est grand. Elle correspond à l'idée que l'absence d'un relais de l'activation entraînerait une dissipation de l'activation et ne favoriserait pas l'émergence d'un état de résonance. Le profil est donc représenté comme dans les autres systèmes de filtrage adaptatif par une liste de termes i pondérés par W ir. W Ri. La fonction de correspondance se traduit par la somme des produits pour chacun des mots présents. Afin de normaliser cette somme, elle est rapportée à la même somme pour l'ensemble des mots (tous les mots appartenant au document). L'évaluation de la pertinence d'un document D pour une requête Q s'écrit alors :  i  WRiWiR * R ( D, Q) = (2.3) WRiWiR où i* sont les indices des termes présents dans le document. Le produit W ir.w Ri a une interprétention en termes de propagation d'activation. [Brouard 2002b] prend aussi en compte qu'il s'agit de fréquences relatives, et par conséquent il adopte une interprétation plus empirique. Ainsi, un mot important (un mot dont la présence influe de manière significative sur la décision de prendre ou non le document qui le contient) est un mot qui est assez fréquemment présent lorsqu'un document est pertinent. La prise en compte de W ir permet de sélectionner de bons "prédicteurs". La prise en compte de W Ri permet de sélectionner parmi ces "prédicteurs" ceux qui surviennent le plus fréquemment, c'est-à-dire ceux pour lesquels la qualité de prédiction a le moins de chance d'être liée à la présence fortuite du mot dans quelques documents pertinents et ceux qui seront plus susceptibles d'être présents dans les prochains documents pertinents, et donc le plus susceptible d'être utiles aux futures prises de décision concernant la pertinence des documents. On notera que la prise en compte de W Ri permet aussi d'éviter les mots qui sont simplement très présents comme les mots vides qui sont donc plus présents que les autres mots dans les documents pertinents sans pour autant être "réellement" liés au thème sur lequel porte la requête. Il s'agit des mots qui sont écartés dans le modèle vectoriel sur la base idf. Ces mots correspondent aussi, dans le cadre des méthodes de propagation d'activation, aux nœuds à forte connectivité, nœuds à éviter si l'on ne souhaite pas activer tout le réseau. i Réglage des seuils du système Afin que RELIEFS puisse s'adapter à la tâche de filtrage [Brouard 2002b], il faut pouvoir définir le score à partir duquel le système peut sélectionner le document. Le seuil optimal dépend de la requête et de l'apprentissage réalisé sur les précédents documents sélectionnés. Dans RELIEFS, cette mise à jour de ces seuils dépend des règles suivantes : - Si un document sélectionné n'est pas pertinent, le seuil est augmenté (on considère que le système est trop tolérant). 16

17 EXPOSE DE LA PROBLEMATIQUE - Si un document (qu'il soit pertinent ou pas) n'est pas sélectionné, le seuil est abaissé (on considère que le système est trop sélectif). Ces seuils permettent de régler le Bruit ou le Silence du système. L'amplitude d'augmentation ou de diminution des seuils dépend de différents critères : - Le nombre de documents non pertinents consécutifs sélectionnés. Plus ce nombre est important, plus l'augmentation est forte et la diminution est faible. - Le nombre de documents pertinents consécutifs (uniquement pour la diminution). Plus ce nombre est important, plus la diminution est forte. - Le nombre de documents traités (on prend plus de risque au début qu'à la fin). Plus ce nombre est important moins l'amplitude de la variation est forte. - La densité de documents pertinents estimée, c'est-à-dire le nombre de documents pertinents trouvés sur le nombre de documents traités. 2.4 Ce que l'on veut faire Les conjonctions Actuellement, les nœuds ne représentent que des termes simples. Ainsi, pour représenter un document contenant les mots a, b, et c on active les 3 nœuds représentant respectivement a, b et c. Notre souhait est de construire des nœuds représentant a&b; a&c, b&c, a&b&c de façon à tenir compte du contexte dans lesquels les mots surviennent. Par exemple, il est possible que seulement 10% des documents soient pertinents lorsque a ou b sont présents, et que 95% des documents soient pertinents lorsque a ET b sont présents simultanément. Il est impossible de tenir compte de ce type de situation si l'on ne dispose pas d'une représentation indépendante des conjonctions. Les conjonctions permettent en outre d'interpréter un mot dans son contexte (les mots intégrés dans la même conjonction) L'évolution que nous proposons consiste donc à construire des conjonctions et à les inclure dans l'évaluation de la pertinence des documents Les dépendances Dans le cadre des conjonctions, il existe une dépendance entre la conjonction ellemême et les termes qui la composent. Il faut pouvoir quantifier cette dépendance afin que leur rôle soit équilibré dans les fonctions de correspondance. Le problème vient du poids que l'on attribut à ces termes. Le but de ce travail est de leur attribuer un poids qui tient compte de la présence et de l'utilisation des termes composants. 17

18 ETAT DE L'ART 3 INDEXATION PAR CONJONCTION DE TERMES ET PRISE EN COMPTE DES DEPENDANCES DANS LES MODELES DE RI 3.1 Modèles de RI Le but d'un système est de stocker des informations (textuels, images, son, vidéo ) et de retrouver dans sa base les éléments qui correspondent aux critères qui sont exposés dans la requête. Un système de recherche d'informations permet à un utilisateur d'exprimer un besoin au travers d'une requête, souvent écrite en langage naturel, qui est traitée par le système. Ce système renvoie à un ensemble de documents, tiré d'une collection de documents, qui sont censés être liés à la recherche de l'utilisateur. Il s'agit donc d'un système de sélection d'informations qui évalue la correspondance entre les différents documents d'une collection et la requête de l'utilisateur. Selon [Baeza-Yates et Ribeiro-Neto 1999], un modèle de recherche d'informations se défini par un quadruplet {D, Q,, R(q i, d j )} (figure 3.1). où : - D est un ensemble de représentations pour les documents de la collection. - Q est un ensemble de représentations de la demande d'informations de l'utilisateur, cette représentation est appelée requête. - est le système qui modélise les documents, la requête et les relations qui existent. - R(q i, d j ) est la fonction de correspondance qui associe un nombre réel à une requête q i Œ Q et la représentation d'un document d j Œ D. Cette fonction peut fournir un ordonnancement des documents par rapport à la requête q i. Requête (exprimant un besoin d'information) Documents Représentation de la requête Fonction de correspondance Représentation des documents Documents ordonnés Figure 3.1 : Représentation de l architecture d un système de recherche d informations (encadré) et de ses entrées et sorties. 18

19 ETAT DE L'ART La construction d'un modèle de recherche d'informations se symbolise en premier par une représentation des documents et des informations utiles exprimées par l'utilisateur, et d'une fonction de correspondance qui évalue la pertinence d'un document par rapport à une requête. Cette fonction de correspondance correspond le plus souvent à l'évaluation du degré de satisfaction des critères de recherche exprimés dans la requête en effectuant une comparaison de la représentation du document et de la requête (identification, par exemple, des mots de la requête avec les mots-clefs représentants le document). Mais il existe d'autres types de relations qui peuvent symboliser cette pertinence. 3.2 Prise en compte des dépendances On peut remarquer que dans la plupart des modèles de base en RI, l'hypothèse d'indépendance des termes est automatiquement faite afin de faciliter la complexité des calculs. Le principal problème des systèmes d'informations est que souvent les mots utilisés pour définir la requête ne sont pas identiques aux mots servant à indexer le document qui est malgré tout pertinent pour cette requête. Ce problème tient du langage, car les mots utilisés peuvent être polysémiques ou synonymes d'un terme d'indexation. L'utilisation de synonyme fait référence au fait qu'il peut y avoir plusieurs façons d'exprimer un même concept. L'utilisation des ces différents termes dépend souvent du contexte, du domaine, des habitudes linguistiques ou encore de l'auditoire dans lequel il est utilisé. La prise en compte des synonymes tend à faire baisser la mesure de "Rappel" du système. Par polysémie, nous faisons référence au fait qu'un mot peut avoir plusieurs sens distincts. Dans différents contacts, où l'utilisation par différentes personnes peut faire varier le sens du mot, l'utilisation de ces mots dans une requête peut apporter en réponse des documents non pertinents pour la requête, car n'ayant pas le même contexte. La polysémie est un facteur qui fait baisser la "Précision" d'un système. Ce problème d'indexation, selon [Deerwester et al. 1990], peut être imputé à trois facteurs. Le premier facteur est que la manière d'identifier les termes d'indexations est incomplète. Les termes qui sont utilisés pour décrire ou indexer un document sont seulement une fraction des termes possibles utilisables par les utilisateurs pour rechercher ces documents. Ceci parce que le document lui-même ne contient pas la totalité des termes pouvant le décrire et ainsi ces documents ne seront pas retrouvés. Le second facteur est le manque de méthode pour traiter la polysémie. Des pistes sont données par Deerwester et bien d'autres peuvent être données, mais le but premier est de traiter correctement le sens du mot, d'où une importance de tenir compte du contexte dans lequel évoluent ces mots, comme dans le cadre de l'hypothèse de sémantique distributionnelle [Besançon 2002]. Le troisième et dernier facteur est plus technique. On remarque (comme il vous sera présenté par la suite) dans les systèmes de recherche d'informations que l'indépendance des termes est faite pour faciliter les traitements de ces systèmes, ce qui implique que la prise en compte des dépendances entre termes oblige de modifier ces modèles. Cette dépendance des termes (synonymie et polysémie) doit être prise en compte car elle tient un rôle important, comme on peut le constater dans l'illustration suivante L'extension de requête L'extension de requête est une modification de la requête de base qui est soumise au système. Cette modification consiste à augmenter la quantité d'informations de la requête 19

20 ETAT DE L'ART (ajout de nouveaux termes). Pour l'extension de requête, il est souvent utilisé des thésaurus (dictionnaire de termes ayant une relation conceptuelle entre eux), de termes co-occurrent. L'augmentation de la requête permet d'étendre les correspondances avec les documents Illustration du problème de dépendance Nous allons illustrer ce problème de termes au sein des systèmes de recherche d'informations en utilisant une matrice terme-document (table 3.1). Doc 1 Doc 2 Doc 3 accès document recherche information théorie base de données indexation informatique Pert Ret x x x x x R x* x x* M x x* x* R M Requête : "IDF en informatique pour la collecte d'information" Table 3.1 : Exemple d'une matrice terme-document En dessous de cette table, on donne la requête qui est soumise à cette base de données. Un "R" dans la colonne Pert (pertinent) indique que l'utilisateur a jugé le document pertinent pour cette requête (ici les documents 1 et 3 sont pertinents). Les termes ressortant de la requête et des documents (informatique et information) sont indiqués par un astérisque dans la case correspondante; "M" dans la colonne Ret (retrouvé) indique que le document a été retrouvé et que le système l a retourné à l'utilisateur. Les documents 1 et 2 illustrent le problème exprimé précédemment. Le document 1 est un document pertinent, mais ne contient aucun mot de la requête, ce qui implique que ce document ne soit pas retrouvé par le système. Le document 2 n'est pas pertinent mais il contient les termes de la requête, ce qui implique que lui soit retrouvé par le système, malgré que le contexte de ce document ne corresponde pas au contexte exprimé par la requête. Notez que dans cet exemple, aucune information de signification de la requête n'est trouvée. De ce fait, il n'y a aucune possibilité d'empêcher que le document 2 ne soit pas retrouvé. 3.3 Utilisation de conjonctions de termes L'utilisation de termes simples sert souvent pour indexer les documents et les requêtes. Mais dans le langage naturel, il existe des conjonctions de termes qui représentent des mots composés ou des expressions complexes. La difficulté pour un système est de pouvoir identifier ces conjonctions, ce qui signifie savoir s'il faut prendre en compte la conjonction ou chaque terme qui le compose de manière dissociée. Dans le cas des multi-termes, certains systèmes utilisent des patrons morpho-syntaxiques pour pouvoir identifier les multi-termes dans un document ou une requête [Jacquemin et al. 1997], mais ces multi-termes peuvent être présentés dans un document selon différentes variations : - Les variations morphologiques ; les expressions peuvent varier en raison de variations flexionnelles ou dérivationnelles : pluriel, conjugaison ou remplacement 20

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Dans cette définition, il y a trois notions clés: documents, requête, pertinence. Introduction à la RI 1. Définition Un système de recherche d'information (RI) est un système qui permet de retrouver les documents pertinents à une requête d'utilisateur, à partir d'une base de documents

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus Fansi @majirus

Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus Fansi @majirus 1 Recherche d Information(RI): Fondements et illustration avec Apache Lucene par Majirus Fansi @majirus Résumé Fondements de la Recherche d Information (RI) Noyau de toute application de RI Éléments à

Plus en détail

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie TRAITEMENT AUTOMATIQUE DES LANGUES Licence d'informatique 2ème Année Semestre 1 Département d'informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/tal.html Plan Définition

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL J. TICHON(1) (2), J.-M. TOULOTTE(1), G. TREHOU (1), H. DE ROP (2) 1. INTRODUCTION Notre objectif est de réaliser des systèmes de communication

Plus en détail

LE CATALOGAGE, L'INDEXATION ET LES FICHIERS DANS LES CENTRES DE RESSOURCES EN LANGUES

LE CATALOGAGE, L'INDEXATION ET LES FICHIERS DANS LES CENTRES DE RESSOURCES EN LANGUES Mélanges CRAPEL no 22 LE CATALOGAGE, L'INDEXATION ET LES FICHIERS DANS LES CENTRES DE RESSOURCES EN LANGUES Sam Michel CEMBALO Abstract 95 Can language learning resource centres contribute to the users'

Plus en détail

UNIVERSITÉ DU QUÉBEC À MONTRÉAL REFORMULATION AUTOMATIQUE DE REQUÊTES PAR INTÉGRATION D'ÉLÉMENTS SYNTAXIQUES DANS LE CADRE DU REPÉRAGE DE

UNIVERSITÉ DU QUÉBEC À MONTRÉAL REFORMULATION AUTOMATIQUE DE REQUÊTES PAR INTÉGRATION D'ÉLÉMENTS SYNTAXIQUES DANS LE CADRE DU REPÉRAGE DE UNIVERSITÉ DU QUÉBEC À MONTRÉAL REFORMULATION AUTOMATIQUE DE REQUÊTES PAR INTÉGRATION D'ÉLÉMENTS SYNTAXIQUES DANS LE CADRE DU REPÉRAGE DE L'INFORMATION EN FRANÇAIS SUR LE WEB THÈSE PRÉSENTÉE COMME EXIGENCE

Plus en détail

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

CONCEPTION Support de cours n 3 DE BASES DE DONNEES CONCEPTION Support de cours n 3 DE BASES DE DONNEES Auteur: Raymonde RICHARD PRCE UBO PARTIE III. - LA DESCRIPTION LOGIQUE ET PHYSIQUE DES DONNEES... 2 A. Les concepts du modèle relationnel de données...

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Modélisation et optimisation participative des processus métier assistées par un jeu de rôles

Modélisation et optimisation participative des processus métier assistées par un jeu de rôles Modélisation et optimisation participative des processus métier assistées par un jeu de rôles Les organisations doivent aujourd hui s'adapter de plus en plus vite aux évolutions stratégiques, organisationnelles

Plus en détail

modélisation solide et dessin technique

modélisation solide et dessin technique CHAPITRE 1 modélisation solide et dessin technique Les sciences graphiques regroupent un ensemble de techniques graphiques utilisées quotidiennement par les ingénieurs pour exprimer des idées, concevoir

Plus en détail

Rapport d'analyse des besoins

Rapport d'analyse des besoins Projet ANR 2011 - BR4CP (Business Recommendation for Configurable products) Rapport d'analyse des besoins Janvier 2013 Rapport IRIT/RR--2013-17 FR Redacteur : 0. Lhomme Introduction...4 La configuration

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

THÈSE. En vue de l'obtention du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE

THÈSE. En vue de l'obtention du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE THÈSE En vue de l'obtention du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE Délivré par l'université Toulouse III - Paul Sabatier Discipline ou spécialité : Informatique et applications Présentée et soutenue par

Plus en détail

Structures de données non linéaires

Structures de données non linéaires Structures de données non linéaires I. Graphes Définition Un graphe (simple) orienté G est un couple (S, A), où : S est un ensemble dont les éléments sont appelés les sommets. A est un ensemble de couples

Plus en détail

CHAMPION Matthieu Modèles de Marché en Visual Basic ESILV S04 S6. Sommaire... 1. Introduction... 2

CHAMPION Matthieu Modèles de Marché en Visual Basic ESILV S04 S6. Sommaire... 1. Introduction... 2 Sommaire Sommaire... 1 Introduction... 2 1 Trois différentes techniques de pricing... 3 1.1 Le modèle de Cox Ross Rubinstein... 3 1.2 Le modèle de Black & Scholes... 8 1.3 Méthode de Monte Carlo.... 1

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées : a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN

Plus en détail

2. Fractions et pourcentages

2. Fractions et pourcentages FRACTIONS ET POURCENTAGES. Fractions et pourcentages.. Définitions Certaines divisions tombent justes. C'est par exemple le cas de la division 4 8 qui donne.. D'autres ne s'arrêtent jamais. C'est ce qui

Plus en détail

À propos des matrices échelonnées

À propos des matrices échelonnées À propos des matrices échelonnées Antoine Ducros appendice au cours de Géométrie affine et euclidienne dispensé à l Université Paris 6 Année universitaire 2011-2012 Introduction Soit k un corps, soit E

Plus en détail

La recherche sur Internet Table des matières

La recherche sur Internet Table des matières La recherche sur Internet Table des matières 1- Internet est comme une bibliothèque publique... 2 Comment on utilise une bibliothèque ordinaire...2 L'Internet n'est pas une bibliothèque ordinaire...2 Synthèse...2

Plus en détail

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels Plan Brève introduction à la recherche d!information sur le Web à base d!agents logiciels Bernard ESPINASSE Université d!aix-marseille 2010 Rappels sur les agents logiciels Problématique de la RI sur le

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

La théorie des mouvements dans les formules Jean-François Nicaud Version initiale de Février 2013 jeanfrancois.nicaud@laposte.net

La théorie des mouvements dans les formules Jean-François Nicaud Version initiale de Février 2013 jeanfrancois.nicaud@laposte.net La théorie des mouvements dans les formules Jean-François Nicaud Version initiale de Février 2013 jeanfrancois.nicaud@laposte.net Article rédigé avec epsilonwriter puis copié dans Word La théorie des mouvements

Plus en détail

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies Ariane Lançon (Observatoire de Strasbourg) en collaboration avec: Jean-Luc Vergely,

Plus en détail

Arbres ordonnés, binaires, tassés, FAP, tri par FAP, tas, tri par tas

Arbres ordonnés, binaires, tassés, FAP, tri par FAP, tas, tri par tas Arbres ordonnés, binaires, tassés, FAP, tri par FAP, tas, tri par tas 1. Arbres ordonnés 1.1. Arbres ordonnés (Arbres O) On considère des arbres dont les nœuds sont étiquetés sur un ensemble muni d'un

Plus en détail

Analyse et modélisation de tâches

Analyse et modélisation de tâches Analyse et modélisation de tâches 1. Introduction La conception de logiciel interactif (ou conception d'interface homme-machine [IHM], ou conception d'interface) est l'activité qui vise à définir le fonctionnement

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS Annuaire Ouvrage publié en principe chaque année ou selon une périodicité proche de l'année, qui donne une liste de noms de personnes ou d'organismes

Plus en détail

1 Codes linéaires. G = [I k A]. Dans ce cas on constate que la matrice. H = [ t A I n k ] est une matrice de contrôle de C. Le syndrome de x F n q

1 Codes linéaires. G = [I k A]. Dans ce cas on constate que la matrice. H = [ t A I n k ] est une matrice de contrôle de C. Le syndrome de x F n q 1 Codes linéaires Un code de longueur n est une partie de F n q. Un code linéaire C de longueur n sur le corps ni F q est un sous-espace vectoriel de F n q. Par défaut, un code sera supposé linéaire. La

Plus en détail

Utiliser Access ou Excel pour gérer vos données

Utiliser Access ou Excel pour gérer vos données Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que

Plus en détail

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES Dossier G11 - Interroger une base de données La base de données Facturation contient tout un ensemble d'informations concernant la facturation de la SAFPB (société anonyme de fabrication de produits de

Plus en détail

Le chiffre est le signe, le nombre est la valeur.

Le chiffre est le signe, le nombre est la valeur. Extrait de cours de maths de 6e Chapitre 1 : Les nombres et les opérations I) Chiffre et nombre 1.1 La numération décimale En mathématique, un chiffre est un signe utilisé pour l'écriture des nombres.

Plus en détail

Recherche dans un tableau

Recherche dans un tableau Chapitre 3 Recherche dans un tableau 3.1 Introduction 3.1.1 Tranche On appelle tranche de tableau, la donnée d'un tableau t et de deux indices a et b. On note cette tranche t.(a..b). Exemple 3.1 : 3 6

Plus en détail

LE PROBLEME DU PLUS COURT CHEMIN

LE PROBLEME DU PLUS COURT CHEMIN LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs

Plus en détail

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES 4 mars 1996 FRANCAIS Original : RUSSE COMMISSION DE STATISTIQUE et COMMISSION ECONOMIQUE POUR L'EUROPE CONFERENCE DES STATISTICIENS EUROPEENS OFFICE STATISTIQUE DES COMMUNAUTES EUROPEENNES (EUROSTAT) ORGANISATION

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

Les moteurs de progrès

Les moteurs de progrès MANAGEMENT PILOTAGE Les moteurs de progrès Si le management par les processus connaît une certaine réussite, le pilotage et les processus qui lui sont liés restent précaires. Pourtant là aussi, appliquer

Plus en détail

TECH. INFOTECH # 34 Solvabilité 2 : Le calcul du capital économique dans le cadre d un modèle interne. Introduction

TECH. INFOTECH # 34 Solvabilité 2 : Le calcul du capital économique dans le cadre d un modèle interne. Introduction INFO # 34 dans le cadre d un modèle interne Comment les méthodes d apprentissage statistique peuvent-elles optimiser les calculs? David MARIUZZA Actuaire Qualifié IA Responsable Modélisation et Solvabilité

Plus en détail

OASIS www.oasis-open.org/committees/xacml/docs/docs.shtml Date de publication

OASIS www.oasis-open.org/committees/xacml/docs/docs.shtml Date de publication Statut du Committee Working Draft document Titre XACML Language Proposal, version 0.8 (XACML : XML Access Control Markup Language) Langage de balisage du contrôle d'accès Mot clé Attestation et sécurité

Plus en détail

Exercices de dénombrement

Exercices de dénombrement Exercices de dénombrement Exercice En turbo Pascal, un entier relatif (type integer) est codé sur 6 bits. Cela signifie que l'on réserve 6 cases mémoires contenant des "0" ou des "" pour écrire un entier.

Plus en détail

e-demos : Guide d'utilisation

e-demos : Guide d'utilisation Laboratoire de Soutien à l'enseignement Télématique (LabSET) Institut de Formation et de Recherche pour l'enseignement Supérieur (IFRES) Université de Liège (ULg) e-demos : Guide d'utilisation Novembre

Plus en détail

Ebauche Rapport finale

Ebauche Rapport finale Ebauche Rapport finale Sommaire : 1 - Introduction au C.D.N. 2 - Définition de la problématique 3 - Etat de l'art : Présentatio de 3 Topologies streaming p2p 1) INTRODUCTION au C.D.N. La croissance rapide

Plus en détail

Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation

Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation 443 Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation Diem Le Thi Hoang Equipe MRIM, Laboratoire CLIPS-IMAG 38041 Grenoble Cedex 9, France

Plus en détail

Le Langage SQL version Oracle

Le Langage SQL version Oracle Université de Manouba École Supérieure d Économie Numérique Département des Technologies des Systèmes d Information Le Langage SQL version Oracle Document version 1.1 Mohamed Anis BACH TOBJI anis.bach@isg.rnu.tn

Plus en détail

COMMISSION DES NORMES COMPTABLES. Avis CNC 132/4 - Marchés à terme en marchandises

COMMISSION DES NORMES COMPTABLES. Avis CNC 132/4 - Marchés à terme en marchandises COMMISSION DES NORMES COMPTABLES Avis CNC 132/4 - Marchés à terme en marchandises A. Principes 1. En application de l'article 69, 1 er, 1 er alinéa de l'arrêté royal du 30 janvier 2001 portant exécution

Plus en détail

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Année 2008/2009 1 Décomposition QR On rappelle que la multiplication avec une matrice unitaire Q C n n (c est-à-dire Q 1 = Q = Q T ) ne change

Plus en détail

L'évolution de VISUAL MESSAGE CENTER Architecture et intégration

L'évolution de VISUAL MESSAGE CENTER Architecture et intégration L'évolution de VISUAL MESSAGE CENTER Architecture et intégration Sommaire Résumé exécutif Base technologique : VISUAL Message Center 2 3 VISUAL Message Center Core Engine VISUAL Message Center Extended

Plus en détail

REFERENCEMENT ET POSITIONNEMENT DE SITE INTERNET

REFERENCEMENT ET POSITIONNEMENT DE SITE INTERNET REFERENCEMENT ET POSITIONNEMENT DE SITE INTERNET FONCTIONNEMENT DES MOTEURS DE RECHERCHE APPROCHE METHODOLOGIQUE DU REFERENCEMENT INSCRIPTIONS POPULARITE ET ECHANGE DE LIENS SUIVI ET VEILLE REFERENTIELLE

Plus en détail

Intégrer et gérer la temporalité dans le système d'information du territoire genevois (www.sitg.ch)

Intégrer et gérer la temporalité dans le système d'information du territoire genevois (www.sitg.ch) REPUBLIQUE ET CANTON DE GENEVE Département de l'intérieur et de la mobilité Service de la mensuration officielle 02.2012 Intégrer et gérer la temporalité dans le système d'information du territoire genevois

Plus en détail

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration Julien MATHEVET Alexandre BOISSY GSID 4 Rapport Load Balancing et migration Printemps 2001 SOMMAIRE INTRODUCTION... 3 SYNTHESE CONCERNANT LE LOAD BALANCING ET LA MIGRATION... 4 POURQUOI FAIRE DU LOAD BALANCING?...

Plus en détail

Introduction à l Algorithmique

Introduction à l Algorithmique Introduction à l Algorithmique N. Jacon 1 Définition et exemples Un algorithme est une procédure de calcul qui prend en entier une valeur ou un ensemble de valeurs et qui donne en sortie une valeur ou

Plus en détail

Intégration de la dimension sémantique dans les réseaux sociaux

Intégration de la dimension sémantique dans les réseaux sociaux Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Contexte : Recommandation dans les réseaux sociaux

Plus en détail

I - Qu'est-ce que QuickFind?...3

I - Qu'est-ce que QuickFind?...3 MANUEL QuickFind I - Qu'est-ce que QuickFind?...3 II - Version 2.1 pour le CESE (FR) QuickFind et l'espace Public...3 Fonction...4 Accès...4 Compatibilité...4 Changements récents...5 Octobre 2007...5 III

Plus en détail

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal III CHOIX OPTIMAL DU CONSOMMATEUR A - Propriétés et détermination du choix optimal La demande du consommateur sur la droite de budget Résolution graphique Règle (d or) pour déterminer la demande quand

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

A. Définition et formalisme

A. Définition et formalisme Les cardinalités et les différents types d'associations I. Les cardinalités A. Définition et formalisme Les cardinalités sont des couples de valeur que l'on trouve entre chaque entité et ses associations

Plus en détail

Chapitre 4 Évaluation des performances d'un filtre

Chapitre 4 Évaluation des performances d'un filtre Chapitre 4 : Evaluation des performances d'un filtre 33 Chapitre 4 Évaluation des performances d'un filtre Pour comparer les différents systèmes de filtrage, il faut définir une mesure pour évaluer leurs

Plus en détail

PLAN DE COURS. TITRE DU COURS : Mise à niveau pour mathématique 536

PLAN DE COURS. TITRE DU COURS : Mise à niveau pour mathématique 536 100, rue Duquet, Sainte-Thérèse (Québec) J7E 3G6 Téléphone : (450) 430-3120 Télécopieur : (450) 971-7883 Internet : http://www.clg.qc.ca SESSION : H-2009 NO DE COURS : 201-009-50 PRÉALABLE(S) : Math 436

Plus en détail

1. Introduction...2. 2. Création d'une requête...2

1. Introduction...2. 2. Création d'une requête...2 1. Introduction...2 2. Création d'une requête...2 3. Définition des critères de sélection...5 3.1 Opérateurs...5 3.2 Les Fonctions...6 3.3 Plusieurs critères portant sur des champs différents...7 3.4 Requête

Plus en détail

Mathématiques appliquées à l informatique

Mathématiques appliquées à l informatique Mathématiques appliquées à l informatique Jean-Etienne Poirrier 15 décembre 2005 Table des matières 1 Matrices 3 1.1 Définition......................................... 3 1.2 Les différents types de matrices.............................

Plus en détail

Modélisation Principe Autre principe

Modélisation Principe Autre principe Modélisation Principe : un modèle est une abstraction permettant de mieux comprendre un objet complexe (bâtiment, économie, atmosphère, cellule, logiciel, ). Autre principe : un petit dessin vaut mieux

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Differential Synchronization

Differential Synchronization Differential Synchronization Neil Fraser Google 2009 BENA Pierrick CLEMENT Lucien DIARRA Thiemoko 2 Plan Introduction Stratégies de synchronisation Synchronisation différentielle Vue d ensemble Dual Shadow

Plus en détail

STYLE PROFESSIONNEL M(me) Prénom NOM Employeur Date Cette synthèse est confidentielle et ne peut être diffusée sans l accord de la personne évaluée. EXTRAIT DE 17 PAGES SUR 42 AU TOTAL RAPPORT DE SYNTHÈSE

Plus en détail

Recherche bibliographique

Recherche bibliographique Séminaire «Maîtrise de l information scientifique» Recherche bibliographique Dernière mise à jour : 07/01/2015 - Auteur : Frédérique Flamerie Recherche bibliographique : méthode & outils La recherche bibliographique

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche 3 Principes d AdWords Les deux premiers chapitres de ce livre, plutôt généraux, ont présenté l univers d Internet et de la publicité en ligne. Vous devriez maintenant être convaincu de l intérêt d une

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Les principaux domaines de l informatique

Les principaux domaines de l informatique Les principaux domaines de l informatique... abordés dans le cadre de ce cours: La Programmation Les Systèmes d Exploitation Les Systèmes d Information La Conception d Interfaces Le Calcul Scientifique

Plus en détail

THÉORIE DE L'INFORMATION : RAPPELS

THÉORIE DE L'INFORMATION : RAPPELS THÉORIE DE L'INFORMATION : RAPPELS 1920 : premières tentatives de définition de mesure de l'information à partir de 1948 : travaux de Shannon Théorie de l'information discipline fondamentale qui s'applique

Plus en détail

Créer le schéma relationnel d une base de données ACCESS

Créer le schéma relationnel d une base de données ACCESS Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Systèmes Binaires. V. Langlet

Systèmes Binaires. V. Langlet Systèmes Binaires V. Langlet Niveau : De la Terminale aux Maths du supérieur Diculté : De plus en plus dur au l des exercices. Durée : Environ deux heures, suivant la compréhension du sujet. Rubrique(s)

Plus en détail

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux

Plus en détail

EMC SourceOne TM for Microsoft SharePoint Recherche dans les archives Carte de référence rapide version 7.2

EMC SourceOne TM for Microsoft SharePoint Recherche dans les archives Carte de référence rapide version 7.2 Utilisez la fonctionnalité pour rechercher et restaurer du contenu SharePoint archivé dans EMC SourceOne La fonctionnalité de SharePoint est destinée aux administrateurs et utilisateurs de SharePoint.

Plus en détail

Université de Bangui. Modélisons en UML

Université de Bangui. Modélisons en UML Université de Bangui CRM Modélisons en UML Ce cours a été possible grâce à l initiative d Apollinaire MOLAYE qui m a contacté pour vous faire bénéficier de mes connaissances en nouvelles technologies et

Plus en détail

RÉSOLUTION DE SYSTÈMES À DEUX INCONNUES

RÉSOLUTION DE SYSTÈMES À DEUX INCONNUES RÉSOLUTION DE SYSTÈMES À DEUX INCONNUES Sommaire 1 Méthodes de résolution... 3 1.1. Méthode de Substitution... 3 1.2. Méthode des combinaisons linéaires... 6 La rubrique d'aide qui suit s'attardera aux

Plus en détail

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA) La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA) I. L'intérêt de la conversion de données, problèmes et définitions associés. I.1. Définitions:

Plus en détail

LE MODELE CONCEPTUEL DE DONNEES

LE MODELE CONCEPTUEL DE DONNEES LE MODELE CONCEPTUEL DE DONNEES Principe : A partir d'un cahier des charges, concevoir de manière visuelle les différents liens qui existent entre les différentes données. Les différentes étapes de réalisation.

Plus en détail

NOTATIONS PRÉLIMINAIRES

NOTATIONS PRÉLIMINAIRES Pour le Jeudi 14 Octobre 2010 NOTATIONS Soit V un espace vectoriel réel ; l'espace vectoriel des endomorphismes de l'espace vectoriel V est désigné par L(V ). Soit f un endomorphisme de l'espace vectoriel

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

Gestion collaborative de documents

Gestion collaborative de documents Gestion collaborative de documents ANT box, le logiciel qui simplifie votre GED Les organisations (entreprises, collectivités, associations...) génèrent chaque jour des millions de documents, e-mails,

Plus en détail

1. Qu'est-ce que SQL?... 2. 2. La maintenance des bases de données... 2. 3. Les manipulations des bases de données... 5

1. Qu'est-ce que SQL?... 2. 2. La maintenance des bases de données... 2. 3. Les manipulations des bases de données... 5 1. Qu'est-ce que SQL?... 2 2. La maintenance des bases de données... 2 2.1 La commande CREATE TABLE... 3 2.2 La commande ALTER TABLE... 4 2.3 La commande CREATE INDEX... 4 3. Les manipulations des bases

Plus en détail

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal La demande Du consommateur Contrainte budgétaire Préférences Choix optimal Plan du cours Préambule : Rationalité du consommateur I II III IV V La contrainte budgétaire Les préférences Le choix optimal

Plus en détail

Modèle e-a étendu: MCD (Modèle conceptuel des données) de Merise

Modèle e-a étendu: MCD (Modèle conceptuel des données) de Merise 58 Modèle e-a étendu: MCD (Modèle conceptuel des données) de Merise Héritage Contrainte d intégrité Fonctionnelle (CIF) 59 Héritage S impose dans 2 cas : Spécialisation : permet de modéliser dans l'ensemble

Plus en détail

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile Dans ce TP, vous apprendrez à définir le type abstrait Pile, à le programmer en Java à l aide d une interface

Plus en détail

Climat Scolaire - Manuel utilisateur - Chapitre 2 : «Créer, Editer et suivi d un texte»

Climat Scolaire - Manuel utilisateur - Chapitre 2 : «Créer, Editer et suivi d un texte» Climat Scolaire - Manuel utilisateur - Chapitre 2 : «Créer, Editer et suivi d un texte» Espace collaboratif Co-Ment Date : 01/12/2013 Référence du Projet : Chef de Projet : www.cndp.fr/climatscolaire Caroline

Plus en détail