Mémoire DEA Système d'information Management and Technology of Information Systems

Dimension: px
Commencer à balayer dès la page:

Download "Mémoire DEA Système d'information Management and Technology of Information Systems"

Transcription

1 Mémoire DEA Système d'information Management and Technology of Information Systems Titre : Expérience sur l'utilisation de conjonctions de termes et la prise en compte des dépendances entre termes d'indexation dans le cadre du filtrage adaptatif. Etudiant : BISIAUX Cédric Le 27 juin 2003 Encadré par : Brouard Christophe

2

3 RESUME L'objet de ce mémoire est la présentation d'une évolution du système RELIEFS (RELevance Information Fuzzy System). RELIEFS est un système de filtrage adaptatif de documents textuels. Il se base sur la présence ou l'absence de termes pour sélectionner ou rejeter les documents qui lui sont présentés, et il utilise le retour de pertinence de l'utilisateur (oui ce document est pertinent, non ce document ne l'est pas) pour s'adapter à la demande de l'utilisateur. Dans sa version actuelle, le système considère la présence des termes indépendamment les uns des autres. Il ne tient, par exemple, pas compte du contexte dans lequel le mot est employé (autres mots présents dans son voisinage) et des relations de synonymie ou d'hyperonymie qui peuvent exister avec d'autres mots (cette fois-ci hors du document présenté). Bien que la première version du système donne des résultats satisfaisants, une évolution consiste à prendre en compte ces aspects (écartées dans la majeure partie des modèles de recherche d'information). Sur la base de travaux antérieurs et d'une analyse de la notion de dépendance, nous avons proposé une solution intégrant la notion de contexte. Nous avons implémenté cette solution et nous l'avons expérimenté sur un corpus de communiqués de presse utilisé dans le cadre de la conférence TREC11. Mots-clefs : Filtrage adaptatif, pertinence, dépendances, conjonctions de mots, système de recherche d'information. ABSTRACT The report deals with a the presentation of an evolution of the system RELIEFS (RELevance Information Fuzzy System). RELIEFS is a system of adaptive filtering of textual documents. It is based on the presence or the absence of terms to select or reject the documents which are presented to him and it uses the return of relevance of the user (yes this document is relevant, not this document is not it) to adapt at the request of the user. In its current version, the system considers the presence of the terms independently to each other. It does not hold for example not account of the context in which the word is employed (other words present in its vicinity) and of the relations of synonymy or hyperonymy which can exist with other words (this time out of the document presented). Although the first version of the system gives satisfactory results, an evolution consists in taking into account these aspects (isolated in the major part of the models of search for information). On the basis of former work and an analysis of the concept of dependence, we proposed a solution integrating the concept of context. We implemented this solution and tried out we it on a corpus of press releases used within the framework of conference TREC11. Keywords: Adaptive filtering, relevance, dependences, words conjunctions, retrieval information system.

4

5 REMERCIEMENTS Je tiens à remercier mon responsable de stage, Christophe Brouard, pour tous ses conseils, commentaires et explications. Je le remercie pour l'écoute qu'il m'a apporté et qui m'a permit de bien amorcer et de faire évoluer cette recherche. je remercie aussi l'équipe MRIM qui a constituée un agréable cadre de travail. Les réunions de l'équipe ont apporté beaucoup d'échanges et de discussions. Les présentations qui y ont été faites, ont permis de partager des points de vue, mais aussi de lever des interrogations sur les recherches exposées et ainsi les faire évoluer. Enfin, je remercie Céline et Raymond pour leur soutien et pour la correction du document, ainsi que leurs commentaires.

6

7 TABLE DES MATIERES TABLE DES MATIERES 1 INTRODUCTION EXPOSE DE LA PROBLEMATIQUE Présentation de la tâche de filtrage La tâche de filtrage en général Les sous-tâches de TREC Les systèmes de filtrages Formule de Rocchio Formule OKAPI Présentation de RELIEFS Représentation des documents et requêtes a Construction du réseau associatif b Règle d'apprentissage Fonction de correspondance Réglage des seuils du système Ce que l'on veut faire Les conjonctions Les dépendances INDEXATION PAR CONJONCTION DE TERMES ET PRISE EN COMPTE DES DEPENDANCES DANS LES MODELES DE RI Modèles de RI Prise en compte des dépendances L'extension de requête Illustration du problème de dépendance Utilisation de conjonctions de termes Modèle vectoriel Représentation des documents et requêtes a Les schémas de pondération b Combinaison des pondérations Fonction de correspondance Prise en compte des dépendances dans le modèle vectoriel a Modèle Latent Semantic Indexing b Modèle DSIR [Besançon 2002] Conjonctions de termes dans le modèle vectoriel Modèle logique Représentation des documents et requêtes Fonction de correspondance Evolution du modèle logique de base Prise en compte des dépendances dans le modèle logique Conjonctions dans le modèle logique Modèle probabiliste Représentation des documents et de la requête Fonction de correspondance Prise en compte des dépendances dans le modèle probabiliste Conjonctions dans le modèle probabiliste

8 TABLE DES MATIERES 3.7 Modèle de réseaux de neurones Représentation des documents et Requêtes Les fonctions de correspondances a Approche par mesure du cosinus [Wilkinson et Hingston 1991] b Approche probabiliste d'un réseau de neurone [Kwok 1995] La prise en compte des dépendances dans le modèle des réseaux de neurones Conjonctions dans le modèle des réseaux de neurones MODIFICATION DE RELIEFS EN VUE DE LA PRISE EN COMPTE DES CONJONCTIONS DE TERMES ET DE LA DEPENDANCE ENTRE LES TERMES D'INDEXATION Le modèle Construction des conjonctions Analyse du problème de dépendances Validation Expériences a Première expérience b Seconde expérience c Troisième expérience Discussion a Expérience b Expérience c Expérience d Evolution du système Conclusion...57 BIBLIOGRAPHIE

9 INTRODUCTION 1 INTRODUCTION Ce sujet de DEA traite de la prise en compte des dépendances entre termes pour l'indexation de documents textuels. Cet aspect est rarement traité dans les modèles de recherche d'information du fait des difficultés de traitement introduites, et de la relative absence d'amélioration généralement constatée. Ainsi, le calcul de la contribution d'un mot dans l'évaluation de la pertinence du document dans lequel il survient n'intègre généralement pas les autres mots présents dans le document. On sommera par exemple les contributions de deux mots synonymes comme on somme les contributions de deux mots qui n'ont pas de rapport l'un avec l'autre. En se plaçant dans l'espace des sens et non dans celui des termes, on peut pourtant légitimement se demander si finalement, dans le cas des synonymes, on ne commet pas l'erreur de compter deux fois une contribution qui devrait n'être comptée qu'une fois. Par ailleurs, la présence d'un mot particulier dans un texte est précisée par les autres mots présents dans le même texte (contexte). Un mot peut décrire plusieurs sens (polysémie), et cette richesse du langage est compréhensible pour un lecteur, car il se sert du contexte pour lever l'ambiguïté. Mais cette richesse devient problématique pour les systèmes de recherche d'information puisqu'il faut alors modéliser ces dépendances. Il semble ainsi important de tenir compte de la présence des autres mots du document pour évaluer la contribution d'un mot particulier, car ces derniers peuvent en modifier ou en préciser le sens. Dans le cadre de ce mémoire de DEA, nos recherches ont pour but la prise en compte de ces dépendances en les incluant dans la fonction qui évalue la correspondance entre requêtes et documents (appelée communément fonction de correspondance). Dans notre étude, le système qui est utilisé est le système RELIEFS [Brouard 2002a], qui est un système pour le filtrage adaptatif de documents textuels. Nous essayons de faire évoluer ce système afin d'y inclure une solution de traitement de ces dépendances au travers de sa fonction de correspondance. L'articulation de ce document est la suivante : dans le chapitre deux, nous exposerons la problématique qui est liée au sujet. Dans le chapitre trois, nous verrons comment cette dépendance est traitée dans les modèles majeurs de la recherche d'information. Le quatrième chapitre présentera la solution que l'on propose, ainsi que les expériences qui nous permettent de l'évaluer. Le dernier chapitre conclut sur ce stage et présente les réflexions que nous suggérons dans cette recherche et les perspectives de ces travaux. 9

10 EXPOSE DE LA PROBLEMATIQUE 2 EXPOSE DE LA PROBLEMATIQUE 2.1 Présentation de la tâche de filtrage La tâche de filtrage en général Dans la plupart des systèmes de recherches d'informations, les documents demeurent relativement statiques tandis que de nouvelles requêtes sont soumises au système. Ce mode opérationnel se nomme la recherche "ad hoc", qui est la plus commune des tâches utilisateur. Dans le cadre du filtrage, au contraire la requête reste relativement statique tandis que de nouveaux documents sont injectés dans la base (ou la quittent). On retrouve ce type de situations dans le cadre des systèmes de bourses en lignes 1 ou les sites d'informations en lignes 2. Dans la tâche de filtrage [Belkin et Croft 1992], un profil utilisateur doit décrire les préférences de l'utilisateur. Un tel profil est alors comparé aux documents entrants afin d'essayer de déterminer ceux qui pourraient être intéressants pour cet utilisateur particulier. Actuellement, cette approche est utilisée pour sélectionner un article parmi une collection d'articles entrant chaque jour pour les systèmes de dépêches. D'autres scénarii potentiels pour l'application du filtrage sont inclus dans le choix des décisions juridiques ou des articles du journal quotidien. Concrètement, la tâche de filtrage permet simplement d'indiquer à l'utilisateur les documents qui sont susceptibles de l'intéresser. Le système de filtrage détermine les documents qui sont vraiment pertinents et qui méritent d'être présentés à l'utilisateur. Si aucun ordre n'est présenté à l'utilisateur, la tâche de filtrage met en place dans son processus un ordonnancement interne pour déterminer les documents pertinents. Par exemple, tous les documents supérieurs à un seuil donné sont sélectionnés. Les autres sont alors écartés. Dans la tâche de filtrage, l'étape importante consiste en la construction d'un profil utilisateur qui reflète correctement les préférences de cet utilisateur. De nombreuses approches pour construire les profils utilisateurs ont été proposées. En voici quelques-unes : Une approche simpliste pour la construction d'un profil utilisateur est de construire ce profil en utilisant, pour le décrire, des mots-clés qui seront fournis par l'utilisateur lui-même. Cette approche est simpliste car elle fait appel à l'utilisateur à tous les niveaux. En fait, si l'utilisateur n'est pas familier du processus donnant les documents, il pourrait trouver assez difficile de fournir les mots-clés qui décrivent convenablement ses préférences dans ce contexte. En outre, une tentative par l'utilisateur de se familiariser avec le vocabulaire des documents pourrait se transformer en exercice pénible et long. Ainsi, bien que ceci soit une possibilité, nous ne pouvons demander à l'utilisateur de décrire précisément son profil, car ceci serait laborieux. Une alternative est de collecter des informations sur les préférences de l'utilisateur pour construire un profil utilisateur de manière dynamique. Au début, l'utilisateur fournit un ensemble de mots-clés décrivant ses préférences afin de permettre au système de construire un profil initial. A l'arrivée de nouveaux documents, le système utilise le profil utilisateur pour choisir les documents pouvant potentiellement l'intéresser. Par un processus de retour de pertinence ("Relevance feedback" en anglais), l'utilisateur n'indique pas seulement les 1 Exemple le site de boursorama.com, 2 exemple le site de l'afp ou les services dépêches de moteur de recherche comme voilà.fr ou encore les journaux comme lemonde.fr 10

11 EXPOSE DE LA PROBLEMATIQUE documents pertinents mais aussi les documents non-pertinents (figure 2.1). Le système utilise ces informations pour ajuster la description du profil utilisateur qui reflètera les nouvelles préférences. Cette procédure provoque une évolution constante du profil utilisateur. Ce profil se stabilise après plusieurs recherches, une fois que le profil est défini au plus proche des préférences utilisateur. retour de pertinence (oui,pertinent ou non, pas pertinent) sélection flux de documents document courant rejet utilisateur Figure 2.1 : Représentation d'un système de filtrage Figure 0 La difficulté majeure du filtrage est de décrire le mieux possible les préférences utilisateur au sein de son profil. L'approche la plus commune est de collecter les informations sur l'utilisateur pour constituer ce profil, extraire ses préférences de ces informations, et modifier le profil en concordance Les sous-tâches de TREC La conférence annuelle Text REtrieval Conference 3 est organisée chaque année sous l'égide du National Institute of Standards and Technology (NIST) sous le patronage de la DARPA. Elle offre un forum d évaluation et de discussions pour la communauté scientifique qui se consacre au traitement automatique des textes en général, et au filtrage en particulier. Un ensemble de tâches différentes est proposé aux différents participants qui soumettent des résultats à autant de tâches qu'ils le souhaitent. Certaines tâches font uniquement appel à des approches issues du traitement automatique du langage naturel. D'autres, comme la tâche de filtrage, nécessitent l'utilisation de méthodes à base de statistiques. Une description générale de la onzième édition de cette conférence (TREC-2002) peut-être trouvée dans [Voorhees et Buckland, 2002]. La tâche de filtrage proposée à TREC se décompose en trois sous-tâches : 3 Toutes les informations et publications relatives à cette conférence sont disponibles sur : 11

12 EXPOSE DE LA PROBLEMATIQUE 1. Le filtrage adaptatif (adaptive filtering) consiste à construire un premier modèle grâce à une requête formulée en langage naturel, puis à simuler un flux de documents. Le système peut tirer parti de la pertinence ou de la non-pertinence des documents sélectionnés pour s améliorer au fil du temps. 2. Le filtrage par lots (batch filtering) consiste à utiliser une base de documents préalablement étiquetés pour construire un modèle. Pour chaque document d un flux, le système doit prendre une décision binaire et peut utiliser, comme précédemment, la classe des documents sélectionnés pour s améliorer. 3. Pour le routage (routing), le système dispose également d une base de documents étiquetés pour l apprentissage. Les documents de la base de test doivent être ensuite ordonnés, du plus pertinent au moins pertinent. Le système ne doit donc pas effectuer une décision binaire, mais il doit être capable de calculer un score de pertinence. Il est toujours possible de passer du routage au filtrage par lots en considérant que les documents dont le score est au-dessus d un certain seuil sont pertinents. Il est nécessaire de choisir un "bon" seuil, ce qui n'est pas trivial : un système performant pour le routage peut être médiocre pour le filtrage par lots si le seuil n'est pas correctement choisi. 2.2 Les systèmes de filtrages Les systèmes de filtrages représentent les profils utilisateurs par une liste de termes pondérés. Ces systèmes sont conçus à partir de deux ingrédients principaux. Le premier concerne la mise à jour des poids associés aux termes. Le second concerne le calcul de la correspondance entre les documents et les profils Formule de Rocchio La formule de Rocchio [Rocchio 1971] propose un mode de calcul des poids. Elle transforme automatiquement une requête initiale (représentée par un vecteur de termes noté Q 0 ) en une nouvelle requête (représentée par un vecteur noté Q 1 ). Un ensemble de documents répondant à la requête initiale est proposé à un utilisateur qui les jugent (retour de pertinence). La nouvelle requête Q 1 est construite grâce à la formule de Rocchio, dont l idée est d ajouter à la requête initiale les termes des documents pertinents et de lui retrancher les termes des documents non pertinents : b g Q1 = a Q0 + Âd- - Âd (2.1) R N R dœr dœ( N -R) Dans cette formule, les documents sont représentés par un vecteur d, R est l ensemble des documents pertinents, R son cardinal et N le nombre total de documents de la collection; le triplet (a, b, g) est choisi en fonction de l importance que l on souhaite donner à chaque terme. La principale motivation est qu en pratique, la requête originale (Q 0 ) peut contenir d'importantes informations. Par ailleurs, les informations contenues dans les documents 12

13 EXPOSE DE LA PROBLEMATIQUE pertinents sont souvent plus importantes que les informations contenues dans les documents non-pertinents. C'est ce que suggère la constante g qui est inférieure à la constante b. Une approche alternative est de prendre g=0, ce qui nous ramène à une stratégie positive de "feedback". Cette formule de mise à jour des poids peut être associée à différents modèles classiques de RI pour le calcul de la correspondance entre documents et requêtes (modèle vectoriel ou modèle probabiliste) Formule OKAPI Le modèle probabiliste Okapi, dont les idées sont développées par Robertson, prend en compte la fréquence des termes dans les documents. Il a été testé plusieurs fois avec succès pour les campagnes TREC [Robertson et al 1994]. Ce modèle inclut un mode particulier de mise à jour des poids que nous détaillons ici. Ce modèle utilise l'idée d'expansion de requête en fonction du retour d'informations obtenu des documents pertinents. Le retour d'informations est l'apport de nouveaux termes qui permettent de désigner la composition possible d'un document que l'on juge pertinent. Le calcul des poids des termes dans le système OKAPI évolue en fonction des documents pertinents déjà trouvés par le système. Il repose sur la formule de Robertson et Sparck Jones [Robertson et Sparck Jones 1976] : w (1) ( r+ 0.5)/( R-r+ 0.5) = log ( n-r+ 0.5)/( N-n-R+ r+ 0.5) où N est le nombre de document de la collection n est le nombre de document contenant le terme R est le nombre de document pertinents connus pour une requête donné r est le nombre de document pertinents contenant le terme La fonction permettant de décrire le score d'un document est la suivante : (1) ( k1+ 1) tf ( k3+ 1) qtf w + k Q. Œ dl Q K tf k qtf avdl avdl 2 3 dl  T où Q représente la requête contenant les termes T K est égale à k 1 ((1-b)+b.dl/avdl) k 1, k 2, k 3 sont des paramètres qui dépendent de la nature de la requête tf est la fréquence d'occurrence d'un terme pour un document donné qtf est la fréquence du terme dans la requête dl et avdl sont respectivement la longueur du document et la longueur moyenne des documents L'évolution du système repose sur l'évolution de la requête. Cette évolution tient du fait que lors de retours d'informations du système, sur les documents pertinents, le système ordonne les termes présents dans ce document pertinent en fonction du poids de ces termes. Ce classement des termes, qui évolue à chaque retour de pertinence, permet de faire évoluer la 13

14 EXPOSE DE LA PROBLEMATIQUE requête. En effet, le système sélectionne les x premiers termes de cette ordre afin de les inclure dans la requête de base. Ces termes sélectionnés dépendent ainsi de leur position dans l'ordonnancement qui est fait après chaque arrivée de documents jugés pertinents pour la requête. Le formule de mise à jour peut être combinée à d'autres formules pour le calcul de la correspondance (exemples : modèle vectoriel ou probabiliste). 2.3 Présentation de RELIEFS Le système RELIEFS [Brouard 2000a] (RElevance Information Extraction Fuzzy System) est un système pour le filtrage adaptatif de documents textuels. Son fonctionnement s'inspire des mécanismes cognitifs pour les processus de sélection d'informations. Ce système repose sur un ensemble de mécanismes de base renvoyant à la notion d'activation et de propagation d'activation pour la sélection d'informations "pertinentes". Ce système a été implémenté et testé pour la tâche de filtrage adaptatif de TREC-9 [Brouard et Nie 2000] et TREC-2002 [Brouard 2002a]. La formalisation de la pertinence se définit comme une résonance dans un réseau de concept associé Représentation des documents et requêtes a Construction du réseau associatif Dans le cadre de la sélection de documents textuels, les stimulis sont représentés par les différents termes (ou mots) des documents. La requête est symbolisée par le nœud requête qui représente la pertinence d'un document. Le nœud requête est unique et distinct pour chaque requête présentée au système. Un réseau, liant les nœuds représentant les différents mots présents dans les documents et le nœud requête, est mis à jour continuellement (figure 2.2). (représentation de la requête) pertinence Connexions associatives mot i (représentation du document) Figure 2.2 : Réseau construit et mis à jour par RELIEFS [Brouard 2002b] 14

15 EXPOSE DE LA PROBLEMATIQUE Lorsqu'un document se présente, les termes présents dans ce document vont activer les nœuds correspondants dans le réseau et agir comme des indices de la pertinence du document. Un bon indice est un terme dont la résonance avec le nœud requête est importante (les deux implications sont fortes t i ÆQ et QÆt i ). La pertinence globale du document est calculée sur la base de l'ensemble des mots vis-à-vis du nœud requête. Pour adapter le système au besoin de l'utilisateur, le système doit apprendre à partir des retours de pertinence (relevance feedback) provenant de l'utilisateur pour les documents qui lui ont été proposé par le système précédemment. Cet apprentissage consiste à modifier la valeur des connexions entre les mots et le nœud requête b Règle d'apprentissage Etant donné un document et un jugement de pertinence, il faut mettre à jour les connexions présentes dans la structure. Soient W AB(k-1) et W ABk les évaluations de la connexion orientée du nœud A vers le nœud B, avant et après la prise en compte de la k ième observation (un couple document jugement de pertinence, que l'on note). Soit m A (o k ) une valeur indiquant la présence ou l'absence de l'objet A dans O k (1 si présent et 0 si absent). La règle d'apprentissage proposée est : w ABk aw = AB( k -1) + m ( O A a + m ( O A k k ). m ( O ) B k ) k 1 avec  - a = m A ( O k ) (2.2) i= 1 Dans notre cas, A et B correspondent respectivement à un mot (représenté par un nœud du document) et à la "pertinence" (représentée par un nœud requête) ou inversement. La règle fonctionne de la façon suivante : - Si A et B sont présents dans l'observation, la connexion de A vers B et la connexion inverse sont renforcées. On prend ainsi en compte le jugement de l'utilisateur en augmentant le poids des mots apparaissant dans le document jugé pertinent. - Si A est présent et B ne l'est pas, la connexion de A vers B est affaiblie et la connexion inverse reste inchangée. Si A est un mot et B le nœud requête, ceci revient à affaiblir le poids attribué à un mot qui apparaît dans un document jugé comme non pertinent par l'utilisateur. Si A est le nœud requête et B est un mot, ceci revient à affaiblir le poids attribué à un mot qui n'apparaît pas dans un document jugé comme pertinent par l'utilisateur. Le numérateur de la règle (2.2) correspond précisément à la forme générale de la règle de Hebb dont le principe est associatif (si deux nœuds sont activités simultanément, leurs connexions sont renforcées). Le dénominateur permet de normaliser le poids. La règle associative présentée permet donc simplement de calculer de façon incrémentale la fréquence relative de documents pertinents sachant la présence d'un mot ainsi que la fréquence d'un mot dans les documents pertinents Fonction de correspondance La fonction de pertinence pour un document est évaluée par une résonance. Afin d'évaluer la pertinence entre un document et une requête, [Brouard 2002b] décompose ces 15

16 EXPOSE DE LA PROBLEMATIQUE évaluations en calculant la résonance de chacun des mots présents dans les documents. La qualité de résonance d'un mot indique sa capacité à propager l'activation vers le nœud requête et à recevoir une activation de ce même nœud. Le poids de la connexion orientée du mot i vers le nœud requête est appelé W ir et le poids de la connexion inverse est appelé W Ri. Ainsi, la résonance entre le mot i et la requête est représentée par le produit de ces deux poids W ir. W Ri. L'absence d'un mot est donc d'autant plus pénalisante que ce mot est résonant avec la requête, c'est-à-dire que W ir.w Ri est grand. Elle correspond à l'idée que l'absence d'un relais de l'activation entraînerait une dissipation de l'activation et ne favoriserait pas l'émergence d'un état de résonance. Le profil est donc représenté comme dans les autres systèmes de filtrage adaptatif par une liste de termes i pondérés par W ir. W Ri. La fonction de correspondance se traduit par la somme des produits pour chacun des mots présents. Afin de normaliser cette somme, elle est rapportée à la même somme pour l'ensemble des mots (tous les mots appartenant au document). L'évaluation de la pertinence d'un document D pour une requête Q s'écrit alors :  i  WRiWiR * R ( D, Q) = (2.3) WRiWiR où i* sont les indices des termes présents dans le document. Le produit W ir.w Ri a une interprétention en termes de propagation d'activation. [Brouard 2002b] prend aussi en compte qu'il s'agit de fréquences relatives, et par conséquent il adopte une interprétation plus empirique. Ainsi, un mot important (un mot dont la présence influe de manière significative sur la décision de prendre ou non le document qui le contient) est un mot qui est assez fréquemment présent lorsqu'un document est pertinent. La prise en compte de W ir permet de sélectionner de bons "prédicteurs". La prise en compte de W Ri permet de sélectionner parmi ces "prédicteurs" ceux qui surviennent le plus fréquemment, c'est-à-dire ceux pour lesquels la qualité de prédiction a le moins de chance d'être liée à la présence fortuite du mot dans quelques documents pertinents et ceux qui seront plus susceptibles d'être présents dans les prochains documents pertinents, et donc le plus susceptible d'être utiles aux futures prises de décision concernant la pertinence des documents. On notera que la prise en compte de W Ri permet aussi d'éviter les mots qui sont simplement très présents comme les mots vides qui sont donc plus présents que les autres mots dans les documents pertinents sans pour autant être "réellement" liés au thème sur lequel porte la requête. Il s'agit des mots qui sont écartés dans le modèle vectoriel sur la base idf. Ces mots correspondent aussi, dans le cadre des méthodes de propagation d'activation, aux nœuds à forte connectivité, nœuds à éviter si l'on ne souhaite pas activer tout le réseau. i Réglage des seuils du système Afin que RELIEFS puisse s'adapter à la tâche de filtrage [Brouard 2002b], il faut pouvoir définir le score à partir duquel le système peut sélectionner le document. Le seuil optimal dépend de la requête et de l'apprentissage réalisé sur les précédents documents sélectionnés. Dans RELIEFS, cette mise à jour de ces seuils dépend des règles suivantes : - Si un document sélectionné n'est pas pertinent, le seuil est augmenté (on considère que le système est trop tolérant). 16

17 EXPOSE DE LA PROBLEMATIQUE - Si un document (qu'il soit pertinent ou pas) n'est pas sélectionné, le seuil est abaissé (on considère que le système est trop sélectif). Ces seuils permettent de régler le Bruit ou le Silence du système. L'amplitude d'augmentation ou de diminution des seuils dépend de différents critères : - Le nombre de documents non pertinents consécutifs sélectionnés. Plus ce nombre est important, plus l'augmentation est forte et la diminution est faible. - Le nombre de documents pertinents consécutifs (uniquement pour la diminution). Plus ce nombre est important, plus la diminution est forte. - Le nombre de documents traités (on prend plus de risque au début qu'à la fin). Plus ce nombre est important moins l'amplitude de la variation est forte. - La densité de documents pertinents estimée, c'est-à-dire le nombre de documents pertinents trouvés sur le nombre de documents traités. 2.4 Ce que l'on veut faire Les conjonctions Actuellement, les nœuds ne représentent que des termes simples. Ainsi, pour représenter un document contenant les mots a, b, et c on active les 3 nœuds représentant respectivement a, b et c. Notre souhait est de construire des nœuds représentant a&b; a&c, b&c, a&b&c de façon à tenir compte du contexte dans lesquels les mots surviennent. Par exemple, il est possible que seulement 10% des documents soient pertinents lorsque a ou b sont présents, et que 95% des documents soient pertinents lorsque a ET b sont présents simultanément. Il est impossible de tenir compte de ce type de situation si l'on ne dispose pas d'une représentation indépendante des conjonctions. Les conjonctions permettent en outre d'interpréter un mot dans son contexte (les mots intégrés dans la même conjonction) L'évolution que nous proposons consiste donc à construire des conjonctions et à les inclure dans l'évaluation de la pertinence des documents Les dépendances Dans le cadre des conjonctions, il existe une dépendance entre la conjonction ellemême et les termes qui la composent. Il faut pouvoir quantifier cette dépendance afin que leur rôle soit équilibré dans les fonctions de correspondance. Le problème vient du poids que l'on attribut à ces termes. Le but de ce travail est de leur attribuer un poids qui tient compte de la présence et de l'utilisation des termes composants. 17

18 ETAT DE L'ART 3 INDEXATION PAR CONJONCTION DE TERMES ET PRISE EN COMPTE DES DEPENDANCES DANS LES MODELES DE RI 3.1 Modèles de RI Le but d'un système est de stocker des informations (textuels, images, son, vidéo ) et de retrouver dans sa base les éléments qui correspondent aux critères qui sont exposés dans la requête. Un système de recherche d'informations permet à un utilisateur d'exprimer un besoin au travers d'une requête, souvent écrite en langage naturel, qui est traitée par le système. Ce système renvoie à un ensemble de documents, tiré d'une collection de documents, qui sont censés être liés à la recherche de l'utilisateur. Il s'agit donc d'un système de sélection d'informations qui évalue la correspondance entre les différents documents d'une collection et la requête de l'utilisateur. Selon [Baeza-Yates et Ribeiro-Neto 1999], un modèle de recherche d'informations se défini par un quadruplet {D, Q,, R(q i, d j )} (figure 3.1). où : - D est un ensemble de représentations pour les documents de la collection. - Q est un ensemble de représentations de la demande d'informations de l'utilisateur, cette représentation est appelée requête. - est le système qui modélise les documents, la requête et les relations qui existent. - R(q i, d j ) est la fonction de correspondance qui associe un nombre réel à une requête q i Œ Q et la représentation d'un document d j Œ D. Cette fonction peut fournir un ordonnancement des documents par rapport à la requête q i. Requête (exprimant un besoin d'information) Documents Représentation de la requête Fonction de correspondance Représentation des documents Documents ordonnés Figure 3.1 : Représentation de l architecture d un système de recherche d informations (encadré) et de ses entrées et sorties. 18

19 ETAT DE L'ART La construction d'un modèle de recherche d'informations se symbolise en premier par une représentation des documents et des informations utiles exprimées par l'utilisateur, et d'une fonction de correspondance qui évalue la pertinence d'un document par rapport à une requête. Cette fonction de correspondance correspond le plus souvent à l'évaluation du degré de satisfaction des critères de recherche exprimés dans la requête en effectuant une comparaison de la représentation du document et de la requête (identification, par exemple, des mots de la requête avec les mots-clefs représentants le document). Mais il existe d'autres types de relations qui peuvent symboliser cette pertinence. 3.2 Prise en compte des dépendances On peut remarquer que dans la plupart des modèles de base en RI, l'hypothèse d'indépendance des termes est automatiquement faite afin de faciliter la complexité des calculs. Le principal problème des systèmes d'informations est que souvent les mots utilisés pour définir la requête ne sont pas identiques aux mots servant à indexer le document qui est malgré tout pertinent pour cette requête. Ce problème tient du langage, car les mots utilisés peuvent être polysémiques ou synonymes d'un terme d'indexation. L'utilisation de synonyme fait référence au fait qu'il peut y avoir plusieurs façons d'exprimer un même concept. L'utilisation des ces différents termes dépend souvent du contexte, du domaine, des habitudes linguistiques ou encore de l'auditoire dans lequel il est utilisé. La prise en compte des synonymes tend à faire baisser la mesure de "Rappel" du système. Par polysémie, nous faisons référence au fait qu'un mot peut avoir plusieurs sens distincts. Dans différents contacts, où l'utilisation par différentes personnes peut faire varier le sens du mot, l'utilisation de ces mots dans une requête peut apporter en réponse des documents non pertinents pour la requête, car n'ayant pas le même contexte. La polysémie est un facteur qui fait baisser la "Précision" d'un système. Ce problème d'indexation, selon [Deerwester et al. 1990], peut être imputé à trois facteurs. Le premier facteur est que la manière d'identifier les termes d'indexations est incomplète. Les termes qui sont utilisés pour décrire ou indexer un document sont seulement une fraction des termes possibles utilisables par les utilisateurs pour rechercher ces documents. Ceci parce que le document lui-même ne contient pas la totalité des termes pouvant le décrire et ainsi ces documents ne seront pas retrouvés. Le second facteur est le manque de méthode pour traiter la polysémie. Des pistes sont données par Deerwester et bien d'autres peuvent être données, mais le but premier est de traiter correctement le sens du mot, d'où une importance de tenir compte du contexte dans lequel évoluent ces mots, comme dans le cadre de l'hypothèse de sémantique distributionnelle [Besançon 2002]. Le troisième et dernier facteur est plus technique. On remarque (comme il vous sera présenté par la suite) dans les systèmes de recherche d'informations que l'indépendance des termes est faite pour faciliter les traitements de ces systèmes, ce qui implique que la prise en compte des dépendances entre termes oblige de modifier ces modèles. Cette dépendance des termes (synonymie et polysémie) doit être prise en compte car elle tient un rôle important, comme on peut le constater dans l'illustration suivante L'extension de requête L'extension de requête est une modification de la requête de base qui est soumise au système. Cette modification consiste à augmenter la quantité d'informations de la requête 19

20 ETAT DE L'ART (ajout de nouveaux termes). Pour l'extension de requête, il est souvent utilisé des thésaurus (dictionnaire de termes ayant une relation conceptuelle entre eux), de termes co-occurrent. L'augmentation de la requête permet d'étendre les correspondances avec les documents Illustration du problème de dépendance Nous allons illustrer ce problème de termes au sein des systèmes de recherche d'informations en utilisant une matrice terme-document (table 3.1). Doc 1 Doc 2 Doc 3 accès document recherche information théorie base de données indexation informatique Pert Ret x x x x x R x* x x* M x x* x* R M Requête : "IDF en informatique pour la collecte d'information" Table 3.1 : Exemple d'une matrice terme-document En dessous de cette table, on donne la requête qui est soumise à cette base de données. Un "R" dans la colonne Pert (pertinent) indique que l'utilisateur a jugé le document pertinent pour cette requête (ici les documents 1 et 3 sont pertinents). Les termes ressortant de la requête et des documents (informatique et information) sont indiqués par un astérisque dans la case correspondante; "M" dans la colonne Ret (retrouvé) indique que le document a été retrouvé et que le système l a retourné à l'utilisateur. Les documents 1 et 2 illustrent le problème exprimé précédemment. Le document 1 est un document pertinent, mais ne contient aucun mot de la requête, ce qui implique que ce document ne soit pas retrouvé par le système. Le document 2 n'est pas pertinent mais il contient les termes de la requête, ce qui implique que lui soit retrouvé par le système, malgré que le contexte de ce document ne corresponde pas au contexte exprimé par la requête. Notez que dans cet exemple, aucune information de signification de la requête n'est trouvée. De ce fait, il n'y a aucune possibilité d'empêcher que le document 2 ne soit pas retrouvé. 3.3 Utilisation de conjonctions de termes L'utilisation de termes simples sert souvent pour indexer les documents et les requêtes. Mais dans le langage naturel, il existe des conjonctions de termes qui représentent des mots composés ou des expressions complexes. La difficulté pour un système est de pouvoir identifier ces conjonctions, ce qui signifie savoir s'il faut prendre en compte la conjonction ou chaque terme qui le compose de manière dissociée. Dans le cas des multi-termes, certains systèmes utilisent des patrons morpho-syntaxiques pour pouvoir identifier les multi-termes dans un document ou une requête [Jacquemin et al. 1997], mais ces multi-termes peuvent être présentés dans un document selon différentes variations : - Les variations morphologiques ; les expressions peuvent varier en raison de variations flexionnelles ou dérivationnelles : pluriel, conjugaison ou remplacement 20

Indexation de sous-collections pour l amélioration de la haute précision

Indexation de sous-collections pour l amélioration de la haute précision Indexation de sous-collections pour l amélioration de la haute précision Joëlson Randriamparany *,** *IRIT, Institut de Recherche Informatique de Toulouse Université Paul Sabatier Toulouse III 118 Route

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Dans cette définition, il y a trois notions clés: documents, requête, pertinence. Introduction à la RI 1. Définition Un système de recherche d'information (RI) est un système qui permet de retrouver les documents pertinents à une requête d'utilisateur, à partir d'une base de documents

Plus en détail

Indexation et interrogation de photos de presse décrites en MPEG-7

Indexation et interrogation de photos de presse décrites en MPEG-7 Indexation et interrogation de photos de presse décrites en MPEG-7 Emmanuel Bruno Jacques Le Maitre Elisabeth Murisasco Laboratoire SIS, Equipe Informatique Université de Toulon et du Var Bâtiment R, BP

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Thèse de Doctorat en Informatique

Thèse de Doctorat en Informatique République Algérienne Démocratique et Populaire Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Mouloud Mammeri de Tizi-Ouzou Faculté de Génie Electrique et de l Informatique

Plus en détail

Avancée en classification multi-labels de textes en langue chinoise

Avancée en classification multi-labels de textes en langue chinoise Avancée en classification multi-labels de textes en langue chinoise Thèse en cotutelle présentée par Zhihua WEI pour les doctorats en informatique des Universités Lyon2 et Tongji La thèse est centrée sur

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

SOMMAIRE INTRODUCTION

SOMMAIRE INTRODUCTION SOMMAIRE INTRODUCTION...2 I. L ETUDE PREALABLE...3 1. La problématique...3 2. Les objectifs...3 3. L étude de l existant...4 4. Les limites de l existant...4 5. L approche de solution...4 II. L ETUDE DETAILLEE...5

Plus en détail

Applications linéaires

Applications linéaires Applications linéaires I) Applications linéaires - Généralités 1.1) Introduction L'idée d'application linéaire est intimement liée à celle d'espace vectoriel. Elle traduit la stabilité par combinaison

Plus en détail

Explication des statistiques

Explication des statistiques Explication des statistiques Sources : http://www.eolas.fr/8-conseil/65-interpreter-vos-statistiques-webalizer.htm http://support.sherweb.com/faqdetails.php?idarticle=68 Un site web est un ensemble de

Plus en détail

Module A ALGEBRE MATRICIELLE. Prçesentation - Plan

Module A ALGEBRE MATRICIELLE. Prçesentation - Plan Module A ALGEBRE MATRICIELLE Prçesentation - Plan Ce module occupe une place particuliçere dans le dispositif de formation ça la statistique mis en place par le service de Formation Permanente et le dçepartement

Plus en détail

TP Recherche d'information

TP Recherche d'information Master Modélisation Informatique des Connaissances et du Raisonnement (MICR) Cours Recherche et Extraction d'information TP Recherche d'information L'objectif global du TP de Recherche d'information est

Plus en détail

L'audit des systèmes d'informations - Une méthode formalisée, la technique des Flow-Charts.

L'audit des systèmes d'informations - Une méthode formalisée, la technique des Flow-Charts. L'audit des systèmes d'informations - Une méthode formalisée, la technique des Flow-Charts. L'objectif de l'auditeur est de comprendre les méthodes et les systèmes employés au sein de l'organisation, ainsi

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Évaluer les liens entre codage et les données structurées (variables) Introduction au gestionnaire de rapport et au journal de commandes

Évaluer les liens entre codage et les données structurées (variables) Introduction au gestionnaire de rapport et au journal de commandes Trois approches en analyse de texte L'Analyse Qualitative L'analyse de Contenu Quantitative (par dictionnaires) Le forage de texte ("Text Mining") Introduction aux logiciels de Provalis Research QDA Miner

Plus en détail

Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus Fansi @majirus

Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus Fansi @majirus 1 Recherche d Information(RI): Fondements et illustration avec Apache Lucene par Majirus Fansi @majirus Résumé Fondements de la Recherche d Information (RI) Noyau de toute application de RI Éléments à

Plus en détail

5.1.1 La procédure pour la description d'une situation-problème

5.1.1 La procédure pour la description d'une situation-problème 5 LE CHOIX DES PARTIES DE COURS : UNE PROGRESSION DES APPRENTISSAGES Éléments du cinquième chapitre 5.1 La description de la situation-problème finale 5.1.1 La procédure pour la description d'une situation-problème

Plus en détail

1 Définitions 1-1 Le tableur 1-2 La feuille de calcul Google Document 1-3 La cellule 1-4 Présentation visuelle

1 Définitions 1-1 Le tableur 1-2 La feuille de calcul Google Document 1-3 La cellule 1-4 Présentation visuelle 1 Définitions 1-1 Le tableur 1-2 La feuille de calcul Google Document 1-3 La cellule 1-4 Présentation visuelle 2 Les cellules 2-1 La cellule active 2-2 Connaître le nom d'une cellule 2-3 Interagir avec

Plus en détail

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie TRAITEMENT AUTOMATIQUE DES LANGUES Licence d'informatique 2ème Année Semestre 1 Département d'informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/tal.html Plan Définition

Plus en détail

Rapport OUTILEX. 1 Introduction. Laboratoire d'informatique de Paris 6 B. Piwowarski. September 18, 2006

Rapport OUTILEX. 1 Introduction. Laboratoire d'informatique de Paris 6 B. Piwowarski. September 18, 2006 Rapport OUTILEX Laboratoire d'informatique de Paris 6 B. Piwowarski September 18, 2006 1 Introduction Les systèmes de Recherche d'information (RI), permettent de rechercher dans de grand corpus électronique

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

CONCEPTION Support de cours n 3 DE BASES DE DONNEES CONCEPTION Support de cours n 3 DE BASES DE DONNEES Auteur: Raymonde RICHARD PRCE UBO PARTIE III. - LA DESCRIPTION LOGIQUE ET PHYSIQUE DES DONNEES... 2 A. Les concepts du modèle relationnel de données...

Plus en détail

UNIVERSITÉ DU QUÉBEC À MONTRÉAL MODÉLISATION CONNEXIONNISTE DU REPÉRAGE DE L'INFORMATION

UNIVERSITÉ DU QUÉBEC À MONTRÉAL MODÉLISATION CONNEXIONNISTE DU REPÉRAGE DE L'INFORMATION UNIVERSITÉ DU QUÉBEC À MONTRÉAL MODÉLISATION CONNEXIONNISTE DU REPÉRAGE DE L'INFORMATION THÈSE PRÉSENTÉE COMME EXIGENCE PARTIELLE DU DOCTORAT EN INFORMATIQUE COGNITIVE PAR GUY DESJARDINS AOÛT 2006 TABLE

Plus en détail

Annexe B : Les vecteurs. Scalaires et vecteurs

Annexe B : Les vecteurs. Scalaires et vecteurs Annee B : Les vecteurs Certains étudiants éprouvent de la difficulté en première session à l'école lorsqu'ils suivent le cours ING-10 "Statique et dnamique". Les vecteurs sont utilisés abondamment dans

Plus en détail

est diagonale si tous ses coefficients en dehors de la diagonale sont nuls.

est diagonale si tous ses coefficients en dehors de la diagonale sont nuls. Diagonalisation des matrices http://www.math-info.univ-paris5.fr/~ycart/mc2/node2.html Sous-sections Matrices diagonales Valeurs propres et vecteurs propres Polynôme caractéristique Exemples Illustration

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

Application de la logique floue à un modèle de recherche d information basé sur la proximité

Application de la logique floue à un modèle de recherche d information basé sur la proximité Application de la logique floue à un modèle de recherche d information basé sur la proximité Fuzzy set theory applied to a proximity model for information retrieval Michel BEIGBEDER 1 Annabelle MERCIER

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels

Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels EDITION DU 19 NOVEMBRE 2009 Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels Bénédicte Pincemin (éditeur) Les différents

Plus en détail

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES Dossier G11 - Interroger une base de données La base de données Facturation contient tout un ensemble d'informations concernant la facturation de la SAFPB (société anonyme de fabrication de produits de

Plus en détail

Navigateur généalogique 1 / 10

Navigateur généalogique 1 / 10 Navigateur généalogique 1 / 10 Navigateur généalogique Mode d'emploi du logiciel «NaviGeneal.exe» de Marcel Délèze Version du logiciel 2015-09-29, version du mode d'emploi : 2015-09-29 NaviGeneal permet

Plus en détail

CHAPITRE 2 CALCULS ALGEBRIQUES

CHAPITRE 2 CALCULS ALGEBRIQUES Classe de Troisième CHAPITRE CALCULS ALGEBRIQUES UTILISER DES LETTRES... 34 EXPRESSIONS EQUIVALENTES... 36 VOCABULAIRE DU CALCUL LITTERAL... 37 REDUCTIONS D'ECRITURES... 39 DEVELOPPER UN PRODUIT... 40

Plus en détail

Rapport d'analyse des besoins

Rapport d'analyse des besoins Projet ANR 2011 - BR4CP (Business Recommendation for Configurable products) Rapport d'analyse des besoins Janvier 2013 Rapport IRIT/RR--2013-17 FR Redacteur : 0. Lhomme Introduction...4 La configuration

Plus en détail

Entreprises et ménages

Entreprises et ménages Entreprises et ménages Producteurs et consommateurs Les agents économiques sont classés dans les comptes nationaux en fonction de leur rôle dans le processus de création, de répartition et de destruction

Plus en détail

PRODUCTION DE JEUX DE DONNÉES ANONYMISÉES

PRODUCTION DE JEUX DE DONNÉES ANONYMISÉES PRODUCTION DE JEUX DE DONNÉES ANONYMISÉES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas être considérés

Plus en détail

SIMDI Six Sigma «Les élèves résolvent un problème complexe avec Six Sigma dans le temps réduit d une formation»

SIMDI Six Sigma «Les élèves résolvent un problème complexe avec Six Sigma dans le temps réduit d une formation» SIMDI Six Sigma «Les élèves résolvent un problème complexe avec Six Sigma dans le temps réduit d une formation» Objectifs du simulateur Le simulateur Six Sigma reproduit l'ensemble d'un processus de production

Plus en détail

Analyse abstraite de missions sous PILOT

Analyse abstraite de missions sous PILOT Analyse abstraite de missions sous PILOT Damien Massé EA 3883, Université de Bretagne Occidentale, Brest damien.masse@univ-brest.fr Résumé Nous étudions la possibilité de réaliser un analyseur par interprétation

Plus en détail

EVALUER PAR COMPETENCES EN EGPA

EVALUER PAR COMPETENCES EN EGPA EVALUER PAR COMPETENCES EN EGPA 1. POUR EN FINIR AVEC LES NOTES? Les notes ne sont pas le meilleur indicateur de l atteinte d une compétence, pourtant on les utilise largement surtout dans le second degré.

Plus en détail

Le programme de mathématiques Classes de première STI2D STL

Le programme de mathématiques Classes de première STI2D STL Journée de l inspection 15 avril 2011 - Lycée F. BUISSON 18 avril 2011 - Lycée J. ALGOUD 21 avril 2011 - Lycée L. ARMAND Le programme de mathématiques Classes de première STI2D STL Déroulement de la journée

Plus en détail

Structures de données non linéaires

Structures de données non linéaires Structures de données non linéaires I. Graphes Définition Un graphe (simple) orienté G est un couple (S, A), où : S est un ensemble dont les éléments sont appelés les sommets. A est un ensemble de couples

Plus en détail

Le dictionnaire DEM dans NooJ

Le dictionnaire DEM dans NooJ 21 ème Traitement Automatique des Langues Naturelles, Marseille, 2014 Le dictionnaire DEM dans NooJ Max Silberztein ELLIADD, Université de Franche-Comté, 30 rue Mégevand, 25000 Besançon max.silberztein@univ-fcomte.fr

Plus en détail

Système D Indexation et de Recherche d Images par le contenu

Système D Indexation et de Recherche d Images par le contenu Système D Indexation et de Recherche d Images par le contenu 1 Houaria ABED, 1 Lynda ZAOUI Laboratoire : Systèmes, Signaux, Données Département Informatique, Faculté des Sciences Université des Sciences

Plus en détail

CHAMPION Matthieu Modèles de Marché en Visual Basic ESILV S04 S6. Sommaire... 1. Introduction... 2

CHAMPION Matthieu Modèles de Marché en Visual Basic ESILV S04 S6. Sommaire... 1. Introduction... 2 Sommaire Sommaire... 1 Introduction... 2 1 Trois différentes techniques de pricing... 3 1.1 Le modèle de Cox Ross Rubinstein... 3 1.2 Le modèle de Black & Scholes... 8 1.3 Méthode de Monte Carlo.... 1

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Acquisition terminologique pour identifier les mots clés d articles scientifiques

Acquisition terminologique pour identifier les mots clés d articles scientifiques Actes du huitième défi fouille de texte, DEFT2012, Grenoble, France, 8 juin 2012. Pages 29-35. Proceedings of the Eight DEFT Workshop, DEFT2012, Grenoble, France, 8th July 2012. Pages 29-35. Acquisition

Plus en détail

À propos des matrices échelonnées

À propos des matrices échelonnées À propos des matrices échelonnées Antoine Ducros appendice au cours de Géométrie affine et euclidienne dispensé à l Université Paris 6 Année universitaire 2011-2012 Introduction Soit k un corps, soit E

Plus en détail

Positionnement de UP

Positionnement de UP UNIFIED PROCESS Positionnement de UP Unified Process Langage Méthode Outil logiciel UML UP RUP 6 BONNES PRATIQUES développement itératif gestion des exigences architecture basée sur des composants modélisation

Plus en détail

1 Codes linéaires. G = [I k A]. Dans ce cas on constate que la matrice. H = [ t A I n k ] est une matrice de contrôle de C. Le syndrome de x F n q

1 Codes linéaires. G = [I k A]. Dans ce cas on constate que la matrice. H = [ t A I n k ] est une matrice de contrôle de C. Le syndrome de x F n q 1 Codes linéaires Un code de longueur n est une partie de F n q. Un code linéaire C de longueur n sur le corps ni F q est un sous-espace vectoriel de F n q. Par défaut, un code sera supposé linéaire. La

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Cours de spécialité mathématiques en Terminale ES

Cours de spécialité mathématiques en Terminale ES Cours de spécialité mathématiques en Terminale ES O. Lader 2014/2015 Lycée Jean Vilar Spé math terminale ES 2014/2015 1 / 51 Systèmes linéaires Deux exemples de systèmes linéaires à deux équations et deux

Plus en détail

Modélisation et optimisation participative des processus métier assistées par un jeu de rôles

Modélisation et optimisation participative des processus métier assistées par un jeu de rôles Modélisation et optimisation participative des processus métier assistées par un jeu de rôles Les organisations doivent aujourd hui s'adapter de plus en plus vite aux évolutions stratégiques, organisationnelles

Plus en détail

Aléthiomètre. Bur Jean Cham Rémi Roulette Lucas Encadrant : Tisserant Guillaume

Aléthiomètre. Bur Jean Cham Rémi Roulette Lucas Encadrant : Tisserant Guillaume Aléthiomètre Bur Jean Cham Rémi Roulette Lucas Encadrant : Tisserant Guillaume Projet réalisé dans le cadre de l unité d enseignement HLIN601 Licence informatique 3ème année Faculté des sciences Université

Plus en détail

modélisation solide et dessin technique

modélisation solide et dessin technique CHAPITRE 1 modélisation solide et dessin technique Les sciences graphiques regroupent un ensemble de techniques graphiques utilisées quotidiennement par les ingénieurs pour exprimer des idées, concevoir

Plus en détail

Analyse et modélisation de tâches

Analyse et modélisation de tâches Analyse et modélisation de tâches 1. Introduction La conception de logiciel interactif (ou conception d'interface homme-machine [IHM], ou conception d'interface) est l'activité qui vise à définir le fonctionnement

Plus en détail

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL J. TICHON(1) (2), J.-M. TOULOTTE(1), G. TREHOU (1), H. DE ROP (2) 1. INTRODUCTION Notre objectif est de réaliser des systèmes de communication

Plus en détail

LA TRADUCTION AUTOMATIQUE

LA TRADUCTION AUTOMATIQUE 165 La "Traduction Automatique" s'inscrit dans un ensemble de recherches menées depuis le début des années 1950 - recherches que l'on a coutume de regrouper sous l'appellation de "traitement automatique

Plus en détail

Chapitre 8 ANALYSE DES SÉRIES CHRONOLOGIQUES

Chapitre 8 ANALYSE DES SÉRIES CHRONOLOGIQUES Statistique appliquée à la gestion et au marketing http://foucart.thierry.free.fr/statpc Chapitre 8 ANALYSE DES SÉRIES CHRONOLOGIQUES Nous abordons dans ce chapitre l analyse de données statistiques particulières

Plus en détail

L informatique des entrepôts de données

L informatique des entrepôts de données L informatique des entrepôts de données Daniel Lemire SEMAINE 4 Les techniques d indexation 4.1. Présentation de la semaine Les entrepôts de données utilisent plusieurs techniques d indexation. Nous avons

Plus en détail

2.2.1. La croissance et le commerce international

2.2.1. La croissance et le commerce international 2.2.1. La croissance et le commerce international Il existe une certaine interdépendance entre l'évolution des termes de l échange et la croissance des économies ouvertes. Cependant, les résultats de l'analyse

Plus en détail

Utiliser Access ou Excel pour gérer vos données

Utiliser Access ou Excel pour gérer vos données Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que

Plus en détail

Les principaux domaines de l informatique

Les principaux domaines de l informatique Les principaux domaines de l informatique... abordés dans le cadre de ce cours: La Programmation Les Systèmes d Exploitation Les Systèmes d Information La Conception d Interfaces Le Calcul Scientifique

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Arbres ordonnés, binaires, tassés, FAP, tri par FAP, tas, tri par tas

Arbres ordonnés, binaires, tassés, FAP, tri par FAP, tas, tri par tas Arbres ordonnés, binaires, tassés, FAP, tri par FAP, tas, tri par tas 1. Arbres ordonnés 1.1. Arbres ordonnés (Arbres O) On considère des arbres dont les nœuds sont étiquetés sur un ensemble muni d'un

Plus en détail

IVRG Image and Visual Representation Group

IVRG Image and Visual Representation Group IVRG Image and Visual Representation Group Projet en Digital Photography Responsable : Patrick Vandewalle Sylvain PASINI Bertrand GRANDGEORGE le 2 juin 2003 Table des matières Table des matières 2 1. Introduction

Plus en détail

Bases de données multimédia VII Bag of words

Bases de données multimédia VII Bag of words Bases de données multimédia VII Bag of words ENSIMAG 2014-2015 Matthijs Douze & Karteek Alahari Video-Google! LA référence : Josef Sivic and Andrew Zisserman «Video Google: A Text Retrieval Approach to

Plus en détail

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé Glossaire Analyse en Composantes Principales (ACP) : *méthode factorielle (Pearson 1901, Hotelling 1933) permettant de fournir un résumé descriptif (sous forme graphique le plus souvent) d une population

Plus en détail

LE CATALOGAGE, L'INDEXATION ET LES FICHIERS DANS LES CENTRES DE RESSOURCES EN LANGUES

LE CATALOGAGE, L'INDEXATION ET LES FICHIERS DANS LES CENTRES DE RESSOURCES EN LANGUES Mélanges CRAPEL no 22 LE CATALOGAGE, L'INDEXATION ET LES FICHIERS DANS LES CENTRES DE RESSOURCES EN LANGUES Sam Michel CEMBALO Abstract 95 Can language learning resource centres contribute to the users'

Plus en détail

2. Formalisation ... Or les variables sont indépendantes. Donc si

2. Formalisation ... Or les variables sont indépendantes. Donc si L'estimation 1. Concrètement... Dernièrement un quotidien affichait en première page : en 30 ans les françaises ont grandi de... je ne sais plus exactement, disons 7,1 cm. C'est peut-être un peu moins

Plus en détail

Exemple de projet. «Gestion de contacts»

Exemple de projet. «Gestion de contacts» Université Paul Valéry Montpellier 3 Antenne universitaire de Béziers L3 AES parcours MISASHS ECUE «Logiciels spécialisés» Exemple de projet «Gestion de contacts» G. Richomme Table des matières 1. Introduction...

Plus en détail

Espaces vectoriels euclidiens. Groupe orthogonal

Espaces vectoriels euclidiens. Groupe orthogonal 19 Espaces vectoriels euclidiens. Groupe orthogonal Dans un premier temps, E est un espace vectoriel réel de dimension n 1. 19.1 Espaces vectoriels euclidiens Dénition 19.1 On dit qu'une forme bilinéaire

Plus en détail

SQL pour. Oracle 10g. Razvan Bizoï. Tsoft, Groupe Eyrolles, 2006, ISBN : 2-212-12055-9, ISBN 13 : 978-2-212-12055-4

SQL pour. Oracle 10g. Razvan Bizoï. Tsoft, Groupe Eyrolles, 2006, ISBN : 2-212-12055-9, ISBN 13 : 978-2-212-12055-4 SQL pour Oracle 10g Razvan Bizoï Tsoft, Groupe Eyrolles, 2006, ISBN : 2-212-12055-9, ISBN 13 : 978-2-212-12055-4 Ce guide de formation a pour but de vous permettre d'acquérir une bonne connaissance du

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

BNF101 STRUCTURE D UNE BASE DE DONNEES LE MODELE RELATIONNEL

BNF101 STRUCTURE D UNE BASE DE DONNEES LE MODELE RELATIONNEL BNF101 STRUCTURE D UNE BASE DE DONNEES LE MODELE RELATIONNEL INTRODUCTION Une base de données (BD) est un ensemble structuré d'information qui peut être utilisé simultanément par plusieurs utilisateurs

Plus en détail

UNIVERSITÉ DU QUÉBEC À MONTRÉAL REFORMULATION AUTOMATIQUE DE REQUÊTES PAR INTÉGRATION D'ÉLÉMENTS SYNTAXIQUES DANS LE CADRE DU REPÉRAGE DE

UNIVERSITÉ DU QUÉBEC À MONTRÉAL REFORMULATION AUTOMATIQUE DE REQUÊTES PAR INTÉGRATION D'ÉLÉMENTS SYNTAXIQUES DANS LE CADRE DU REPÉRAGE DE UNIVERSITÉ DU QUÉBEC À MONTRÉAL REFORMULATION AUTOMATIQUE DE REQUÊTES PAR INTÉGRATION D'ÉLÉMENTS SYNTAXIQUES DANS LE CADRE DU REPÉRAGE DE L'INFORMATION EN FRANÇAIS SUR LE WEB THÈSE PRÉSENTÉE COMME EXIGENCE

Plus en détail

2. Fractions et pourcentages

2. Fractions et pourcentages FRACTIONS ET POURCENTAGES. Fractions et pourcentages.. Définitions Certaines divisions tombent justes. C'est par exemple le cas de la division 4 8 qui donne.. D'autres ne s'arrêtent jamais. C'est ce qui

Plus en détail

Intégrer et gérer la temporalité dans le système d'information du territoire genevois (www.sitg.ch)

Intégrer et gérer la temporalité dans le système d'information du territoire genevois (www.sitg.ch) REPUBLIQUE ET CANTON DE GENEVE Département de l'intérieur et de la mobilité Service de la mensuration officielle 02.2012 Intégrer et gérer la temporalité dans le système d'information du territoire genevois

Plus en détail

Mongi TRIKI Docteur en Informatique Université Paris Dauphine

Mongi TRIKI Docteur en Informatique Université Paris Dauphine Université Méditerranéenne Libre de Tunis Faculté Méditerranéenne Privée des Sciences Informatiques, Economiques et de Gestion de Tunis Département d Informatique LICENCE INFORMATIQUE Guide du Stagiaire

Plus en détail

La théorie des mouvements dans les formules Jean-François Nicaud Version initiale de Février 2013 jeanfrancois.nicaud@laposte.net

La théorie des mouvements dans les formules Jean-François Nicaud Version initiale de Février 2013 jeanfrancois.nicaud@laposte.net La théorie des mouvements dans les formules Jean-François Nicaud Version initiale de Février 2013 jeanfrancois.nicaud@laposte.net Article rédigé avec epsilonwriter puis copié dans Word La théorie des mouvements

Plus en détail

Modèles neuronaux pour la modélisation statistique de la langue

Modèles neuronaux pour la modélisation statistique de la langue Modèles neuronaux pour la modélisation statistique de la langue Introduction Les modèles de langage ont pour but de caractériser et d évaluer la qualité des énoncés en langue naturelle. Leur rôle est fondamentale

Plus en détail

ECOLE NATIONALE DES PONTS ET CHAUSSEES. Risque de crédit. Vente de protection d'une rme sur elle-même. Sébastien LEROUX Antony Mc BRIDE Rémi PARIS

ECOLE NATIONALE DES PONTS ET CHAUSSEES. Risque de crédit. Vente de protection d'une rme sur elle-même. Sébastien LEROUX Antony Mc BRIDE Rémi PARIS ECOLE NATIONALE DES PONTS ET CHAUSSEES Risque de crédit Vente de protection d'une rme sur elle-même Sébastien LEROUX Antony Mc BRIDE Rémi PARIS March 7, 2007 Introduction Généralement, la vente ou l'achat

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

PLANIFICATION ET SUIVI D'UN PROJET

PLANIFICATION ET SUIVI D'UN PROJET Centre national de la recherche scientifique Direction des systèmes d'information REFERENTIEL QUALITE Guide méthodologique PLANIFICATION ET SUIVI D'UN PROJET Référence : CNRS/DSI/conduite-projet/developpement/gestion-projet/guide-planfi-suivi-projet

Plus en détail

Conception de Bases de Données Avec UML

Conception de Bases de Données Avec UML 1 1 Bases de Données Avancées Module B IUT Lumière, License CE-STAT 2006-2007 Pierre Parrend Plan du Cours Table of Contents Conception de Bases de Données Avec UML UML et la conception de Bases de Données...2

Plus en détail

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées : a) La technique de l analyse discriminante linéaire : une brève présentation. Nous nous limiterons ici à l'analyse discriminante linéaire et à deux groupes : - linéaire, la variante utilisée par ALTMAN

Plus en détail

I - Qu'est-ce que QuickFind?...3

I - Qu'est-ce que QuickFind?...3 MANUEL QuickFind I - Qu'est-ce que QuickFind?...3 II - Version 2.1 pour le CESE (FR) QuickFind et l'espace Public...3 Fonction...4 Accès...4 Compatibilité...4 Changements récents...5 Octobre 2007...5 III

Plus en détail

EMC SourceOne TM for Microsoft SharePoint Recherche dans les archives Carte de référence rapide version 7.2

EMC SourceOne TM for Microsoft SharePoint Recherche dans les archives Carte de référence rapide version 7.2 Utilisez la fonctionnalité pour rechercher et restaurer du contenu SharePoint archivé dans EMC SourceOne La fonctionnalité de SharePoint est destinée aux administrateurs et utilisateurs de SharePoint.

Plus en détail

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies

Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies Une application de méthodes inverses en astrophysique : l'analyse de l'histoire de la formation d'étoiles dans les galaxies Ariane Lançon (Observatoire de Strasbourg) en collaboration avec: Jean-Luc Vergely,

Plus en détail

TECH. INFOTECH # 34 Solvabilité 2 : Le calcul du capital économique dans le cadre d un modèle interne. Introduction

TECH. INFOTECH # 34 Solvabilité 2 : Le calcul du capital économique dans le cadre d un modèle interne. Introduction INFO # 34 dans le cadre d un modèle interne Comment les méthodes d apprentissage statistique peuvent-elles optimiser les calculs? David MARIUZZA Actuaire Qualifié IA Responsable Modélisation et Solvabilité

Plus en détail

Introduire une nouvelle option de calcul élémentaire

Introduire une nouvelle option de calcul élémentaire Titre : Introduire une nouvelle option de calcul élémentai[] Date : 01/07/2015 Page : 1/6 Introduire une nouvelle option de calcul élémentaire Résumé : Ce document décrit ce qu il faut faire pour introduire

Plus en détail

Master 2 Informatique UAG. Classification de documents/textes

Master 2 Informatique UAG. Classification de documents/textes Data Mining Master 2 Informatique UAG Classification de documents/textes Utilisée en text mining, information retrieval : amélioration du recall et de la précision Moyen de trouver les voisins les plus

Plus en détail

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique

Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Projet CLANU en 3GE: Compléments d algèbre linéaire numérique Année 2008/2009 1 Décomposition QR On rappelle que la multiplication avec une matrice unitaire Q C n n (c est-à-dire Q 1 = Q = Q T ) ne change

Plus en détail

1. Introduction...2. 2. Création d'une requête...2

1. Introduction...2. 2. Création d'une requête...2 1. Introduction...2 2. Création d'une requête...2 3. Définition des critères de sélection...5 3.1 Opérateurs...5 3.2 Les Fonctions...6 3.3 Plusieurs critères portant sur des champs différents...7 3.4 Requête

Plus en détail

Introduire une nouvelle option de calcul élémentaire

Introduire une nouvelle option de calcul élémentaire Titre : Introduire une nouvelle option de calcul élémentai[] Date : 12/04/2011 Page : 1/6 Introduire une nouvelle option de calcul élémentaire Résumé : Ce document décrit ce qu il faut faire pour introduire

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail