Mémoire DEA Système d'information Management and Technology of Information Systems

Dimension: px
Commencer à balayer dès la page:

Download "Mémoire DEA Système d'information Management and Technology of Information Systems"

Transcription

1 Mémoire DEA Système d'information Management and Technology of Information Systems Titre : Expérience sur l'utilisation de conjonctions de termes et la prise en compte des dépendances entre termes d'indexation dans le cadre du filtrage adaptatif. Etudiant : BISIAUX Cédric Le 27 juin 2003 Encadré par : Brouard Christophe

2

3 RESUME L'objet de ce mémoire est la présentation d'une évolution du système RELIEFS (RELevance Information Fuzzy System). RELIEFS est un système de filtrage adaptatif de documents textuels. Il se base sur la présence ou l'absence de termes pour sélectionner ou rejeter les documents qui lui sont présentés, et il utilise le retour de pertinence de l'utilisateur (oui ce document est pertinent, non ce document ne l'est pas) pour s'adapter à la demande de l'utilisateur. Dans sa version actuelle, le système considère la présence des termes indépendamment les uns des autres. Il ne tient, par exemple, pas compte du contexte dans lequel le mot est employé (autres mots présents dans son voisinage) et des relations de synonymie ou d'hyperonymie qui peuvent exister avec d'autres mots (cette fois-ci hors du document présenté). Bien que la première version du système donne des résultats satisfaisants, une évolution consiste à prendre en compte ces aspects (écartées dans la majeure partie des modèles de recherche d'information). Sur la base de travaux antérieurs et d'une analyse de la notion de dépendance, nous avons proposé une solution intégrant la notion de contexte. Nous avons implémenté cette solution et nous l'avons expérimenté sur un corpus de communiqués de presse utilisé dans le cadre de la conférence TREC11. Mots-clefs : Filtrage adaptatif, pertinence, dépendances, conjonctions de mots, système de recherche d'information. ABSTRACT The report deals with a the presentation of an evolution of the system RELIEFS (RELevance Information Fuzzy System). RELIEFS is a system of adaptive filtering of textual documents. It is based on the presence or the absence of terms to select or reject the documents which are presented to him and it uses the return of relevance of the user (yes this document is relevant, not this document is not it) to adapt at the request of the user. In its current version, the system considers the presence of the terms independently to each other. It does not hold for example not account of the context in which the word is employed (other words present in its vicinity) and of the relations of synonymy or hyperonymy which can exist with other words (this time out of the document presented). Although the first version of the system gives satisfactory results, an evolution consists in taking into account these aspects (isolated in the major part of the models of search for information). On the basis of former work and an analysis of the concept of dependence, we proposed a solution integrating the concept of context. We implemented this solution and tried out we it on a corpus of press releases used within the framework of conference TREC11. Keywords: Adaptive filtering, relevance, dependences, words conjunctions, retrieval information system.

4

5 REMERCIEMENTS Je tiens à remercier mon responsable de stage, Christophe Brouard, pour tous ses conseils, commentaires et explications. Je le remercie pour l'écoute qu'il m'a apporté et qui m'a permit de bien amorcer et de faire évoluer cette recherche. je remercie aussi l'équipe MRIM qui a constituée un agréable cadre de travail. Les réunions de l'équipe ont apporté beaucoup d'échanges et de discussions. Les présentations qui y ont été faites, ont permis de partager des points de vue, mais aussi de lever des interrogations sur les recherches exposées et ainsi les faire évoluer. Enfin, je remercie Céline et Raymond pour leur soutien et pour la correction du document, ainsi que leurs commentaires.

6

7 TABLE DES MATIERES TABLE DES MATIERES 1 INTRODUCTION EXPOSE DE LA PROBLEMATIQUE Présentation de la tâche de filtrage La tâche de filtrage en général Les sous-tâches de TREC Les systèmes de filtrages Formule de Rocchio Formule OKAPI Présentation de RELIEFS Représentation des documents et requêtes a Construction du réseau associatif b Règle d'apprentissage Fonction de correspondance Réglage des seuils du système Ce que l'on veut faire Les conjonctions Les dépendances INDEXATION PAR CONJONCTION DE TERMES ET PRISE EN COMPTE DES DEPENDANCES DANS LES MODELES DE RI Modèles de RI Prise en compte des dépendances L'extension de requête Illustration du problème de dépendance Utilisation de conjonctions de termes Modèle vectoriel Représentation des documents et requêtes a Les schémas de pondération b Combinaison des pondérations Fonction de correspondance Prise en compte des dépendances dans le modèle vectoriel a Modèle Latent Semantic Indexing b Modèle DSIR [Besançon 2002] Conjonctions de termes dans le modèle vectoriel Modèle logique Représentation des documents et requêtes Fonction de correspondance Evolution du modèle logique de base Prise en compte des dépendances dans le modèle logique Conjonctions dans le modèle logique Modèle probabiliste Représentation des documents et de la requête Fonction de correspondance Prise en compte des dépendances dans le modèle probabiliste Conjonctions dans le modèle probabiliste

8 TABLE DES MATIERES 3.7 Modèle de réseaux de neurones Représentation des documents et Requêtes Les fonctions de correspondances a Approche par mesure du cosinus [Wilkinson et Hingston 1991] b Approche probabiliste d'un réseau de neurone [Kwok 1995] La prise en compte des dépendances dans le modèle des réseaux de neurones Conjonctions dans le modèle des réseaux de neurones MODIFICATION DE RELIEFS EN VUE DE LA PRISE EN COMPTE DES CONJONCTIONS DE TERMES ET DE LA DEPENDANCE ENTRE LES TERMES D'INDEXATION Le modèle Construction des conjonctions Analyse du problème de dépendances Validation Expériences a Première expérience b Seconde expérience c Troisième expérience Discussion a Expérience b Expérience c Expérience d Evolution du système Conclusion...57 BIBLIOGRAPHIE

9 INTRODUCTION 1 INTRODUCTION Ce sujet de DEA traite de la prise en compte des dépendances entre termes pour l'indexation de documents textuels. Cet aspect est rarement traité dans les modèles de recherche d'information du fait des difficultés de traitement introduites, et de la relative absence d'amélioration généralement constatée. Ainsi, le calcul de la contribution d'un mot dans l'évaluation de la pertinence du document dans lequel il survient n'intègre généralement pas les autres mots présents dans le document. On sommera par exemple les contributions de deux mots synonymes comme on somme les contributions de deux mots qui n'ont pas de rapport l'un avec l'autre. En se plaçant dans l'espace des sens et non dans celui des termes, on peut pourtant légitimement se demander si finalement, dans le cas des synonymes, on ne commet pas l'erreur de compter deux fois une contribution qui devrait n'être comptée qu'une fois. Par ailleurs, la présence d'un mot particulier dans un texte est précisée par les autres mots présents dans le même texte (contexte). Un mot peut décrire plusieurs sens (polysémie), et cette richesse du langage est compréhensible pour un lecteur, car il se sert du contexte pour lever l'ambiguïté. Mais cette richesse devient problématique pour les systèmes de recherche d'information puisqu'il faut alors modéliser ces dépendances. Il semble ainsi important de tenir compte de la présence des autres mots du document pour évaluer la contribution d'un mot particulier, car ces derniers peuvent en modifier ou en préciser le sens. Dans le cadre de ce mémoire de DEA, nos recherches ont pour but la prise en compte de ces dépendances en les incluant dans la fonction qui évalue la correspondance entre requêtes et documents (appelée communément fonction de correspondance). Dans notre étude, le système qui est utilisé est le système RELIEFS [Brouard 2002a], qui est un système pour le filtrage adaptatif de documents textuels. Nous essayons de faire évoluer ce système afin d'y inclure une solution de traitement de ces dépendances au travers de sa fonction de correspondance. L'articulation de ce document est la suivante : dans le chapitre deux, nous exposerons la problématique qui est liée au sujet. Dans le chapitre trois, nous verrons comment cette dépendance est traitée dans les modèles majeurs de la recherche d'information. Le quatrième chapitre présentera la solution que l'on propose, ainsi que les expériences qui nous permettent de l'évaluer. Le dernier chapitre conclut sur ce stage et présente les réflexions que nous suggérons dans cette recherche et les perspectives de ces travaux. 9

10 EXPOSE DE LA PROBLEMATIQUE 2 EXPOSE DE LA PROBLEMATIQUE 2.1 Présentation de la tâche de filtrage La tâche de filtrage en général Dans la plupart des systèmes de recherches d'informations, les documents demeurent relativement statiques tandis que de nouvelles requêtes sont soumises au système. Ce mode opérationnel se nomme la recherche "ad hoc", qui est la plus commune des tâches utilisateur. Dans le cadre du filtrage, au contraire la requête reste relativement statique tandis que de nouveaux documents sont injectés dans la base (ou la quittent). On retrouve ce type de situations dans le cadre des systèmes de bourses en lignes 1 ou les sites d'informations en lignes 2. Dans la tâche de filtrage [Belkin et Croft 1992], un profil utilisateur doit décrire les préférences de l'utilisateur. Un tel profil est alors comparé aux documents entrants afin d'essayer de déterminer ceux qui pourraient être intéressants pour cet utilisateur particulier. Actuellement, cette approche est utilisée pour sélectionner un article parmi une collection d'articles entrant chaque jour pour les systèmes de dépêches. D'autres scénarii potentiels pour l'application du filtrage sont inclus dans le choix des décisions juridiques ou des articles du journal quotidien. Concrètement, la tâche de filtrage permet simplement d'indiquer à l'utilisateur les documents qui sont susceptibles de l'intéresser. Le système de filtrage détermine les documents qui sont vraiment pertinents et qui méritent d'être présentés à l'utilisateur. Si aucun ordre n'est présenté à l'utilisateur, la tâche de filtrage met en place dans son processus un ordonnancement interne pour déterminer les documents pertinents. Par exemple, tous les documents supérieurs à un seuil donné sont sélectionnés. Les autres sont alors écartés. Dans la tâche de filtrage, l'étape importante consiste en la construction d'un profil utilisateur qui reflète correctement les préférences de cet utilisateur. De nombreuses approches pour construire les profils utilisateurs ont été proposées. En voici quelques-unes : Une approche simpliste pour la construction d'un profil utilisateur est de construire ce profil en utilisant, pour le décrire, des mots-clés qui seront fournis par l'utilisateur lui-même. Cette approche est simpliste car elle fait appel à l'utilisateur à tous les niveaux. En fait, si l'utilisateur n'est pas familier du processus donnant les documents, il pourrait trouver assez difficile de fournir les mots-clés qui décrivent convenablement ses préférences dans ce contexte. En outre, une tentative par l'utilisateur de se familiariser avec le vocabulaire des documents pourrait se transformer en exercice pénible et long. Ainsi, bien que ceci soit une possibilité, nous ne pouvons demander à l'utilisateur de décrire précisément son profil, car ceci serait laborieux. Une alternative est de collecter des informations sur les préférences de l'utilisateur pour construire un profil utilisateur de manière dynamique. Au début, l'utilisateur fournit un ensemble de mots-clés décrivant ses préférences afin de permettre au système de construire un profil initial. A l'arrivée de nouveaux documents, le système utilise le profil utilisateur pour choisir les documents pouvant potentiellement l'intéresser. Par un processus de retour de pertinence ("Relevance feedback" en anglais), l'utilisateur n'indique pas seulement les 1 Exemple le site de boursorama.com, 2 exemple le site de l'afp ou les services dépêches de moteur de recherche comme voilà.fr ou encore les journaux comme lemonde.fr 10

11 EXPOSE DE LA PROBLEMATIQUE documents pertinents mais aussi les documents non-pertinents (figure 2.1). Le système utilise ces informations pour ajuster la description du profil utilisateur qui reflètera les nouvelles préférences. Cette procédure provoque une évolution constante du profil utilisateur. Ce profil se stabilise après plusieurs recherches, une fois que le profil est défini au plus proche des préférences utilisateur. retour de pertinence (oui,pertinent ou non, pas pertinent) sélection flux de documents document courant rejet utilisateur Figure 2.1 : Représentation d'un système de filtrage Figure 0 La difficulté majeure du filtrage est de décrire le mieux possible les préférences utilisateur au sein de son profil. L'approche la plus commune est de collecter les informations sur l'utilisateur pour constituer ce profil, extraire ses préférences de ces informations, et modifier le profil en concordance Les sous-tâches de TREC La conférence annuelle Text REtrieval Conference 3 est organisée chaque année sous l'égide du National Institute of Standards and Technology (NIST) sous le patronage de la DARPA. Elle offre un forum d évaluation et de discussions pour la communauté scientifique qui se consacre au traitement automatique des textes en général, et au filtrage en particulier. Un ensemble de tâches différentes est proposé aux différents participants qui soumettent des résultats à autant de tâches qu'ils le souhaitent. Certaines tâches font uniquement appel à des approches issues du traitement automatique du langage naturel. D'autres, comme la tâche de filtrage, nécessitent l'utilisation de méthodes à base de statistiques. Une description générale de la onzième édition de cette conférence (TREC-2002) peut-être trouvée dans [Voorhees et Buckland, 2002]. La tâche de filtrage proposée à TREC se décompose en trois sous-tâches : 3 Toutes les informations et publications relatives à cette conférence sont disponibles sur : 11

12 EXPOSE DE LA PROBLEMATIQUE 1. Le filtrage adaptatif (adaptive filtering) consiste à construire un premier modèle grâce à une requête formulée en langage naturel, puis à simuler un flux de documents. Le système peut tirer parti de la pertinence ou de la non-pertinence des documents sélectionnés pour s améliorer au fil du temps. 2. Le filtrage par lots (batch filtering) consiste à utiliser une base de documents préalablement étiquetés pour construire un modèle. Pour chaque document d un flux, le système doit prendre une décision binaire et peut utiliser, comme précédemment, la classe des documents sélectionnés pour s améliorer. 3. Pour le routage (routing), le système dispose également d une base de documents étiquetés pour l apprentissage. Les documents de la base de test doivent être ensuite ordonnés, du plus pertinent au moins pertinent. Le système ne doit donc pas effectuer une décision binaire, mais il doit être capable de calculer un score de pertinence. Il est toujours possible de passer du routage au filtrage par lots en considérant que les documents dont le score est au-dessus d un certain seuil sont pertinents. Il est nécessaire de choisir un "bon" seuil, ce qui n'est pas trivial : un système performant pour le routage peut être médiocre pour le filtrage par lots si le seuil n'est pas correctement choisi. 2.2 Les systèmes de filtrages Les systèmes de filtrages représentent les profils utilisateurs par une liste de termes pondérés. Ces systèmes sont conçus à partir de deux ingrédients principaux. Le premier concerne la mise à jour des poids associés aux termes. Le second concerne le calcul de la correspondance entre les documents et les profils Formule de Rocchio La formule de Rocchio [Rocchio 1971] propose un mode de calcul des poids. Elle transforme automatiquement une requête initiale (représentée par un vecteur de termes noté Q 0 ) en une nouvelle requête (représentée par un vecteur noté Q 1 ). Un ensemble de documents répondant à la requête initiale est proposé à un utilisateur qui les jugent (retour de pertinence). La nouvelle requête Q 1 est construite grâce à la formule de Rocchio, dont l idée est d ajouter à la requête initiale les termes des documents pertinents et de lui retrancher les termes des documents non pertinents : b g Q1 = a Q0 + Âd- - Âd (2.1) R N R dœr dœ( N -R) Dans cette formule, les documents sont représentés par un vecteur d, R est l ensemble des documents pertinents, R son cardinal et N le nombre total de documents de la collection; le triplet (a, b, g) est choisi en fonction de l importance que l on souhaite donner à chaque terme. La principale motivation est qu en pratique, la requête originale (Q 0 ) peut contenir d'importantes informations. Par ailleurs, les informations contenues dans les documents 12

13 EXPOSE DE LA PROBLEMATIQUE pertinents sont souvent plus importantes que les informations contenues dans les documents non-pertinents. C'est ce que suggère la constante g qui est inférieure à la constante b. Une approche alternative est de prendre g=0, ce qui nous ramène à une stratégie positive de "feedback". Cette formule de mise à jour des poids peut être associée à différents modèles classiques de RI pour le calcul de la correspondance entre documents et requêtes (modèle vectoriel ou modèle probabiliste) Formule OKAPI Le modèle probabiliste Okapi, dont les idées sont développées par Robertson, prend en compte la fréquence des termes dans les documents. Il a été testé plusieurs fois avec succès pour les campagnes TREC [Robertson et al 1994]. Ce modèle inclut un mode particulier de mise à jour des poids que nous détaillons ici. Ce modèle utilise l'idée d'expansion de requête en fonction du retour d'informations obtenu des documents pertinents. Le retour d'informations est l'apport de nouveaux termes qui permettent de désigner la composition possible d'un document que l'on juge pertinent. Le calcul des poids des termes dans le système OKAPI évolue en fonction des documents pertinents déjà trouvés par le système. Il repose sur la formule de Robertson et Sparck Jones [Robertson et Sparck Jones 1976] : w (1) ( r+ 0.5)/( R-r+ 0.5) = log ( n-r+ 0.5)/( N-n-R+ r+ 0.5) où N est le nombre de document de la collection n est le nombre de document contenant le terme R est le nombre de document pertinents connus pour une requête donné r est le nombre de document pertinents contenant le terme La fonction permettant de décrire le score d'un document est la suivante : (1) ( k1+ 1) tf ( k3+ 1) qtf w + k Q. Œ dl Q K tf k qtf avdl avdl 2 3 dl  T où Q représente la requête contenant les termes T K est égale à k 1 ((1-b)+b.dl/avdl) k 1, k 2, k 3 sont des paramètres qui dépendent de la nature de la requête tf est la fréquence d'occurrence d'un terme pour un document donné qtf est la fréquence du terme dans la requête dl et avdl sont respectivement la longueur du document et la longueur moyenne des documents L'évolution du système repose sur l'évolution de la requête. Cette évolution tient du fait que lors de retours d'informations du système, sur les documents pertinents, le système ordonne les termes présents dans ce document pertinent en fonction du poids de ces termes. Ce classement des termes, qui évolue à chaque retour de pertinence, permet de faire évoluer la 13

14 EXPOSE DE LA PROBLEMATIQUE requête. En effet, le système sélectionne les x premiers termes de cette ordre afin de les inclure dans la requête de base. Ces termes sélectionnés dépendent ainsi de leur position dans l'ordonnancement qui est fait après chaque arrivée de documents jugés pertinents pour la requête. Le formule de mise à jour peut être combinée à d'autres formules pour le calcul de la correspondance (exemples : modèle vectoriel ou probabiliste). 2.3 Présentation de RELIEFS Le système RELIEFS [Brouard 2000a] (RElevance Information Extraction Fuzzy System) est un système pour le filtrage adaptatif de documents textuels. Son fonctionnement s'inspire des mécanismes cognitifs pour les processus de sélection d'informations. Ce système repose sur un ensemble de mécanismes de base renvoyant à la notion d'activation et de propagation d'activation pour la sélection d'informations "pertinentes". Ce système a été implémenté et testé pour la tâche de filtrage adaptatif de TREC-9 [Brouard et Nie 2000] et TREC-2002 [Brouard 2002a]. La formalisation de la pertinence se définit comme une résonance dans un réseau de concept associé Représentation des documents et requêtes a Construction du réseau associatif Dans le cadre de la sélection de documents textuels, les stimulis sont représentés par les différents termes (ou mots) des documents. La requête est symbolisée par le nœud requête qui représente la pertinence d'un document. Le nœud requête est unique et distinct pour chaque requête présentée au système. Un réseau, liant les nœuds représentant les différents mots présents dans les documents et le nœud requête, est mis à jour continuellement (figure 2.2). (représentation de la requête) pertinence Connexions associatives mot i (représentation du document) Figure 2.2 : Réseau construit et mis à jour par RELIEFS [Brouard 2002b] 14

15 EXPOSE DE LA PROBLEMATIQUE Lorsqu'un document se présente, les termes présents dans ce document vont activer les nœuds correspondants dans le réseau et agir comme des indices de la pertinence du document. Un bon indice est un terme dont la résonance avec le nœud requête est importante (les deux implications sont fortes t i ÆQ et QÆt i ). La pertinence globale du document est calculée sur la base de l'ensemble des mots vis-à-vis du nœud requête. Pour adapter le système au besoin de l'utilisateur, le système doit apprendre à partir des retours de pertinence (relevance feedback) provenant de l'utilisateur pour les documents qui lui ont été proposé par le système précédemment. Cet apprentissage consiste à modifier la valeur des connexions entre les mots et le nœud requête b Règle d'apprentissage Etant donné un document et un jugement de pertinence, il faut mettre à jour les connexions présentes dans la structure. Soient W AB(k-1) et W ABk les évaluations de la connexion orientée du nœud A vers le nœud B, avant et après la prise en compte de la k ième observation (un couple document jugement de pertinence, que l'on note). Soit m A (o k ) une valeur indiquant la présence ou l'absence de l'objet A dans O k (1 si présent et 0 si absent). La règle d'apprentissage proposée est : w ABk aw = AB( k -1) + m ( O A a + m ( O A k k ). m ( O ) B k ) k 1 avec  - a = m A ( O k ) (2.2) i= 1 Dans notre cas, A et B correspondent respectivement à un mot (représenté par un nœud du document) et à la "pertinence" (représentée par un nœud requête) ou inversement. La règle fonctionne de la façon suivante : - Si A et B sont présents dans l'observation, la connexion de A vers B et la connexion inverse sont renforcées. On prend ainsi en compte le jugement de l'utilisateur en augmentant le poids des mots apparaissant dans le document jugé pertinent. - Si A est présent et B ne l'est pas, la connexion de A vers B est affaiblie et la connexion inverse reste inchangée. Si A est un mot et B le nœud requête, ceci revient à affaiblir le poids attribué à un mot qui apparaît dans un document jugé comme non pertinent par l'utilisateur. Si A est le nœud requête et B est un mot, ceci revient à affaiblir le poids attribué à un mot qui n'apparaît pas dans un document jugé comme pertinent par l'utilisateur. Le numérateur de la règle (2.2) correspond précisément à la forme générale de la règle de Hebb dont le principe est associatif (si deux nœuds sont activités simultanément, leurs connexions sont renforcées). Le dénominateur permet de normaliser le poids. La règle associative présentée permet donc simplement de calculer de façon incrémentale la fréquence relative de documents pertinents sachant la présence d'un mot ainsi que la fréquence d'un mot dans les documents pertinents Fonction de correspondance La fonction de pertinence pour un document est évaluée par une résonance. Afin d'évaluer la pertinence entre un document et une requête, [Brouard 2002b] décompose ces 15

16 EXPOSE DE LA PROBLEMATIQUE évaluations en calculant la résonance de chacun des mots présents dans les documents. La qualité de résonance d'un mot indique sa capacité à propager l'activation vers le nœud requête et à recevoir une activation de ce même nœud. Le poids de la connexion orientée du mot i vers le nœud requête est appelé W ir et le poids de la connexion inverse est appelé W Ri. Ainsi, la résonance entre le mot i et la requête est représentée par le produit de ces deux poids W ir. W Ri. L'absence d'un mot est donc d'autant plus pénalisante que ce mot est résonant avec la requête, c'est-à-dire que W ir.w Ri est grand. Elle correspond à l'idée que l'absence d'un relais de l'activation entraînerait une dissipation de l'activation et ne favoriserait pas l'émergence d'un état de résonance. Le profil est donc représenté comme dans les autres systèmes de filtrage adaptatif par une liste de termes i pondérés par W ir. W Ri. La fonction de correspondance se traduit par la somme des produits pour chacun des mots présents. Afin de normaliser cette somme, elle est rapportée à la même somme pour l'ensemble des mots (tous les mots appartenant au document). L'évaluation de la pertinence d'un document D pour une requête Q s'écrit alors :  i  WRiWiR * R ( D, Q) = (2.3) WRiWiR où i* sont les indices des termes présents dans le document. Le produit W ir.w Ri a une interprétention en termes de propagation d'activation. [Brouard 2002b] prend aussi en compte qu'il s'agit de fréquences relatives, et par conséquent il adopte une interprétation plus empirique. Ainsi, un mot important (un mot dont la présence influe de manière significative sur la décision de prendre ou non le document qui le contient) est un mot qui est assez fréquemment présent lorsqu'un document est pertinent. La prise en compte de W ir permet de sélectionner de bons "prédicteurs". La prise en compte de W Ri permet de sélectionner parmi ces "prédicteurs" ceux qui surviennent le plus fréquemment, c'est-à-dire ceux pour lesquels la qualité de prédiction a le moins de chance d'être liée à la présence fortuite du mot dans quelques documents pertinents et ceux qui seront plus susceptibles d'être présents dans les prochains documents pertinents, et donc le plus susceptible d'être utiles aux futures prises de décision concernant la pertinence des documents. On notera que la prise en compte de W Ri permet aussi d'éviter les mots qui sont simplement très présents comme les mots vides qui sont donc plus présents que les autres mots dans les documents pertinents sans pour autant être "réellement" liés au thème sur lequel porte la requête. Il s'agit des mots qui sont écartés dans le modèle vectoriel sur la base idf. Ces mots correspondent aussi, dans le cadre des méthodes de propagation d'activation, aux nœuds à forte connectivité, nœuds à éviter si l'on ne souhaite pas activer tout le réseau. i Réglage des seuils du système Afin que RELIEFS puisse s'adapter à la tâche de filtrage [Brouard 2002b], il faut pouvoir définir le score à partir duquel le système peut sélectionner le document. Le seuil optimal dépend de la requête et de l'apprentissage réalisé sur les précédents documents sélectionnés. Dans RELIEFS, cette mise à jour de ces seuils dépend des règles suivantes : - Si un document sélectionné n'est pas pertinent, le seuil est augmenté (on considère que le système est trop tolérant). 16

17 EXPOSE DE LA PROBLEMATIQUE - Si un document (qu'il soit pertinent ou pas) n'est pas sélectionné, le seuil est abaissé (on considère que le système est trop sélectif). Ces seuils permettent de régler le Bruit ou le Silence du système. L'amplitude d'augmentation ou de diminution des seuils dépend de différents critères : - Le nombre de documents non pertinents consécutifs sélectionnés. Plus ce nombre est important, plus l'augmentation est forte et la diminution est faible. - Le nombre de documents pertinents consécutifs (uniquement pour la diminution). Plus ce nombre est important, plus la diminution est forte. - Le nombre de documents traités (on prend plus de risque au début qu'à la fin). Plus ce nombre est important moins l'amplitude de la variation est forte. - La densité de documents pertinents estimée, c'est-à-dire le nombre de documents pertinents trouvés sur le nombre de documents traités. 2.4 Ce que l'on veut faire Les conjonctions Actuellement, les nœuds ne représentent que des termes simples. Ainsi, pour représenter un document contenant les mots a, b, et c on active les 3 nœuds représentant respectivement a, b et c. Notre souhait est de construire des nœuds représentant a&b; a&c, b&c, a&b&c de façon à tenir compte du contexte dans lesquels les mots surviennent. Par exemple, il est possible que seulement 10% des documents soient pertinents lorsque a ou b sont présents, et que 95% des documents soient pertinents lorsque a ET b sont présents simultanément. Il est impossible de tenir compte de ce type de situation si l'on ne dispose pas d'une représentation indépendante des conjonctions. Les conjonctions permettent en outre d'interpréter un mot dans son contexte (les mots intégrés dans la même conjonction) L'évolution que nous proposons consiste donc à construire des conjonctions et à les inclure dans l'évaluation de la pertinence des documents Les dépendances Dans le cadre des conjonctions, il existe une dépendance entre la conjonction ellemême et les termes qui la composent. Il faut pouvoir quantifier cette dépendance afin que leur rôle soit équilibré dans les fonctions de correspondance. Le problème vient du poids que l'on attribut à ces termes. Le but de ce travail est de leur attribuer un poids qui tient compte de la présence et de l'utilisation des termes composants. 17

18 ETAT DE L'ART 3 INDEXATION PAR CONJONCTION DE TERMES ET PRISE EN COMPTE DES DEPENDANCES DANS LES MODELES DE RI 3.1 Modèles de RI Le but d'un système est de stocker des informations (textuels, images, son, vidéo ) et de retrouver dans sa base les éléments qui correspondent aux critères qui sont exposés dans la requête. Un système de recherche d'informations permet à un utilisateur d'exprimer un besoin au travers d'une requête, souvent écrite en langage naturel, qui est traitée par le système. Ce système renvoie à un ensemble de documents, tiré d'une collection de documents, qui sont censés être liés à la recherche de l'utilisateur. Il s'agit donc d'un système de sélection d'informations qui évalue la correspondance entre les différents documents d'une collection et la requête de l'utilisateur. Selon [Baeza-Yates et Ribeiro-Neto 1999], un modèle de recherche d'informations se défini par un quadruplet {D, Q,, R(q i, d j )} (figure 3.1). où : - D est un ensemble de représentations pour les documents de la collection. - Q est un ensemble de représentations de la demande d'informations de l'utilisateur, cette représentation est appelée requête. - est le système qui modélise les documents, la requête et les relations qui existent. - R(q i, d j ) est la fonction de correspondance qui associe un nombre réel à une requête q i Œ Q et la représentation d'un document d j Œ D. Cette fonction peut fournir un ordonnancement des documents par rapport à la requête q i. Requête (exprimant un besoin d'information) Documents Représentation de la requête Fonction de correspondance Représentation des documents Documents ordonnés Figure 3.1 : Représentation de l architecture d un système de recherche d informations (encadré) et de ses entrées et sorties. 18

19 ETAT DE L'ART La construction d'un modèle de recherche d'informations se symbolise en premier par une représentation des documents et des informations utiles exprimées par l'utilisateur, et d'une fonction de correspondance qui évalue la pertinence d'un document par rapport à une requête. Cette fonction de correspondance correspond le plus souvent à l'évaluation du degré de satisfaction des critères de recherche exprimés dans la requête en effectuant une comparaison de la représentation du document et de la requête (identification, par exemple, des mots de la requête avec les mots-clefs représentants le document). Mais il existe d'autres types de relations qui peuvent symboliser cette pertinence. 3.2 Prise en compte des dépendances On peut remarquer que dans la plupart des modèles de base en RI, l'hypothèse d'indépendance des termes est automatiquement faite afin de faciliter la complexité des calculs. Le principal problème des systèmes d'informations est que souvent les mots utilisés pour définir la requête ne sont pas identiques aux mots servant à indexer le document qui est malgré tout pertinent pour cette requête. Ce problème tient du langage, car les mots utilisés peuvent être polysémiques ou synonymes d'un terme d'indexation. L'utilisation de synonyme fait référence au fait qu'il peut y avoir plusieurs façons d'exprimer un même concept. L'utilisation des ces différents termes dépend souvent du contexte, du domaine, des habitudes linguistiques ou encore de l'auditoire dans lequel il est utilisé. La prise en compte des synonymes tend à faire baisser la mesure de "Rappel" du système. Par polysémie, nous faisons référence au fait qu'un mot peut avoir plusieurs sens distincts. Dans différents contacts, où l'utilisation par différentes personnes peut faire varier le sens du mot, l'utilisation de ces mots dans une requête peut apporter en réponse des documents non pertinents pour la requête, car n'ayant pas le même contexte. La polysémie est un facteur qui fait baisser la "Précision" d'un système. Ce problème d'indexation, selon [Deerwester et al. 1990], peut être imputé à trois facteurs. Le premier facteur est que la manière d'identifier les termes d'indexations est incomplète. Les termes qui sont utilisés pour décrire ou indexer un document sont seulement une fraction des termes possibles utilisables par les utilisateurs pour rechercher ces documents. Ceci parce que le document lui-même ne contient pas la totalité des termes pouvant le décrire et ainsi ces documents ne seront pas retrouvés. Le second facteur est le manque de méthode pour traiter la polysémie. Des pistes sont données par Deerwester et bien d'autres peuvent être données, mais le but premier est de traiter correctement le sens du mot, d'où une importance de tenir compte du contexte dans lequel évoluent ces mots, comme dans le cadre de l'hypothèse de sémantique distributionnelle [Besançon 2002]. Le troisième et dernier facteur est plus technique. On remarque (comme il vous sera présenté par la suite) dans les systèmes de recherche d'informations que l'indépendance des termes est faite pour faciliter les traitements de ces systèmes, ce qui implique que la prise en compte des dépendances entre termes oblige de modifier ces modèles. Cette dépendance des termes (synonymie et polysémie) doit être prise en compte car elle tient un rôle important, comme on peut le constater dans l'illustration suivante L'extension de requête L'extension de requête est une modification de la requête de base qui est soumise au système. Cette modification consiste à augmenter la quantité d'informations de la requête 19

20 ETAT DE L'ART (ajout de nouveaux termes). Pour l'extension de requête, il est souvent utilisé des thésaurus (dictionnaire de termes ayant une relation conceptuelle entre eux), de termes co-occurrent. L'augmentation de la requête permet d'étendre les correspondances avec les documents Illustration du problème de dépendance Nous allons illustrer ce problème de termes au sein des systèmes de recherche d'informations en utilisant une matrice terme-document (table 3.1). Doc 1 Doc 2 Doc 3 accès document recherche information théorie base de données indexation informatique Pert Ret x x x x x R x* x x* M x x* x* R M Requête : "IDF en informatique pour la collecte d'information" Table 3.1 : Exemple d'une matrice terme-document En dessous de cette table, on donne la requête qui est soumise à cette base de données. Un "R" dans la colonne Pert (pertinent) indique que l'utilisateur a jugé le document pertinent pour cette requête (ici les documents 1 et 3 sont pertinents). Les termes ressortant de la requête et des documents (informatique et information) sont indiqués par un astérisque dans la case correspondante; "M" dans la colonne Ret (retrouvé) indique que le document a été retrouvé et que le système l a retourné à l'utilisateur. Les documents 1 et 2 illustrent le problème exprimé précédemment. Le document 1 est un document pertinent, mais ne contient aucun mot de la requête, ce qui implique que ce document ne soit pas retrouvé par le système. Le document 2 n'est pas pertinent mais il contient les termes de la requête, ce qui implique que lui soit retrouvé par le système, malgré que le contexte de ce document ne corresponde pas au contexte exprimé par la requête. Notez que dans cet exemple, aucune information de signification de la requête n'est trouvée. De ce fait, il n'y a aucune possibilité d'empêcher que le document 2 ne soit pas retrouvé. 3.3 Utilisation de conjonctions de termes L'utilisation de termes simples sert souvent pour indexer les documents et les requêtes. Mais dans le langage naturel, il existe des conjonctions de termes qui représentent des mots composés ou des expressions complexes. La difficulté pour un système est de pouvoir identifier ces conjonctions, ce qui signifie savoir s'il faut prendre en compte la conjonction ou chaque terme qui le compose de manière dissociée. Dans le cas des multi-termes, certains systèmes utilisent des patrons morpho-syntaxiques pour pouvoir identifier les multi-termes dans un document ou une requête [Jacquemin et al. 1997], mais ces multi-termes peuvent être présentés dans un document selon différentes variations : - Les variations morphologiques ; les expressions peuvent varier en raison de variations flexionnelles ou dérivationnelles : pluriel, conjugaison ou remplacement 20

Le système SMART 1. Indexation

Le système SMART 1. Indexation Le système SMART Le système SMART (System for the Mechanical Analysis and Retrieval of Text) (aussi appelé Salton's Magic Automatic Retrieval Technique:-) est un système de RI expérimental. Il utilise

Plus en détail

Indexation de sous-collections pour l amélioration de la haute précision

Indexation de sous-collections pour l amélioration de la haute précision Indexation de sous-collections pour l amélioration de la haute précision Joëlson Randriamparany *,** *IRIT, Institut de Recherche Informatique de Toulouse Université Paul Sabatier Toulouse III 118 Route

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

Chapitre 2 Catégorisation de textes et apprentissage numérique : état de l'art

Chapitre 2 Catégorisation de textes et apprentissage numérique : état de l'art Chapitre 2 : Catégorisation de textes et apprentissage numérique : état de l'art 11 Chapitre 2 Catégorisation de textes et apprentissage numérique : état de l'art Afin de mettre l'apport proposé dans ce

Plus en détail

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6

Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Fouille de Données et Media Sociaux Cours 2 Master DAC Data Science UPMC - LIP6 Ludovic Denoyer 21 septembre 2015 Ludovic Denoyer () FDMS 21 septembre 2015 1 / 1 Contexte Observation La plupart des bonnes

Plus en détail

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie TRAITEMENT AUTOMATIQUE DES LANGUES Licence d'informatique 2ème Année Semestre 1 Département d'informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/tal.html Plan Définition

Plus en détail

Indexation et interrogation de photos de presse décrites en MPEG-7

Indexation et interrogation de photos de presse décrites en MPEG-7 Indexation et interrogation de photos de presse décrites en MPEG-7 Emmanuel Bruno Jacques Le Maitre Elisabeth Murisasco Laboratoire SIS, Equipe Informatique Université de Toulon et du Var Bâtiment R, BP

Plus en détail

Applications linéaires

Applications linéaires Applications linéaires I) Applications linéaires - Généralités 1.1) Introduction L'idée d'application linéaire est intimement liée à celle d'espace vectoriel. Elle traduit la stabilité par combinaison

Plus en détail

Nous concluons au travers de quatre axes principaux qui ont guidé la. 1) La théorie du regret de Loomes et Sugden comme théorie de la décision

Nous concluons au travers de quatre axes principaux qui ont guidé la. 1) La théorie du regret de Loomes et Sugden comme théorie de la décision Conclusion générale Nous concluons au travers de quatre axes principaux qui ont guidé la rédaction de cette thèse. 1) La théorie du regret de Loomes et Sugden comme théorie de la décision rationnelle compatible

Plus en détail

Le programme de mathématiques Classes de première STI2D STL

Le programme de mathématiques Classes de première STI2D STL Journée de l inspection 15 avril 2011 - Lycée F. BUISSON 18 avril 2011 - Lycée J. ALGOUD 21 avril 2011 - Lycée L. ARMAND Le programme de mathématiques Classes de première STI2D STL Déroulement de la journée

Plus en détail

Chapitre 5 Les Probablilités

Chapitre 5 Les Probablilités A) Introduction et Définitions 1) Introduction Chapitre 5 Les Probablilités De nombreuses actions provoquent des résultats qui sont dus en partie ou en totalité au hasard. Il est pourtant nécessaire de

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

CODES CORRECTEURS D'ERREURS

CODES CORRECTEURS D'ERREURS CODES CORRECTEURS D'ERREURS Marc URO TABLE DES MATIÈRES DÉTECTION ET CORRECTION D'ERREURS... 6 CAS D'UN CANAL SANS SYMBOLE D'EFFACEMENT...6 CAS D'UN CANAL AVEC SYMBOLE D'EFFACEMENT...7 GÉNÉRATION ET DÉTECTION

Plus en détail

Cours de spécialité mathématiques en Terminale ES

Cours de spécialité mathématiques en Terminale ES Cours de spécialité mathématiques en Terminale ES O. Lader 2014/2015 Lycée Jean Vilar Spé math terminale ES 2014/2015 1 / 51 Systèmes linéaires Deux exemples de systèmes linéaires à deux équations et deux

Plus en détail

G R E C A U Rapport sur le mémoire de thèse de doctorat ENSA de Toulouse, INSA, école doctorale MEGeP, Spécialité Génie Civil, En co-tutelle avec l'université de Laval, Québec, Canada présenté par Catherine

Plus en détail

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques.

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques. L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques 1 BUTS DU COURS : se familiariser avec le vocabulaire statistique o variable dépendante, variable indépendante o statistique descriptive,

Plus en détail

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

CONCEPTION Support de cours n 3 DE BASES DE DONNEES CONCEPTION Support de cours n 3 DE BASES DE DONNEES Auteur: Raymonde RICHARD PRCE UBO PARTIE III. - LA DESCRIPTION LOGIQUE ET PHYSIQUE DES DONNEES... 2 A. Les concepts du modèle relationnel de données...

Plus en détail

Enveloppes convexes dans le plan

Enveloppes convexes dans le plan ÉCOLE POLYTECHNIQUE ÉCOLES NORMALES SUPÉRIEURES ÉCOLE SUPÉRIEURE DE PHYSIQUE ET DE CHIMIE INDUSTRIELLES CONCOURS D ADMISSION FILIÈRE MP HORS SPÉCIALITÉ INFO FILIÈRE PC COMPOSITION D INFORMATIQUE B (XECLR)

Plus en détail

Intégration de la flotte privée et du transport sous traité

Intégration de la flotte privée et du transport sous traité Intégration de la flotte privée et du transport sous traité Des coûts réduits et un service de meilleure qualité grâce à l'intégration dynamique et multimode de la flotte privée et du transport sous traité

Plus en détail

Reformulation interactive de requêtes en RI sur le Web. Présentation du projet de recherche DIC-9410, UQAM Emmanuel Chieze 15/05/2003

Reformulation interactive de requêtes en RI sur le Web. Présentation du projet de recherche DIC-9410, UQAM Emmanuel Chieze 15/05/2003 Reformulation interactive de requêtes en RI sur le Web Présentation du projet de recherche DIC-9410, UQAM Emmanuel Chieze 15/05/2003 1 Plan de la présentation Problématique du RI sur le Web Approches existantes

Plus en détail

Recherche - Évaluation

Recherche - Évaluation Recherche - Évaluation Rappels des épisodes précédents Extraction d Information dans les textes I xavier.tannier@limsi.fr Les acteurs de la Recherche d'information Recherche d'information Collection :

Plus en détail

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille La Veille multilingue : outils et ressources pour les traducteurs Jean-Paul PINTE Institut Catholique de Lille Premier Colloque International sur la veille multilingue Genève les 28 et 29 mai 2008 Nous

Plus en détail

Conventions communes aux profils UML

Conventions communes aux profils UML Conventions communes aux profils UML Auteur : Projet ACCORD (Assemblage de composants par contrats en environnement ouvert et réparti)* Référence : Livrable 2.1 Date : Juin 2002 * : Les partenaires du

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Déclassement d'actifs et stock brut de capital

Déclassement d'actifs et stock brut de capital Extrait de : La mesure du capital - Manuel de l'ocde 2009 Deuxième édition Accéder à cette publication : http://dx.doi.org/10.1787/9789264067752-fr Déclassement d'actifs et stock brut de capital Merci

Plus en détail

Encryptions, compression et partitionnement des données

Encryptions, compression et partitionnement des données Encryptions, compression et partitionnement des données Version 1.0 Grégory CASANOVA 2 Compression, encryption et partitionnement des données Sommaire 1 Introduction... 3 2 Encryption transparente des

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Entreprises et ménages

Entreprises et ménages Entreprises et ménages Producteurs et consommateurs Les agents économiques sont classés dans les comptes nationaux en fonction de leur rôle dans le processus de création, de répartition et de destruction

Plus en détail

CHAMPION Matthieu Modèles de Marché en Visual Basic ESILV S04 S6. Sommaire... 1. Introduction... 2

CHAMPION Matthieu Modèles de Marché en Visual Basic ESILV S04 S6. Sommaire... 1. Introduction... 2 Sommaire Sommaire... 1 Introduction... 2 1 Trois différentes techniques de pricing... 3 1.1 Le modèle de Cox Ross Rubinstein... 3 1.2 Le modèle de Black & Scholes... 8 1.3 Méthode de Monte Carlo.... 1

Plus en détail

Généralités sur les graphes

Généralités sur les graphes Généralités sur les graphes Christophe ROSSIGNOL Année scolaire 2008/2009 Table des matières 1 Notion de graphe 3 1.1 Un peu de vocabulaire.......................................... 3 1.2 Ordre d un graphe,

Plus en détail

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr

Hélène Desmier ab, Pascale Kuntz a & Ivan Kojadinovic a. Pauc, 44306 Nantes. {prenom.nom}@polytech.univ-nantes.fr Une classification hiérarchique de variables discrètes basée sur l information mutuelle en pré-traitement d un algorithme de sélection de variables pertinentes. Hélène Desmier ab, Pascale Kuntz a & Ivan

Plus en détail

Le chiffre est le signe, le nombre est la valeur.

Le chiffre est le signe, le nombre est la valeur. Extrait de cours de maths de 6e Chapitre 1 : Les nombres et les opérations I) Chiffre et nombre 1.1 La numération décimale En mathématique, un chiffre est un signe utilisé pour l'écriture des nombres.

Plus en détail

Pédagogie du projet?

Pédagogie du projet? Pédagogie du projet? Toute pédagogie qui place l intérêt des apprenants comme levier des conduites éducatives est appelée «pédagogie fonctionnelle». Ainsi, la pédagogie du projet peut rentrer dans cette

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la gestion du risque des sociétés

Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la gestion du risque des sociétés Les nouveaux enjeux et défis du marché immobilier : comment y contribuer? Chaire Ivanhoé Cambridge ESG UQÀM Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la

Plus en détail

L essentiel sur les tests statistiques

L essentiel sur les tests statistiques L essentiel sur les tests statistiques 21 septembre 2014 2 Chapitre 1 Tests statistiques Nous considérerons deux exemples au long de ce chapitre. Abondance en C, G : On considère une séquence d ADN et

Plus en détail

Management par les processus Les facteurs clés de succès. Lionel Di Maggio Master 1 MIAGE

Management par les processus Les facteurs clés de succès. Lionel Di Maggio Master 1 MIAGE Management par les processus Les facteurs clés de succès Lionel Di Maggio Master 1 MIAGE 1 1. Objectifs et définitions 2. Le retour sur investissement des démarches 3. Les éléments structurants 4. Mise

Plus en détail

Fiche pour les étudiants «Comment répondre à une question à développement?»

Fiche pour les étudiants «Comment répondre à une question à développement?» VOLUME 11, NO 1 AUTOMNE 2012 Cégep de Rimouski Développement pédagogique Annexe 2 du Pédagotrucs no 40 Fiche pour les étudiants «Comment répondre à une question à développement?» Voici un guide qui t aidera

Plus en détail

Analyse abstraite de missions sous PILOT

Analyse abstraite de missions sous PILOT Analyse abstraite de missions sous PILOT Damien Massé EA 3883, Université de Bretagne Occidentale, Brest damien.masse@univ-brest.fr Résumé Nous étudions la possibilité de réaliser un analyseur par interprétation

Plus en détail

Alltech Young Scientist Conseils pour rédiger un papier

Alltech Young Scientist Conseils pour rédiger un papier Alltech Young Scientist Conseils pour rédiger un papier Chers étudiants, De nombreux étudiants nous ont demandé, les années passées, si nous pouvions vous communiquer un article-type, ce qui est difficile,

Plus en détail

Cours de Mathématiques Seconde. Généralités sur les fonctions

Cours de Mathématiques Seconde. Généralités sur les fonctions Cours de Mathématiques Seconde Frédéric Demoulin 1 Dernière révision : 16 avril 007 Document diffusé via le site www.bacamaths.net de Gilles Costantini 1 frederic.demoulin (chez) voila.fr gilles.costantini

Plus en détail

Module A ALGEBRE MATRICIELLE. Prçesentation - Plan

Module A ALGEBRE MATRICIELLE. Prçesentation - Plan Module A ALGEBRE MATRICIELLE Prçesentation - Plan Ce module occupe une place particuliçere dans le dispositif de formation ça la statistique mis en place par le service de Formation Permanente et le dçepartement

Plus en détail

Chapitre 2 : Conception de base de données relationnelle

Chapitre 2 : Conception de base de données relationnelle Chapitre 2 : Conception de base de données relationnelle Le modèle entité-association 1. Les concepts de base 1.1 Introduction Avant que la base de données ne prenne une forme utilisable par le SGBD il

Plus en détail

Définitions. Numéro à préciser. (Durée : )

Définitions. Numéro à préciser. (Durée : ) Numéro à préciser (Durée : ) On étudie dans ce problème l ordre lexicographique pour les mots sur un alphabet fini et plusieurs constructions des cycles de De Bruijn. Les trois parties sont largement indépendantes.

Plus en détail

Méthodologie. des commentaires, des textes législatifs et réglementaires coordonnés reproduits in extenso, des décisions de jurisprudence.

Méthodologie. des commentaires, des textes législatifs et réglementaires coordonnés reproduits in extenso, des décisions de jurisprudence. MÉTHODOLOGIE Méthodologie La présente étude combine trois types d'informations : des commentaires, des textes législatifs et réglementaires coordonnés reproduits in extenso, des décisions de jurisprudence.

Plus en détail

12.2.5. La Banque de données santé publique (BDSP)

12.2.5. La Banque de données santé publique (BDSP) 12. Approfondir ses connaissances autour d un sujet droit ou qu un accord avec l éditeur autorise les gestionnaires de la base à pointer vers le document original. Les bases de données bibliographiques

Plus en détail

CONCLUSIONS. Par rapport aux résultats obtenus, on peut conclure les idées suivantes :

CONCLUSIONS. Par rapport aux résultats obtenus, on peut conclure les idées suivantes : CONCLUSIONS L application de la PNL à l entreprise est confrontée aux besoins des leaders d équipe, tels que: la gestion de son propre développement, du stress, la résolution des problèmes tels que les

Plus en détail

PARTIE I : ÉCRIRE POUR APPRENDRE

PARTIE I : ÉCRIRE POUR APPRENDRE Table des matières Introduction! L écriture à travers le curriculum! Motiver les élèves à écrire! Le processus d écriture! L enseignement de l écriture! Comment utiliser cet ouvrage! Déterminer les objectifs

Plus en détail

Algèbre de Boole. Chapitre. 2.1 Notions théoriques

Algèbre de Boole. Chapitre. 2.1 Notions théoriques Chapitre 2 Algèbre de Boole G oerge Boole (1815-1864), mathématicien autodidacte anglais, a développé une algèbre permettant de manipuler les propositions logiques au moyen d équations mathématiques où

Plus en détail

Algorithmique et Analyse d Algorithmes

Algorithmique et Analyse d Algorithmes Algorithmique et Analyse d Algorithmes L3 Info Cours 11 : Arbre couvrant Prétraitement Benjamin Wack 2015-2016 1 / 32 La dernière fois Rappels sur les graphes Problèmes classiques Algorithmes d optimisation

Plus en détail

Machine de Turing. Informatique II Algorithmique 1

Machine de Turing. Informatique II Algorithmique 1 Machine de Turing Nous avons vu qu un programme peut être considéré comme la décomposition de la tâche à réaliser en une séquence d instructions élémentaires (manipulant des données élémentaires) compréhensibles

Plus en détail

LE RAPPORT DE STAGE. Le contenu du rapport de stage

LE RAPPORT DE STAGE. Le contenu du rapport de stage LE RAPPORT DE STAGE Le rapport de stage a pour objet de présenter des faits et des réflexions sur un stage d apprentissage qui, généralement, s est déroulé dans le cadre d un programme de formation professionnelle.

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

LE PROBLEME DU FLOT MAXIMAL

LE PROBLEME DU FLOT MAXIMAL LE PROBLEME DU FLOT MAXIMAL I Exemple d introduction Deux châteaux d'eau alimentent 3 villes à travers un réseau de canalisations au sein duquel se trouvent également des stations de pompage. Les châteaux

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Université de Bangui. Modélisons en UML

Université de Bangui. Modélisons en UML Université de Bangui CRM Modélisons en UML Ce cours a été possible grâce à l initiative d Apollinaire MOLAYE qui m a contacté pour vous faire bénéficier de mes connaissances en nouvelles technologies et

Plus en détail

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Dans cette définition, il y a trois notions clés: documents, requête, pertinence. Introduction à la RI 1. Définition Un système de recherche d'information (RI) est un système qui permet de retrouver les documents pertinents à une requête d'utilisateur, à partir d'une base de documents

Plus en détail

Rapport de méthodologie:

Rapport de méthodologie: Rapport de méthodologie: "Laboratoire on chip/lab-on-chip/loc" REMARQUE : La méthode employée est en tout point similaire à celle utilisée en groupe. Contents Rapport de méthodologie:... 1 "Laboratoire

Plus en détail

2B La résolution de modèles linéaires par Excel 2010

2B La résolution de modèles linéaires par Excel 2010 2B La résolution de modèles linéaires par Excel 2010 Nous reprenons ici, de façon plus détaillée, la section où est indiqué comment utiliser le solveur d'excel 2010 pour résoudre un modèle linéaire (voir

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

Recommandation dans les réseaux sociaux professionnels

Recommandation dans les réseaux sociaux professionnels Recommandation dans les réseaux sociaux professionnels Application sur un réseau bibliographique 6 mai 2010 Objectif et Motivation Techniques utilisées Algorithme exhaustive de recherche de toutes les

Plus en détail

Thèse de Doctorat en Informatique

Thèse de Doctorat en Informatique République Algérienne Démocratique et Populaire Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Mouloud Mammeri de Tizi-Ouzou Faculté de Génie Electrique et de l Informatique

Plus en détail

Noureddine Kerzazi noureddine.kerzazi@polymtl.ca

Noureddine Kerzazi noureddine.kerzazi@polymtl.ca Domaine de la modélisation des processus pour le génie logiciel. Noureddine Kerzazi noureddine.kerzazi@polymtl.ca DSL4SPM Domain-Specific-Language for Software Process Modeling Il s agit d un nouveau cadre

Plus en détail

Introduction à l étude des Corps Finis

Introduction à l étude des Corps Finis Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur

Plus en détail

CRÉER UN COURS EN LIGNE

CRÉER UN COURS EN LIGNE Anne DELABY CRÉER UN COURS EN LIGNE Deuxième édition, 2006, 2008 ISBN : 978-2-212-54153-3 2 Que recouvre le concept d interactivité? Dans une perspective de cours en ligne, une activité interactive est

Plus en détail

Arbres ordonnés, binaires, tassés, FAP, tri par FAP, tas, tri par tas

Arbres ordonnés, binaires, tassés, FAP, tri par FAP, tas, tri par tas Arbres ordonnés, binaires, tassés, FAP, tri par FAP, tas, tri par tas 1. Arbres ordonnés 1.1. Arbres ordonnés (Arbres O) On considère des arbres dont les nœuds sont étiquetés sur un ensemble muni d'un

Plus en détail

SOMMAIRE INTRODUCTION

SOMMAIRE INTRODUCTION SOMMAIRE INTRODUCTION...2 I. L ETUDE PREALABLE...3 1. La problématique...3 2. Les objectifs...3 3. L étude de l existant...4 4. Les limites de l existant...4 5. L approche de solution...4 II. L ETUDE DETAILLEE...5

Plus en détail

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

Bases de données nationales en matière de valeur comme outil d'évaluation des risques

Bases de données nationales en matière de valeur comme outil d'évaluation des risques Bases de données nationales en matière de valeur comme outil d'évaluation des risques Parlons-en... Les directives Directives concernant l'élaboration et l'utilisation des bases de données nationales en

Plus en détail

Shadow Manager Simulateur de gestion globale d entreprise. Introduction

Shadow Manager Simulateur de gestion globale d entreprise. Introduction Shadow Manager Simulateur de gestion globale d entreprise Introduction Le logiciel de simulation d entreprise Shadow Manager représente le nec plus ultra des outils pédagogiques de simulation de gestion

Plus en détail

Master Modélisation Statistique M2 Finance - chapitre 1. Gestion optimale de portefeuille, l approche de Markowitz

Master Modélisation Statistique M2 Finance - chapitre 1. Gestion optimale de portefeuille, l approche de Markowitz Master Modélisation Statistique M2 Finance - chapitre 1 Gestion optimale de portefeuille, l approche de Markowitz Clément Dombry, Laboratoire de Mathématiques de Besançon, Université de Franche-Comté.

Plus en détail

PHYSIQUE. 5 e secondaire. Optique PHY-5041-2 DÉFINITION DU DOMAINE D EXAMEN

PHYSIQUE. 5 e secondaire. Optique PHY-5041-2 DÉFINITION DU DOMAINE D EXAMEN PHYSIQUE 5 e secondaire Optique PHY-5041-2 DÉFINITION DU DOMAINE D EXAMEN MAI 1999 Quebec PHYSIQUE 5 e secondaire Optique PHY-5041-2 DÉFINITION DU DOMAINE D EXAMEN MAI 1999 Direction de la formation générale

Plus en détail

Rappel sur les bases de données

Rappel sur les bases de données Rappel sur les bases de données 1) Généralités 1.1 Base de données et système de gestion de base de donnés: définitions Une base de données est un ensemble de données stockées de manière structurée permettant

Plus en détail

Evaluer des élèves de Seconde par compétences en Sciences Physiques

Evaluer des élèves de Seconde par compétences en Sciences Physiques Evaluer des élèves de Seconde par compétences en Sciences Physiques Introduction Depuis quelques années, le terme de «compétences» s installe peu à peu dans notre quotidien ; aussi bien dans la vie de

Plus en détail

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal

CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal III CHOIX OPTIMAL DU CONSOMMATEUR A - Propriétés et détermination du choix optimal La demande du consommateur sur la droite de budget Résolution graphique Règle (d or) pour déterminer la demande quand

Plus en détail

DU BINAIRE AU MICROPROCESSEUR - D ANGELIS LOGIQUE COMBINATOIRE. SIMPLIFICATION DES EQUATIONS BOOLEENNES Leçon 07

DU BINAIRE AU MICROPROCESSEUR - D ANGELIS LOGIQUE COMBINATOIRE. SIMPLIFICATION DES EQUATIONS BOOLEENNES Leçon 07 DU BINAIRE AU MICROPROCESSEUR - D ANGELIS 43 SIMPLIFICATION DES EQUATIONS BOOLEENNES Leçon 7 Le rôle de la logique combinatoire est de faciliter la simplification des circuits électriques. La simplification

Plus en détail

A. Définition et formalisme

A. Définition et formalisme Les cardinalités et les différents types d'associations I. Les cardinalités A. Définition et formalisme Les cardinalités sont des couples de valeur que l'on trouve entre chaque entité et ses associations

Plus en détail

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

Neuvième enquête nationale sur les diplômés Le devenir des diplômés 2009 de l IUT

Neuvième enquête nationale sur les diplômés Le devenir des diplômés 2009 de l IUT Neuvième enquête nationale sur les diplômés Le devenir des diplômés 2009 de l IUT Pierre GUILLEMARD, coordinateur des enquêtes "anciens diplômés" Conseil d Institut du jeudi 28 juin 2012 1 Plan de la présentation

Plus en détail

Partie I : Automates et langages

Partie I : Automates et langages 2 Les calculatrices sont interdites. N.B. : Le candidat attachera la plus grande importance à la clarté, à la précision et à la concision de la rédaction. Si un candidat est amené à repérer ce qui peut

Plus en détail

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring ESSEC Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring Les méthodes d évaluation du risque de crédit pour les PME et les ménages Caractéristiques Comme les montants des crédits et des

Plus en détail

Équations différentielles en physique

Équations différentielles en physique Fiche Mathématiques pour la Physique - Équations différentielles en physique - MPSI 1 Lycée Chaptal - 2012 Équations différentielles en physique On ne considère en physique en prépa (quasiment) que des

Plus en détail

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

Rapport d'analyse des besoins

Rapport d'analyse des besoins Projet ANR 2011 - BR4CP (Business Recommendation for Configurable products) Rapport d'analyse des besoins Janvier 2013 Rapport IRIT/RR--2013-17 FR Redacteur : 0. Lhomme Introduction...4 La configuration

Plus en détail

Bases de données multimédia VII Bag of words

Bases de données multimédia VII Bag of words Bases de données multimédia VII Bag of words ENSIMAG 2014-2015 Matthijs Douze & Karteek Alahari Video-Google! LA référence : Josef Sivic and Andrew Zisserman «Video Google: A Text Retrieval Approach to

Plus en détail

La théorie des mouvements dans les formules Jean-François Nicaud Version initiale de Février 2013 jeanfrancois.nicaud@laposte.net

La théorie des mouvements dans les formules Jean-François Nicaud Version initiale de Février 2013 jeanfrancois.nicaud@laposte.net La théorie des mouvements dans les formules Jean-François Nicaud Version initiale de Février 2013 jeanfrancois.nicaud@laposte.net Article rédigé avec epsilonwriter puis copié dans Word La théorie des mouvements

Plus en détail

Plan. Cours 4 : Méthodes d accès aux données. Architecture système. Objectifs des SGBD (rappel)

Plan. Cours 4 : Méthodes d accès aux données. Architecture système. Objectifs des SGBD (rappel) UPMC - UFR 99 Licence d informatique 205/206 Module 3I009 Cours 4 : Méthodes d accès aux données Plan Fonctions et structure des SGBD Structures physiques Stockage des données Organisation de fichiers

Plus en détail

Équations et inéquations du 1 er degré

Équations et inéquations du 1 er degré Équations et inéquations du 1 er degré I. Équation 1/ Vocabulaire (rappels) Un équation se présente sous la forme d'une égalité constituée de nombres, de lettres et de symboles mathématiques. Par exemple

Plus en détail

BASES DU RAISONNEMENT

BASES DU RAISONNEMENT BASES DU RAISONNEMENT P. Pansu 10 septembre 2006 Rappel du programme officiel Logique, différents types de raisonnement. Ensembles, éléments. Fonctions et applications. Produit, puissances. Union, intersection,

Plus en détail

AGENCE NATIONALE D APPUI A LA PERFORMANCE DES ETABLISSEMENTS DE SANTE ET MEDICO-SOCIAUX APPEL A PROJETS

AGENCE NATIONALE D APPUI A LA PERFORMANCE DES ETABLISSEMENTS DE SANTE ET MEDICO-SOCIAUX APPEL A PROJETS AGENCE NATIONALE D APPUI A LA PERFORMANCE DES ETABLISSEMENTS DE SANTE ET MEDICO-SOCIAUX APPEL A PROJETS «Validation méthodologique de l élaboration de scores composites de performance hospitalière» 1.

Plus en détail

Cours (8) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012. Test du Khi 2

Cours (8) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, 2011-2012. Test du Khi 2 Test du Khi 2 Le test du Khi 2 (khi deux ou khi carré) fournit une méthode pour déterminer la nature d'une répartition, qui peut être continue ou discrète. Domaine d application du test : Données qualitatives

Plus en détail

LE PROBLÈME DE RECHERCHE ET LA PROBLÉMATIQUE

LE PROBLÈME DE RECHERCHE ET LA PROBLÉMATIQUE LE PROBLÈME DE RECHERCHE ET LA PROBLÉMATIQUE Un problème de recherche est l écart qui existe entre ce que nous savons et ce que nous voudrions savoir à propos d un phénomène donné. Tout problème de recherche

Plus en détail

C H A P I T R E 2 C A L C U L S A L G E B R I Q U E S

C H A P I T R E 2 C A L C U L S A L G E B R I Q U E S Classe de Troisième C H A P I T R E C A L C U L S A L G E B R I Q U E S UTILISER DES LETTRES...4 EXPRESSIONS ÉQUIVALENTES...6 VOCABULAIRE DU CALCUL LITTÉRAL...7 RÉDUCTIONS D'ÉCRITURES...9 DÉVELOPPER UN

Plus en détail

COTATION BANQUE DE FRANCE UNE ÉVALUATION DES PERFORMANCES

COTATION BANQUE DE FRANCE UNE ÉVALUATION DES PERFORMANCES COTATION BANQUE DE FRANCE UNE ÉVALUATION DES PERFORMANCES Juin 2015 SOMMAIRE 1. Précisions sur la cotation Banque de France et les statistiques présentées... 4 2. Statistiques 2015... 6 2.1. Discrimination

Plus en détail

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT

WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT WEBSEMINAIRE INTRODUCTION AU REFERENCEMENT Animé par A.COMLAN ADCOSOFT 14/02/2014-15H 1 Programme du webséminaire : Introduction Partie I Optimisation des Balises TITLE et META Partie II Optimisation du

Plus en détail

QMF-6. Questionnaire de Motivation à la réussite en Formation RÉSULTATS. Yann FORNER XV41ZUJK 15/04/2010 TATA. Féminin. Lycéens.

QMF-6. Questionnaire de Motivation à la réussite en Formation RÉSULTATS. Yann FORNER XV41ZUJK 15/04/2010 TATA. Féminin. Lycéens. Questionnaire de Motivation à la réussite en Formation Yann FORNER RÉSULTATS Nom: Sexe: 15/04/2010 Féminin Âge: 17 Étalonnage: Lycéens Introduction Le Questionnaire de Motivation en situation de Formation

Plus en détail

INTRODUCTION. A- Modélisation et paramétrage : CHAPITRE I : MODÉLISATION. I. Paramétrage de la position d un solide : (S1) O O1 X

INTRODUCTION. A- Modélisation et paramétrage : CHAPITRE I : MODÉLISATION. I. Paramétrage de la position d un solide : (S1) O O1 X INTRODUCTION La conception d'un mécanisme en vue de sa réalisation industrielle comporte plusieurs étapes. Avant d'aboutir à la maquette numérique du produit définitif, il est nécessaire d'effectuer une

Plus en détail