Programme. Matière : RECHERCHE D INFORMATION Crédit : 4 Cours : 1h30 TD : 1h30 Semestre : S1 du M1 Assuré par: Herzallah Abdelkarim

Dimension: px
Commencer à balayer dès la page:

Download "Programme. Matière : RECHERCHE D INFORMATION Crédit : 4 Cours : 1h30 TD : 1h30 Semestre : S1 du M1 Assuré par: Herzallah Abdelkarim"

Transcription

1 Matière : RECHERCHE D INFORMATION Crédit : 4 Cours : 1h30 TD : 1h30 Semestre : S1 du M1 Assuré par: Herzallah Abdelkarim Programme 1-Introduction : Objectifs de la RI, Concepts de base : information, Besoin en information et pertinence, Processus général de la RI, Taches (RI, FI, CLIR, QA, etc.). 2-Indexation pour la RI : Introduction (Indexation manuelle vs. Indexation automatique), Etapes du processus d indexation, Statistiques sur les termes (Loi, Zipf, ), Techniques de pondération des termes. 3- Modèles de RI : Taxonomie des modèles (Adhoc Vs Filtrage), Modèle booléen, Modèle booléen étendu, Modèle vectoriel, Modèle LSI (Latent Semantic Indexing), Modèle probabiliste, Modèle inférentiel, Modèle de langage, Modèle possibiliste. 4- Reformulation de requêtes : Expansion de requête, Réinjection de pertinence, Méthodes de sélection de termes. 5- Evaluation de la RI : Critères d évaluation, Collections de tests, Bilan des campagnes d évaluation. 6- RI sur le WEB 7- RI dans des documents structurés (XML) 1

2 1-Introduction 1.1 Définition La recherche d'information ou RI (ou encore SRI) prend plusieurs terminologies: recherche d'information, informatique documentaire, information retrieval, document retrieval. Salton définit la RI comme la branche de l'informatique qui consiste à acquérir, organiser, stocker; rechercher et sélectionner l'information. Les domaines d'application de la RI sont: Internet Bibliothèques numériques «digital library» Entreprises La RI est un domaine vaste qui se situe dans les frontières de plusieurs disciplines tel que: 1. Recherche adhoc, 2. Classification /catégorisation (clustering), Question-réponses (Query answering), 3. Filtrage d information (filtering/recommendation) 4. Méta-moteurs (data-fusion,meta-search) 5. Résumé automatique (Summarization) 6. Croisement de langues (cross language) 7. Fouille de textes (Text mining) 1.2 Objectif Identifier en vue d exploiter de l'information contenue dans des documents et des bases de données (son,texte, image) par rapport à une requête formulée par un utilisateur. Le SRI devra nous retourner le moins possible de documents non pertinents Les contenus des documents peuvent être non structurés ou semi structurés. 1.3 Bref historique de la RI La RI n'est pas un domaine récent : 1940 : Avec la naissance des ordinateurs, la RI se concentrait sur les applications dans des bibliothèques. Depuis le début de ces études, la notion de pertinence a toujours été un objet : Début de petites expérimentations en utilisant des petites collections de documents (références bibliographiques). Le modèle utilisé est le modèle booléen : Expérimentations plus larges ont été menées. On a développé une méthodologie d'évaluation du système qui est aussi utilisée maintenant dans d'autres domaines (des corpus de test ont été conçus pour évaluer des systèmes différents) : Développement du système SMART. Les travaux sur ce système a été dirigés par G. Salton. Certains nouvelles techniques ont été implantées et expérimentées pour la première fois dans ce système (par exemple, le modèle vectoriel et la technique de relevance feedback). Du côté de modèle, il y a aussi beaucoup de développements sur le modèle probabiliste. 2

3 1980 : Les travaux sur la RI ont été influencés par l avènement de l'intelligence artificielle. Ainsi, on tentait d'intégrer des techniques de l'ia en RI, par exemple, système expert pour la RI, etc : Internet à propulser la RI en avant scène de beaucoup d'applications. La venue de l'internet a aussi modifié la RI. La problématique est élargie. Par exemple, on traite maintenant plus souvent des documents multimédia qu'avant. Cependant, les techniques de base utilisées dans les moteurs de recherche sur le web restent identiques. 1.4)Architecture générale d'un Système de Recherche d'information Documents Besoins en informations Requête Indexation Dictionnaire Thésaurus Onologie Modèle, Indexation Représentation des documents Processus d appariement (matchning) Documents - requêtes Représentation de la requête Expansion Documents sélectionnés Jugements Utilisation et/ou Evaluation Modification En se basant sur cette requête, le système de RI exécute une série d algorithmes qui permettent d obtenir une liste de documents ordonnés par leur pertinence ) Information et besoin en information 3

4 Une information est une donnée dont un individu a besoin pour résoudre un problème particulier. L'individu exprime donc un besoin sous forme de requête (question). Il existe deux types de besoins en information : le type fermé et le type ouvert. a) Question fermée : A une requête correspond un ensemble fini de réponses. Les tâches d'extraction d'information (EI) et de Question Answering (QA) font partie de cette catégorie, et elles sont en général appliquées à un corpus spécialisé. b) Question ouverte : Questions pour lesquelles il n'existe pas de réponse complète et définitive. La RI s'intéressait à des BI ouverts et à des données non structurées ) indexation L étape d indexation permet de réaliser le passage d'un document textuel (ou une requête) à une représentation exploitable par un modèle de RI par la construction de mots clés appelé langage d indexation. Document textuel (ou requête) Indexation représentation exploitable par le SRI Cette transformation appelée indexation consiste à extraire du texte un ensemble de mots clés appelés descripteurs. Ces descripteurs vont représenter le document dans le corpus. Chaque descripteur peut être accompagné de connaissances à priori pour mieux appréhender la recherche ) recherche ou appariement Une fois les documents transformés, il est possible de rechercher ceux qui répondent le mieux à une question d'un utilisateur grâce à la relation d appariement. Cette relation s'appuie sur des approches mathématiques. On en distingue: L'approche ensembliste L'approche algébrique (ou vectorielle) L'approche probabiliste Certains systèmes de RI dits assistés permettent l interaction avec l'utilisateur, afin d'améliorer petit à petit les réponses du système de RI au cours d'une session de travail. L'utilisateur intervient à chaque étape pour «aider» le système à sélectionner les documents qu il juge pertinents pour sa question. Ces indications peuvent aussi servir pour améliorer globalement le fonctionnement du système de RI ) La reformulation Un SR peut comporter une composante supplémentaire appelée reformulation automatique d la question (requête). Cette étape a pour objectif d'améliorer les performances du SRI, donc la précision dans les réponses du système ) Pertinence 4

5 La pertinence d'un document pour une question posée par l utilisateur s'exprime dans les modèles de RI sous la forme d'une valeur de plausibilité déterminée grâce à une heuristique. A titre d exemple, pour la question «base de données» la réponse sera d autant plus pertinente si «base» et «donnée» se trouvent localisés dans une même phrase. Il le sera d autant moins si ces deux mots sont répartis indifféremment dans le texte ) Précision et rappel La précision ou le rappel est un moyen permettant de mesurer la pertinence car la notion de valeur de plausibilité demeure assez vague. R: Documents rapportés (retrieval documents) D: Collection des documents Rr: Documents pertinents rapportés P: Collection des documents pertinents (Relevant documents) Précision = R r / R Rappel = R r / P Score F = (R + P) / (2RP) Bruit : 1 Précision Silence : 1 Rappel Taux documents pertinents dans les documents rapportés Taux de documents pertinents rapportés utilisées pour maximiser la moyenne harmonique de la précision et du rappel Documents non pertinents rapportés par le SRI Documents pertinents non rapportés par le SRI a) Précision : Un système de RI sera très précis si presque tous les documents renvoyés sont pertinents. En fait c est la proportion des documents pertinents parmi l'ensemble de ceux renvoyés (rapportés) par le système. b) Rappel : Un système de RI aura beaucoup de rappel s'il renvoie la plupart des documents pertinents du corpus pour une question. En fait c est la proportion de documents pertinents renvoyés par le système parmi tous ceux qui sont pertinents Application : Soit : NP = nombre de documents pertinents Nr = nombre de documents rapportés 5

6 Nrp = nombre de documents pertinents rapportés Alors : Bruit : 1 Précision = 1 Nrp/Nr = (Nr Nrp)/Nr Silence : 1 Rappel = 1 Nrp/Np = (Np Nrp)/Np Ou bien encore : Rappel = card(rp) / card(p) Précision = card(rp) / card(r) Silence = 1 Rappel = card(p)-card(rp) / card(p) Bruit = 1 Préecision = card(r) card(rp) / card (R) 1.4.7) Mesure F La mesure F [van Rijsbergen, 1979] prend en considération la précision et le rappel simultanément. Elle est définie par : Pour utiliser cette mesure, il est donc nécessaire de fixer préalablement un seuil de décision pour le classement, et de calculer la valeur de F pour ce seuil. Le paramètre permet de choisir l'importance relative que l'on souhaite donner à chaque quantité. On choisit en général de donner la même importance aux deux critères : on utilise F1 (noté F dans toute la suite de ce mémoire) qui s'écrit : F = 2.P.R P + R Une des propriétés intéressante de cette mesure est le fait que, si P = R = X, alors F = X ; cette mesure a alors une interprétation simple ) La courbe rappel / précision La précision est une fonction décroissante du rappel. Précision et rappel sont dans l'intervalle [0..1]. Considérons à titre d'exemple une requête pour laquelle cinq documents sont pertinents dans la base. Le système retourne 15 documents: {d1,.., d15}. Les documents pertinents sont marqués par la lettre "P" comme indiqué dans la troisième colonne du tableau suivant: Document Score Pertinent Précision Rappel d P ,20 d ,20 d P ,40 6

7 d P ,60 d ,60 d P ,80 d P ,80 d8 4,32 0,63 1,00 d9 4,16 0,56 1,00 d10 3,47 0,50 1,00 d11 2,69 0,45 1,00 d12 2,04 0,42 1,00 d ,38 1,00 d14 1,67 0,36 1,00 d15 0,07 0,33 1,00 On considère d'abord le premier document d1 restitué par le système. A ce point, on a retrouvé un document pertinent parmi les 5 existants. Donc, le rappel de 0.2, la précision est de 1/1. Le point de la courbe est donc (0.2, 1.0). On considère ensuite les deux premiers documents restitués. Le taux de rappel est toujours de 0.2 et la précision est cette fois de 0.5 (un document sur deux est pertinent). Le point est donc (0.2, 0.5). Ce processus est répété jusqu'à épuisement de la liste des réponses (qui peut être très longue en incluant tous les documents de la base). Les premiers points de la courbe sont alors représentés suivante: Précision 1 (0.2, 1) 0.8 ( 0.6, 0.75 ) 0,4 (0,4, 0.67) (0.6, 0.75 ) 0.2 ( 0.2, 0.5 ). rappel 7

8 Indexation pour la RI 2.1 Définition L indexation a pour rôle de représenter un document ou une requête par un ensemble de descripteurs, appelés aussi mots clé. Ces descripteurs constituent une facilité d exploitation des documents étant donné que le ceux-ci sont sous forme de textes libres. L indexation peut être : a) Manuelle : Chaque document est analysé par un documentaliste ou un spécialiste du domaine étudié. Il utilise à cet effet un vocabulaire contrôlé basé sur le thésaurus, le lexique, ). C est une opération qui exige un effort particulier et peut prendre du temps. En raison de facteurs humains (telle que la subjectivité), un même document peut recevoir deux listes différentes de descripteurs s il est travaillé par deux indexeurs différents. b) Automatique : Le processus est complètement automatisé. L indexation automatique a pour objectif de produire un ensemble de mots, ou termes, suffisamment informatifs pour bien représenter le contenu d un document. Les mots d un document ne sont pas tous également significatifs. En langage écrit, quelques termes portent plus de sémantique que d autres. Ainsi, les documents sont pré-traités pour faire la sélection des termes adéquats. L ensemble de termes présents dans un document conduit à une représentation imprécise de la sémantique des documents. Par exemple, le terme le ne représente pas un sujet en soi et peut conduire à donner comme résultat des documents non pertinents. On dit que la représentation d un document par l ensemble de tous ses termes génère du bruit en RI. Une façon de réduire ce bruit est de réduire l ensemble de termes au travers d un pré-traitement. Cette réduction augmente aussi la performance du système. c) Semi automatique: Un premier processus automatique permet d'extraire les termes du document. Cependant le choix final reste au spécialiste du domaine ou au documentaliste pour établir les relations entre les mots clés et choisir les termes significatifs, et ce grâce à un interface interactif Etapes du processus d indexation Au moins cinq grands niveaux de traitement linguistique : niveau du découpage, Tokénisation niveau morphologique : reconnaissance du mot niveau lexical : réduction du mot à sa forme canonique > lemmatisation niveau syntaxique : niveau d'utilisation de la grammaire niveau sémantique : niveau de la reconnaissance des concepts 1) Niveau de découpage (Tokénisation) : La tokénisation est appelée aussi segmentation. Elle consiste à diviser un texte en unités lexicales (token) élémentaires. C est une opération qui «localise» les chaînes de caractères entourées de séparateurs (caractère 8

9 blanc, ponctuations), et les identifie comme étant des mots. Il permet aussi de procéder à une première correction des fautes d orthographe et des erreurs de saisie 2)Niveaux léxical et morphologique : Chaque mot de la langue lui correspond une catégorie morpho syntaxique. b) Le lemme Le lemme s'obtient par une flexion (paradigme flexionnel). Exemple: Je travaille, tu travailles, il/elle travaille. Le lemme est travailler. La catégorie grammaticale rattaché à ce lemme est un verbe. c) La racine La racine s'obtient par une dérivation ( paradigme dérivationnel ). Exemple: nation, nationalité, nationaliser. La racine est nation. La catégorie rattachée un substantif. d) Le mot composé Mots non obligatoirement successifs qui doivent être reconnus comme formant une seule entité. i. Racinisation : Cette première opération est indispensable pour pouvoir retrouver tous les documents dans lesquels apparaissent différentes formes du même mot». Exemple : écologie, écologiste, écologique sont "racinisés" par un seul mot : écologie. ii. Le second traitement appelé aussi «étiquetage» ou tagging consiste à comparer chaque mot du texte (susceptibles d être ambiguë), avec les termes du dictionnaire intégré (référentiel ou glossaire métier). Ceci, afin de leur attribuer une ou plusieurs étiquettes en fonction du sens qu ils sont susceptibles d avoir dans le contexte où ils sont utilisés. Cette opération permet aussi d «identifier» les mots composés et les expressions toutes faites. iii. Recherche des lemmes : On a souvent besoin dans les logiciels d indexation de texte de regrouper les mots qui se ressemblent. L idéal serait de considérer la racine du mot, en la recherchant dans un dictionnaire. L opération demandant beaucoup de temps, on a souvent recours à des heuristiques (mot savant pour dire «recette de cuisine») simples, telle que celle-ci : On garde toutes les lettres depuis le début du mot jusqu à - La troisième consonne du mot incluse - Epuisement des lettres si la règle précédente n a pu être satisfaite Seule compte une consonne non précédée d une autre consonne (dans «elfe», on ne compte que le «l» car le «f» est une consonne précédée d une autre consonne ; par contre dans «nain» on compte deux consonnes). Ainsi «chien» a pour racine «chien» Exemple : Lemmatiser le mot «informatique» I N F O R M A T I Q U E Non pris en compte a pour racine «informat». 9

10 iv. Elimination des mots vides) : Les mots qui sont très fréquents dans les documents d une collection n ont pas un bon pouvoir discriminant et ne doivent pas être inclus dans l index. C est le cas des pronoms, des prépositions et des conjonctions, naturellement reconnus comme des mots vides. L élimination des mots vides permet une réduction de l index d environ 40%. Vu que la réduction du nombre de termes augmente la performance, certains systèmes considèrent, aussi, comme des mots vides quelques verbes, adjectifs et adverbes. Cette étape arrive à la constitution d'un index des termes non éliminés, considérés comme des index. La recherche se fait selon logique booléenne par exemple : dans la phrase "Prolétaires de tous les pays : unissez-vous", seuls les mots "prolétaires", "pays" et "unissez" sont gardés. A la recherche, il suffira de taper l'un de ces termes, ou une combinaison des termes, pour retrouver la phrase. Difficultés : o tous les mots gardés sont d égale importance, et il n'y a pas d'ordre des mots. o apparition des différentes formes d'un mot (ex : un verbe va apparaître plusieurs fois sous des formes différentes o l'analyse porte seulement sur des mots isolés (des unitermes), et délaisse toutes les expressions (les syntagmes), souvent porteurs de sens. Ex : «pomme de terre» donnera deux mots "pomme" et "terre", analysés séparément o la synonymie n est pas prise en compte (Ex : vol = aussi bien vol d avion que vol à la tire l'analyse morphologique peut générer beaucoup de «bruit ou de silence» A noter aussi que certains moteurs de recherches n éliminent même pas les mots vides pour une recherche. Les mots vides sont appelés une stoplist ou une stopword. 2.3) Résumé du processus de normalisation 1) Utilisation des règles de transformation du type CONDITION ACTION. Exemple : un mot ayant une terminaison de s, supprimer le s. 2) L algorithme Porter pour l Anglais est basé sur la mesure de séquences voyellesconsonnes. Cette mesure est appelée m: mesure m pour un «stem» est [C](VC)m[VC] où C est une séquence de consonnes et V est une séquence de voyelles [] = option, comme par exemple : m=0 (tree, by), m=1 (trouble, coats, trees, ivy), m=2 (troubles, private) Les règles de désuffixage et de normalisation (en Porter) sont divisées en 3 étapes et sont examinées en séquence : 10

11 Etape 1: sses ss ( caresses caress) ies i (ponies poni) s NULL (cats cat) Etape 2: En règle générale: if m>0 eed ee (agreed agree) if *v*ed NULL (plastered plaster but bled bled) Exemples: Y > I Happy > Happi ANT > NULL IRRITANT > IRRIT EMENT > NULL REMPLACEMENT > REMPLAC MENT > NULL JUSTEMENT > JUSTE Etape 3: ATIONAL > ATE TIONAL > TION RELATIONAL > RELATE CONDITIONAL > CONDITION 3) La Troncature. Il s agit de Tronquer les mots à X caractères Il s agit de Tronquer les mots à X caractères (tronquer plutôt les suffixes). Un exemple de troncature à 7 caractères est : économiquement : écomoni La principale difficulté est comment déterminer la valeur optimale de X? 2.3.1) Niveau léxical : Elle consiste à déterminer les regroupements structurels des mots au sein des phrases et les relations entre les mots ) Niveau sémantique : Ce niveau s intéresser au regroupement de termes synonymes, aux familles de termes, pour dresser un réseau des relations sémantiques ) Autres niveaux : o Indexation fondée sur le calcul statistique des occurrences, cad de la fréquence d'apparition de mots dans un texte. Tous les mots significatifs d'un texte sont relevés (les occurrences) et leur fréquence est calculée, selon un indice moyen de fréquence (par exemple 1 /1000). o Méthode permet les calculs de pondération, cad l'importance d'un mot dans un document déterminé et l'élimination de termes moins significatifs ) Fichier inverse Après analyse de documents d un corpus, on obtient un tableau : document x termes Utilisation en tableau direct «document -> terme» possible t1 t2 t3 tn 11

12 D1.. Dm Génération d un tableau inverse «terme -> document» (appelé fichier inverse) D1 D2 D3 Dm t1.. tn Avantage : rapidité lors du traitement de requête, car pas de traitement séquentiel des documents 2.3.5) Typologie des langages documentaires Un langage documentaire est un langage "pivot" destiné à décrire le contenu des documents et le contenu des questions (requêtes) des utilisateurs que ce soit en entrée (humain) qu'en sortie (machine) Langagge libre Langage contrôlé Langage langage de Langage Combinatoire classification naturel Thésaurus (description) Ontologie (classes, règles, relatons) a) Thésaurus : langage documentaire fondé sur une structuration hiérarchisée d un ou plusieurs domaines de la connaissance et dans lequel les notions sont représentées par des termes d une ou plusieurs langues naturelles et les relations entre notions par des signes conventionnel. b) Ontologie 12

13 Une ontologie est un ensemble structuré de concepts organisés dans un graphe où les relations peuvent être: Des relations sémantiques; Des relations de composition et d'héritage (au sens programmation objet). Une ontologie permet de définir des termes les uns par rapport aux autres, chaque terme étant la représentation textuelle d'un concept. La construction d'une ontologie à partir d'un texte consiste à: parcourir le texte à la recherche de termes récurrents ou définis par l'utilisateur, analyser la manière dont ces termes sont mis en relation dans le texte (par la grammaire, et par les concepts qu'ils recouvrent et dont une définition peut être trouvée dans un lexique fourni par l'utilisateur). Le résultat est une ontologie qui représente la connaissance globale que contient le corpus de texte dans le domaine d'application qu'il couvre ) Les pondérations La pondération consiste à répondre à la question si tous les termes ont la même importance? et comment attribuer un poids aux termes extraits? ) Loi de ZIPF La loi de Zipf est une loi empirique énoncée en 1949 par G.K Zipf [Zipf, 1949]. Selon Zipf, les mots dans les documents ne s organisent pas de manière aléatoire mais suivant une loi inversement proportionnelle à leur rang. Le rang d'un mot est sa position dans la liste décroissante des fréquences des mots du corpus. Ainsi, la fréquence du second mot le plus fréquent dans le corpus est la moitié de celle du premier, la fréquence du troisième mot le plus fréquent, son tiers, etc. Formellement, cette loi s'exprime par la probabilité d apparition du nième mot le plus fréquent dans une collection de n importe quelle langue est approximativement inversement proportionnelle à n (rang), soit : P (n) = C N / n On en déduit: fréquence * rang = Constante Fréquence rang des termes Les domaines concernés par la loi de ZIP sont nombreux. On peut citer: La répartition des pixels dans les images, Les populations dans les grandes villes Les pages web sur Internet, où la relation de popularité d'une page Web x nombre d'accès à une page par mois prend la même forme. 13

14 Dans le domaine de la recherche d'information, la loi de Zipf est utilisée pour déterminer les mots qui représentent au mieux le contenu d'un document. Pour cela, un autre concept est introduit, il s'agit de la conjecture de Luhn ) Conjecture de Luhn La conjecture de Luhn est basée sur la loi de Zipf. Elle mesure l Informativité d un document de la façon suivante : Les termes de rang faible (très fréquents) ne sont pas pertinents Les termes de rang élevés (très rares) ne sont pas pertinents Les descripteurs pertinents sont les termes de rang intermédiaire! fréquence informativité seuil maxi seuil mini rang A B C A : mots très fréquents, peu intéressants C : mots peu fréquents, peu intéressants B : mots intéressants Voici un algorithme simple pour extraire et sélectionner Extraire les mots du corpus Éliminer les mots-outils (anti-dictionnaire) Lemmatiser (en anglais, algorithme de Porter) ; raciniser (déclinaisons morphologiques, représentation uniforme : sing, masc sing, infinitif) Fixer un seuil haut et un seuil bas : on ne garde que les mots se situant entre les 2 seuils 3 LES MODELES III-1 Les modèles Requête Recherche d information (SRI) Document 14

15 Interprétation Bases de Indéxation Connaissances Représentation recherche ou Représentation des requêtes interrogation des contenus (langage de requêtes) Appariement (langage d indéxation) Recherche de l information Modèle de Fonction de Modèle de Requêtes correspondance documents (contenus) modèle de connaissance Le langage de description de documents (langage d indéxation), est basé sur un ensemble de termes T = { t1, t2,..., ti,...} et de connecteurs (au moins la conjonction). On appelle généralement «indexation», ou «description», la représentation d un document dans ce langage. Le langage de requêtes est aussi basé sur T, et comprend divers Connecteurs. Généralement on ne considère qu une seule requête générique notée q, mais si nécessaire, Q = { q1, q2,..., qi,...} représentera l ensemble des requêtes (qi est ainsi une liste d éléments de T ou une expression booléenne construite sur T). L algorithme d appariement permet de construire une relation entre requête et indexation. Il est utilisé pour construire une fonction de pertinence, R (appelée «ranking» en anglais) III-2 Les différents modèles MODELES MANUEL AUTOMATIQUE ADAPTATIF Booléen Vectoriel Probabilistes Booléen pondéré Latent semantic Indexed Réseau de neurones III-2-1 Le modèle booléen Le modèle booléen a été introduit en 1983 par Salton et McGill. Il s est imposé grâce à la simplicité et à la rapidité de sa mise en œuvre. L interface d interrogation de la plupart des moteurs de recherche (Google, Alta Vista) est basée sur les principes de ce modèle. Il est 15

16 composé d une liste de termes (mots-clés) pouvant être combinés à des opérateurs logiques ET, OU NON pour répondre au mieux à une requête d un utilisateur. a) Modèle de connaissance : Un document T est indexé par des termes t1, t2, t3.tn : T = {ti}, i appartient à [1,n] b) Modèle de document : Un document D : Une requête q : D=t1 ET t2 Et t3,. (t1 ET t2) OU (t5 ET t7). c) Fonction de correspondance : la fonction de correspondance est une implication logique de la logique des propositions. Un document (d) représenté par son ensemble de termes (ti), répond à une requête (q) exprimée comme une expression logique de termes, si l implication d q est valide. La correspondance C(d, q) est déterminée comme suit : C(d, ti) = 1 si ti Є. d ; 0 sinon C(d, q1 Λ q2) = 1 si C(d, q1) = 1 et C(d, q2) = 1 ; 0 sinon C(d, q1 V q2) = 1 si C(d, q1) = 1 ou C(d, q2) = 1 ; 0 sinon C(d, q) = 1 si C(d, q) = 0 ; 1 sinon Les termes t1 des documents sont identifiés et stockés en conservant les liaisons d appartenance à chaque texte. On désigne cet ensemble sous le nom de fichier (index) inversé. La recherche des documents dans lesquels figure un terme est ainsi fortement accélérée. L inconvénient majeur de ce modèle comme schématisé dans la Figure 2-4, est que les documents pertinents dont la représentation ne correspond qu approximativement à la requête ne sont pas sélectionnés, et que tous les termes ont la même importance. Pour remédier à ces inconvénients, SALTON a proposé le modèle booléen étendu qui se propose qui corriger les inconvénients du modèle booléen. III-2-2 Le modèle booléen pondéré Il s agit d une extension du modèle booléen en intégrant le principe des pondérations. Il tient compte de l importance des termes dans la représentation des documents et dans la requête, et ce, en affectant des poids à chaque terme du document et de la requête. a) Modèle de connaissances : T = {ti}, i Є [1,.. n], Les ti indexent les documents Un document (D) est représenté par : Une formule logique de la même manière que le modèle booléen) Une fonction W D : t Є [0,1], qui pour chaque terme de T donne le poids de ce terme dans D. Le poids vaut 0 pour un terme non présent dans le document. b) Fonction de correspondance 16

17 b-1) Méthode-1 : Détermination de la correspondance COR d un document D à une requête q notée COR(D, q) s évalue selon le cadre classique des ensembles flous proposé par Zadeh [Zadeh, 1965]. Dans la théorie des ensembles flous, quand un élément a un degré d'appartenance à un ensemble, cet ensemble est dit ensemble flou. On obtient les relations suivantes : COR(D, a Λ b) = Min [W D (a), W D (b) ] COR(D, a V b) = Max [W D (a), W D (b) ] COR(D, a) = 1 W D (a) Limitation : on ne tient pas compte dans la réponse de tous les termes de la requête. Il semble ne pas convenir parfaitement à un processus de recherche d'information pour la raison suivante : Soit la requête a et b, un document D j appartenant à l'ensemble flou relatif à a avec COR(D j,a)=0.9 et à l'ensemble flou relatif à b avec COR(D j,b)=0 sera considéré de la même manière qu'un document D i appartenant à l'ensemble flou relatif à a avec COR(D i,a)=0.9 et à l'ensemble flou relatif à b avec COR(D i,b)=0.9. b-2) Méthode-2 : Sim(D, a V b) = sqr((w D (a) 2 + W D (b) 2 )/2) Sim(D, a Λ b) = 1 - sqr(((1-w D (a)) 2 + (1-W D (b)) 2 )/2) Exemple : Booléen Booléen pondéré Documents A B A V B A Λ B A V B A Λ B D D /sqr(2) 1-1/sqr(2) D /sqr(2) 1-1/sqr(2) D III-2-3 Le modèle vectoriel Le modèle vectoriel introduit par [Salton 1975] représente chaque document, ainsi que la requête, par un vecteur et calcule un coefficient de similarité entre 17

18 chaque document et la requête (appelé Retrieval Status Value ou RSV) ; Ce coefficient de similarité correspond, par exemple, au cosinus des angles entre le vecteur de la requête et le vecteur d'un document, afin de trouver les documents dont le vecteur de représentation est le plus colinéaire avec le vecteur de la requête. D1 D2 Requête D3 il est donc possible de classer les documents par ordre de pertinence décroissante. Dans ce modèle, chaque mot du corpus représente une dimension de l espace et le codage des vecteurs par une fonction du nombre d occurrences d un mot dans le document. Les composantes des vecteurs, appelées termes dans la terminologie de la recherche d information, peuvent également être des paires de mots ou des phrases. Avec cette approche : seule la présence ou l absence de termes est porteuse d information. Aucune analyse linguistique n est utilisée, ni aucune notion de distances entre les mots : Les documents sont représentés en "sacs de mots". De nombreuses solutions ont été proposées dans la littérature pour coder les composantes des vecteurs, c est-à-dire pour attribuer un poids à chaque terme (cf. [Salton et Buckley, 1990]). Historiquement, le plus connu de ces codages s appelle tf.idf, et donne parfois son nom à l approche vectorielle ; ce codage signifie : term frequency * inverse document frequency. III Pondération TF.Idf Le terme Tf*Idf désigne un ensemble de pondérations et de sélections de termes. Tf=term frequency (importance du terme pour un document) Idf=Inverted document frequency (on mesure si le terme est discriminant). 18

19 Les termes importants dans un document doivent avoir un poids fort. Le facteur Tf (sac de mots, bag of words): Tenir compte de la fréquence d'un terme dans le document Plus un terme est fréquent dans un document plus il est important dans la description de ce document Le facteur IDF (Inverse Document Frequency) la fréquence du terme dans la collection : Tenir compte du nombre de documents contenant un terme donné un terme apparaissant dans tous les documents n est pas important Avec : Idf =Log(N/ni), où N est la taille de la collection, et ni le nombre de documents contenant le terme ti On déduit la formule classique suivante : Wij = freq(ti, dj) * log(taille corpus / docfreq(t)) Où bien : Wij = tfij * Log(taille_corpus / dfi) Où : Wij est le poids du terme t i dans le document Di. tfij est donnée dans la matrice précédente (fréquence du terme t i dans le document Di). taille_corpus = nombre de documents du corpus (collection). dfi = fréquence documentaire de ti, c'est-à-dire le nombre de documents contenant le terme i (Le document apparaît au moins une fois). Les Tfij doivent être normalisées en divisant chaque Tfij par le maximum des fréquences pour un même document. III Mesure de similarité Cette mesure correspond au cosinus de l'angle formé par les vecteurs dans l'espace multidimensionnel. D1 D2 Requête 19

20 D3 Le document D2 est le proche de la requête. AVG-SIM 0,406 III Distance Distance entre un document et une requête Sim (Q, D i ) = similitude entre la requête Q et le document D i d ij = poids du terme T j dans le document D i w qj = poids du terme T j dans la requête Q III-2-4 Le modèle probabiliste Le modèle probabiliste consiste à calculer la pertinence d'un document en fonction de pertinences connues pour d'autres documents. Il y a différentes approches de calcul de probabilité dans le domaine de la RI : 1. Approche par modèle classique : A partir d un document et d une requête on détermine la probabilité d avoir l évènement pertinent. 2. Approche par modèle par Réseau d inférences : A partir du contenu d un document, on détermine la probabilité pour que la requête soit vraie. 3. Approche par modèle par langage : déterminer la probabilité pour qu une requête soit générée à partir d un document. III Modèle classique 20

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

II- Validation d'un document XML. Prof. M.D. RAHMANI Technologies XML Master IT 2013-2014 1

II- Validation d'un document XML. Prof. M.D. RAHMANI Technologies XML Master IT 2013-2014 1 II- Validation d'un document XML DTD (Document Type Definition) 1 Validation d'un document XML par une DTD Document XML valide Types de DTD (interne, externe) Déclarations d'éléments Déclaration d'attributs

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

! Text Encoding Initiative

! Text Encoding Initiative Format XML: suite! le contenu d un élément est la concaténation de! texte! et d éléments (imbrication)! => structure arborescente! pas de chevauchement de balises! => exemple : une analyse syntagmatique

Plus en détail

THÈSE. En vue de l'obtention du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE

THÈSE. En vue de l'obtention du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE THÈSE En vue de l'obtention du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE Délivré par l'université Toulouse III - Paul Sabatier Discipline ou spécialité : Informatique et applications Présentée et soutenue par

Plus en détail

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions I.1 Introduction La Recherche d Information (RI) peut être définie comme une activité dont la finalité est de localiser et de délivrer un ensemble de documents à un utilisateur en fonction de son besoin

Plus en détail

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin 2005 1 Table des matières 1 Présentation

Plus en détail

Recherche bibliographique

Recherche bibliographique Séminaire «Maîtrise de l information scientifique» Recherche bibliographique Dernière mise à jour : 07/01/2015 - Auteur : Frédérique Flamerie Recherche bibliographique : méthode & outils La recherche bibliographique

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

OASIS www.oasis-open.org/committees/xacml/docs/docs.shtml Date de publication

OASIS www.oasis-open.org/committees/xacml/docs/docs.shtml Date de publication Statut du Committee Working Draft document Titre XACML Language Proposal, version 0.8 (XACML : XML Access Control Markup Language) Langage de balisage du contrôle d'accès Mot clé Attestation et sécurité

Plus en détail

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Dans cette définition, il y a trois notions clés: documents, requête, pertinence. Introduction à la RI 1. Définition Un système de recherche d'information (RI) est un système qui permet de retrouver les documents pertinents à une requête d'utilisateur, à partir d'une base de documents

Plus en détail

Langage HTML (2 partie) lt La Salle Avignon BTS IRIS

Langage HTML (2 partie) <HyperText Markup Language> <tv>lt La Salle Avignon BTS IRIS</tv> Langage HTML (2 partie) «Je n'ai fait que prendre le principe d - hypertexte et le relier au principe du TCP et du DNS et alors boum! ce fut le World Wide Web!» Tim Berners-Lee

Plus en détail

ANALYSE DES DONNÉES TEXTUELLES

ANALYSE DES DONNÉES TEXTUELLES Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux ANALYSE DES DONNÉES TEXTUELLES Traitement automatique des questions ouvertes Question ouverte Souhaitez-vous ajouter des

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

THÉORIE DE L'INFORMATION : RAPPELS

THÉORIE DE L'INFORMATION : RAPPELS THÉORIE DE L'INFORMATION : RAPPELS 1920 : premières tentatives de définition de mesure de l'information à partir de 1948 : travaux de Shannon Théorie de l'information discipline fondamentale qui s'applique

Plus en détail

Initiation à la recherche documentaire

Initiation à la recherche documentaire Initiation à la recherche documentaire 1 Objectifs Cette séance est destinée à reprendre les principes de la démarche documentaire pour construire un parcours pertinent en terme de méthodologie et de résultats

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Journée organisée par le CRFCB Midi-Pyrénées / Languedoc-Roussillon

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Université Laval Faculté des sciences et de génie Département d'informatique et de génie logiciel IFT-3101. Travail pratique #2

Université Laval Faculté des sciences et de génie Département d'informatique et de génie logiciel IFT-3101. Travail pratique #2 Université Laval Faculté des sciences et de génie Département d'informatique et de génie logiciel IFT-3101 Danny Dubé Hiver 2014 Version : 11 avril Questions Travail pratique #2 Traduction orientée-syntaxe

Plus en détail

Conversion des requêtes en langage naturel vers nrql

Conversion des requêtes en langage naturel vers nrql Conversion des requêtes en langage naturel vers nrql Hasna Boumechaal 1, Sofiane Allioua 2, Zizette Boufaida 3 1 Université Mentouri, Constantine, Algérie boumechaal.h@gmail.com 2 Laboratoire LIRE, Université

Plus en détail

Les principaux domaines de l informatique

Les principaux domaines de l informatique Les principaux domaines de l informatique... abordés dans le cadre de ce cours: La Programmation Les Systèmes d Exploitation Les Systèmes d Information La Conception d Interfaces Le Calcul Scientifique

Plus en détail

Bases de Données Avancées

Bases de Données Avancées Bases de Données Avancées Enseignant / chargé de TD : Dario COLAZZO www.lri.fr/~colazzo Chargée de TP : Jesús CAMACHO-RODRIGUEZ www.lri.fr/~camacho Plan Tuning d index Concurrence Reprise sur panne Données

Plus en détail

Bases de Données. Plan

Bases de Données. Plan Université Mohammed V- Agdal Ecole Mohammadia d'ingénieurs Rabat Bases de Données Mr N.EL FADDOULI 2014-2015 Plan Généralités: Définition de Bases de Données Le modèle relationnel Algèbre relationnelle

Plus en détail

Instructions pour effectuer des recherches sur la base de données de la bibliothèque (WHOLIS)... 2

Instructions pour effectuer des recherches sur la base de données de la bibliothèque (WHOLIS)... 2 Table of Contents Instructions pour effectuer des recherches sur la base de données de la bibliothèque (WHOLIS)... 2 Contenu de la base de données de la bibliothèque (WHOLIS)... 2 Autres sources d'information...

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES Dossier G11 - Interroger une base de données La base de données Facturation contient tout un ensemble d'informations concernant la facturation de la SAFPB (société anonyme de fabrication de produits de

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Comportements et sentiments. De l ambiguïté dans les émotions? Pierre Molette LERASS PsyCom Toulouse mai 2014

Comportements et sentiments. De l ambiguïté dans les émotions? Pierre Molette LERASS PsyCom Toulouse mai 2014 Comportements et sentiments. De l ambiguïté dans les émotions? Pierre Molette LERASS PsyCom Toulouse mai 2014 www.tropes.fr www.owledge.org www.lerass.com 2 Différentes approches pour l analyse de textes

Plus en détail

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition)

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition) Présentation du langage XML 1. De SGML à XML 17 2. Les bases de XML 18 2.1 Rappel sur HTML 18 2.2 Votre premier document XML 19 2.3 Les avantages de XML 21 3. La syntaxe XML 21 3.1 La première ligne du

Plus en détail

LA RECHERCHE DOCUMENTAIRE

LA RECHERCHE DOCUMENTAIRE LA RECHERCHE DOCUMENTAIRE Introduction I. Les étapes de la recherche d'information II. Méthodologie spécifique 2.1 Bibliothèque 2.2 Internet Conclusion INTRODUCTION Lorsque on débute une réflexion sur

Plus en détail

Résumé XML XML. XPATH SVG Schema XSL. VoiceXML. Figure 1 : évolution des langages à balises

Résumé XML XML. XPATH SVG Schema XSL. VoiceXML. Figure 1 : évolution des langages à balises XML, extensible Markup Language 1-Origine de XML On trouve l origine des langages à balises dans la nécessité d échanger des informations dont la structure est trop complexe pour être simplement mise sous

Plus en détail

C est en marchant que se fait le chemin. Paulo Coelho.

C est en marchant que se fait le chemin. Paulo Coelho. i C est en marchant que se fait le chemin. Paulo Coelho. c Saidi Imène,. Typeset in L A TEX 2ε. ii A ma maman A ma grand-mère et mes deux oncles A mes frères et sœurs et toute la famille A mon professeur

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Ressources lexicales au service de recherche et d indexation des images

Ressources lexicales au service de recherche et d indexation des images RECITAL 2011, Montpellier, 27 juin - 1er juillet 2011 Ressources lexicales au service de recherche et d indexation des images Inga Gheorghita 1,2 (1) ATILF-CNRS, Nancy-Université (UMR 7118), France (2)

Plus en détail

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL J. TICHON(1) (2), J.-M. TOULOTTE(1), G. TREHOU (1), H. DE ROP (2) 1. INTRODUCTION Notre objectif est de réaliser des systèmes de communication

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie TRAITEMENT AUTOMATIQUE DES LANGUES Licence d'informatique 2ème Année Semestre 1 Département d'informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/tal.html Plan Définition

Plus en détail

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader

Terminale STMG Lycée Jean Vilar 2013/2014. Terminale STMG. O. Lader Terminale STMG O. Lader Table des matières 1 Information chiffrée (4s) 4 1.1 Taux d évolution....................................... 6 1.2 indices............................................. 6 1.3 Racine

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Plan. Exemple: Application bancaire. Introduction. OCL Object Constraint Language Le langage de contraintes d'uml

Plan. Exemple: Application bancaire. Introduction. OCL Object Constraint Language Le langage de contraintes d'uml OCL Object Constraint Language Le langage de contraintes d'uml Plan 1. Introduction 2. Les principaux concepts d'ocl Object Constraint Language 1 Object Constraint Language 2 Exemple: une application bancaire

Plus en détail

TEXT MINING. 10.6.2003 1 von 7

TEXT MINING. 10.6.2003 1 von 7 TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre

Plus en détail

Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus Fansi @majirus

Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus Fansi @majirus 1 Recherche d Information(RI): Fondements et illustration avec Apache Lucene par Majirus Fansi @majirus Résumé Fondements de la Recherche d Information (RI) Noyau de toute application de RI Éléments à

Plus en détail

Concevoir sa stratégie de recherche d information

Concevoir sa stratégie de recherche d information Concevoir sa stratégie de recherche d information Réalisé : mars 2007 Dernière mise à jour : mars 2011 Bibliothèque HEC Paris Contact : biblio@hec.fr 01 39 67 94 78 Cette création est mise à disposition

Plus en détail

SemWeb : Interrogation sémantique du web avec XQuery. Les membres du projet SemWeb

SemWeb : Interrogation sémantique du web avec XQuery. Les membres du projet SemWeb SemWeb : Interrogation sémantique du web avec XQuery Les membres du projet SemWeb Contexte et objectifs Le projet SemWeb s inscrit dans les efforts de recherche et de développement actuels pour construire

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

TEXT MINING Tour d Horizon

TEXT MINING Tour d Horizon TEXT MINING Tour d Horizon Media Campus WAN IFRA "Structurer, optimiser et valoriser son contenu éditorial : les outils de text mining" 24 novembre 2009, PARIS Philippe BONNY Cabinet de Conseil et d Etudes

Plus en détail

Les technologies documentaires adhoc intégrées au sein des services SharePoint pour Windows.

Les technologies documentaires adhoc intégrées au sein des services SharePoint pour Windows. Les technologies documentaires adhoc intégrées au sein des services SharePoint pour Windows. Les services «Microsoft SharePoint» offrent aux utilisateurs Windows un ensemble de fonctions de stockage de

Plus en détail

UNIVERSITÉ DU QUÉBEC À MONTRÉAL REFORMULATION AUTOMATIQUE DE REQUÊTES PAR INTÉGRATION D'ÉLÉMENTS SYNTAXIQUES DANS LE CADRE DU REPÉRAGE DE

UNIVERSITÉ DU QUÉBEC À MONTRÉAL REFORMULATION AUTOMATIQUE DE REQUÊTES PAR INTÉGRATION D'ÉLÉMENTS SYNTAXIQUES DANS LE CADRE DU REPÉRAGE DE UNIVERSITÉ DU QUÉBEC À MONTRÉAL REFORMULATION AUTOMATIQUE DE REQUÊTES PAR INTÉGRATION D'ÉLÉMENTS SYNTAXIQUES DANS LE CADRE DU REPÉRAGE DE L'INFORMATION EN FRANÇAIS SUR LE WEB THÈSE PRÉSENTÉE COMME EXIGENCE

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

CHAPITRE VIII : Les circuits avec résistances ohmiques

CHAPITRE VIII : Les circuits avec résistances ohmiques CHAPITRE VIII : Les circuits avec résistances ohmiques VIII. 1 Ce chapitre porte sur les courants et les différences de potentiel dans les circuits. VIII.1 : Les résistances en série et en parallèle On

Plus en détail

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux. UEO11 COURS/TD 1 Contenu du semestre Cours et TDs sont intégrés L objectif de ce cours équivalent a 6h de cours, 10h de TD et 8h de TP est le suivant : - initiation à l algorithmique - notions de bases

Plus en détail

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE ème Colloque National AIP PRIMECA La Plagne - 7- avril 7 EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE Bruno Agard Département de Mathématiques et de Génie Industriel, École

Plus en détail

La théorie des mouvements dans les formules Jean-François Nicaud Version initiale de Février 2013 jeanfrancois.nicaud@laposte.net

La théorie des mouvements dans les formules Jean-François Nicaud Version initiale de Février 2013 jeanfrancois.nicaud@laposte.net La théorie des mouvements dans les formules Jean-François Nicaud Version initiale de Février 2013 jeanfrancois.nicaud@laposte.net Article rédigé avec epsilonwriter puis copié dans Word La théorie des mouvements

Plus en détail

À propos des matrices échelonnées

À propos des matrices échelonnées À propos des matrices échelonnées Antoine Ducros appendice au cours de Géométrie affine et euclidienne dispensé à l Université Paris 6 Année universitaire 2011-2012 Introduction Soit k un corps, soit E

Plus en détail

Ouvrir ce texte avec Word ou open office- Enregistrez-le dans un format portable sous le nom DM_votreNom

Ouvrir ce texte avec Word ou open office- Enregistrez-le dans un format portable sous le nom DM_votreNom STAGE DOCTORAL INFORMATIQUE POUR LA RECHERCHE Objectif général : BUREAUTIQUE TRAITEMENT DE TEXTE Il s agit de mettre en forme un document libre de droit (le discours de la méthode), de procéder à un certain

Plus en détail

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d

Plus en détail

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes. Introduction L'objectif de mon TIPE est la reconnaissance de sons ou de notes de musique à l'aide d'un réseau de neurones. Ce réseau doit être capable d'apprendre à distinguer les exemples présentés puis

Plus en détail

GUIDE PRATIQUE DU REFERENCEMENT NATUREL

GUIDE PRATIQUE DU REFERENCEMENT NATUREL GUIDE PRATIQUE DU REFERENCEMENT NATUREL Auteur Walid Gabteni, Consultant SEO édition du 20 Juin 2015 Source officielle du guide pratique du référencement naturel : https://upload.wikimedia.org/wikipedia/commons/f/f3/guide_pratique_du_référencem

Plus en détail

SOMMAIRE. Travailler avec les requêtes... 3

SOMMAIRE. Travailler avec les requêtes... 3 Access Les requêtes SOMMAIRE Travailler avec les requêtes... 3 A) Créer une requête sélection en mode QBE... 3 B) Exécuter une requête à partir du mode Modifier (QBE)... 3 C) Passer du mode Feuille de

Plus en détail

MODULE 3 Analyses thématiques

MODULE 3 Analyses thématiques MODULE 3 Analyses thématiques Ce module a pour objectif d approfondir les différents modes de représentation cartographique des données attributaires à l'aide de la gestion des styles. - la nouvelle symbologie

Plus en détail

Synthèse et visualisation d'informations stratégiques utiles à la gouvernance des entreprises

Synthèse et visualisation d'informations stratégiques utiles à la gouvernance des entreprises Synthèse et visualisation d'informations stratégiques utiles à la gouvernance des entreprises Bernard DOUSSET 02/07/2013 dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse

Plus en détail

Le Langage XML: Fondations pour les Plateformes elearning. Le Langage XML (ou Technologies XML)

Le Langage XML: Fondations pour les Plateformes elearning. Le Langage XML (ou Technologies XML) Le Langage XML: Fondations pour les Plateformes elearning XML et les Technologies Associées Najib Tounsi Ecole Mohammadia d'ingénieurs Bureau W3C Maroc, Rabat 28 Nov. 2005 Deuxième Workshop annuel de l'ircam

Plus en détail

Utiliser Access ou Excel pour gérer vos données

Utiliser Access ou Excel pour gérer vos données Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que

Plus en détail

Créer le schéma relationnel d une base de données ACCESS

Créer le schéma relationnel d une base de données ACCESS Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...

Plus en détail

Un outil de géolocalisation et de résumé automatique pour faciliter l accès à l information dans des corpus d actualité

Un outil de géolocalisation et de résumé automatique pour faciliter l accès à l information dans des corpus d actualité Un outil de géolocalisation et de résumé automatique pour faciliter l accès à l information dans des corpus d actualité Journée Résumé Automatique Multimédia 2011/03/17 Emilie Guimier De Neef Plan de la

Plus en détail

Cours 02 : Problème général de la programmation linéaire

Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la Programmation Linéaire. 5 . Introduction Un programme linéaire s'écrit sous la forme suivante. MinZ(ou maxw) =

Plus en détail

PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS

PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS Février 2011 Édition produite par : Le Service de l accès à l information et des ressources documentaires du ministère de la Santé et des Services

Plus en détail

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot majuscu conjugaison >>>, L orthographe singulier syllabe virgule mémoire lettres et son enseignement graphie suffixe usage accent ; écrire féminin temps voyelles mot point Renforcer l enseignement de l

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département

Plus en détail

1. Introduction...2. 2. Création d'une requête...2

1. Introduction...2. 2. Création d'une requête...2 1. Introduction...2 2. Création d'une requête...2 3. Définition des critères de sélection...5 3.1 Opérateurs...5 3.2 Les Fonctions...6 3.3 Plusieurs critères portant sur des champs différents...7 3.4 Requête

Plus en détail

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton Linked Open Data Le Web de données Réseau, usages, perspectives Sommaire Histoire du Linked Open Data Structure et évolution du réseau Utilisations du Linked Open Data Présence sur le réseau LOD Futurs

Plus en détail

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, 20 avril 2004 Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus ZAAFRANI Riadh Faculté des Sciences Juridiques,

Plus en détail

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile Dans ce TP, vous apprendrez à définir le type abstrait Pile, à le programmer en Java à l aide d une interface

Plus en détail

De la «normalisation» à l échange des données sur l eau : le Sandre. Dimitri MEUNIER : d.meunier@oieau.fr

De la «normalisation» à l échange des données sur l eau : le Sandre. Dimitri MEUNIER : d.meunier@oieau.fr De la «normalisation» à l échange des données sur l eau : le Sandre Dimitri MEUNIER : d.meunier@oieau.fr Le cadre de travail Le système d information sur l eau (SIE) est un dispositif pour le partage et

Plus en détail

Introduction à MATLAB R

Introduction à MATLAB R Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht.

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht. Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht.fr 1 MVC et le web 27/05/14 2 L'évolution des systèmes informatiques

Plus en détail

La recherche sur Internet Table des matières

La recherche sur Internet Table des matières La recherche sur Internet Table des matières 1- Internet est comme une bibliothèque publique... 2 Comment on utilise une bibliothèque ordinaire...2 L'Internet n'est pas une bibliothèque ordinaire...2 Synthèse...2

Plus en détail

Les documents primaires / Les documents secondaires

Les documents primaires / Les documents secondaires Les documents primaires / Les documents secondaires L information est la «matière première». Il existe plusieurs catégories pour décrire les canaux d information (les documents) : - Les documents primaires

Plus en détail

Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation

Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation 443 Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation Diem Le Thi Hoang Equipe MRIM, Laboratoire CLIPS-IMAG 38041 Grenoble Cedex 9, France

Plus en détail

REFERENCEMENT ET POSITIONNEMENT DE SITE INTERNET

REFERENCEMENT ET POSITIONNEMENT DE SITE INTERNET REFERENCEMENT ET POSITIONNEMENT DE SITE INTERNET FONCTIONNEMENT DES MOTEURS DE RECHERCHE APPROCHE METHODOLOGIQUE DU REFERENCEMENT INSCRIPTIONS POPULARITE ET ECHANGE DE LIENS SUIVI ET VEILLE REFERENTIELLE

Plus en détail

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées PRODIGE V3 Manuel utilisateurs Consultation des métadonnées Pour plus d'information sur le dispositif : à remplir par chaque site éventuellement 2 PRODIGE V3 : Consultation des métadonnées SOMMAIRE 1.

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Rapport d'analyse des besoins

Rapport d'analyse des besoins Projet ANR 2011 - BR4CP (Business Recommendation for Configurable products) Rapport d'analyse des besoins Janvier 2013 Rapport IRIT/RR--2013-17 FR Redacteur : 0. Lhomme Introduction...4 La configuration

Plus en détail

Introduction au WEB Sémantique Cours 2 : Ontologies

Introduction au WEB Sémantique Cours 2 : Ontologies Cours 2 : Ontologies ESIL Université de la méditerranée Odile.Papini@esil.univmed.fr http://odile.papini.perso.esil.univmed.fr/index.html Plan du cours 1 Introduction 2 3 4 5 Bibliographie I Supports de

Plus en détail

Solutions en ligne Guide de l utilisateur

Solutions en ligne Guide de l utilisateur Solutions en ligne Guide de l utilisateur Décembre 2009 Informations générales... 1 Configuration minimale requise... 1 Connexion... 1 Page d accueil des Solutions en ligne... 2 Utilisation de la table

Plus en détail

Raisonnement par récurrence Suites numériques

Raisonnement par récurrence Suites numériques Chapitre 1 Raisonnement par récurrence Suites numériques Terminale S Ce que dit le programme : CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Raisonnement par récurrence. Limite finie ou infinie d une suite.

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Cours Base de données relationnelles. M. Boughanem, IUP STRI Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),

Plus en détail

PROSOP : un système de gestion de bases de données prosopographiques

PROSOP : un système de gestion de bases de données prosopographiques PROSOP : un système de gestion de bases de données prosopographiques Introduction : Ce document présente l outil en développement PROSOP qui permet la gestion d'une base de donnée prosopographique de la

Plus en détail