Programme. Matière : RECHERCHE D INFORMATION Crédit : 4 Cours : 1h30 TD : 1h30 Semestre : S1 du M1 Assuré par: Herzallah Abdelkarim

Dimension: px
Commencer à balayer dès la page:

Download "Programme. Matière : RECHERCHE D INFORMATION Crédit : 4 Cours : 1h30 TD : 1h30 Semestre : S1 du M1 Assuré par: Herzallah Abdelkarim"

Transcription

1 Matière : RECHERCHE D INFORMATION Crédit : 4 Cours : 1h30 TD : 1h30 Semestre : S1 du M1 Assuré par: Herzallah Abdelkarim Programme 1-Introduction : Objectifs de la RI, Concepts de base : information, Besoin en information et pertinence, Processus général de la RI, Taches (RI, FI, CLIR, QA, etc.). 2-Indexation pour la RI : Introduction (Indexation manuelle vs. Indexation automatique), Etapes du processus d indexation, Statistiques sur les termes (Loi, Zipf, ), Techniques de pondération des termes. 3- Modèles de RI : Taxonomie des modèles (Adhoc Vs Filtrage), Modèle booléen, Modèle booléen étendu, Modèle vectoriel, Modèle LSI (Latent Semantic Indexing), Modèle probabiliste, Modèle inférentiel, Modèle de langage, Modèle possibiliste. 4- Reformulation de requêtes : Expansion de requête, Réinjection de pertinence, Méthodes de sélection de termes. 5- Evaluation de la RI : Critères d évaluation, Collections de tests, Bilan des campagnes d évaluation. 6- RI sur le WEB 7- RI dans des documents structurés (XML) 1

2 1-Introduction 1.1 Définition La recherche d'information ou RI (ou encore SRI) prend plusieurs terminologies: recherche d'information, informatique documentaire, information retrieval, document retrieval. Salton définit la RI comme la branche de l'informatique qui consiste à acquérir, organiser, stocker; rechercher et sélectionner l'information. Les domaines d'application de la RI sont: Internet Bibliothèques numériques «digital library» Entreprises La RI est un domaine vaste qui se situe dans les frontières de plusieurs disciplines tel que: 1. Recherche adhoc, 2. Classification /catégorisation (clustering), Question-réponses (Query answering), 3. Filtrage d information (filtering/recommendation) 4. Méta-moteurs (data-fusion,meta-search) 5. Résumé automatique (Summarization) 6. Croisement de langues (cross language) 7. Fouille de textes (Text mining) 1.2 Objectif Identifier en vue d exploiter de l'information contenue dans des documents et des bases de données (son,texte, image) par rapport à une requête formulée par un utilisateur. Le SRI devra nous retourner le moins possible de documents non pertinents Les contenus des documents peuvent être non structurés ou semi structurés. 1.3 Bref historique de la RI La RI n'est pas un domaine récent : 1940 : Avec la naissance des ordinateurs, la RI se concentrait sur les applications dans des bibliothèques. Depuis le début de ces études, la notion de pertinence a toujours été un objet : Début de petites expérimentations en utilisant des petites collections de documents (références bibliographiques). Le modèle utilisé est le modèle booléen : Expérimentations plus larges ont été menées. On a développé une méthodologie d'évaluation du système qui est aussi utilisée maintenant dans d'autres domaines (des corpus de test ont été conçus pour évaluer des systèmes différents) : Développement du système SMART. Les travaux sur ce système a été dirigés par G. Salton. Certains nouvelles techniques ont été implantées et expérimentées pour la première fois dans ce système (par exemple, le modèle vectoriel et la technique de relevance feedback). Du côté de modèle, il y a aussi beaucoup de développements sur le modèle probabiliste. 2

3 1980 : Les travaux sur la RI ont été influencés par l avènement de l'intelligence artificielle. Ainsi, on tentait d'intégrer des techniques de l'ia en RI, par exemple, système expert pour la RI, etc : Internet à propulser la RI en avant scène de beaucoup d'applications. La venue de l'internet a aussi modifié la RI. La problématique est élargie. Par exemple, on traite maintenant plus souvent des documents multimédia qu'avant. Cependant, les techniques de base utilisées dans les moteurs de recherche sur le web restent identiques. 1.4)Architecture générale d'un Système de Recherche d'information Documents Besoins en informations Requête Indexation Dictionnaire Thésaurus Onologie Modèle, Indexation Représentation des documents Processus d appariement (matchning) Documents - requêtes Représentation de la requête Expansion Documents sélectionnés Jugements Utilisation et/ou Evaluation Modification En se basant sur cette requête, le système de RI exécute une série d algorithmes qui permettent d obtenir une liste de documents ordonnés par leur pertinence ) Information et besoin en information 3

4 Une information est une donnée dont un individu a besoin pour résoudre un problème particulier. L'individu exprime donc un besoin sous forme de requête (question). Il existe deux types de besoins en information : le type fermé et le type ouvert. a) Question fermée : A une requête correspond un ensemble fini de réponses. Les tâches d'extraction d'information (EI) et de Question Answering (QA) font partie de cette catégorie, et elles sont en général appliquées à un corpus spécialisé. b) Question ouverte : Questions pour lesquelles il n'existe pas de réponse complète et définitive. La RI s'intéressait à des BI ouverts et à des données non structurées ) indexation L étape d indexation permet de réaliser le passage d'un document textuel (ou une requête) à une représentation exploitable par un modèle de RI par la construction de mots clés appelé langage d indexation. Document textuel (ou requête) Indexation représentation exploitable par le SRI Cette transformation appelée indexation consiste à extraire du texte un ensemble de mots clés appelés descripteurs. Ces descripteurs vont représenter le document dans le corpus. Chaque descripteur peut être accompagné de connaissances à priori pour mieux appréhender la recherche ) recherche ou appariement Une fois les documents transformés, il est possible de rechercher ceux qui répondent le mieux à une question d'un utilisateur grâce à la relation d appariement. Cette relation s'appuie sur des approches mathématiques. On en distingue: L'approche ensembliste L'approche algébrique (ou vectorielle) L'approche probabiliste Certains systèmes de RI dits assistés permettent l interaction avec l'utilisateur, afin d'améliorer petit à petit les réponses du système de RI au cours d'une session de travail. L'utilisateur intervient à chaque étape pour «aider» le système à sélectionner les documents qu il juge pertinents pour sa question. Ces indications peuvent aussi servir pour améliorer globalement le fonctionnement du système de RI ) La reformulation Un SR peut comporter une composante supplémentaire appelée reformulation automatique d la question (requête). Cette étape a pour objectif d'améliorer les performances du SRI, donc la précision dans les réponses du système ) Pertinence 4

5 La pertinence d'un document pour une question posée par l utilisateur s'exprime dans les modèles de RI sous la forme d'une valeur de plausibilité déterminée grâce à une heuristique. A titre d exemple, pour la question «base de données» la réponse sera d autant plus pertinente si «base» et «donnée» se trouvent localisés dans une même phrase. Il le sera d autant moins si ces deux mots sont répartis indifféremment dans le texte ) Précision et rappel La précision ou le rappel est un moyen permettant de mesurer la pertinence car la notion de valeur de plausibilité demeure assez vague. R: Documents rapportés (retrieval documents) D: Collection des documents Rr: Documents pertinents rapportés P: Collection des documents pertinents (Relevant documents) Précision = R r / R Rappel = R r / P Score F = (R + P) / (2RP) Bruit : 1 Précision Silence : 1 Rappel Taux documents pertinents dans les documents rapportés Taux de documents pertinents rapportés utilisées pour maximiser la moyenne harmonique de la précision et du rappel Documents non pertinents rapportés par le SRI Documents pertinents non rapportés par le SRI a) Précision : Un système de RI sera très précis si presque tous les documents renvoyés sont pertinents. En fait c est la proportion des documents pertinents parmi l'ensemble de ceux renvoyés (rapportés) par le système. b) Rappel : Un système de RI aura beaucoup de rappel s'il renvoie la plupart des documents pertinents du corpus pour une question. En fait c est la proportion de documents pertinents renvoyés par le système parmi tous ceux qui sont pertinents Application : Soit : NP = nombre de documents pertinents Nr = nombre de documents rapportés 5

6 Nrp = nombre de documents pertinents rapportés Alors : Bruit : 1 Précision = 1 Nrp/Nr = (Nr Nrp)/Nr Silence : 1 Rappel = 1 Nrp/Np = (Np Nrp)/Np Ou bien encore : Rappel = card(rp) / card(p) Précision = card(rp) / card(r) Silence = 1 Rappel = card(p)-card(rp) / card(p) Bruit = 1 Préecision = card(r) card(rp) / card (R) 1.4.7) Mesure F La mesure F [van Rijsbergen, 1979] prend en considération la précision et le rappel simultanément. Elle est définie par : Pour utiliser cette mesure, il est donc nécessaire de fixer préalablement un seuil de décision pour le classement, et de calculer la valeur de F pour ce seuil. Le paramètre permet de choisir l'importance relative que l'on souhaite donner à chaque quantité. On choisit en général de donner la même importance aux deux critères : on utilise F1 (noté F dans toute la suite de ce mémoire) qui s'écrit : F = 2.P.R P + R Une des propriétés intéressante de cette mesure est le fait que, si P = R = X, alors F = X ; cette mesure a alors une interprétation simple ) La courbe rappel / précision La précision est une fonction décroissante du rappel. Précision et rappel sont dans l'intervalle [0..1]. Considérons à titre d'exemple une requête pour laquelle cinq documents sont pertinents dans la base. Le système retourne 15 documents: {d1,.., d15}. Les documents pertinents sont marqués par la lettre "P" comme indiqué dans la troisième colonne du tableau suivant: Document Score Pertinent Précision Rappel d P ,20 d ,20 d P ,40 6

7 d P ,60 d ,60 d P ,80 d P ,80 d8 4,32 0,63 1,00 d9 4,16 0,56 1,00 d10 3,47 0,50 1,00 d11 2,69 0,45 1,00 d12 2,04 0,42 1,00 d ,38 1,00 d14 1,67 0,36 1,00 d15 0,07 0,33 1,00 On considère d'abord le premier document d1 restitué par le système. A ce point, on a retrouvé un document pertinent parmi les 5 existants. Donc, le rappel de 0.2, la précision est de 1/1. Le point de la courbe est donc (0.2, 1.0). On considère ensuite les deux premiers documents restitués. Le taux de rappel est toujours de 0.2 et la précision est cette fois de 0.5 (un document sur deux est pertinent). Le point est donc (0.2, 0.5). Ce processus est répété jusqu'à épuisement de la liste des réponses (qui peut être très longue en incluant tous les documents de la base). Les premiers points de la courbe sont alors représentés suivante: Précision 1 (0.2, 1) 0.8 ( 0.6, 0.75 ) 0,4 (0,4, 0.67) (0.6, 0.75 ) 0.2 ( 0.2, 0.5 ). rappel 7

8 Indexation pour la RI 2.1 Définition L indexation a pour rôle de représenter un document ou une requête par un ensemble de descripteurs, appelés aussi mots clé. Ces descripteurs constituent une facilité d exploitation des documents étant donné que le ceux-ci sont sous forme de textes libres. L indexation peut être : a) Manuelle : Chaque document est analysé par un documentaliste ou un spécialiste du domaine étudié. Il utilise à cet effet un vocabulaire contrôlé basé sur le thésaurus, le lexique, ). C est une opération qui exige un effort particulier et peut prendre du temps. En raison de facteurs humains (telle que la subjectivité), un même document peut recevoir deux listes différentes de descripteurs s il est travaillé par deux indexeurs différents. b) Automatique : Le processus est complètement automatisé. L indexation automatique a pour objectif de produire un ensemble de mots, ou termes, suffisamment informatifs pour bien représenter le contenu d un document. Les mots d un document ne sont pas tous également significatifs. En langage écrit, quelques termes portent plus de sémantique que d autres. Ainsi, les documents sont pré-traités pour faire la sélection des termes adéquats. L ensemble de termes présents dans un document conduit à une représentation imprécise de la sémantique des documents. Par exemple, le terme le ne représente pas un sujet en soi et peut conduire à donner comme résultat des documents non pertinents. On dit que la représentation d un document par l ensemble de tous ses termes génère du bruit en RI. Une façon de réduire ce bruit est de réduire l ensemble de termes au travers d un pré-traitement. Cette réduction augmente aussi la performance du système. c) Semi automatique: Un premier processus automatique permet d'extraire les termes du document. Cependant le choix final reste au spécialiste du domaine ou au documentaliste pour établir les relations entre les mots clés et choisir les termes significatifs, et ce grâce à un interface interactif Etapes du processus d indexation Au moins cinq grands niveaux de traitement linguistique : niveau du découpage, Tokénisation niveau morphologique : reconnaissance du mot niveau lexical : réduction du mot à sa forme canonique > lemmatisation niveau syntaxique : niveau d'utilisation de la grammaire niveau sémantique : niveau de la reconnaissance des concepts 1) Niveau de découpage (Tokénisation) : La tokénisation est appelée aussi segmentation. Elle consiste à diviser un texte en unités lexicales (token) élémentaires. C est une opération qui «localise» les chaînes de caractères entourées de séparateurs (caractère 8

9 blanc, ponctuations), et les identifie comme étant des mots. Il permet aussi de procéder à une première correction des fautes d orthographe et des erreurs de saisie 2)Niveaux léxical et morphologique : Chaque mot de la langue lui correspond une catégorie morpho syntaxique. b) Le lemme Le lemme s'obtient par une flexion (paradigme flexionnel). Exemple: Je travaille, tu travailles, il/elle travaille. Le lemme est travailler. La catégorie grammaticale rattaché à ce lemme est un verbe. c) La racine La racine s'obtient par une dérivation ( paradigme dérivationnel ). Exemple: nation, nationalité, nationaliser. La racine est nation. La catégorie rattachée un substantif. d) Le mot composé Mots non obligatoirement successifs qui doivent être reconnus comme formant une seule entité. i. Racinisation : Cette première opération est indispensable pour pouvoir retrouver tous les documents dans lesquels apparaissent différentes formes du même mot». Exemple : écologie, écologiste, écologique sont "racinisés" par un seul mot : écologie. ii. Le second traitement appelé aussi «étiquetage» ou tagging consiste à comparer chaque mot du texte (susceptibles d être ambiguë), avec les termes du dictionnaire intégré (référentiel ou glossaire métier). Ceci, afin de leur attribuer une ou plusieurs étiquettes en fonction du sens qu ils sont susceptibles d avoir dans le contexte où ils sont utilisés. Cette opération permet aussi d «identifier» les mots composés et les expressions toutes faites. iii. Recherche des lemmes : On a souvent besoin dans les logiciels d indexation de texte de regrouper les mots qui se ressemblent. L idéal serait de considérer la racine du mot, en la recherchant dans un dictionnaire. L opération demandant beaucoup de temps, on a souvent recours à des heuristiques (mot savant pour dire «recette de cuisine») simples, telle que celle-ci : On garde toutes les lettres depuis le début du mot jusqu à - La troisième consonne du mot incluse - Epuisement des lettres si la règle précédente n a pu être satisfaite Seule compte une consonne non précédée d une autre consonne (dans «elfe», on ne compte que le «l» car le «f» est une consonne précédée d une autre consonne ; par contre dans «nain» on compte deux consonnes). Ainsi «chien» a pour racine «chien» Exemple : Lemmatiser le mot «informatique» I N F O R M A T I Q U E Non pris en compte a pour racine «informat». 9

10 iv. Elimination des mots vides) : Les mots qui sont très fréquents dans les documents d une collection n ont pas un bon pouvoir discriminant et ne doivent pas être inclus dans l index. C est le cas des pronoms, des prépositions et des conjonctions, naturellement reconnus comme des mots vides. L élimination des mots vides permet une réduction de l index d environ 40%. Vu que la réduction du nombre de termes augmente la performance, certains systèmes considèrent, aussi, comme des mots vides quelques verbes, adjectifs et adverbes. Cette étape arrive à la constitution d'un index des termes non éliminés, considérés comme des index. La recherche se fait selon logique booléenne par exemple : dans la phrase "Prolétaires de tous les pays : unissez-vous", seuls les mots "prolétaires", "pays" et "unissez" sont gardés. A la recherche, il suffira de taper l'un de ces termes, ou une combinaison des termes, pour retrouver la phrase. Difficultés : o tous les mots gardés sont d égale importance, et il n'y a pas d'ordre des mots. o apparition des différentes formes d'un mot (ex : un verbe va apparaître plusieurs fois sous des formes différentes o l'analyse porte seulement sur des mots isolés (des unitermes), et délaisse toutes les expressions (les syntagmes), souvent porteurs de sens. Ex : «pomme de terre» donnera deux mots "pomme" et "terre", analysés séparément o la synonymie n est pas prise en compte (Ex : vol = aussi bien vol d avion que vol à la tire l'analyse morphologique peut générer beaucoup de «bruit ou de silence» A noter aussi que certains moteurs de recherches n éliminent même pas les mots vides pour une recherche. Les mots vides sont appelés une stoplist ou une stopword. 2.3) Résumé du processus de normalisation 1) Utilisation des règles de transformation du type CONDITION ACTION. Exemple : un mot ayant une terminaison de s, supprimer le s. 2) L algorithme Porter pour l Anglais est basé sur la mesure de séquences voyellesconsonnes. Cette mesure est appelée m: mesure m pour un «stem» est [C](VC)m[VC] où C est une séquence de consonnes et V est une séquence de voyelles [] = option, comme par exemple : m=0 (tree, by), m=1 (trouble, coats, trees, ivy), m=2 (troubles, private) Les règles de désuffixage et de normalisation (en Porter) sont divisées en 3 étapes et sont examinées en séquence : 10

11 Etape 1: sses ss ( caresses caress) ies i (ponies poni) s NULL (cats cat) Etape 2: En règle générale: if m>0 eed ee (agreed agree) if *v*ed NULL (plastered plaster but bled bled) Exemples: Y > I Happy > Happi ANT > NULL IRRITANT > IRRIT EMENT > NULL REMPLACEMENT > REMPLAC MENT > NULL JUSTEMENT > JUSTE Etape 3: ATIONAL > ATE TIONAL > TION RELATIONAL > RELATE CONDITIONAL > CONDITION 3) La Troncature. Il s agit de Tronquer les mots à X caractères Il s agit de Tronquer les mots à X caractères (tronquer plutôt les suffixes). Un exemple de troncature à 7 caractères est : économiquement : écomoni La principale difficulté est comment déterminer la valeur optimale de X? 2.3.1) Niveau léxical : Elle consiste à déterminer les regroupements structurels des mots au sein des phrases et les relations entre les mots ) Niveau sémantique : Ce niveau s intéresser au regroupement de termes synonymes, aux familles de termes, pour dresser un réseau des relations sémantiques ) Autres niveaux : o Indexation fondée sur le calcul statistique des occurrences, cad de la fréquence d'apparition de mots dans un texte. Tous les mots significatifs d'un texte sont relevés (les occurrences) et leur fréquence est calculée, selon un indice moyen de fréquence (par exemple 1 /1000). o Méthode permet les calculs de pondération, cad l'importance d'un mot dans un document déterminé et l'élimination de termes moins significatifs ) Fichier inverse Après analyse de documents d un corpus, on obtient un tableau : document x termes Utilisation en tableau direct «document -> terme» possible t1 t2 t3 tn 11

12 D1.. Dm Génération d un tableau inverse «terme -> document» (appelé fichier inverse) D1 D2 D3 Dm t1.. tn Avantage : rapidité lors du traitement de requête, car pas de traitement séquentiel des documents 2.3.5) Typologie des langages documentaires Un langage documentaire est un langage "pivot" destiné à décrire le contenu des documents et le contenu des questions (requêtes) des utilisateurs que ce soit en entrée (humain) qu'en sortie (machine) Langagge libre Langage contrôlé Langage langage de Langage Combinatoire classification naturel Thésaurus (description) Ontologie (classes, règles, relatons) a) Thésaurus : langage documentaire fondé sur une structuration hiérarchisée d un ou plusieurs domaines de la connaissance et dans lequel les notions sont représentées par des termes d une ou plusieurs langues naturelles et les relations entre notions par des signes conventionnel. b) Ontologie 12

13 Une ontologie est un ensemble structuré de concepts organisés dans un graphe où les relations peuvent être: Des relations sémantiques; Des relations de composition et d'héritage (au sens programmation objet). Une ontologie permet de définir des termes les uns par rapport aux autres, chaque terme étant la représentation textuelle d'un concept. La construction d'une ontologie à partir d'un texte consiste à: parcourir le texte à la recherche de termes récurrents ou définis par l'utilisateur, analyser la manière dont ces termes sont mis en relation dans le texte (par la grammaire, et par les concepts qu'ils recouvrent et dont une définition peut être trouvée dans un lexique fourni par l'utilisateur). Le résultat est une ontologie qui représente la connaissance globale que contient le corpus de texte dans le domaine d'application qu'il couvre ) Les pondérations La pondération consiste à répondre à la question si tous les termes ont la même importance? et comment attribuer un poids aux termes extraits? ) Loi de ZIPF La loi de Zipf est une loi empirique énoncée en 1949 par G.K Zipf [Zipf, 1949]. Selon Zipf, les mots dans les documents ne s organisent pas de manière aléatoire mais suivant une loi inversement proportionnelle à leur rang. Le rang d'un mot est sa position dans la liste décroissante des fréquences des mots du corpus. Ainsi, la fréquence du second mot le plus fréquent dans le corpus est la moitié de celle du premier, la fréquence du troisième mot le plus fréquent, son tiers, etc. Formellement, cette loi s'exprime par la probabilité d apparition du nième mot le plus fréquent dans une collection de n importe quelle langue est approximativement inversement proportionnelle à n (rang), soit : P (n) = C N / n On en déduit: fréquence * rang = Constante Fréquence rang des termes Les domaines concernés par la loi de ZIP sont nombreux. On peut citer: La répartition des pixels dans les images, Les populations dans les grandes villes Les pages web sur Internet, où la relation de popularité d'une page Web x nombre d'accès à une page par mois prend la même forme. 13

14 Dans le domaine de la recherche d'information, la loi de Zipf est utilisée pour déterminer les mots qui représentent au mieux le contenu d'un document. Pour cela, un autre concept est introduit, il s'agit de la conjecture de Luhn ) Conjecture de Luhn La conjecture de Luhn est basée sur la loi de Zipf. Elle mesure l Informativité d un document de la façon suivante : Les termes de rang faible (très fréquents) ne sont pas pertinents Les termes de rang élevés (très rares) ne sont pas pertinents Les descripteurs pertinents sont les termes de rang intermédiaire! fréquence informativité seuil maxi seuil mini rang A B C A : mots très fréquents, peu intéressants C : mots peu fréquents, peu intéressants B : mots intéressants Voici un algorithme simple pour extraire et sélectionner Extraire les mots du corpus Éliminer les mots-outils (anti-dictionnaire) Lemmatiser (en anglais, algorithme de Porter) ; raciniser (déclinaisons morphologiques, représentation uniforme : sing, masc sing, infinitif) Fixer un seuil haut et un seuil bas : on ne garde que les mots se situant entre les 2 seuils 3 LES MODELES III-1 Les modèles Requête Recherche d information (SRI) Document 14

15 Interprétation Bases de Indéxation Connaissances Représentation recherche ou Représentation des requêtes interrogation des contenus (langage de requêtes) Appariement (langage d indéxation) Recherche de l information Modèle de Fonction de Modèle de Requêtes correspondance documents (contenus) modèle de connaissance Le langage de description de documents (langage d indéxation), est basé sur un ensemble de termes T = { t1, t2,..., ti,...} et de connecteurs (au moins la conjonction). On appelle généralement «indexation», ou «description», la représentation d un document dans ce langage. Le langage de requêtes est aussi basé sur T, et comprend divers Connecteurs. Généralement on ne considère qu une seule requête générique notée q, mais si nécessaire, Q = { q1, q2,..., qi,...} représentera l ensemble des requêtes (qi est ainsi une liste d éléments de T ou une expression booléenne construite sur T). L algorithme d appariement permet de construire une relation entre requête et indexation. Il est utilisé pour construire une fonction de pertinence, R (appelée «ranking» en anglais) III-2 Les différents modèles MODELES MANUEL AUTOMATIQUE ADAPTATIF Booléen Vectoriel Probabilistes Booléen pondéré Latent semantic Indexed Réseau de neurones III-2-1 Le modèle booléen Le modèle booléen a été introduit en 1983 par Salton et McGill. Il s est imposé grâce à la simplicité et à la rapidité de sa mise en œuvre. L interface d interrogation de la plupart des moteurs de recherche (Google, Alta Vista) est basée sur les principes de ce modèle. Il est 15

16 composé d une liste de termes (mots-clés) pouvant être combinés à des opérateurs logiques ET, OU NON pour répondre au mieux à une requête d un utilisateur. a) Modèle de connaissance : Un document T est indexé par des termes t1, t2, t3.tn : T = {ti}, i appartient à [1,n] b) Modèle de document : Un document D : Une requête q : D=t1 ET t2 Et t3,. (t1 ET t2) OU (t5 ET t7). c) Fonction de correspondance : la fonction de correspondance est une implication logique de la logique des propositions. Un document (d) représenté par son ensemble de termes (ti), répond à une requête (q) exprimée comme une expression logique de termes, si l implication d q est valide. La correspondance C(d, q) est déterminée comme suit : C(d, ti) = 1 si ti Є. d ; 0 sinon C(d, q1 Λ q2) = 1 si C(d, q1) = 1 et C(d, q2) = 1 ; 0 sinon C(d, q1 V q2) = 1 si C(d, q1) = 1 ou C(d, q2) = 1 ; 0 sinon C(d, q) = 1 si C(d, q) = 0 ; 1 sinon Les termes t1 des documents sont identifiés et stockés en conservant les liaisons d appartenance à chaque texte. On désigne cet ensemble sous le nom de fichier (index) inversé. La recherche des documents dans lesquels figure un terme est ainsi fortement accélérée. L inconvénient majeur de ce modèle comme schématisé dans la Figure 2-4, est que les documents pertinents dont la représentation ne correspond qu approximativement à la requête ne sont pas sélectionnés, et que tous les termes ont la même importance. Pour remédier à ces inconvénients, SALTON a proposé le modèle booléen étendu qui se propose qui corriger les inconvénients du modèle booléen. III-2-2 Le modèle booléen pondéré Il s agit d une extension du modèle booléen en intégrant le principe des pondérations. Il tient compte de l importance des termes dans la représentation des documents et dans la requête, et ce, en affectant des poids à chaque terme du document et de la requête. a) Modèle de connaissances : T = {ti}, i Є [1,.. n], Les ti indexent les documents Un document (D) est représenté par : Une formule logique de la même manière que le modèle booléen) Une fonction W D : t Є [0,1], qui pour chaque terme de T donne le poids de ce terme dans D. Le poids vaut 0 pour un terme non présent dans le document. b) Fonction de correspondance 16

17 b-1) Méthode-1 : Détermination de la correspondance COR d un document D à une requête q notée COR(D, q) s évalue selon le cadre classique des ensembles flous proposé par Zadeh [Zadeh, 1965]. Dans la théorie des ensembles flous, quand un élément a un degré d'appartenance à un ensemble, cet ensemble est dit ensemble flou. On obtient les relations suivantes : COR(D, a Λ b) = Min [W D (a), W D (b) ] COR(D, a V b) = Max [W D (a), W D (b) ] COR(D, a) = 1 W D (a) Limitation : on ne tient pas compte dans la réponse de tous les termes de la requête. Il semble ne pas convenir parfaitement à un processus de recherche d'information pour la raison suivante : Soit la requête a et b, un document D j appartenant à l'ensemble flou relatif à a avec COR(D j,a)=0.9 et à l'ensemble flou relatif à b avec COR(D j,b)=0 sera considéré de la même manière qu'un document D i appartenant à l'ensemble flou relatif à a avec COR(D i,a)=0.9 et à l'ensemble flou relatif à b avec COR(D i,b)=0.9. b-2) Méthode-2 : Sim(D, a V b) = sqr((w D (a) 2 + W D (b) 2 )/2) Sim(D, a Λ b) = 1 - sqr(((1-w D (a)) 2 + (1-W D (b)) 2 )/2) Exemple : Booléen Booléen pondéré Documents A B A V B A Λ B A V B A Λ B D D /sqr(2) 1-1/sqr(2) D /sqr(2) 1-1/sqr(2) D III-2-3 Le modèle vectoriel Le modèle vectoriel introduit par [Salton 1975] représente chaque document, ainsi que la requête, par un vecteur et calcule un coefficient de similarité entre 17

18 chaque document et la requête (appelé Retrieval Status Value ou RSV) ; Ce coefficient de similarité correspond, par exemple, au cosinus des angles entre le vecteur de la requête et le vecteur d'un document, afin de trouver les documents dont le vecteur de représentation est le plus colinéaire avec le vecteur de la requête. D1 D2 Requête D3 il est donc possible de classer les documents par ordre de pertinence décroissante. Dans ce modèle, chaque mot du corpus représente une dimension de l espace et le codage des vecteurs par une fonction du nombre d occurrences d un mot dans le document. Les composantes des vecteurs, appelées termes dans la terminologie de la recherche d information, peuvent également être des paires de mots ou des phrases. Avec cette approche : seule la présence ou l absence de termes est porteuse d information. Aucune analyse linguistique n est utilisée, ni aucune notion de distances entre les mots : Les documents sont représentés en "sacs de mots". De nombreuses solutions ont été proposées dans la littérature pour coder les composantes des vecteurs, c est-à-dire pour attribuer un poids à chaque terme (cf. [Salton et Buckley, 1990]). Historiquement, le plus connu de ces codages s appelle tf.idf, et donne parfois son nom à l approche vectorielle ; ce codage signifie : term frequency * inverse document frequency. III Pondération TF.Idf Le terme Tf*Idf désigne un ensemble de pondérations et de sélections de termes. Tf=term frequency (importance du terme pour un document) Idf=Inverted document frequency (on mesure si le terme est discriminant). 18

19 Les termes importants dans un document doivent avoir un poids fort. Le facteur Tf (sac de mots, bag of words): Tenir compte de la fréquence d'un terme dans le document Plus un terme est fréquent dans un document plus il est important dans la description de ce document Le facteur IDF (Inverse Document Frequency) la fréquence du terme dans la collection : Tenir compte du nombre de documents contenant un terme donné un terme apparaissant dans tous les documents n est pas important Avec : Idf =Log(N/ni), où N est la taille de la collection, et ni le nombre de documents contenant le terme ti On déduit la formule classique suivante : Wij = freq(ti, dj) * log(taille corpus / docfreq(t)) Où bien : Wij = tfij * Log(taille_corpus / dfi) Où : Wij est le poids du terme t i dans le document Di. tfij est donnée dans la matrice précédente (fréquence du terme t i dans le document Di). taille_corpus = nombre de documents du corpus (collection). dfi = fréquence documentaire de ti, c'est-à-dire le nombre de documents contenant le terme i (Le document apparaît au moins une fois). Les Tfij doivent être normalisées en divisant chaque Tfij par le maximum des fréquences pour un même document. III Mesure de similarité Cette mesure correspond au cosinus de l'angle formé par les vecteurs dans l'espace multidimensionnel. D1 D2 Requête 19

20 D3 Le document D2 est le proche de la requête. AVG-SIM 0,406 III Distance Distance entre un document et une requête Sim (Q, D i ) = similitude entre la requête Q et le document D i d ij = poids du terme T j dans le document D i w qj = poids du terme T j dans la requête Q III-2-4 Le modèle probabiliste Le modèle probabiliste consiste à calculer la pertinence d'un document en fonction de pertinences connues pour d'autres documents. Il y a différentes approches de calcul de probabilité dans le domaine de la RI : 1. Approche par modèle classique : A partir d un document et d une requête on détermine la probabilité d avoir l évènement pertinent. 2. Approche par modèle par Réseau d inférences : A partir du contenu d un document, on détermine la probabilité pour que la requête soit vraie. 3. Approche par modèle par langage : déterminer la probabilité pour qu une requête soit générée à partir d un document. III Modèle classique 20

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Thèse de Doctorat en Informatique

Thèse de Doctorat en Informatique République Algérienne Démocratique et Populaire Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Mouloud Mammeri de Tizi-Ouzou Faculté de Génie Electrique et de l Informatique

Plus en détail

Évaluer les liens entre codage et les données structurées (variables) Introduction au gestionnaire de rapport et au journal de commandes

Évaluer les liens entre codage et les données structurées (variables) Introduction au gestionnaire de rapport et au journal de commandes Trois approches en analyse de texte L'Analyse Qualitative L'analyse de Contenu Quantitative (par dictionnaires) Le forage de texte ("Text Mining") Introduction aux logiciels de Provalis Research QDA Miner

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Licence Pro SIL - IUT XML

Licence Pro SIL - IUT XML Licence Pro SIL - IUT Structure et échange d informations XML Julien Pinquier, pinquier@irit.fr Plan Organisation Introduction à XML Structure d un document XML Déclarations de Type de Documents (DTD)

Plus en détail

II- Validation d'un document XML. Prof. M.D. RAHMANI Technologies XML Master IT 2013-2014 1

II- Validation d'un document XML. Prof. M.D. RAHMANI Technologies XML Master IT 2013-2014 1 II- Validation d'un document XML DTD (Document Type Definition) 1 Validation d'un document XML par une DTD Document XML valide Types de DTD (interne, externe) Déclarations d'éléments Déclaration d'attributs

Plus en détail

WSIA? 6 cours de 3h 5 séances de TD/TP 3h. 1 séance de soutenance de 3h. Evaluation?

WSIA? 6 cours de 3h 5 séances de TD/TP 3h. 1 séance de soutenance de 3h. Evaluation? 2008-2009 Master 1 Info. Info 2 WSIA Cours 1 : Introduction à XML et aux DTD Jérôme Nobécourt jerome.nobecourt@gmail.com Sylvie Després sylvie.despres@lipn.univ-paris13.fr WSIA? 6 cours de 3h 5 séances

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

Technologie du Web. Structuration de documents (20h) HTML XML Création d application Web (20h) JavaScript PHP. A. Belaïd

Technologie du Web. Structuration de documents (20h) HTML XML Création d application Web (20h) JavaScript PHP. A. Belaïd Technologie du Web Structuration de documents (20h) HTML XML Création d application Web (20h) JavaScript PHP Objectif Créer une application Web Ce sera votre projet Agenda électronique avec carnet d adresses

Plus en détail

Indexation de sous-collections pour l amélioration de la haute précision

Indexation de sous-collections pour l amélioration de la haute précision Indexation de sous-collections pour l amélioration de la haute précision Joëlson Randriamparany *,** *IRIT, Institut de Recherche Informatique de Toulouse Université Paul Sabatier Toulouse III 118 Route

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Marie-Claude L Homme Université de Montréal

Marie-Claude L Homme Université de Montréal Évaluation de logiciels d extraction de terminologie : examen de quelques critères Plan Marie-Claude L Homme Université de Montréal Unités recherchées et problèmes de base Catégories de critères Critères

Plus en détail

Les typologies d information que le moteur est en mesure de rechercher sont :

Les typologies d information que le moteur est en mesure de rechercher sont : AIDE SUR LA BIBLIOTHEQUE VIRTUELLE Le système de recherche de la bibliothèque virtuelle permet l accès rapide aux informations qui intéressent les étudiants et qui sont disponibles dans le cyberespace

Plus en détail

IVRG Image and Visual Representation Group

IVRG Image and Visual Representation Group IVRG Image and Visual Representation Group Projet en Digital Photography Responsable : Patrick Vandewalle Sylvain PASINI Bertrand GRANDGEORGE le 2 juin 2003 Table des matières Table des matières 2 1. Introduction

Plus en détail

DTD & XML Schema. Sébastien Laborie Sebastien.Laborie@iutbayonne.univ- pau.fr. Christian Sallaberry Christian.Sallaberry@univ- pau.

DTD & XML Schema. Sébastien Laborie Sebastien.Laborie@iutbayonne.univ- pau.fr. Christian Sallaberry Christian.Sallaberry@univ- pau. DTD & XML Schema Sébastien Laborie Sebastien.Laborie@iutbayonne.univ- pau.fr Christian Sallaberry Christian.Sallaberry@univ- pau.fr DTD Le rôle d une DTD (Document Type Definition) est de définir la structure

Plus en détail

! Text Encoding Initiative

! Text Encoding Initiative Format XML: suite! le contenu d un élément est la concaténation de! texte! et d éléments (imbrication)! => structure arborescente! pas de chevauchement de balises! => exemple : une analyse syntagmatique

Plus en détail

Recherche bibliographique

Recherche bibliographique Séminaire «Maîtrise de l information scientifique» Recherche bibliographique Dernière mise à jour : 07/01/2015 - Auteur : Frédérique Flamerie Recherche bibliographique : méthode & outils La recherche bibliographique

Plus en détail

XML-Bases. www.fenetresurtoile.com XHTML. Les bases. Jean-François Ramiara. INP-ENM 04/10/2012 Toulouse. Copyright J.F. Ramiara Tous droits réservés

XML-Bases. www.fenetresurtoile.com XHTML. Les bases. Jean-François Ramiara. INP-ENM 04/10/2012 Toulouse. Copyright J.F. Ramiara Tous droits réservés XHTML Les bases Jean-François Ramiara INP-ENM 04/10/2012 Toulouse 1 Généralités Jean-François Ramiara XML 2 jours Initiation à XML Contenu Cours Exercices Support PDF Horaires Tour de table 2 Sommaire

Plus en détail

THÈSE. En vue de l'obtention du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE

THÈSE. En vue de l'obtention du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE THÈSE En vue de l'obtention du DOCTORAT DE L UNIVERSITÉ DE TOULOUSE Délivré par l'université Toulouse III - Paul Sabatier Discipline ou spécialité : Informatique et applications Présentée et soutenue par

Plus en détail

Construction et enrichissement automatique d ontologie à partir de ressources externes

Construction et enrichissement automatique d ontologie à partir de ressources externes Construction et enrichissement automatique d ontologie à partir de ressources externes JFO 2009 Jeudi 3 décembre 2009 E. Kergosien (LIUPPA, Pau) M. Kamel (IRIT- UPS, Toulouse) M. Sallabery (LIUPPA, Pau)

Plus en détail

Un cycle de modélisation comme méthodologie supportant l élaboration d un construit théorique en recherche en éducation

Un cycle de modélisation comme méthodologie supportant l élaboration d un construit théorique en recherche en éducation Un cycle de modélisation comme méthodologie supportant l élaboration d un construit théorique en recherche en éducation Une valeur ajoutée à l anasynthèse Nicole Landry, Ph.D. Réjean Auger, Ph.D. TELUQ,

Plus en détail

OASIS www.oasis-open.org/committees/xacml/docs/docs.shtml Date de publication

OASIS www.oasis-open.org/committees/xacml/docs/docs.shtml Date de publication Statut du Committee Working Draft document Titre XACML Language Proposal, version 0.8 (XACML : XML Access Control Markup Language) Langage de balisage du contrôle d'accès Mot clé Attestation et sécurité

Plus en détail

Acquisition terminologique pour identifier les mots clés d articles scientifiques

Acquisition terminologique pour identifier les mots clés d articles scientifiques Actes du huitième défi fouille de texte, DEFT2012, Grenoble, France, 8 juin 2012. Pages 29-35. Proceedings of the Eight DEFT Workshop, DEFT2012, Grenoble, France, 8th July 2012. Pages 29-35. Acquisition

Plus en détail

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique Des traitements aux ressources : le rôle d une architecture Frederik Cailliau Villetaneuse, le 9 décembre 2010 Sous la direction d Adeline Nazarenko 1. 2. 3. 4. 5. 6. 2 Sinequa Cifre à Sinequa Recherche

Plus en détail

UFR STAPS Informatique de Gestion 2007/2008. Support de cours

UFR STAPS Informatique de Gestion 2007/2008. Support de cours UFR STAPS Informatique de Gestion 2007/2008 Support de cours Farah Benamara-Zitoune benamara@irit.fr Tel: 0561557705 SOMMAIRE Fenêtre principale du tableur Excel... 3 Mise en forme des données... 3 Validation

Plus en détail

XML_GFD : UN GENERATEUR DYNAMIQUE DE FORMULAIRES XLM VALIDES DTD

XML_GFD : UN GENERATEUR DYNAMIQUE DE FORMULAIRES XLM VALIDES DTD XML_GFD : UN GENERATEUR DYNAMIQUE DE FORMULAIRES XLM VALIDES DTD MAREDJ Azze-Eddine, KHOUATMI-BOUKHATEM Samia, ADJERAD Halima Douniazed Centre de Recherche sur l Information Scientifique et Technique CERIST

Plus en détail

Environnement de programmation

Environnement de programmation Environnement de programmation 1.La programmation Les ordinateurs sont stupides! à un point dont on n'a pas idée. Ils ne réagissent ni ne répondent qu'à des situations ou à des données anticipées par le

Plus en détail

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel PLAN DE COURS «ANALYSE DE DONNEES TEXTUELLES» Trois approches pour l analyse de textes Analyse qualitative Analyse quantitative Fouille de textes Introduction au logiciel QDA Miner Introduction et gestion

Plus en détail

est diagonale si tous ses coefficients en dehors de la diagonale sont nuls.

est diagonale si tous ses coefficients en dehors de la diagonale sont nuls. Diagonalisation des matrices http://www.math-info.univ-paris5.fr/~ycart/mc2/node2.html Sous-sections Matrices diagonales Valeurs propres et vecteurs propres Polynôme caractéristique Exemples Illustration

Plus en détail

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions I.1 Introduction La Recherche d Information (RI) peut être définie comme une activité dont la finalité est de localiser et de délivrer un ensemble de documents à un utilisateur en fonction de son besoin

Plus en détail

Cycle Matière Activités

Cycle Matière Activités Traitement de texte et TICE Liste des activités Cycle Matière Activités Recopie, après identification,d une lettre. Variantes : Le modèle est à l écran, puis sur une feuille de papier (afin d'expérimenter

Plus en détail

PJE : Analyse de comportements avec Twitter Classification supervisée

PJE : Analyse de comportements avec Twitter Classification supervisée PJE : Analyse de comportements avec Twitter Classification supervisée Arnaud Liefooghe arnaud.liefooghe@univ-lille1.fr Master 1 Informatique PJE2 2015-16 B. Derbel L. Jourdan A. Liefooghe 1 2 Agenda Partie

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Dans cette définition, il y a trois notions clés: documents, requête, pertinence. Introduction à la RI 1. Définition Un système de recherche d'information (RI) est un système qui permet de retrouver les documents pertinents à une requête d'utilisateur, à partir d'une base de documents

Plus en détail

Présentation de la plateforme d analyse linguistique médiévale

Présentation de la plateforme d analyse linguistique médiévale Présentation de la plateforme d analyse linguistique médiévale 1. Introduction Tout au long de ce document, notre projet sera présenté à travers la méthodologie suivie pour développer la plateforme d analyse

Plus en détail

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin 2005 1 Table des matières 1 Présentation

Plus en détail

Résumé DTD. A- Définir des éléments complexes ( = éléments possédant des éléments fils)

Résumé DTD. A- Définir des éléments complexes ( = éléments possédant des éléments fils) DTD, Document Type Definition 1-Utilité de la DTD La DTD permet la définition de la STRUCTURE d un type de documents. C est une forme de grammaire qui va servir à spécifier les noms des éléments et la

Plus en détail

Similarité entre les mots

Similarité entre les mots Similarité entre les mots Traitement Automatique des Langues Master Informatique Université Paris-Est Marne-la-Vallée Matthieu Constant Références de base du cours Christopher D. Manning and Hinrich Schütze,

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

Indexation et interrogation de photos de presse décrites en MPEG-7

Indexation et interrogation de photos de presse décrites en MPEG-7 Indexation et interrogation de photos de presse décrites en MPEG-7 Emmanuel Bruno Jacques Le Maitre Elisabeth Murisasco Laboratoire SIS, Equipe Informatique Université de Toulon et du Var Bâtiment R, BP

Plus en détail

TALN (traitement automatique du langage naturel) Eva Sassolini, 30/06/2015

TALN (traitement automatique du langage naturel) Eva Sassolini, 30/06/2015 TALN (traitement automatique du langage naturel) Eva Sassolini, 30/06/2015 Objectifs de TALN Construction de modèles et d outils capables d'effectuer des tâches spécifiques liées à la langue naturelle,

Plus en détail

TP Recherche d'information

TP Recherche d'information Master Modélisation Informatique des Connaissances et du Raisonnement (MICR) Cours Recherche et Extraction d'information TP Recherche d'information L'objectif global du TP de Recherche d'information est

Plus en détail

Détection de mots-clés par approches au grain caractère et au grain mot

Détection de mots-clés par approches au grain caractère et au grain mot Détection de mots-clés par approches au grain caractère et au grain mot Gaëlle Doualan, Mathieu Boucher, Romain Brixtel, Gaël Lejeune, Gaël Dias Équipe HULTECH (GREYC, Université de Caen), Bd Maréchal

Plus en détail

Méthodes et outils pour l annotation manuelle ou semi-automatique de corpus

Méthodes et outils pour l annotation manuelle ou semi-automatique de corpus Méthodes et outils pour l annotation manuelle ou semi-automatique de corpus Yann Mathet, Antoine Widlöcher Laboratoire GREYC - Université de Caen Ecole thématique «Annotation de données langagières» Biarritz,

Plus en détail

Initiation à l'encodage XML-TEI. Lou Burnard

Initiation à l'encodage XML-TEI. Lou Burnard Initiation à l'encodage XML-TEI Lou Burnard Objectifs de cette formation 1 Préciser ce que c'est que l'encodage textuel 2 Présenter les concepts fondamentaux de TEI-XML 3 Offrir beaucoup d' experimentation

Plus en détail

Langage HTML (2 partie) lt La Salle Avignon BTS IRIS

Langage HTML (2 partie) <HyperText Markup Language> <tv>lt La Salle Avignon BTS IRIS</tv> Langage HTML (2 partie) «Je n'ai fait que prendre le principe d - hypertexte et le relier au principe du TCP et du DNS et alors boum! ce fut le World Wide Web!» Tim Berners-Lee

Plus en détail

Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels

Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels EDITION DU 19 NOVEMBRE 2009 Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels Bénédicte Pincemin (éditeur) Les différents

Plus en détail

Initiation à XML

<Derf:XML easy=true> <Derf:title part=3> Initiation à XML </Derf:title> </Derf:XML> Initiation à XML By F.REMISE Microsoft MVP derf@asp-php.net www.asp-php.net By F.Remise alias Derf INTRODUCTION Dans le Part.2 nous

Plus en détail

Chapitre 1 : Introduction aux Systèmes de Gestion de Bases de Données (Eléments de base)

Chapitre 1 : Introduction aux Systèmes de Gestion de Bases de Données (Eléments de base) Chapitre 1 : Introduction aux Systèmes de Gestion de Bases de Données (Eléments de base) 1. Généralités sur l'information et sur sa Représentation 1.1 Informations et données : a. Au sen de la vie : C

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

L'ACCORD DU PARTICIPE PASSÉ : UN MODULE POUR HYPERPROF

L'ACCORD DU PARTICIPE PASSÉ : UN MODULE POUR HYPERPROF 93 L'ACCORD DU PARTICIPE PASSÉ : «L'accord du participe passé» est un module pour HyperProf, un système auteur hypermédia pour Macintosh, commercialisé par le CUDEC 1. 1. CARACTÉRISTIQUES GÉNÉRALES D'HYPERPROF

Plus en détail

À propos des matrices échelonnées

À propos des matrices échelonnées À propos des matrices échelonnées Antoine Ducros appendice au cours de Géométrie affine et euclidienne dispensé à l Université Paris 6 Année universitaire 2011-2012 Introduction Soit k un corps, soit E

Plus en détail

ANALYSE DES DONNÉES TEXTUELLES

ANALYSE DES DONNÉES TEXTUELLES Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux ANALYSE DES DONNÉES TEXTUELLES Traitement automatique des questions ouvertes Question ouverte Souhaitez-vous ajouter des

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille La Veille multilingue : outils et ressources pour les traducteurs Jean-Paul PINTE Institut Catholique de Lille Premier Colloque International sur la veille multilingue Genève les 28 et 29 mai 2008 Nous

Plus en détail

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006 Les outils de veille sur Internet Panorama, évolutions, nouveautés Myriel Brouland SCIP France -10 Mai 2006 1 La veille en France: une situation paradoxale Une situation contrastée Une prise de conscience

Plus en détail

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE Annexe MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE L enseignement des mathématiques au collège et au lycée a pour but de donner à chaque

Plus en détail

Chapitre 4. Numériser les données : l'encodage des caractères

Chapitre 4. Numériser les données : l'encodage des caractères Chapitre 4 Numériser les données : l'encodage des caractères Avant l'informatique Codage (écriture) : Tablette d'uruk (caractères cunéiformes) Transcodage (cryptographie) Courrier de Jules Cesar Le nom

Plus en détail

Espaces vectoriels et applications linéaires

Espaces vectoriels et applications linéaires Espaces vectoriels et applications linéaires Exercice 1 On considère l'ensemble E des matrices carrées d'ordre 3 défini par,,, 1) Montrer que est un sous-espace vectoriel de l'espace vectoriel des matrices

Plus en détail

LA RECHERCHE DOCUMENTAIRE

LA RECHERCHE DOCUMENTAIRE LA RECHERCHE DOCUMENTAIRE Introduction I. Les étapes de la recherche d'information II. Méthodologie spécifique 2.1 Bibliothèque 2.2 Internet Conclusion INTRODUCTION Lorsque on débute une réflexion sur

Plus en détail

Université Laval Faculté des sciences et de génie Département d'informatique et de génie logiciel IFT-3101. Travail pratique #2

Université Laval Faculté des sciences et de génie Département d'informatique et de génie logiciel IFT-3101. Travail pratique #2 Université Laval Faculté des sciences et de génie Département d'informatique et de génie logiciel IFT-3101 Danny Dubé Hiver 2014 Version : 11 avril Questions Travail pratique #2 Traduction orientée-syntaxe

Plus en détail

Bases de Données. Plan

Bases de Données. Plan Université Mohammed V- Agdal Ecole Mohammadia d'ingénieurs Rabat Bases de Données Mr N.EL FADDOULI 2014-2015 Plan Généralités: Définition de Bases de Données Le modèle relationnel Algèbre relationnelle

Plus en détail

Bases de Données Avancées

Bases de Données Avancées Bases de Données Avancées Enseignant / chargé de TD : Dario COLAZZO www.lri.fr/~colazzo Chargée de TP : Jesús CAMACHO-RODRIGUEZ www.lri.fr/~camacho Plan Tuning d index Concurrence Reprise sur panne Données

Plus en détail

Sujet. Vers une Extension Sémantique de l Analyse Formelle de Concepts : Application à la Recherche d Informations.

Sujet. Vers une Extension Sémantique de l Analyse Formelle de Concepts : Application à la Recherche d Informations. REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE UNIVERSITE MOULOUD MAMMERI, TIZI-OUZOU FACULTE DE GENIE ELECTRIQUE ET D INFORMATIQUE

Plus en détail

Les principaux domaines de l informatique

Les principaux domaines de l informatique Les principaux domaines de l informatique... abordés dans le cadre de ce cours: La Programmation Les Systèmes d Exploitation Les Systèmes d Information La Conception d Interfaces Le Calcul Scientifique

Plus en détail

THÉORIE DE L'INFORMATION : RAPPELS

THÉORIE DE L'INFORMATION : RAPPELS THÉORIE DE L'INFORMATION : RAPPELS 1920 : premières tentatives de définition de mesure de l'information à partir de 1948 : travaux de Shannon Théorie de l'information discipline fondamentale qui s'applique

Plus en détail

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES

1. LA GESTION DES BASES DE DONNEES RELATIONNELLES Dossier G11 - Interroger une base de données La base de données Facturation contient tout un ensemble d'informations concernant la facturation de la SAFPB (société anonyme de fabrication de produits de

Plus en détail

REPRESENTATION DES CONNAISSANCES

REPRESENTATION DES CONNAISSANCES REPRESENTATION DES CONNAISSANCES Cours préparé pour l Université de Stendhal, Grenoble (France) Cédric Lopez clopez@objetdirect.com Frédérique Segond fsegond@objetdirect.com www.viseo.net 1 RAPPELS (1/3)

Plus en détail

Ressources pour l école élémentaire

Ressources pour l école élémentaire Ressources pour l école élémentaire Français éduscol Progressions pour le cours préparatoire et le cours élémentaire première année Ces documents peuvent être utilisés et modifiés librement dans le cadre

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

Programme de Première

Programme de Première BAC TECHNO STAV 66 I. Algèbre Programme de Première Objectif 1 - Effectuer de manière autonome des calculs numériques ou algébriques, résoudre des équations ou inéquations en vue de résoudre des problèmes

Plus en détail

CM2 LES NOUVEAUX. Outils Français. Guide du maître. Claire Barthomeuf Professeur des écoles Catherine Lahoz Professeur des écoles

CM2 LES NOUVEAUX. Outils Français. Guide du maître. Claire Barthomeuf Professeur des écoles Catherine Lahoz Professeur des écoles LES NOUVEAUX Outils pour le Français CM2 Guide du maître Claire Barthomeuf Professeur des écoles Catherine Lahoz Professeur des écoles sommaire Proposition de programmation... 4 Grammaire La phrase et

Plus en détail

Avancée en classification multi-labels de textes en langue chinoise

Avancée en classification multi-labels de textes en langue chinoise Avancée en classification multi-labels de textes en langue chinoise Thèse en cotutelle présentée par Zhihua WEI pour les doctorats en informatique des Universités Lyon2 et Tongji La thèse est centrée sur

Plus en détail

NSY107 - Intégration des systèmes client-serveur

NSY107 - Intégration des systèmes client-serveur NSY107 - Intégration des systèmes client-serveur Cours du 10/06/2006, 4 heures, Thème : XML Emmanuel DESVIGNE Document sous licence libre (FDL) Plan du cours «XML» Introduction/Généralités

Plus en détail

CorpuSearch : présentation d un outil d extraction spécifique

CorpuSearch : présentation d un outil d extraction spécifique CorpuSearch : présentation d un outil d extraction spécifique Jean-Philippe Demoulin, Alda Mari, Romain Vinot ENST Département INFRES CNRS URA 820 46 rue Barrault - 75013 PARIS - +33(0)145817259 {demoulin,

Plus en détail

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini.

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. 1 Introduction Des actions comme lancer un dé, tirer une carte d un jeu, observer la durée de vie d une ampoule électrique, etc...sont

Plus en détail

INRS Biblio est la base de données biblio-

INRS Biblio est la base de données biblio- dmt assistance TP 2 La base de données INRS Biblio Prévention des risques professionnels Lors d une recherche documentaire, l objectif est de pouvoir sélectionner rapidement et facilement les documents

Plus en détail

Introduction aux CRF via l annotation par des modèles graphiques. Isabelle Tellier. LIFO, Université d Orléans

Introduction aux CRF via l annotation par des modèles graphiques. Isabelle Tellier. LIFO, Université d Orléans Introduction aux CRF via l annotation par des modèles graphiques Isabelle Tellier LIFO, Université d Orléans Plan 1. Annoter pour quoi faire 2. Apprendre avec un modèle graphique 3. Annnoter des chaînes

Plus en détail

Traitement automatique des messages courts par des approches de Fouille de Textes

Traitement automatique des messages courts par des approches de Fouille de Textes Traitement automatique des messages courts par des approches de Fouille de Textes Mathieu ROCHE Equipe TEXTE LIRMM, CNRS, Université Montpellier 2 1 Séminaire Sud4Science 28 septembre 2011 1. Introduction

Plus en détail

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Journée organisée par le CRFCB Midi-Pyrénées / Languedoc-Roussillon

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur

Plus en détail

Conventions communes aux profils UML

Conventions communes aux profils UML Conventions communes aux profils UML Auteur : Projet ACCORD (Assemblage de composants par contrats en environnement ouvert et réparti)* Référence : Livrable 2.1 Date : Juin 2002 * : Les partenaires du

Plus en détail

Initiation à la recherche documentaire

Initiation à la recherche documentaire Initiation à la recherche documentaire 1 Objectifs Cette séance est destinée à reprendre les principes de la démarche documentaire pour construire un parcours pertinent en terme de méthodologie et de résultats

Plus en détail

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département

Plus en détail

DOCUMENTATION UTILISATEUR

DOCUMENTATION UTILISATEUR Eaagle Online DOCUMENTATION UTILISATEUR Copyright Eaagle 2010-2015 R8 Page 1 Démarrer avec Eaagle Online... 5 Connexion à votre compte... 5 Liste des Projets... 6 Votre première connexion et votre premier

Plus en détail

Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI

Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI Fouille de données spatiales Mr Dib Abderrahim & Dr Mohamed-Khireddine KHOLLADI Introduction On assiste de plus en plus à la création d entrepôts de données. Les raisons sont multiples : 1. le tout numérique

Plus en détail

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

Probabilités CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES

Probabilités CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Chapitre Ce que dit le programme : Probabilités CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Objectifs visés par l enseignement des statistiques et probabilités à l occasion de résolutions de problèmes dans

Plus en détail

Résumé XML XML. XPATH SVG Schema XSL. VoiceXML. Figure 1 : évolution des langages à balises

Résumé XML XML. XPATH SVG Schema XSL. VoiceXML. Figure 1 : évolution des langages à balises XML, extensible Markup Language 1-Origine de XML On trouve l origine des langages à balises dans la nécessité d échanger des informations dont la structure est trop complexe pour être simplement mise sous

Plus en détail

Applications linéaires

Applications linéaires Applications linéaires I) Applications linéaires - Généralités 1.1) Introduction L'idée d'application linéaire est intimement liée à celle d'espace vectoriel. Elle traduit la stabilité par combinaison

Plus en détail

Ouvrir ce texte avec Word ou open office- Enregistrez-le dans un format portable sous le nom DM_votreNom

Ouvrir ce texte avec Word ou open office- Enregistrez-le dans un format portable sous le nom DM_votreNom STAGE DOCTORAL INFORMATIQUE POUR LA RECHERCHE Objectif général : BUREAUTIQUE TRAITEMENT DE TEXTE Il s agit de mettre en forme un document libre de droit (le discours de la méthode), de procéder à un certain

Plus en détail

Liens FN 2.32 le logiciel documentaire FN 2.43 le thésaurus ou langage documentaire FN 2.42 les descripteurs lexique

Liens FN 2.32 le logiciel documentaire FN 2.43 le thésaurus ou langage documentaire FN 2.42 les descripteurs lexique Liens FN 2.32 le logiciel documentaire FN 2.43 le thésaurus ou langage documentaire FN 2.42 les descripteurs lexique 2.32 Fiche guide : utiliser le logiciel documentaire Reconnaître les informations d'une

Plus en détail

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3

Plus en détail

Fonctionnement du serveur Z39.50

Fonctionnement du serveur Z39.50 Fonctionnement du serveur Z39.50 Table des matières 1 Configuration du serveur...2 1.1 Comportement du serveur...2 1.2 Configuration de la traduction z39.50 -> base de données...2 1.3 Configuration du

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Le dictionnaire DEM dans NooJ

Le dictionnaire DEM dans NooJ 21 ème Traitement Automatique des Langues Naturelles, Marseille, 2014 Le dictionnaire DEM dans NooJ Max Silberztein ELLIADD, Université de Franche-Comté, 30 rue Mégevand, 25000 Besançon max.silberztein@univ-fcomte.fr

Plus en détail

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie TRAITEMENT AUTOMATIQUE DES LANGUES Licence d'informatique 2ème Année Semestre 1 Département d'informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/tal.html Plan Définition

Plus en détail