Programme. Matière : RECHERCHE D INFORMATION Crédit : 4 Cours : 1h30 TD : 1h30 Semestre : S1 du M1 Assuré par: Herzallah Abdelkarim

Dimension: px
Commencer à balayer dès la page:

Download "Programme. Matière : RECHERCHE D INFORMATION Crédit : 4 Cours : 1h30 TD : 1h30 Semestre : S1 du M1 Assuré par: Herzallah Abdelkarim"

Transcription

1 Matière : RECHERCHE D INFORMATION Crédit : 4 Cours : 1h30 TD : 1h30 Semestre : S1 du M1 Assuré par: Herzallah Abdelkarim Programme 1-Introduction : Objectifs de la RI, Concepts de base : information, Besoin en information et pertinence, Processus général de la RI, Taches (RI, FI, CLIR, QA, etc.). 2-Indexation pour la RI : Introduction (Indexation manuelle vs. Indexation automatique), Etapes du processus d indexation, Statistiques sur les termes (Loi, Zipf, ), Techniques de pondération des termes. 3- Modèles de RI : Taxonomie des modèles (Adhoc Vs Filtrage), Modèle booléen, Modèle booléen étendu, Modèle vectoriel, Modèle LSI (Latent Semantic Indexing), Modèle probabiliste, Modèle inférentiel, Modèle de langage, Modèle possibiliste. 4- Reformulation de requêtes : Expansion de requête, Réinjection de pertinence, Méthodes de sélection de termes. 5- Evaluation de la RI : Critères d évaluation, Collections de tests, Bilan des campagnes d évaluation. 6- RI sur le WEB 7- RI dans des documents structurés (XML) 1

2 1-Introduction 1.1 Définition La recherche d'information ou RI (ou encore SRI) prend plusieurs terminologies: recherche d'information, informatique documentaire, information retrieval, document retrieval. Salton définit la RI comme la branche de l'informatique qui consiste à acquérir, organiser, stocker; rechercher et sélectionner l'information. Les domaines d'application de la RI sont: Internet Bibliothèques numériques «digital library» Entreprises La RI est un domaine vaste qui se situe dans les frontières de plusieurs disciplines tel que: 1. Recherche adhoc, 2. Classification /catégorisation (clustering), Question-réponses (Query answering), 3. Filtrage d information (filtering/recommendation) 4. Méta-moteurs (data-fusion,meta-search) 5. Résumé automatique (Summarization) 6. Croisement de langues (cross language) 7. Fouille de textes (Text mining) 1.2 Objectif Identifier en vue d exploiter de l'information contenue dans des documents et des bases de données (son,texte, image) par rapport à une requête formulée par un utilisateur. Le SRI devra nous retourner le moins possible de documents non pertinents Les contenus des documents peuvent être non structurés ou semi structurés. 1.3 Bref historique de la RI La RI n'est pas un domaine récent : 1940 : Avec la naissance des ordinateurs, la RI se concentrait sur les applications dans des bibliothèques. Depuis le début de ces études, la notion de pertinence a toujours été un objet : Début de petites expérimentations en utilisant des petites collections de documents (références bibliographiques). Le modèle utilisé est le modèle booléen : Expérimentations plus larges ont été menées. On a développé une méthodologie d'évaluation du système qui est aussi utilisée maintenant dans d'autres domaines (des corpus de test ont été conçus pour évaluer des systèmes différents) : Développement du système SMART. Les travaux sur ce système a été dirigés par G. Salton. Certains nouvelles techniques ont été implantées et expérimentées pour la première fois dans ce système (par exemple, le modèle vectoriel et la technique de relevance feedback). Du côté de modèle, il y a aussi beaucoup de développements sur le modèle probabiliste. 2

3 1980 : Les travaux sur la RI ont été influencés par l avènement de l'intelligence artificielle. Ainsi, on tentait d'intégrer des techniques de l'ia en RI, par exemple, système expert pour la RI, etc : Internet à propulser la RI en avant scène de beaucoup d'applications. La venue de l'internet a aussi modifié la RI. La problématique est élargie. Par exemple, on traite maintenant plus souvent des documents multimédia qu'avant. Cependant, les techniques de base utilisées dans les moteurs de recherche sur le web restent identiques. 1.4)Architecture générale d'un Système de Recherche d'information Documents Besoins en informations Requête Indexation Dictionnaire Thésaurus Onologie Modèle, Indexation Représentation des documents Processus d appariement (matchning) Documents - requêtes Représentation de la requête Expansion Documents sélectionnés Jugements Utilisation et/ou Evaluation Modification En se basant sur cette requête, le système de RI exécute une série d algorithmes qui permettent d obtenir une liste de documents ordonnés par leur pertinence ) Information et besoin en information 3

4 Une information est une donnée dont un individu a besoin pour résoudre un problème particulier. L'individu exprime donc un besoin sous forme de requête (question). Il existe deux types de besoins en information : le type fermé et le type ouvert. a) Question fermée : A une requête correspond un ensemble fini de réponses. Les tâches d'extraction d'information (EI) et de Question Answering (QA) font partie de cette catégorie, et elles sont en général appliquées à un corpus spécialisé. b) Question ouverte : Questions pour lesquelles il n'existe pas de réponse complète et définitive. La RI s'intéressait à des BI ouverts et à des données non structurées ) indexation L étape d indexation permet de réaliser le passage d'un document textuel (ou une requête) à une représentation exploitable par un modèle de RI par la construction de mots clés appelé langage d indexation. Document textuel (ou requête) Indexation représentation exploitable par le SRI Cette transformation appelée indexation consiste à extraire du texte un ensemble de mots clés appelés descripteurs. Ces descripteurs vont représenter le document dans le corpus. Chaque descripteur peut être accompagné de connaissances à priori pour mieux appréhender la recherche ) recherche ou appariement Une fois les documents transformés, il est possible de rechercher ceux qui répondent le mieux à une question d'un utilisateur grâce à la relation d appariement. Cette relation s'appuie sur des approches mathématiques. On en distingue: L'approche ensembliste L'approche algébrique (ou vectorielle) L'approche probabiliste Certains systèmes de RI dits assistés permettent l interaction avec l'utilisateur, afin d'améliorer petit à petit les réponses du système de RI au cours d'une session de travail. L'utilisateur intervient à chaque étape pour «aider» le système à sélectionner les documents qu il juge pertinents pour sa question. Ces indications peuvent aussi servir pour améliorer globalement le fonctionnement du système de RI ) La reformulation Un SR peut comporter une composante supplémentaire appelée reformulation automatique d la question (requête). Cette étape a pour objectif d'améliorer les performances du SRI, donc la précision dans les réponses du système ) Pertinence 4

5 La pertinence d'un document pour une question posée par l utilisateur s'exprime dans les modèles de RI sous la forme d'une valeur de plausibilité déterminée grâce à une heuristique. A titre d exemple, pour la question «base de données» la réponse sera d autant plus pertinente si «base» et «donnée» se trouvent localisés dans une même phrase. Il le sera d autant moins si ces deux mots sont répartis indifféremment dans le texte ) Précision et rappel La précision ou le rappel est un moyen permettant de mesurer la pertinence car la notion de valeur de plausibilité demeure assez vague. R: Documents rapportés (retrieval documents) D: Collection des documents Rr: Documents pertinents rapportés P: Collection des documents pertinents (Relevant documents) Précision = R r / R Rappel = R r / P Score F = (R + P) / (2RP) Bruit : 1 Précision Silence : 1 Rappel Taux documents pertinents dans les documents rapportés Taux de documents pertinents rapportés utilisées pour maximiser la moyenne harmonique de la précision et du rappel Documents non pertinents rapportés par le SRI Documents pertinents non rapportés par le SRI a) Précision : Un système de RI sera très précis si presque tous les documents renvoyés sont pertinents. En fait c est la proportion des documents pertinents parmi l'ensemble de ceux renvoyés (rapportés) par le système. b) Rappel : Un système de RI aura beaucoup de rappel s'il renvoie la plupart des documents pertinents du corpus pour une question. En fait c est la proportion de documents pertinents renvoyés par le système parmi tous ceux qui sont pertinents Application : Soit : NP = nombre de documents pertinents Nr = nombre de documents rapportés 5

6 Nrp = nombre de documents pertinents rapportés Alors : Bruit : 1 Précision = 1 Nrp/Nr = (Nr Nrp)/Nr Silence : 1 Rappel = 1 Nrp/Np = (Np Nrp)/Np Ou bien encore : Rappel = card(rp) / card(p) Précision = card(rp) / card(r) Silence = 1 Rappel = card(p)-card(rp) / card(p) Bruit = 1 Préecision = card(r) card(rp) / card (R) 1.4.7) Mesure F La mesure F [van Rijsbergen, 1979] prend en considération la précision et le rappel simultanément. Elle est définie par : Pour utiliser cette mesure, il est donc nécessaire de fixer préalablement un seuil de décision pour le classement, et de calculer la valeur de F pour ce seuil. Le paramètre permet de choisir l'importance relative que l'on souhaite donner à chaque quantité. On choisit en général de donner la même importance aux deux critères : on utilise F1 (noté F dans toute la suite de ce mémoire) qui s'écrit : F = 2.P.R P + R Une des propriétés intéressante de cette mesure est le fait que, si P = R = X, alors F = X ; cette mesure a alors une interprétation simple ) La courbe rappel / précision La précision est une fonction décroissante du rappel. Précision et rappel sont dans l'intervalle [0..1]. Considérons à titre d'exemple une requête pour laquelle cinq documents sont pertinents dans la base. Le système retourne 15 documents: {d1,.., d15}. Les documents pertinents sont marqués par la lettre "P" comme indiqué dans la troisième colonne du tableau suivant: Document Score Pertinent Précision Rappel d P ,20 d ,20 d P ,40 6

7 d P ,60 d ,60 d P ,80 d P ,80 d8 4,32 0,63 1,00 d9 4,16 0,56 1,00 d10 3,47 0,50 1,00 d11 2,69 0,45 1,00 d12 2,04 0,42 1,00 d ,38 1,00 d14 1,67 0,36 1,00 d15 0,07 0,33 1,00 On considère d'abord le premier document d1 restitué par le système. A ce point, on a retrouvé un document pertinent parmi les 5 existants. Donc, le rappel de 0.2, la précision est de 1/1. Le point de la courbe est donc (0.2, 1.0). On considère ensuite les deux premiers documents restitués. Le taux de rappel est toujours de 0.2 et la précision est cette fois de 0.5 (un document sur deux est pertinent). Le point est donc (0.2, 0.5). Ce processus est répété jusqu'à épuisement de la liste des réponses (qui peut être très longue en incluant tous les documents de la base). Les premiers points de la courbe sont alors représentés suivante: Précision 1 (0.2, 1) 0.8 ( 0.6, 0.75 ) 0,4 (0,4, 0.67) (0.6, 0.75 ) 0.2 ( 0.2, 0.5 ). rappel 7

8 Indexation pour la RI 2.1 Définition L indexation a pour rôle de représenter un document ou une requête par un ensemble de descripteurs, appelés aussi mots clé. Ces descripteurs constituent une facilité d exploitation des documents étant donné que le ceux-ci sont sous forme de textes libres. L indexation peut être : a) Manuelle : Chaque document est analysé par un documentaliste ou un spécialiste du domaine étudié. Il utilise à cet effet un vocabulaire contrôlé basé sur le thésaurus, le lexique, ). C est une opération qui exige un effort particulier et peut prendre du temps. En raison de facteurs humains (telle que la subjectivité), un même document peut recevoir deux listes différentes de descripteurs s il est travaillé par deux indexeurs différents. b) Automatique : Le processus est complètement automatisé. L indexation automatique a pour objectif de produire un ensemble de mots, ou termes, suffisamment informatifs pour bien représenter le contenu d un document. Les mots d un document ne sont pas tous également significatifs. En langage écrit, quelques termes portent plus de sémantique que d autres. Ainsi, les documents sont pré-traités pour faire la sélection des termes adéquats. L ensemble de termes présents dans un document conduit à une représentation imprécise de la sémantique des documents. Par exemple, le terme le ne représente pas un sujet en soi et peut conduire à donner comme résultat des documents non pertinents. On dit que la représentation d un document par l ensemble de tous ses termes génère du bruit en RI. Une façon de réduire ce bruit est de réduire l ensemble de termes au travers d un pré-traitement. Cette réduction augmente aussi la performance du système. c) Semi automatique: Un premier processus automatique permet d'extraire les termes du document. Cependant le choix final reste au spécialiste du domaine ou au documentaliste pour établir les relations entre les mots clés et choisir les termes significatifs, et ce grâce à un interface interactif Etapes du processus d indexation Au moins cinq grands niveaux de traitement linguistique : niveau du découpage, Tokénisation niveau morphologique : reconnaissance du mot niveau lexical : réduction du mot à sa forme canonique > lemmatisation niveau syntaxique : niveau d'utilisation de la grammaire niveau sémantique : niveau de la reconnaissance des concepts 1) Niveau de découpage (Tokénisation) : La tokénisation est appelée aussi segmentation. Elle consiste à diviser un texte en unités lexicales (token) élémentaires. C est une opération qui «localise» les chaînes de caractères entourées de séparateurs (caractère 8

9 blanc, ponctuations), et les identifie comme étant des mots. Il permet aussi de procéder à une première correction des fautes d orthographe et des erreurs de saisie 2)Niveaux léxical et morphologique : Chaque mot de la langue lui correspond une catégorie morpho syntaxique. b) Le lemme Le lemme s'obtient par une flexion (paradigme flexionnel). Exemple: Je travaille, tu travailles, il/elle travaille. Le lemme est travailler. La catégorie grammaticale rattaché à ce lemme est un verbe. c) La racine La racine s'obtient par une dérivation ( paradigme dérivationnel ). Exemple: nation, nationalité, nationaliser. La racine est nation. La catégorie rattachée un substantif. d) Le mot composé Mots non obligatoirement successifs qui doivent être reconnus comme formant une seule entité. i. Racinisation : Cette première opération est indispensable pour pouvoir retrouver tous les documents dans lesquels apparaissent différentes formes du même mot». Exemple : écologie, écologiste, écologique sont "racinisés" par un seul mot : écologie. ii. Le second traitement appelé aussi «étiquetage» ou tagging consiste à comparer chaque mot du texte (susceptibles d être ambiguë), avec les termes du dictionnaire intégré (référentiel ou glossaire métier). Ceci, afin de leur attribuer une ou plusieurs étiquettes en fonction du sens qu ils sont susceptibles d avoir dans le contexte où ils sont utilisés. Cette opération permet aussi d «identifier» les mots composés et les expressions toutes faites. iii. Recherche des lemmes : On a souvent besoin dans les logiciels d indexation de texte de regrouper les mots qui se ressemblent. L idéal serait de considérer la racine du mot, en la recherchant dans un dictionnaire. L opération demandant beaucoup de temps, on a souvent recours à des heuristiques (mot savant pour dire «recette de cuisine») simples, telle que celle-ci : On garde toutes les lettres depuis le début du mot jusqu à - La troisième consonne du mot incluse - Epuisement des lettres si la règle précédente n a pu être satisfaite Seule compte une consonne non précédée d une autre consonne (dans «elfe», on ne compte que le «l» car le «f» est une consonne précédée d une autre consonne ; par contre dans «nain» on compte deux consonnes). Ainsi «chien» a pour racine «chien» Exemple : Lemmatiser le mot «informatique» I N F O R M A T I Q U E Non pris en compte a pour racine «informat». 9

10 iv. Elimination des mots vides) : Les mots qui sont très fréquents dans les documents d une collection n ont pas un bon pouvoir discriminant et ne doivent pas être inclus dans l index. C est le cas des pronoms, des prépositions et des conjonctions, naturellement reconnus comme des mots vides. L élimination des mots vides permet une réduction de l index d environ 40%. Vu que la réduction du nombre de termes augmente la performance, certains systèmes considèrent, aussi, comme des mots vides quelques verbes, adjectifs et adverbes. Cette étape arrive à la constitution d'un index des termes non éliminés, considérés comme des index. La recherche se fait selon logique booléenne par exemple : dans la phrase "Prolétaires de tous les pays : unissez-vous", seuls les mots "prolétaires", "pays" et "unissez" sont gardés. A la recherche, il suffira de taper l'un de ces termes, ou une combinaison des termes, pour retrouver la phrase. Difficultés : o tous les mots gardés sont d égale importance, et il n'y a pas d'ordre des mots. o apparition des différentes formes d'un mot (ex : un verbe va apparaître plusieurs fois sous des formes différentes o l'analyse porte seulement sur des mots isolés (des unitermes), et délaisse toutes les expressions (les syntagmes), souvent porteurs de sens. Ex : «pomme de terre» donnera deux mots "pomme" et "terre", analysés séparément o la synonymie n est pas prise en compte (Ex : vol = aussi bien vol d avion que vol à la tire l'analyse morphologique peut générer beaucoup de «bruit ou de silence» A noter aussi que certains moteurs de recherches n éliminent même pas les mots vides pour une recherche. Les mots vides sont appelés une stoplist ou une stopword. 2.3) Résumé du processus de normalisation 1) Utilisation des règles de transformation du type CONDITION ACTION. Exemple : un mot ayant une terminaison de s, supprimer le s. 2) L algorithme Porter pour l Anglais est basé sur la mesure de séquences voyellesconsonnes. Cette mesure est appelée m: mesure m pour un «stem» est [C](VC)m[VC] où C est une séquence de consonnes et V est une séquence de voyelles [] = option, comme par exemple : m=0 (tree, by), m=1 (trouble, coats, trees, ivy), m=2 (troubles, private) Les règles de désuffixage et de normalisation (en Porter) sont divisées en 3 étapes et sont examinées en séquence : 10

11 Etape 1: sses ss ( caresses caress) ies i (ponies poni) s NULL (cats cat) Etape 2: En règle générale: if m>0 eed ee (agreed agree) if *v*ed NULL (plastered plaster but bled bled) Exemples: Y > I Happy > Happi ANT > NULL IRRITANT > IRRIT EMENT > NULL REMPLACEMENT > REMPLAC MENT > NULL JUSTEMENT > JUSTE Etape 3: ATIONAL > ATE TIONAL > TION RELATIONAL > RELATE CONDITIONAL > CONDITION 3) La Troncature. Il s agit de Tronquer les mots à X caractères Il s agit de Tronquer les mots à X caractères (tronquer plutôt les suffixes). Un exemple de troncature à 7 caractères est : économiquement : écomoni La principale difficulté est comment déterminer la valeur optimale de X? 2.3.1) Niveau léxical : Elle consiste à déterminer les regroupements structurels des mots au sein des phrases et les relations entre les mots ) Niveau sémantique : Ce niveau s intéresser au regroupement de termes synonymes, aux familles de termes, pour dresser un réseau des relations sémantiques ) Autres niveaux : o Indexation fondée sur le calcul statistique des occurrences, cad de la fréquence d'apparition de mots dans un texte. Tous les mots significatifs d'un texte sont relevés (les occurrences) et leur fréquence est calculée, selon un indice moyen de fréquence (par exemple 1 /1000). o Méthode permet les calculs de pondération, cad l'importance d'un mot dans un document déterminé et l'élimination de termes moins significatifs ) Fichier inverse Après analyse de documents d un corpus, on obtient un tableau : document x termes Utilisation en tableau direct «document -> terme» possible t1 t2 t3 tn 11

12 D1.. Dm Génération d un tableau inverse «terme -> document» (appelé fichier inverse) D1 D2 D3 Dm t1.. tn Avantage : rapidité lors du traitement de requête, car pas de traitement séquentiel des documents 2.3.5) Typologie des langages documentaires Un langage documentaire est un langage "pivot" destiné à décrire le contenu des documents et le contenu des questions (requêtes) des utilisateurs que ce soit en entrée (humain) qu'en sortie (machine) Langagge libre Langage contrôlé Langage langage de Langage Combinatoire classification naturel Thésaurus (description) Ontologie (classes, règles, relatons) a) Thésaurus : langage documentaire fondé sur une structuration hiérarchisée d un ou plusieurs domaines de la connaissance et dans lequel les notions sont représentées par des termes d une ou plusieurs langues naturelles et les relations entre notions par des signes conventionnel. b) Ontologie 12

13 Une ontologie est un ensemble structuré de concepts organisés dans un graphe où les relations peuvent être: Des relations sémantiques; Des relations de composition et d'héritage (au sens programmation objet). Une ontologie permet de définir des termes les uns par rapport aux autres, chaque terme étant la représentation textuelle d'un concept. La construction d'une ontologie à partir d'un texte consiste à: parcourir le texte à la recherche de termes récurrents ou définis par l'utilisateur, analyser la manière dont ces termes sont mis en relation dans le texte (par la grammaire, et par les concepts qu'ils recouvrent et dont une définition peut être trouvée dans un lexique fourni par l'utilisateur). Le résultat est une ontologie qui représente la connaissance globale que contient le corpus de texte dans le domaine d'application qu'il couvre ) Les pondérations La pondération consiste à répondre à la question si tous les termes ont la même importance? et comment attribuer un poids aux termes extraits? ) Loi de ZIPF La loi de Zipf est une loi empirique énoncée en 1949 par G.K Zipf [Zipf, 1949]. Selon Zipf, les mots dans les documents ne s organisent pas de manière aléatoire mais suivant une loi inversement proportionnelle à leur rang. Le rang d'un mot est sa position dans la liste décroissante des fréquences des mots du corpus. Ainsi, la fréquence du second mot le plus fréquent dans le corpus est la moitié de celle du premier, la fréquence du troisième mot le plus fréquent, son tiers, etc. Formellement, cette loi s'exprime par la probabilité d apparition du nième mot le plus fréquent dans une collection de n importe quelle langue est approximativement inversement proportionnelle à n (rang), soit : P (n) = C N / n On en déduit: fréquence * rang = Constante Fréquence rang des termes Les domaines concernés par la loi de ZIP sont nombreux. On peut citer: La répartition des pixels dans les images, Les populations dans les grandes villes Les pages web sur Internet, où la relation de popularité d'une page Web x nombre d'accès à une page par mois prend la même forme. 13

14 Dans le domaine de la recherche d'information, la loi de Zipf est utilisée pour déterminer les mots qui représentent au mieux le contenu d'un document. Pour cela, un autre concept est introduit, il s'agit de la conjecture de Luhn ) Conjecture de Luhn La conjecture de Luhn est basée sur la loi de Zipf. Elle mesure l Informativité d un document de la façon suivante : Les termes de rang faible (très fréquents) ne sont pas pertinents Les termes de rang élevés (très rares) ne sont pas pertinents Les descripteurs pertinents sont les termes de rang intermédiaire! fréquence informativité seuil maxi seuil mini rang A B C A : mots très fréquents, peu intéressants C : mots peu fréquents, peu intéressants B : mots intéressants Voici un algorithme simple pour extraire et sélectionner Extraire les mots du corpus Éliminer les mots-outils (anti-dictionnaire) Lemmatiser (en anglais, algorithme de Porter) ; raciniser (déclinaisons morphologiques, représentation uniforme : sing, masc sing, infinitif) Fixer un seuil haut et un seuil bas : on ne garde que les mots se situant entre les 2 seuils 3 LES MODELES III-1 Les modèles Requête Recherche d information (SRI) Document 14

15 Interprétation Bases de Indéxation Connaissances Représentation recherche ou Représentation des requêtes interrogation des contenus (langage de requêtes) Appariement (langage d indéxation) Recherche de l information Modèle de Fonction de Modèle de Requêtes correspondance documents (contenus) modèle de connaissance Le langage de description de documents (langage d indéxation), est basé sur un ensemble de termes T = { t1, t2,..., ti,...} et de connecteurs (au moins la conjonction). On appelle généralement «indexation», ou «description», la représentation d un document dans ce langage. Le langage de requêtes est aussi basé sur T, et comprend divers Connecteurs. Généralement on ne considère qu une seule requête générique notée q, mais si nécessaire, Q = { q1, q2,..., qi,...} représentera l ensemble des requêtes (qi est ainsi une liste d éléments de T ou une expression booléenne construite sur T). L algorithme d appariement permet de construire une relation entre requête et indexation. Il est utilisé pour construire une fonction de pertinence, R (appelée «ranking» en anglais) III-2 Les différents modèles MODELES MANUEL AUTOMATIQUE ADAPTATIF Booléen Vectoriel Probabilistes Booléen pondéré Latent semantic Indexed Réseau de neurones III-2-1 Le modèle booléen Le modèle booléen a été introduit en 1983 par Salton et McGill. Il s est imposé grâce à la simplicité et à la rapidité de sa mise en œuvre. L interface d interrogation de la plupart des moteurs de recherche (Google, Alta Vista) est basée sur les principes de ce modèle. Il est 15

16 composé d une liste de termes (mots-clés) pouvant être combinés à des opérateurs logiques ET, OU NON pour répondre au mieux à une requête d un utilisateur. a) Modèle de connaissance : Un document T est indexé par des termes t1, t2, t3.tn : T = {ti}, i appartient à [1,n] b) Modèle de document : Un document D : Une requête q : D=t1 ET t2 Et t3,. (t1 ET t2) OU (t5 ET t7). c) Fonction de correspondance : la fonction de correspondance est une implication logique de la logique des propositions. Un document (d) représenté par son ensemble de termes (ti), répond à une requête (q) exprimée comme une expression logique de termes, si l implication d q est valide. La correspondance C(d, q) est déterminée comme suit : C(d, ti) = 1 si ti Є. d ; 0 sinon C(d, q1 Λ q2) = 1 si C(d, q1) = 1 et C(d, q2) = 1 ; 0 sinon C(d, q1 V q2) = 1 si C(d, q1) = 1 ou C(d, q2) = 1 ; 0 sinon C(d, q) = 1 si C(d, q) = 0 ; 1 sinon Les termes t1 des documents sont identifiés et stockés en conservant les liaisons d appartenance à chaque texte. On désigne cet ensemble sous le nom de fichier (index) inversé. La recherche des documents dans lesquels figure un terme est ainsi fortement accélérée. L inconvénient majeur de ce modèle comme schématisé dans la Figure 2-4, est que les documents pertinents dont la représentation ne correspond qu approximativement à la requête ne sont pas sélectionnés, et que tous les termes ont la même importance. Pour remédier à ces inconvénients, SALTON a proposé le modèle booléen étendu qui se propose qui corriger les inconvénients du modèle booléen. III-2-2 Le modèle booléen pondéré Il s agit d une extension du modèle booléen en intégrant le principe des pondérations. Il tient compte de l importance des termes dans la représentation des documents et dans la requête, et ce, en affectant des poids à chaque terme du document et de la requête. a) Modèle de connaissances : T = {ti}, i Є [1,.. n], Les ti indexent les documents Un document (D) est représenté par : Une formule logique de la même manière que le modèle booléen) Une fonction W D : t Є [0,1], qui pour chaque terme de T donne le poids de ce terme dans D. Le poids vaut 0 pour un terme non présent dans le document. b) Fonction de correspondance 16

17 b-1) Méthode-1 : Détermination de la correspondance COR d un document D à une requête q notée COR(D, q) s évalue selon le cadre classique des ensembles flous proposé par Zadeh [Zadeh, 1965]. Dans la théorie des ensembles flous, quand un élément a un degré d'appartenance à un ensemble, cet ensemble est dit ensemble flou. On obtient les relations suivantes : COR(D, a Λ b) = Min [W D (a), W D (b) ] COR(D, a V b) = Max [W D (a), W D (b) ] COR(D, a) = 1 W D (a) Limitation : on ne tient pas compte dans la réponse de tous les termes de la requête. Il semble ne pas convenir parfaitement à un processus de recherche d'information pour la raison suivante : Soit la requête a et b, un document D j appartenant à l'ensemble flou relatif à a avec COR(D j,a)=0.9 et à l'ensemble flou relatif à b avec COR(D j,b)=0 sera considéré de la même manière qu'un document D i appartenant à l'ensemble flou relatif à a avec COR(D i,a)=0.9 et à l'ensemble flou relatif à b avec COR(D i,b)=0.9. b-2) Méthode-2 : Sim(D, a V b) = sqr((w D (a) 2 + W D (b) 2 )/2) Sim(D, a Λ b) = 1 - sqr(((1-w D (a)) 2 + (1-W D (b)) 2 )/2) Exemple : Booléen Booléen pondéré Documents A B A V B A Λ B A V B A Λ B D D /sqr(2) 1-1/sqr(2) D /sqr(2) 1-1/sqr(2) D III-2-3 Le modèle vectoriel Le modèle vectoriel introduit par [Salton 1975] représente chaque document, ainsi que la requête, par un vecteur et calcule un coefficient de similarité entre 17

18 chaque document et la requête (appelé Retrieval Status Value ou RSV) ; Ce coefficient de similarité correspond, par exemple, au cosinus des angles entre le vecteur de la requête et le vecteur d'un document, afin de trouver les documents dont le vecteur de représentation est le plus colinéaire avec le vecteur de la requête. D1 D2 Requête D3 il est donc possible de classer les documents par ordre de pertinence décroissante. Dans ce modèle, chaque mot du corpus représente une dimension de l espace et le codage des vecteurs par une fonction du nombre d occurrences d un mot dans le document. Les composantes des vecteurs, appelées termes dans la terminologie de la recherche d information, peuvent également être des paires de mots ou des phrases. Avec cette approche : seule la présence ou l absence de termes est porteuse d information. Aucune analyse linguistique n est utilisée, ni aucune notion de distances entre les mots : Les documents sont représentés en "sacs de mots". De nombreuses solutions ont été proposées dans la littérature pour coder les composantes des vecteurs, c est-à-dire pour attribuer un poids à chaque terme (cf. [Salton et Buckley, 1990]). Historiquement, le plus connu de ces codages s appelle tf.idf, et donne parfois son nom à l approche vectorielle ; ce codage signifie : term frequency * inverse document frequency. III Pondération TF.Idf Le terme Tf*Idf désigne un ensemble de pondérations et de sélections de termes. Tf=term frequency (importance du terme pour un document) Idf=Inverted document frequency (on mesure si le terme est discriminant). 18

19 Les termes importants dans un document doivent avoir un poids fort. Le facteur Tf (sac de mots, bag of words): Tenir compte de la fréquence d'un terme dans le document Plus un terme est fréquent dans un document plus il est important dans la description de ce document Le facteur IDF (Inverse Document Frequency) la fréquence du terme dans la collection : Tenir compte du nombre de documents contenant un terme donné un terme apparaissant dans tous les documents n est pas important Avec : Idf =Log(N/ni), où N est la taille de la collection, et ni le nombre de documents contenant le terme ti On déduit la formule classique suivante : Wij = freq(ti, dj) * log(taille corpus / docfreq(t)) Où bien : Wij = tfij * Log(taille_corpus / dfi) Où : Wij est le poids du terme t i dans le document Di. tfij est donnée dans la matrice précédente (fréquence du terme t i dans le document Di). taille_corpus = nombre de documents du corpus (collection). dfi = fréquence documentaire de ti, c'est-à-dire le nombre de documents contenant le terme i (Le document apparaît au moins une fois). Les Tfij doivent être normalisées en divisant chaque Tfij par le maximum des fréquences pour un même document. III Mesure de similarité Cette mesure correspond au cosinus de l'angle formé par les vecteurs dans l'espace multidimensionnel. D1 D2 Requête 19

20 D3 Le document D2 est le proche de la requête. AVG-SIM 0,406 III Distance Distance entre un document et une requête Sim (Q, D i ) = similitude entre la requête Q et le document D i d ij = poids du terme T j dans le document D i w qj = poids du terme T j dans la requête Q III-2-4 Le modèle probabiliste Le modèle probabiliste consiste à calculer la pertinence d'un document en fonction de pertinences connues pour d'autres documents. Il y a différentes approches de calcul de probabilité dans le domaine de la RI : 1. Approche par modèle classique : A partir d un document et d une requête on détermine la probabilité d avoir l évènement pertinent. 2. Approche par modèle par Réseau d inférences : A partir du contenu d un document, on détermine la probabilité pour que la requête soit vraie. 3. Approche par modèle par langage : déterminer la probabilité pour qu une requête soit générée à partir d un document. III Modèle classique 20

Le système SMART 1. Indexation

Le système SMART 1. Indexation Le système SMART Le système SMART (System for the Mechanical Analysis and Retrieval of Text) (aussi appelé Salton's Magic Automatic Retrieval Technique:-) est un système de RI expérimental. Il utilise

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Évaluer les liens entre codage et les données structurées (variables) Introduction au gestionnaire de rapport et au journal de commandes

Évaluer les liens entre codage et les données structurées (variables) Introduction au gestionnaire de rapport et au journal de commandes Trois approches en analyse de texte L'Analyse Qualitative L'analyse de Contenu Quantitative (par dictionnaires) Le forage de texte ("Text Mining") Introduction aux logiciels de Provalis Research QDA Miner

Plus en détail

Marie-Claude L Homme Université de Montréal

Marie-Claude L Homme Université de Montréal Évaluation de logiciels d extraction de terminologie : examen de quelques critères Plan Marie-Claude L Homme Université de Montréal Unités recherchées et problèmes de base Catégories de critères Critères

Plus en détail

DTD (Document Type Definition) - XML (extensible Markup Language)

DTD (Document Type Definition) - XML (extensible Markup Language) DTD (Document Type Definition) - XML (extensible Markup Language) Références : XML, Micro Application e-poche http://giles.chagnon.free.fr/cours/xml/base.html http://www.cgmatane.qc.ca/forgetj/formation/int4/xml.php

Plus en détail

Résumé DTD. A- Définir des éléments complexes ( = éléments possédant des éléments fils)

Résumé DTD. A- Définir des éléments complexes ( = éléments possédant des éléments fils) DTD, Document Type Definition 1-Utilité de la DTD La DTD permet la définition de la STRUCTURE d un type de documents. C est une forme de grammaire qui va servir à spécifier les noms des éléments et la

Plus en détail

II- Validation d'un document XML. Prof. M.D. RAHMANI Technologies XML Master IT 2013-2014 1

II- Validation d'un document XML. Prof. M.D. RAHMANI Technologies XML Master IT 2013-2014 1 II- Validation d'un document XML DTD (Document Type Definition) 1 Validation d'un document XML par une DTD Document XML valide Types de DTD (interne, externe) Déclarations d'éléments Déclaration d'attributs

Plus en détail

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel PLAN DE COURS «ANALYSE DE DONNEES TEXTUELLES» Trois approches pour l analyse de textes Analyse qualitative Analyse quantitative Fouille de textes Introduction au logiciel QDA Miner Introduction et gestion

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département

Plus en détail

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini.

Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. Chapitre 1: Introduction au calcul des probabilités, cas d un univers fini. 1 Introduction Des actions comme lancer un dé, tirer une carte d un jeu, observer la durée de vie d une ampoule électrique, etc...sont

Plus en détail

ANALYSE DES DONNÉES TEXTUELLES

ANALYSE DES DONNÉES TEXTUELLES Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux ANALYSE DES DONNÉES TEXTUELLES Traitement automatique des questions ouvertes Question ouverte Souhaitez-vous ajouter des

Plus en détail

Thèse de Doctorat en Informatique

Thèse de Doctorat en Informatique République Algérienne Démocratique et Populaire Ministère de l Enseignement Supérieur et de la Recherche Scientifique Université Mouloud Mammeri de Tizi-Ouzou Faculté de Génie Electrique et de l Informatique

Plus en détail

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole

Références. Compter les mots. Le langage comme donnée. Communication Langagière Ingénierie des langues et de la parole Communication Langagière Ingénierie des langues et de la parole 1. Introduction générale 2. Ingénierie des langues 2.1 Représentation et codage des textes 2.2 Théorie de l information et probabilités 2.3

Plus en détail

12.2.5. La Banque de données santé publique (BDSP)

12.2.5. La Banque de données santé publique (BDSP) 12. Approfondir ses connaissances autour d un sujet droit ou qu un accord avec l éditeur autorise les gestionnaires de la base à pointer vers le document original. Les bases de données bibliographiques

Plus en détail

DTD & XML Schema. Sébastien Laborie Sebastien.Laborie@iutbayonne.univ- pau.fr. Christian Sallaberry Christian.Sallaberry@univ- pau.

DTD & XML Schema. Sébastien Laborie Sebastien.Laborie@iutbayonne.univ- pau.fr. Christian Sallaberry Christian.Sallaberry@univ- pau. DTD & XML Schema Sébastien Laborie Sebastien.Laborie@iutbayonne.univ- pau.fr Christian Sallaberry Christian.Sallaberry@univ- pau.fr DTD Le rôle d une DTD (Document Type Definition) est de définir la structure

Plus en détail

http://www.bibliotheques.uqam.ca/ressources/doc_elec/bases.html ou accès direct à : http://webspirs.uqam.ca:8590

http://www.bibliotheques.uqam.ca/ressources/doc_elec/bases.html ou accès direct à : http://webspirs.uqam.ca:8590 RECHERCHE DANS LES BANQUES DE DONNÉES PRÉSENTATION GÉNÉRALE Les banques de données contiennent des résumés d articles, de chapitre de livres, de livres, de thèses et de rapports divers dans différents

Plus en détail

INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens

INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens Année académique 2009 2010 1 Introduction Ce projet est le premier d une série de quatre projets qui ont

Plus en détail

XML. Nicolas Singer. Maître de conférence, université Champollion

XML. Nicolas Singer. Maître de conférence, université Champollion XML Nicolas Singer Maître de conférence, université Champollion XML? Langage de description de documents électroniques : Pour stocker et échanger des documents Par extension, pour représenter tout type

Plus en détail

PROSOP : un système de gestion de bases de données prosopographiques

PROSOP : un système de gestion de bases de données prosopographiques PROSOP : un système de gestion de bases de données prosopographiques Introduction : Ce document présente l outil en développement PROSOP qui permet la gestion d'une base de donnée prosopographique de la

Plus en détail

Utiliser Access ou Excel pour gérer vos données

Utiliser Access ou Excel pour gérer vos données Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que

Plus en détail

Conventions communes aux profils UML

Conventions communes aux profils UML Conventions communes aux profils UML Auteur : Projet ACCORD (Assemblage de composants par contrats en environnement ouvert et réparti)* Référence : Livrable 2.1 Date : Juin 2002 * : Les partenaires du

Plus en détail

Système de Gestion de Base de Données (SGBD) A Introduction

Système de Gestion de Base de Données (SGBD) A Introduction A Introduction - Qu est-ce qu on entend généralement par BASE DE DONNEES? - Petit historique - Vers la structuration des données - Quelques exemple de bases connues (Sécu Sociale, Fichiers d inscription

Plus en détail

Initiation à la recherche documentaire

Initiation à la recherche documentaire Initiation à la recherche documentaire 1 Objectifs Cette séance est destinée à reprendre les principes de la démarche documentaire pour construire un parcours pertinent en terme de méthodologie et de résultats

Plus en détail

XML (extensible Markup Language)

XML (extensible Markup Language) XML (extensible Markup Language) Références : XML, Micro Application e-poche http://giles.chagnon.free.fr/cours/xml/base.html http://www.cgmatane.qc.ca/forgetj/formation/int4/xml.php 1. Qu est-ce que XML?

Plus en détail

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

Aide : publication de décisions VS

Aide : publication de décisions VS Aide : publication de décisions VS Table des Matières Introduction... 2 Recherche (Recherche dans le texte intégral)... 2 Filtres... 3 Collection d arrêts... 4 Date de la décision et date de publication...

Plus en détail

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille La Veille multilingue : outils et ressources pour les traducteurs Jean-Paul PINTE Institut Catholique de Lille Premier Colloque International sur la veille multilingue Genève les 28 et 29 mai 2008 Nous

Plus en détail

Indexation et interrogation de photos de presse décrites en MPEG-7

Indexation et interrogation de photos de presse décrites en MPEG-7 Indexation et interrogation de photos de presse décrites en MPEG-7 Emmanuel Bruno Jacques Le Maitre Elisabeth Murisasco Laboratoire SIS, Equipe Informatique Université de Toulon et du Var Bâtiment R, BP

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Construction et enrichissement automatique d ontologie à partir de ressources externes

Construction et enrichissement automatique d ontologie à partir de ressources externes Construction et enrichissement automatique d ontologie à partir de ressources externes JFO 2009 Jeudi 3 décembre 2009 E. Kergosien (LIUPPA, Pau) M. Kamel (IRIT- UPS, Toulouse) M. Sallabery (LIUPPA, Pau)

Plus en détail

REPRESENTATION DES CONNAISSANCES

REPRESENTATION DES CONNAISSANCES REPRESENTATION DES CONNAISSANCES Cours préparé pour l Université de Stendhal, Grenoble (France) Cédric Lopez clopez@objetdirect.com Frédérique Segond fsegond@objetdirect.com www.viseo.net 1 RAPPELS (1/3)

Plus en détail

Reformulation interactive de requêtes en RI sur le Web. Présentation du projet de recherche DIC-9410, UQAM Emmanuel Chieze 15/05/2003

Reformulation interactive de requêtes en RI sur le Web. Présentation du projet de recherche DIC-9410, UQAM Emmanuel Chieze 15/05/2003 Reformulation interactive de requêtes en RI sur le Web Présentation du projet de recherche DIC-9410, UQAM Emmanuel Chieze 15/05/2003 1 Plan de la présentation Problématique du RI sur le Web Approches existantes

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

BACCALAURÉAT PROFESSIONNEL ÉPREUVE DE MATHEMATIQUES. EXEMPLE DE SUJET n 1

BACCALAURÉAT PROFESSIONNEL ÉPREUVE DE MATHEMATIQUES. EXEMPLE DE SUJET n 1 Exemple de sujet n 1 Page 1/7 BACCALAURÉAT PROFESSIONNEL ÉPREUVE DE MATHEMATIQUES EXEMPLE DE SUJET n 1 Ce document comprend : Pour l examinateur : - une fiche descriptive du sujet page 2/7 - une fiche

Plus en détail

LES MOTEURS DE RECHERCHE SUR INTERNET

LES MOTEURS DE RECHERCHE SUR INTERNET La recherche efficace est autant une question de méthodologie que de maîtrise de «trucs et astuces». Internet n a pas été conçu au départ comme un outil de recherche d information, mais comme un outil

Plus en détail

Présentation de la plateforme d analyse linguistique médiévale

Présentation de la plateforme d analyse linguistique médiévale Présentation de la plateforme d analyse linguistique médiévale 1. Introduction Tout au long de ce document, notre projet sera présenté à travers la méthodologie suivie pour développer la plateforme d analyse

Plus en détail

Support du cours de Probabilités IUT d Orléans, Département d informatique

Support du cours de Probabilités IUT d Orléans, Département d informatique Support du cours de Probabilités IUT d Orléans, Département d informatique Pierre Andreoletti IUT d Orléans Laboratoire MAPMO (Bât. de Mathématiques UFR Sciences) - Bureau 126 email: pierre.andreoletti@univ-orleans.fr

Plus en détail

Recherche bibliographique

Recherche bibliographique Séminaire «Maîtrise de l information scientifique» Recherche bibliographique Dernière mise à jour : 07/01/2015 - Auteur : Frédérique Flamerie Recherche bibliographique : méthode & outils La recherche bibliographique

Plus en détail

XML-Bases. www.fenetresurtoile.com XHTML. Les bases. Jean-François Ramiara. INP-ENM 04/10/2012 Toulouse. Copyright J.F. Ramiara Tous droits réservés

XML-Bases. www.fenetresurtoile.com XHTML. Les bases. Jean-François Ramiara. INP-ENM 04/10/2012 Toulouse. Copyright J.F. Ramiara Tous droits réservés XHTML Les bases Jean-François Ramiara INP-ENM 04/10/2012 Toulouse 1 Généralités Jean-François Ramiara XML 2 jours Initiation à XML Contenu Cours Exercices Support PDF Horaires Tour de table 2 Sommaire

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Phase 4 : Modélisation non-supervisée - 5 : Règles d association

Plus en détail

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Journée organisée par le CRFCB Midi-Pyrénées / Languedoc-Roussillon

Plus en détail

Principes généraux de codage entropique d'une source. Cours : Compression d'images Master II: IASIG Dr. Mvogo Ngono Joseph

Principes généraux de codage entropique d'une source. Cours : Compression d'images Master II: IASIG Dr. Mvogo Ngono Joseph Principes généraux de codage entropique d'une source Cours : Compression d'images Master II: IASIG Dr. Mvogo Ngono Joseph Table des matières Objectifs 5 Introduction 7 I - Entropie d'une source 9 II -

Plus en détail

Résumé XML XML. XPATH SVG Schema XSL. VoiceXML. Figure 1 : évolution des langages à balises

Résumé XML XML. XPATH SVG Schema XSL. VoiceXML. Figure 1 : évolution des langages à balises XML, extensible Markup Language 1-Origine de XML On trouve l origine des langages à balises dans la nécessité d échanger des informations dont la structure est trop complexe pour être simplement mise sous

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

Université Laval Faculté des sciences et de génie Département d'informatique et de génie logiciel IFT-3101. Travail pratique #2

Université Laval Faculté des sciences et de génie Département d'informatique et de génie logiciel IFT-3101. Travail pratique #2 Université Laval Faculté des sciences et de génie Département d'informatique et de génie logiciel IFT-3101 Danny Dubé Hiver 2014 Version : 11 avril Questions Travail pratique #2 Traduction orientée-syntaxe

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition

SEO Camp'us -4 et 5 février 2009. Directeur du pôle métiers Aposition L'apport de la sémantique et de la linguistique statistique pour le SEO SEO Camp'us -4 et 5 février 2009 Philippe YONNET Directeur du pôle métiers Aposition Président de l association SEOCamp Comment classer

Plus en détail

INRS Biblio est la base de données biblio-

INRS Biblio est la base de données biblio- dmt assistance TP 2 La base de données INRS Biblio Prévention des risques professionnels Lors d une recherche documentaire, l objectif est de pouvoir sélectionner rapidement et facilement les documents

Plus en détail

Activité 1 : échantillonnage

Activité 1 : échantillonnage Activité échantillonnage, intervalle de fluctuation, prise de décision (à partir d un même thème) Les trois activités qui suivent s inspirent du document «ressources pour la classe de première générale

Plus en détail

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques.

L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques. L'APPROCHE EXPERIMENTALE EN RECHERCHE: introduction aux statistiques 1 BUTS DU COURS : se familiariser avec le vocabulaire statistique o variable dépendante, variable indépendante o statistique descriptive,

Plus en détail

Bienvenue dans le monde de la construction logicielle

Bienvenue dans le monde de la construction logicielle Chapitre 1 Bienvenue dans le monde de la construction logicielle Sommaire : 1.1 La construction logicielle, qu est-ce que c est? : page 3 1.2 Pourquoi la construction logicielle est-elle importante? :

Plus en détail

Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce

Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce Année 2007-2008 Projet informatique «Voyageur de commerce» Résolution approchée par algorithme génétique du problème du voyageur de commerce B. Monsuez Projet informatique «Voyageur de commerce» Résolution

Plus en détail

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2 éducalgo Manuel d utilisation 26 juin 2011 Table des matières 1 Tâche à effectuer : écrire un algorithme 2 2 Comment écrire un algorithme? 3 2.1 Avec quoi écrit-on? Avec les boutons d écriture........

Plus en détail

Le Thesaurus Linguae Graecae est un centre de recherche de l Université de la Californie, Irvine. Le projet a débuté en 1972.

Le Thesaurus Linguae Graecae est un centre de recherche de l Université de la Californie, Irvine. Le projet a débuté en 1972. Description Le Thesaurus Linguae Graecae est une base de données textuelles qui présente, dans la langue originale, les œuvres des auteurs grecs anciens dans l ensemble des disciplines. Elle est disponible

Plus en détail

La théorie des mouvements dans les formules Jean-François Nicaud Version initiale de Février 2013 jeanfrancois.nicaud@laposte.net

La théorie des mouvements dans les formules Jean-François Nicaud Version initiale de Février 2013 jeanfrancois.nicaud@laposte.net La théorie des mouvements dans les formules Jean-François Nicaud Version initiale de Février 2013 jeanfrancois.nicaud@laposte.net Article rédigé avec epsilonwriter puis copié dans Word La théorie des mouvements

Plus en détail

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie TRAITEMENT AUTOMATIQUE DES LANGUES Licence d'informatique 2ème Année Semestre 1 Département d'informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/tal.html Plan Définition

Plus en détail

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006 Les outils de veille sur Internet Panorama, évolutions, nouveautés Myriel Brouland SCIP France -10 Mai 2006 1 La veille en France: une situation paradoxale Une situation contrastée Une prise de conscience

Plus en détail

Programmation C++ (débutant)/les tableaux statiques

Programmation C++ (débutant)/les tableaux statiques Programmation C++ (débutant)/les tableaux statiques 1 Programmation C++ (débutant)/les tableaux statiques Le cours du chapitre 6 : les tableaux statiques Les tableaux Une variable entière de type int ne

Plus en détail

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique Des traitements aux ressources : le rôle d une architecture Frederik Cailliau Villetaneuse, le 9 décembre 2010 Sous la direction d Adeline Nazarenko 1. 2. 3. 4. 5. 6. 2 Sinequa Cifre à Sinequa Recherche

Plus en détail

Personnaliser et adapter SPIP Développeur SPIP

Personnaliser et adapter SPIP Développeur SPIP Personnaliser et adapter SPIP Développeur SPIP En Théorie Le fonctionnement de SPIP Qu est ce que SPIP? SPIP (Système de Publication pour l Internet Partagé) est un logiciel libre destiné à la production

Plus en détail

Utilisation du logiciel OpMat Ce logiciel effectue des opérations élémentaires sur les lignes d une matrice avec des entrées rationnelles

Utilisation du logiciel OpMat Ce logiciel effectue des opérations élémentaires sur les lignes d une matrice avec des entrées rationnelles Utilisation du logiciel OpMat Ce logiciel effectue des opérations élémentaires sur les lignes d une matrice avec des entrées rationnelles Michel Bouchard, enseignant retraité, Département de mathématiques,

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

INGÉNIERIE DES CONNAISSANCES CONSTRUCTION D ONTOLOGIES À PARTIR DE TEXTES (1)

INGÉNIERIE DES CONNAISSANCES CONSTRUCTION D ONTOLOGIES À PARTIR DE TEXTES (1) 09.02.2002 INGÉNIERIE DES CONNAISSANCES CONSTRUCTION D ONTOLOGIES À PARTIR DE TEXTES (1) Outils de traitement automatique des langues pour la construction d ontologies à partir de textes Didier BOURIGAULT

Plus en détail

I. Bases de données. Exemples classiques d'applications BD. Besoins de description

I. Bases de données. Exemples classiques d'applications BD. Besoins de description I. Bases de données Exemples classiques d'applications BD Les besoins Qu est ce qu un SGBD, une BD Architecture d un SGBD Cycle de vie Plan du cours Gestion des personnels, étudiants, cours, inscriptions,...

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

Gestion multi-stocks

Gestion multi-stocks Gestion multi-stocks Dans l architecture initiale du logiciel IDH-STOCK, 11 champs obligatoires sont constitués. Ces champs ne peuvent être supprimés. Ils constituent l ossature de base de la base de données

Plus en détail

Le chiffre est le signe, le nombre est la valeur.

Le chiffre est le signe, le nombre est la valeur. Extrait de cours de maths de 6e Chapitre 1 : Les nombres et les opérations I) Chiffre et nombre 1.1 La numération décimale En mathématique, un chiffre est un signe utilisé pour l'écriture des nombres.

Plus en détail

Data Mining : la classification non supervisée

Data Mining : la classification non supervisée Data Mining : la classification non supervisée Clustering : une affaire de distance. Etude préliminaire. Valeurs discrètes. Soient les deux individus suivants correspondant à des séquences ADN : X = AGGGTGGC

Plus en détail

Ouvrir ce texte avec Word ou open office- Enregistrez-le dans un format portable sous le nom DM_votreNom

Ouvrir ce texte avec Word ou open office- Enregistrez-le dans un format portable sous le nom DM_votreNom STAGE DOCTORAL INFORMATIQUE POUR LA RECHERCHE Objectif général : BUREAUTIQUE TRAITEMENT DE TEXTE Il s agit de mettre en forme un document libre de droit (le discours de la méthode), de procéder à un certain

Plus en détail

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD

IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Université de Perpignan - IUT de Carcassonne Vivien ROSSI Année 2006/2007 IUT STID, 1 ère année Découverte de logiciels statistiques Prise en main du logiciel SPAD Ce document est tiré du site : http ://www.stat.ucl.ac.be/ispersonnel/lecoutre/stats/spad/

Plus en détail

PRINCIPES DIRECTEURS PERMETTANT DE DÉTERMINER L ENDROIT OÙ DOIVENT ÊTRE CLASSÉS LES DOCUMENTS DE BREVET DANS LA CIB

PRINCIPES DIRECTEURS PERMETTANT DE DÉTERMINER L ENDROIT OÙ DOIVENT ÊTRE CLASSÉS LES DOCUMENTS DE BREVET DANS LA CIB PRINCIPES DIRECTEURS PERMETTANT DE DÉTERMINER L ENDROIT OÙ DOIVENT ÊTRE CLASSÉS LES DOCUMENTS DE BREVET DANS LA CIB adoptés par le Comité d experts de l Union de l IPC à sa quarante-deuxième session et

Plus en détail

Bases de Données Avancées

Bases de Données Avancées Bases de Données Avancées Enseignant / chargé de TD : Dario COLAZZO www.lri.fr/~colazzo Chargée de TP : Jesús CAMACHO-RODRIGUEZ www.lri.fr/~camacho Plan Tuning d index Concurrence Reprise sur panne Données

Plus en détail

Discrétisation et génération de hiérarchies de concepts

Discrétisation et génération de hiérarchies de concepts Prétraitement des données 1 Pourquoi prétraiter les données? Nettoyage des données Intégration et transformation Réduction des données Discrétisation et génération de hiérarchies de g concepts Pourquoi

Plus en détail

L enseignement de l algorithmique au Lycée

L enseignement de l algorithmique au Lycée L enseignement de l algorithmique au Lycée Sisteron 12 novembre 2009 Fernand Didier didier@irem.univ-mrs.fr Approche naïve C est une méthode, une façon systématique de procéder, pour faire quelque chose

Plus en détail

Le guide du référencement Avec WebGazelle CMS 2.0

Le guide du référencement Avec WebGazelle CMS 2.0 Fiche Outil : Référencement Avec WebGazelle CMS 2.0 Le guide du référencement Avec WebGazelle CMS 2.0 Le guide du référencement avec WebGazelle CMS 2.0 1/10 SOMMAIRE 1 PRESENTATION GENERALE... 3 2 LES

Plus en détail

Découverte de Règles Associatives Hiérarchiques entre termes. Sandra BSIRI Hamza Mahdi ZARG AYOUNA Chiraz L.Chérif Sadok BENYAHIA

Découverte de Règles Associatives Hiérarchiques entre termes. Sandra BSIRI Hamza Mahdi ZARG AYOUNA Chiraz L.Chérif Sadok BENYAHIA Découverte de Règles Associatives Hiérarchiques entre termes Sandra BSIRI Hamza Mahdi ZARG AYOUNA Chiraz L.Chérif Sadok BENYAHIA 1 Plan Problématique et État de l art Nouvelle approche Approche Conceptuelle

Plus en détail

Partie 4 Créer des parcours pédagogiques

Partie 4 Créer des parcours pédagogiques Partie 4 Créer des parcours pédagogiques Un parcours pédagogique est une séquence d'apprentissage découpée en sections contenant ellesmêmes des activités ou objets d apprentissage. Il peut être organisé

Plus en détail

Cours de spécialité mathématiques en Terminale ES

Cours de spécialité mathématiques en Terminale ES Cours de spécialité mathématiques en Terminale ES O. Lader 2014/2015 Lycée Jean Vilar Spé math terminale ES 2014/2015 1 / 51 Systèmes linéaires Deux exemples de systèmes linéaires à deux équations et deux

Plus en détail

Langage C et aléa, séance 4

Langage C et aléa, séance 4 Langage C et aléa, séance 4 École des Mines de Nancy, séminaire d option Ingénierie Mathématique Frédéric Sur http://www.loria.fr/ sur/enseignement/courscalea/ 1 La bibliothèque GMP Nous allons utiliser

Plus en détail

CRÉER UN COURS EN LIGNE

CRÉER UN COURS EN LIGNE Anne DELABY CRÉER UN COURS EN LIGNE Deuxième édition, 2006, 2008 ISBN : 978-2-212-54153-3 2 Que recouvre le concept d interactivité? Dans une perspective de cours en ligne, une activité interactive est

Plus en détail

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs.

Préparation à l agrégation 2012/2013. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Mots clés : Graphes. Vecteur propre ; matrices stochastiques ; matrices à coefficients positifs. Le jury n exige pas une compréhension exhaustive du texte. Vous êtes laissé(e) libre d organiser votre discussion

Plus en détail

COMMENT CORRIGER UN TRAVAIL

COMMENT CORRIGER UN TRAVAIL COMMENT CORRIGER UN TRAVAIL La méthode de correction expliquée ici s applique à la correction des erreurs de français signalées dans un texte. L étudiant, à travers la correction de son travail, doit être

Plus en détail

La Clé informatique. Formation Access XP Aide-mémoire

La Clé informatique. Formation Access XP Aide-mémoire La Clé informatique Formation Access XP Aide-mémoire Septembre 2003 Définitions de termes Base de données : Se compare à un énorme classeur ayant plusieurs tiroirs où chacun d eux contient des informations

Plus en détail

Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD

Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD Manipulation des données textuelles utilisation des outils WEKA/JAVA pour le projet AFD Vincent Guigue UPMC - LIP6 Vincent Guigue Preprocessing & JAVA 1/24 Traitements pour la classification de textes

Plus en détail

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions

Cours d introduction à l informatique. Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Cours d introduction à l informatique Partie 2 : Comment écrire un algorithme? Qu est-ce qu une variable? Expressions et instructions Qu est-ce qu un Une recette de cuisine algorithme? Protocole expérimental

Plus en détail

Traitement automatique des messages courts par des approches de Fouille de Textes

Traitement automatique des messages courts par des approches de Fouille de Textes Traitement automatique des messages courts par des approches de Fouille de Textes Mathieu ROCHE Equipe TEXTE LIRMM, CNRS, Université Montpellier 2 1 Séminaire Sud4Science 28 septembre 2011 1. Introduction

Plus en détail

Etude de la langue Situations courtes au Cycle 2 et mise en lien avec les compétences des 3 cycles

Etude de la langue Situations courtes au Cycle 2 et mise en lien avec les compétences des 3 cycles Etude de la langue Situations courtes au Cycle 2 et mise en lien avec les compétences des 3 cycles NB : Pour chaque niveau, les connaissances et compétences acquises dans la classe antérieure sont à consolider.

Plus en détail

Chapitre 2 Catégorisation de textes et apprentissage numérique : état de l'art

Chapitre 2 Catégorisation de textes et apprentissage numérique : état de l'art Chapitre 2 : Catégorisation de textes et apprentissage numérique : état de l'art 11 Chapitre 2 Catégorisation de textes et apprentissage numérique : état de l'art Afin de mettre l'apport proposé dans ce

Plus en détail

Introduction au langage SQL

Introduction au langage SQL Introduction au langage SQL Les bases de données relationnelles Le langage SQL est un langage universel destiné à travailler sur des bases de données relationnelles. Nous considérerons ici qu'une base

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Les typologies d information que le moteur est en mesure de rechercher sont :

Les typologies d information que le moteur est en mesure de rechercher sont : AIDE SUR LA BIBLIOTHEQUE VIRTUELLE Le système de recherche de la bibliothèque virtuelle permet l accès rapide aux informations qui intéressent les étudiants et qui sont disponibles dans le cyberespace

Plus en détail

Résumé du document «Programmes des classes préparatoires aux Grandes Écoles ; Discipline : Informatique ; Première et seconde années - 2013»

Résumé du document «Programmes des classes préparatoires aux Grandes Écoles ; Discipline : Informatique ; Première et seconde années - 2013» Résumé du document «Programmes des classes préparatoires aux Grandes Écoles ; Discipline : Informatique ; Première et seconde années - 2013» I Objectifs Niveau fondamental : «on se fixe pour objectif la

Plus en détail

XML, DTD. Dan VODISLAV. Université de Cergy-Pontoise. Licence Informatique L3. Plan

XML, DTD. Dan VODISLAV. Université de Cergy-Pontoise. Licence Informatique L3. Plan XML, DTD Dan VODISLAV Université de Cergy-Pontoise Licence Informatique L3 Plan XML: pourquoi et comment Principes et caractéristiques de base Comparaison avec HTML et les BD relationnelles Le format XML

Plus en détail

Algorithmique et Structures de Données

Algorithmique et Structures de Données 1.1 Algorithmique et Structures de Données Jean-Charles Régin Licence Informatique 2ème année 1.2 Itérations Jean-Charles Régin Licence Informatique 2ème année Itération : définition 3 En informatique,

Plus en détail

LA RECHERCHE DOCUMENTAIRE

LA RECHERCHE DOCUMENTAIRE LA RECHERCHE DOCUMENTAIRE Introduction I. Les étapes de la recherche d'information II. Méthodologie spécifique 2.1 Bibliothèque 2.2 Internet Conclusion INTRODUCTION Lorsque on débute une réflexion sur

Plus en détail

Systèmes d information et bases de données (niveau 1)

Systèmes d information et bases de données (niveau 1) Systèmes d information et bases de données (niveau 1) Cours N 1 Violaine Prince Plan du cours 1. Bibliographie 2. Introduction aux bases de données 3. Les modèles 1. Hiérarchique 2. Réseau 3. Relationnel

Plus en détail

XML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

XML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million XML, PMML, SOAP Rapport EPITA SCIA Promo 2004 16 janvier 2003 Julien Lemoine Alexandre Thibault Nicolas Wiest-Million i TABLE DES MATIÈRES Table des matières 1 XML 1 1.1 Présentation de XML.................................

Plus en détail

Présentation du langage et premières fonctions

Présentation du langage et premières fonctions 1 Présentation de l interface logicielle Si les langages de haut niveau sont nombreux, nous allons travaillé cette année avec le langage Python, un langage de programmation très en vue sur internet en

Plus en détail