UNIVERSITÉ DU QUÉBEC À MONTRÉAL MODÉLISATION CONNEXIONNISTE DU REPÉRAGE DE L'INFORMATION

Documents pareils

Apprentissage Automatique

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Introduction au datamining

Introduction au Data-Mining

Laboratoire 4 Développement d un système intelligent

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

4.2 Unités d enseignement du M1

L apprentissage automatique

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Introduction au Data-Mining

La classification automatique de données quantitatives

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Les apports de l informatique. Aux autres disciplines

Introduction à la méthodologie de la recherche

Quels outils pour prévoir?

Système immunitaire artificiel

Entrepôt de données 1. Introduction

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Classification Automatique de messages : une approche hybride

AXES DE RECHERCHE - DOMAINE D'INTERET MAJEUR LOGICIELS ET SYSTEMES COMPLEXES

sentée e et soutenue publiquement pour le Doctorat de l Universitl

ECOLE NATIONALE SUPERIEURE DE COGNITIQUE. Paul Bui- Quang & Joachim Yerusalmi 03/01/2011

Programmes des classes préparatoires aux Grandes Ecoles

Raisonnement probabiliste

données en connaissance et en actions?

Intégration de la dimension sémantique dans les réseaux sociaux

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Parcours en deuxième année

TABLE DES MATIERES. C Exercices complémentaires 42

INF6304 Interfaces Intelligentes

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Pourquoi l apprentissage?

Analyse dialectométrique des parlers berbères de Kabylie

Rapport d'analyse des besoins

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

Problématique / Problématiser / Problématisation / Problème

Le Guide Pratique des Processus Métiers

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Modélisation aléatoire en fiabilité des logiciels

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Plates-formes de téléformation et modèles pédagogiques

Coup de Projecteur sur les Réseaux de Neurones

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS

COCoFil2 : Un nouveau système de filtrage collaboratif basé sur le modèle des espaces de communautés

Recherche bibliographique

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Projet de programme pour l enseignement d exploration de la classe de 2 nde : Informatique et création numérique

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Modélisation multi-agents - Agents réactifs

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Initiation à la recherche documentaire

CAHIER DES CLAUSES TECHNIQUES PARTICULIÈRES (CCTP) MISE EN PLACE ET MAINTENANCE D UN MOTEUR DE RECHERCHE

Enjeux mathématiques et Statistiques du Big Data

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Bases de données documentaires et distribuées Cours NFE04

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Filtrage stochastique non linéaire par la théorie de représentation des martingales

LE PLAN D'AMÉLIORATION DE LA FONCTION MARKETING

Sur un ordinateur exécutant Windows 2000 Server Ayant une adresse IP statique

Cliquez pour du modifier titre le style

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Sujet de thèse CIFRE RESULIS / LGI2P

Évaluation et implémentation des langages

Production des Services d Assurance non-vie selon le SCN 2008

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Qu'est-ce que le BPM?

LECTURE CRITIQUE. Accompagner les enseignants et formateurs dans la conception d une formation en ligne

Projet de Traitement du Signal Segmentation d images SAR

TSTI 2D CH X : Exemples de lois à densité 1

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Item 169 : Évaluation thérapeutique et niveau de preuve

SOCLE COMMUN: LA CULTURE SCIENTIFIQUE ET TECHNOLOGIQUE. alain salvadori IA IPR Sciences de la vie et de la Terre ALAIN SALVADORI IA-IPR SVT

Recherche documentaire et autoformation. Lecture critique d un article médical. Recommandations pour la pratique. Les maladies orphelines

UDSG CLASSIFICATION DOSSIER DOCUMENTAIRE

PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS

L ETUDE DE GESTION et LES PRATIQUES COLLABORATIVES

IFT2255 : Génie logiciel

ECTS CM TD TP. 1er semestre (S3)

MONIWEB Analyse de l image sur le Web 2.0

Mesure agnostique de la qualité des images.

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

ANALYSE DU RISQUE DE CRÉDIT

WHITE PAPER Une revue de solution par Talend & Infosense

Master Informatique Aix-Marseille Université

Direction des bibliothèques. Sondage Ithaka S+R. Questionnaire français Université de Montréal

Instructions relatives à la soumission d une question sur le sujet d étude

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES

S8 - INFORMATIQUE COMMERCIALE

Transcription:

UNIVERSITÉ DU QUÉBEC À MONTRÉAL MODÉLISATION CONNEXIONNISTE DU REPÉRAGE DE L'INFORMATION THÈSE PRÉSENTÉE COMME EXIGENCE PARTIELLE DU DOCTORAT EN INFORMATIQUE COGNITIVE PAR GUY DESJARDINS AOÛT 2006

TABLE DES MATIÈRES LISTE DES FIGURES...vi LISTE DES TABLEAUX...ix RÉSUMÉ...xi DÉDICACE... xiv REMERCIEMENTS...xv INTRODUCTION...1 CHAPITRE I MODÈLES POUR LE REPÉRAGE DE L INFORMATION...9 1. Les modèles probabilistes...11 1.1 Bayésien naïf...12 1.2 Bayésien classique...13 2. Les réseaux à inférence...14 2.1 Réseau à inférence...15 2.2 Réseau de croyances...18 3. Les modèles logiques...19 3.1 Booléen classique...20 3.2 Booléen flou...20 3.3 Booléen étendu...22 3.4 Ensembles fréquents...25 3.5 Ensembles approximatifs...27 4. Les modèles vectoriels...30 4.1 Vectoriel classique...30 4.2 Vectoriel généralisé...32 4.3 Index sématique latent...34 5. Les réseaux de neurones artificiels...37 5.1 RNA - généralités...38 5.2 Réseau BAM...43 5.3 Réseau de Kohonen...45 5.4 Réseau de Hopfield...47 5.5 Réseau MLP...49 6. Les autres paradigmes...50 6.1 Rétroaction de pertinence...50 6.2 Recuit simulé...52 6.3 Induction de règles...54 6.4 Théorie du chaos...55 6.5 Algorithmes génétiques...56 6.6 Colonies de fourmis artificielles...61

Thèse de doctorat Table des matières iii 6.7 Systèmes immunitaires artificiels...63 7. Les approches hybrides...66 7.1 Géno-probabiliste...67 7.2 Géno-rétroactif...69 7.3 Géno-flou...70 7.4 Neuro-LSI...71 7.5 LSI local - TDA...72 7.6 LSI Normalisé...73 7.7 Neuro-génétique...73 7.8 Réseau de croyances - hyperliens...74 7.9 Neuro-flou...76 7.10 Colonie de fourmis artificielles K-means...77 7.11 Système immunitaire artificiel flou...78 7.12 Trois RNAs de Hopfield en auto-association...79 CHAPITRE II JUSTIFICATION DES MODÈLES RETENUS...82 1. Terminologie...82 2. Modèles booléens...85 3. Modèles ensemblistes...85 4. Modèles vectoriels...86 5. Algorithme génétique...87 6. Réseaux de neurones artificiels...88 7. Modèles non retenus...90 CHAPITRE III UNITÉS DE L INFORMATION...92 CHAPITRE IV IMPLÉMENTATION DES MODÈLES...99 1. Modèle vectoriel classique...99 2. Modèle vectoriel généralisé...99 3. Modèle booléen étendu... 101 4. Modèle des ensembles fréquents... 104 5. Modèle des ensembles approximatifs... 107 6. Modèle de l'index sémantique latent... 111 7. Algorithme génétique...117 8. RNA auto-organisateur... 123 9. RNA auto-associatif...129

Thèse de doctorat Table des matières iv CHAPITRE V MÉTHODOLOGIE... 134 1. Standardisation des modèles... 134 2. Source des données de test... 135 3. Mesures d évaluation...141 4. Procédure d évaluation... 145 5. Environnement... 148 CHAPITRE VI RÉSULTATS DES ESSAIS...151 1. Modèle témoin : vectoriel classique (VC)...151 2. Modèle vectoriel généralisé (VG)... 156 3. Modèle booléen étendu (BX)... 160 4. Ensembles fréquents (EF)... 167 5. Ensembles approximatifs (EA)... 175 6. Index sémantique latent (ISL)... 181 7. Algorithme génétique (AG)... 186 8. RNA auto-organisateur (RAO)... 194 9. RNA auto-associatif (RAA)... 201 10. Résumé... 206 CHAPITRE VII COMPARAISON DES MODÈLES... 208 1. Résultats... 208 2. Comparaison des résultats avec la littérature...237 3. Performances... 240 4. Corrélation des termes...255 5. Compression dimensionnelle et extensibilité...259 6. Forces et faiblesses...266 7. Architecture cognitive...271 8. Résumé... 282 CONCLUSION... 285 BIBLIOGRAPHIE... 294 INDEX DES RÉFÉRENCES PAR SUJET... 309 APPENDICES...i

Thèse de doctorat Table des matières v

LISTE DES FIGURES Figure 1 Processus d appariement requêtes-documents...2 Figure 2 Taxonomie des modèles de repérage de l information (source : [Ba99])...11 Figure 3 Modèle générique d un réseau à inférence (source : [Tu91])...16 Figure 4 Modèle générique d un réseau de croyances (source : [Ri96])...18 Figure 5 Distance euclidienne pour une conjonction (a) et une disjonction (b) (source : [Sa83a])...23 n 2 Figure 6 Matrices des minterms et des composantes orthogonales de R (source : [Wo86a])...33 Figure 7 Matrices des relations termes-documents...35 Figure 8 Réduction informationnelle par l algorithme SVD...36 Figure 9 Topologie générale d un RNA...40 Figure 10 - Topologie du RNA BAM...44 Figure 11 - Topologie du RNA auto-organisateur...45 Figure 12 - Topologie du RNA auto-associatif...48 Figure 13 - Topologie du perceptron multicouches (MLP)...49 Figure 14 Cycle génétique...58 Figure 15 Opérateur de croisement...58 Figure 16 Cycle de vie d un détecteur...64 Figure 17 Types d hybridation...67 Figure 18 Architecture de GANNET [Ch95b]...74 Figure 19 Réseau de croyances étendu (source : [Si00])...75 Figure 20 Centre de germination du système immunitaire...80 Figure 21 Trois RNAs de Hopfield en auto-association [Pr02]...81 Figure 22 Nouveau modèle de RNA auto-organisateur...124 Figure 23 Conversion des documents en concepts...127 Figure 24 - Topologie du RNA auto-associatif modifié...132 Figure 25 Courbes de rappel-précision réelle et estimée...142 Figure 26 Diagramme de classe du logiciel de repérage IntellAgent...150 Figure 27 Courbes de rappel-précision (VC CR93H)...153 Figure 28 Courbes de rappel-précision (VC FT943)...154 Figure 29 Courbes de rappel-précision (VC ZF109)...154 Figure 30 Courbes de rappel-précision (VG CR93H)...157 Figure 31 Courbes de rappel-précision (VG FT943)...158 Figure 32 Courbes de rappel-précision (VG ZF109)...158 Figure 33 Courbes de rappel-précision pour les conjonctions (BX - CR93H)...162 Figure 34 Courbes de rappel-précision pour les disjonctions (BX - CR93H)...163 Figure 35 Courbes de rappel-précision pour les conjonctions (BX - FT943)...163 Figure 36 Courbes de rappel-précision pour les disjonctions (BX - FT943)...164 Figure 37 Courbes de rappel-précision pour les conjonctions (BX - ZF109)...164 Figure 38 Courbes de rappel-précision pour les disjonctions (BX - ZF109)...165 Figure 39 Évolution des mesures de précision en fonction du support (EF - ZF109)...168 Figure 40 Évolution de l'harmonique moyenne maximale en fonction du support (EF - ZF109)...168 Figure 41 Évolution du temps de repérage en fonction du support (EF - ZF109)...169 Figure 42 Courbes de rappel-précision (EF)...173 Figure 43 Courbes de rappel-précision pour l'option 'tous les termes' (EF CR93H)...173 Figure 44 Courbes de rappel-précision pour l'option 'tous les termes' (EF FT943)...174 Figure 45 Courbes de rappel-précision pour l'option 'tous les termes' (EF ZF109)...174 Figure 46 Courbes de rappel-précision (EA - bornes inférieures (et chevauchantes pour le cas binaire) CR93H)...179 Figure 47 Courbes de rappel-précision (EA - bornes inférieures (et chevauchantes pour le cas binaire)

Thèse de doctorat Liste des figures vii FT943)...179 Figure 48 Courbes de rappel-précision (EA - bornes inférieures (et chevauchantes pour le cas binaire) ZF109)...179 Figure 49 Courbes de rappel-précision (ISL FT943 : 20 documents)...183 Figure 50 Courbes de rappel-précision (ISL FT943 : 30 documents)...183 Figure 51 Courbes de rappel-précision (ISL FT943 : 40 documents)...184 Figure 52 Courbes de rappel-précision (AG CR93H 'termes des requêtes')...190 Figure 53 Courbes de rappel-précision (AG FT943 'termes des requêtes')...190 Figure 54 Courbes de rappel-précision (AG ZF109 'termes des requêtes')...190 Figure 55 Courbes de rappel-précision (RAO CR93H)...198 Figure 56 Courbes de rappel-précision (RAO FT943)...198 Figure 57 Courbes de rappel-précision (RAO ZF109)...199 Figure 58 Courbes de rappel-précision (RAA FT943 2 000 documents)...203 Figure 59 Précisions moyennes comparées par niveau de rappel (binaire - CR93H)...210 Figure 60 Différentielles des mesures de précisions / VC (binaire - CR93H)...211 Figure 61 Précisions moyennes comparées par niveau de rappel (binaire FT943)...211 Figure 62 Différentielles des mesures de précisions / VC (binaire FT943)...212 Figure 63 Précisions moyennes comparées par niveau de rappel (binaire ZF109)...213 Figure 64 Différentielles des mesures de précisions / VC (binaire ZF109)...213 Figure 65 Précisions moyennes comparées par niveau de rappel (fréquences - CR93H)...214 Figure 66 Différentielles des mesures de précisions / VC (fréquences - CR93H)...214 Figure 67 Précisions moyennes comparées par niveau de rappel (fréquences FT943)...215 Figure 68 Différentielles des mesures de précisions / VC (fréquences FT943)...215 Figure 69 Précisions moyennes comparées par niveau de rappel (fréquences ZF109)...216 Figure 70 Différentielles des mesures de précisions / VC (fréquences ZF109)...216 Figure 71 Précisions moyennes comparées par niveau de rappel (pondérations - CR93H)...217 Figure 72 Différentielles des mesures de précisions / VC (pondérations - CR93H)...217 Figure 73 Précisions moyennes comparées par niveau de rappel (pondérations FT943)...218 Figure 74 Différentielles des mesures de précisions / VC (pondérations FT943)...218 Figure 75 Précisions moyennes comparées par niveau de rappel (pondérations ZF109)...219 Figure 76 Différentielles des mesures de précisions / VC (pondérations ZF109)...219 Figure 77 Mesures de précision globale comparées (CR93H)...222 Figure 78 Mesures de précision globale comparées (FT943)...222 Figure 79 Mesures de précision globale comparées (ZF109)...222 Figure 80 Différentielles des mesures de précision globale / VC (CR93H)...224 Figure 81 Différentielles des mesures de précision globale / VC (FT943)...224 Figure 82 Différentielles des mesures de précision globale / VC (ZF109)...224 Figure 83 Précisions moyennes comparées par niveau de rappel (ISL FT943 20 documents)...229 Figure 84 Différentielles des mesures de précis ion / VC (ISL FT943 20 documents)...229 Figure 85 Précisions moyennes comparées par niveau de rappel (ISL FT943 30 documents)...230 Figure 86 Différentielles des mesures de précision / VC (ISL FT943 30 documents)...230 Figure 87 Précisions moyennes comparées par niveau de rappel (ISL FT943 40 documents)...231 Figure 88 Différentielles des mesures de précision / VC (ISL FT943 40 documents)...231 Figure 89 Différentielles des mesures de précision globale / VC (ISL FT943 20, 30, 40 documents)232 Figure 90 Précisions moyennes comparées par niveau de rappel (RAA FT943 2 000 documents)234 Figure 91 Différentielles des mesures de précision / VC (RAA FT943 2 000 documents)...234 Figure 92 Précisions moyennes comparées par niveau de rappel (FT943 2 000 documents)...242 Figure 93 Précisions moyennes comparées par niveau de rappel (FT943 4 000 documents)...242

Thèse de doctorat Liste des figures viii Figure 94 Précisions moyennes comparées par niveau de rappel (FT943 6 000 documents)...243 Figure 95 Précisions moyennes comparées par niveau de rappel (FT943 8 000 documents)...243 Figure 96 Précisions moyennes comparées par niveau de rappel (FT943 10 000 documents)...244 Figure 97 Progression de la moyenne des précisions moyennes...245 Figure 98 Progression de la précision à 80% de rappel...245 Figure 99 Progression de la précis ion-m...245 Figure 100 Progression de la précision-r...246 Figure 101 Progression de l'harmonique moyenne maximale...246 Figure 102 Coût des modèles en temps de traitement...247 Figure 103 Coût des modèles en temps de traitement (échelle log2(temps+1))...248 Figure 104 Différentielles des précisions moyennes / VC...249 Figure 105 Différentielles des précisions à 80% de rappel / VC...249 Figure 106 Différentielles des précisions-m / VC...250 Figure 107 Différentielles des précisions-r / VC...250 Figure 108 Différentielles des harmoniques maximales / VC...250 Figure 109 Bénéfice des modèles sur les précisions moyennes / VC...251 Figure 110 Bénéfice des modèles sur les précisions à 80% de rappel / VC...251 Figure 111 Bénéfice des modèles sur les précisions-m / VC...252 Figure 112 Bénéfice des modèles sur les précisions-r / VC...252 Figure 113 Bénéfice des modèles sur les harmoniques maximales / VC...252 Figure 114 Coût des modèles en temps de traitement...254 Figure 115 Coût des modèles en temps de traitement (échelle log2(temps+1))...254 Figure 116 Réduction informationnelle du modèle ISL...262 Figure 117 Positionnement des modèles selon leurs caractéristiques cognitives...273

LISTE DES TABLEAUX Tableau 1 Liste des collections utilisées à l'origine des modèles...136 Tableau 2 Détails statistiques des collections utilisées à l'origine des modèles...136 Tableau 3 Statistiques des sous-collections TREC retenues...139 Tableau 4 Statistiques sur les collections réduites (FT943 20, 30, 40 documents)...141 Tableau 5 Statistiques sur la collection à volume progressif (FT943 2 000 à 10 000 documents)...141 Tableau 6 Exemple de sommaire des mesures de précision globale...146 Tableau 7 Exemple de sommaire des précisions moyennes par niveau de rappel...147 Tableau 8 Exemple des différentielles des mesures de précision moyenne comparée...147 Tableau 9 Exemple du rang des modèles par collection et par unité d'information...148 Tableau 10 Sommaire des mesures de précision globale (VC)...153 Tableau 11 Sommaire des précisions moyennes par niveau de rappel (VC)...153 Tableau 12 Sommaire des mesures de précision globale (VG)...157 Tableau 13 Sommaire des précisions moyennes par niveau de rappel (VG)...157 Tableau 14 Nombre de documents versus minterms (VG)...159 Tableau 15 Sommaire des mesures de précision globale (BX)...160 Tableau 16 Différentielles des mesures de précision globale par rapport au paramètre p-norm (BX)..161 Tableau 17 Différentielles des mesures de précision globale : disjonctions - conjonctions (BX)...161 Tableau 18 Sommaire des précisions moyennes par niveau de rappel (BX - CR93H)...162 Tableau 19 Sommaire des précisions moyennes par niveau de rappel (BX - FT943)...163 Tableau 20 Sommaire des précisions moyennes par niveau de rappel (BX - ZF109)...164 Tableau 21 Paramètre de support pour les collections (EF)...170 Tableau 22 Répartition des ensembles fréquents par ordre (EF)...170 Tableau 23 Exemple d'ensembles fréquents (EF ZF109)...171 Tableau 24 Sommaire des mesures de précision globale (EF)...172 Tableau 25 Sommaire des précisions moyennes par niveau de rappel (EF)...172 Tableau 26 Sommaire des mesures de précision globale pour le cas binaire (EA)...176 Tableau 27 Sommaire des mesures de précision globale pour les cas bornés (EA)...177 Tableau 28 Sommaire des mesures de précision globale (EA - bornes inférieures (et chevauchantes pour le cas binaire))...178 Tableau 29 Sommaire des précisions moyennes par niveau de rappel (EA - bornes inférieures (et chevauchantes pour le cas binaire))...178 Tableau 30 Sommaire des mesures de précision globale (ISL)...182 Tableau 31 Variance des mesures de précision globale (ISL - FT943 : {20, 30, 40})...182 Tableau 32 Sommaire des précisions moyennes par niveau de rappel (ISL FT943 : 20 documents).182 Tableau 33 Sommaire des précisions moyennes par niveau de rappel (ISL FT943 : 30 documents).183 Tableau 34 Sommaire des précisions moyennes par niveau de rappel (ISL FT943 : 40 documents).184 Tableau 35 Différentielles des précisions par niveau de rappel ((AG VC) CR93H)...186 Tableau 36 Différentielles des précisions par niveau de rappel ((AG VC) FT943)...187 Tableau 37 Différentielles des précisions par niveau de rappel ((AG VC) ZF109)...187 Tableau 38 Exemples des cooccurrences quasi-optimales (AG CR93H poids documentaire moyen)187 Tableau 39 Exemples des cooccurrences quasi-optimales (AG FT943 poids documentaire moyen)188 Tableau 40 Exemples des cooccurrences quasi-optimales (AG ZF109 poids documentaire moyen)188 Tableau 41 Sommaire des mesures de précision globale (AG 'termes des requêtes')...189 Tableau 42 Sommaire des précisions moyennes par niveau de rappel (AG 'termes des requêtes')...189 Tableau 43 Différentielles (%) des mesures de précision globale ((AG 'termes des requêtes') - VC)191 Tableau 44 Exemples de regroupements de termes en sortie du réseau (RAO FT943)...196 Tableau 45 Statistiques sur les neurones activés (RAO)...197 Tableau 46 Sommaire des mesures de précision globale (RAO)...197

Thèse de doctorat Liste des tableaux x Tableau 47 Sommaire des précisions moyennes par niveau de rappel (RAO)...198 Tableau 48 Sommaire des mesures de précision globale (RAA FT943 2 000 documents)...202 Tableau 49 Sommaire des précisions moyennes par niveau de rappel (RAA FT943 2 000 documents)...202 Tableau 50 Rang des modèles par collection et par unité d'information (précision moyenne)...220 Tableau 51 Rang moyen des modèles par collection, par unité d'information et global (précision moyenne)...220 Tableau 52 Mesures de précision globale comparée (FT943)...223 Tableau 53 Rang des modèles par collection et par unité d'information (précision à 80% de rappel)..226 Tableau 54 Rang moyen des modèles par collection, par unité d'information et global (précision à 80% de rappel)...226 Tableau 55 Rang des modèles par collection et par unité d'information (précision-m)...226 Tableau 56 Rang moyen des modèles par collection, par unité d'information et global (précision-m)226 Tableau 57 Rang des modèles par collection et par unité d'information (précision-r)...226 Tableau 58 Rang moyen des modèles par collection, par unité d'information et global (précision-r).227 Tableau 59 Rang des modèles par collection et par unité d'information (harmonique maximale)...227 Tableau 60 Rang moyen des modèles par collection, par unité d'information et global (harmonique maximale)...227 Tableau 61 Ordonnancement des modèles par mesure de précision globale...228 Tableau 62 Mesures de précision globale comparée (ISL FT943 20, 30, 40 documents)...232 Tableau 63 Différentielles des mesures de précision globale / VC (ISL FT943 20, 30, 40 documents)232 Tableau 64 Mesures de précision globale comparée (RAA FT943 2 000 documents)...235 Tableau 65 Différentielles des mesures de précision globale / VC (RAA FT943 2 000 documents)235 Tableau 66 Rang de repérage des documents pertinents (FT943 2 000 documents)...236 Tableau 67 Sommaire des améliorations de la précision moyenne p/r VC (CR93H)...237 Tableau 68 Sommaire des améliorations de la précision moyenne p/r VC (FT943)...237 Tableau 69 Sommaire des améliorations de la précision moyenne p/r VC (ZF109)...237 Tableau 70 Statistiques sur les collections à volume progressif...241 Tableau 71 Progression du nombre de documents pertinents par requête...241 Tableau 72 Compression dimensionnelle et extensibilité des modèles / VC...265

RÉSUMÉ Deux nouveaux modèles connexionnistes et un nouveau modèle génétique de repérage de l information sont proposés et évalués. Les modèles sont comparés empiriquement à plusieurs approches reconnues de l état de l art du domaine par une expérimentation d envergure sur des sous-collections du corpus de TREC ("Text REtrieval Conference"). Les nouveaux modèles sont élaborés selon les approches connexionniste et mixte de l intelligence artificielle, en contraste avec l approche classique. Deux de ces modèles sont élaborés en suivant le paradigme des réseaux de neurones artificiels (RNA) non supervisés: le RNA autoorganisateur et le RNA auto-associatif. Le troisième modèle est élaboré en suivant le paradigme biomimétique de la génétique: le modèle de l algorithme génétique. Suite à une revue exhaustive des modèles de repérage qui suivent une approche classique, six modèles sont retenus pour fins de comparaison avec les modèles de l approche connexionniste : le modèle vectoriel classique, le modèle vectoriel généralisé, le modèle booléen étendu, le modèle des ensembles fréquents, le modèle des ensembles approximatifs et le modèle de l index sémantique latent. Un environnement d essais particulier est élaboré de manière à dégager la performance de repérage des processus de classification et d appariement des modèles. L architecture et les paramètres de ces modèles sont adaptés à cet environnement d essais, tout en respectant leur conception d origine. Une procédure de comparaison rigoureuse est élaborée avec l utilisation de quatre mesures d évaluation composites, en plus des traditionnelles mesures de rappel et de précision : la précision à 80% de rappel, la précision-m, la précision-r et l harmonique moyenne maximale. Depuis l'avènement du modèle vectoriel classique, peu de modèles ont réussi à améliorer globalement les résultats en repérage de l'information. Notre étude confirme la difficulté d'améliorer la précision de repérage dans les niveaux élevés de rappel et ce, sur tous les modèles récents étudiés. Les améliorations significatives en précision se retrouvent principalement aux niveaux de rappel faibles et intermédiaires. Le modèle des ensembles fréquents et le modèle booléen étendu se sont distingués des autres modèles par une amélioration de la précision relativement généralisée à travers les trois collections et sur tous les niveaux de rappel. Cependant, les différentielles de précision demeurent marginales et plus

Thèse de doctorat Résumé xii marquées aux niveaux de rappel faibles et intermédiaires. La performance de repérage du modèle de l'index sémantique latent s'est révélée décevante par rapport aux résultats anticipés dans la littérature. Il s'est avéré que ce modèle opère une réduction informationnelle plutôt qu'une réduction dimensionnelle. Or cette réduction représente une information utile au repérage plutôt que du bruit dans les données textuelles. Le modèle du RNA auto-associatif a produit une performance de repérage globalement équivalente à celle du modèle vectoriel classique mais, il s'en est démarqué par le rang avantageux des premiers documents pertinents repérés. Sa capacité à repérer plus rapidement les premiers documents pertinents représente une percée prometteuse pour l'approche connexionniste en repérage de l'information. Les modèles vectoriel classique, ensembles fréquents, ensembles approximatifs et réseau de neurones artificiels auto-organisateur opèrent une compression de l espace de représentation qui accélère par la suite les traitements de repérage. Les taux de compression varient de 4:1 à 10:1 pour les trois premiers modèles. Le réseau auto-organisateur se démarque par un taux de compression plus important de 167:1. Les autres modèles n opèrent aucune compression dimensionnelle. Les modèles booléen étendu, vectoriel généralisé et génétique ont une bonne capacité d extensibilité sur de plus grands volumes de données car leur coût de traitement varie linéairement avec l'augmentation du volume. Les réseaux auto-organisateur et auto-associatif ont une capacité d extensibilité moyenne et leur coût de traitement varie aussi de façon linéaire, mais ils sont plus importants que ceux des modèles précédents. Les autres modèles (ensembles fréquents, ensembles approximatifs et index sémantique latent) ont une extensibilité difficile en raison de leur coût important en traitement qui varie de façon exponentielle. Par rapport au modèle vectoriel classique, aucun modèle ne dégage des gains suffisants en repérage pour justifier les temps de traitement additionnel. L'étude des aspects cognitifs des modèles de repérage a conduit à l'identification de critères pour départager les architectures entre l approche connexionniste et l approche classique de l'intelligence artificielle. La nature symbolique de la représentation interne des modèles et la

Thèse de doctorat Résumé xiii dynamique de leur processus ont permis de distinguer les modèles de l'approche classique (vectoriel classique, vectoriel généralisé, booléen étendu, ensembles fréquents et ensembles approximatifs) des modèles typiques de l'approche connexionniste (réseau auto-organisateur et RNA auto-associatif). Le modèle génétique et le modèle de l'index sémantique latent se classent comme modèles hybrides en affichant des critères des deux architectures cognitives. Parmi les modèles des approches connexionniste et mixte, le RNA auto-associatif a obtenu une performance de repérage globalement équivalente à celle du modèle témoin de l approche classique. Sa performance a surpassé celle du modèle vectoriel classique dans les faibles niveaux de rappel en repérant les premiers documents pertinents plus rapidement. La modélisation actuelle des deux autres modèles, le RNA auto-organisateur et le modèle génétique, a produit des performances de repérage globalement inférieures à celle du modèle vectoriel classique. L expérimentation a cependant révélé des capacités de classification qu il serait intéressant d exploiter dans un processus itératif ou récursif. Cette thèse constitue une contribution aux connaissances, tant pour les modèles de l approche classique que pour l exploration de nouveaux modèles des approches connexionniste et mixte. Face à la difficulté des modèles de l'approche classique à produire une percée importante dans le domaine du repérage de l information, l'approche connexionniste offre une alternative que l'on commence à peine à explorer. Plusieurs avenues de recherche sont suggérées dans cette thèse pour améliorer la capacité des modèles connexionnistes à opérer un repérage de l'information efficace.

DÉDICACE Ce travail d'envergure serait incomplet sans un hommage, pleinement mérité, rendu aux membres de ma famille. Je tiens à souligner la patience dont ont fait preuve mes trois enfants, Kevin, Camille et Valérie, pour qui j'ai brillé plus souvent par mon absence et qui ont parfois subi mes sautes d'humeur lorsque j'étais présent. Je tiens à remercier tout spécialement ma femme, Louise, à qui je dédie cette thèse. Sans sa préoccupation constante des besoins familiaux, et en particulier la prise en charge des enfants et de leur éducation, je n'aurais pu dégager le temps nécessaire à l'accomplissement de cette tâche. Je rends hommage aux membres de ma famille qui m'ont donné leur appuie inconditionnel dans le parachèvement cette thèse.

REMERCIEMENTS Je tiens à remercier le directeur et le codirecteur de cette thèse qui m ont supporté tout au long des travaux et sans qui l achèvement de cette thèse n aurait été possible. Je remercie particulièrement le professeur Robert Godin qui a été mon guide dans le domaine du repérage de l information et qui m a introduit aux différents modèles et algorithmes classiques de repérage. Ses références pertinentes et ses nombreux commentaires avisés ont grandement contribué à réaliser cette thèse d envergure. Je remercie le professeur Robert Proulx qui m a guidé à travers les aspects cognitifs des modèles et qui a plus spécifiquement validé l élaboration des modèles de l approche connexionniste. Ses revues critiques de la thèse ont largement contribué à sa qualité d ensemble et à la pertinence de ses propos. Enfin, je tiens à remercier le professeur Pierre Leroux du département de mathématiques qui m a éclairé dans la complexité de l algorithme de factorisation SVD.

INTRODUCTION Cette thèse s'inscrit dans le domaine du repérage de l information. Deux nouveaux modèles connexionnistes et un nouveau modèle génétique de repérage de l information sont proposés et évalués. Les modèles sont comparés empiriquement à plusieurs approches reconnues de l état de l art du domaine par une expérimentation d envergure sur des sous-collections du corpus de TREC ("Text REtrieval Conference"). Les nouveaux modèles sont élaborés selon les approches connexionniste et mixte de l intelligence artificielle, en contraste avec l approche classique. Deux de ces modèles sont élaborés en suivant le paradigme des réseaux de neurones artificiels (RNA) non supervisés: le RNA auto-organisateur et le RNA autoassociatif. Le troisième modèle est élaboré en suivant le paradigme biomimétique de la génétique: le modèle de l algorithme génétique. Suite à une revue exhaustive des modèles de repérage qui suivent une approche classique, six modèles sont retenus pour fins de comparaison avec les modèles de l approche connexionniste : le modèle vectoriel classique, le modèle vectoriel généralisé, le modèle booléen étendu, le modèle des ensembles fréquents, le modèle des ensembles approximatifs et le modèle de l index sémantique latent. Les sections qui suivent présentent la problématique générale du domaine, la problématique spécifiquement visée et les objectifs poursuivis par cette thèse. La dernière section distingue les aspects cognitifs et informatiques de la problématique. Domaine du repérage de l information Le domaine du repérage de l information s intéresse aux processus permettant de repérer des informations, en particulier des documents textuels, dans le but d en permettre une récupération méthodique et sélective qui soit utile à un requérant. Les logiciels de repérage sont des systèmes qui organisent les informations et les récupèrent de manière sélective, par le biais d une recherche de similarité entre les informations classées et une requête d information formulée par un utilisateur. Typiquement, la requête à l entrée renferme peu d information sur la sémantique des documents à récupérer et consiste le plus souvent en un vecteur de mots clés.

Thèse de doctorat Introduction 2 Il y a deux processus cognitifs fondamentaux à modéliser dans le repérage de l information : la formulation de la requête et l appariement de cette requête avec les documents de la collection. Le premier nécessite la découverte d une sémantique dans les termes de la requête et dans leurs associations. Le second processus s articule typiquement par une relation de similarité entre les termes de la requête et ceux des documents de la collection (voir Figure 1). Plusieurs techniques ont été développées pour modéliser chacun de ces processus. Chacune pose des hypothèses qui conduiront à l extraction de certains aspects sémantiques de la requête ou des documents. Par exemple, plusieurs techniques visent à classer les documents de la collection en identifiant les termes ou les combinaisons de termes qui discriminent le plus les classes entre elles. Cette technique suppose que les termes les plus discriminants sont ceux auxquels un utilisateur conviera la plus grande signification sémantique et, par conséquent, sont les termes qu il préférera dans la formulation d une requête. D autres techniques classent les documents en fonction des termes réellement utilisés dans les requêtes. Plusieurs métriques ont été utilisées pour modéliser la similarité entre une requête et un document. Ces métriques font intervenir une forme de statistiques sur les occurrences ou les cooccurrences des termes. Aucune technique ne semble capturer toute la richesse sémantique encapsulée dans des documents textuels aussi efficacement que le font les processus cognitifs de l être humain. Requêtes Documents Q 1 q 11, q 12... q 1s D 1 f 11, f 12... f 1n Indexation Q 2 q 21, q 22... q 2s... Appariement D 2 f 21, f 22... f 2n... Classification Indexation Q r q r1, q r 2... q rs D m f m1, f m2... f mn (Q, D) pertinents Figure 1 Processus d appariement requêtes-documents

Thèse de doctorat Introduction 3 Problématique On ne sait pas très bien comment les processus cognitifs de l être humain opèrent la classification, en particulier dans le domaine textuel qui relève à la fois de la perception visuelle, du langage et de la structuration des connaissances de l agent cognitif. Les nombreuses études empiriques sur ces sujets fournissent des modèles plausibles sur l acquisition et l organisation des connaissances [Ke89; Ma99]. Les chercheurs en intelligence artificielle et en sciences cognitives se sont souvent inspirés des modèles biologiques pour développer des modèles des phénomènes cognitifs et ils ont abondamment utilisé l ordinateur comme plate-forme de simulation de leurs modèles [Du00]. Afin de pouvoir évaluer efficacement ces modèles, il est nécessaire de les replacer dans leur contexte d'utilisation et de comparer leurs résultats en les confrontant à la réalité du problème de repérage de l'information. Comme décrit à la section précédente, il y a deux problématiques cognitives distinctes à résoudre dans le domaine du repérage de l information : la formulation automatique de la requête et l appariement entre la requête et les documents de la collection ou l ordonnancement des documents par similarité à la requête. Plusieurs modèles ont déjà été proposés et développés pour résoudre ces problématiques. L efficacité de ces modèles est le plus souvent éprouvée isolément en laboratoire dans un environnement contrôlé. Les modèles sont souvent comparés à leur version antérieure mais ils sont rarement comparés entres eux de manière exhaustive. Les chercheurs utilisent des collections de documents variées pour leurs essais. Les modèles sont construits avec des représentations, des hypothèses et des paramètres différents. Quoique la majorité des essais soient validés à l aide de mesures standards de rappel et de précision, plusieurs chercheurs estiment que ces mesures ne rendent pas compte de toute l efficacité des modèles et d'autres mesures ont été proposées [Ba99]. Dans ce contexte, il est difficile d établir un dénominateur commun et de choisir une mesure d efficacité équitable pour pouvoir comparer les modèles entres eux.

Thèse de doctorat Introduction 4 Objectifs Les objectifs de cette thèse sont d'augmenter les connaissances sur les modèles de repérage récents qui suivent une approche classique, de développer de nouveaux modèles suivant une approche connexionniste ou mixte et de comparer l'efficacité de ces modèles et des approches cognitives. Les différents modèles élaborés sont expérimentés dans un environnement contrôlé, de manière à pouvoir comparer leur efficacité et leur performance en repérage de l information. Les modèles importants proposés ont d'abord été revus dans la littérature, puis sélectionnés pour leur intérêt par rapport au traitement des cooccurrences de termes. Trois nouveaux modèles de repérage ont été développés dont deux suivant une approche connexionniste et un suivant une approche mixte. Chacun de ces trois nouveaux modèles a fait l objet de publications [De04, De05a, De05b, De06]. Les critères de comparaison suivants ont été retenus pour dégager différents aspects de la qualité des modèles testés. 1. L efficacité du repérage en termes de résultats a été mesurée par le rappel et la précision, selon diverses mesures proposées dans la littérature [Ba99]. 2. La performance des modèles a été mesurée en temps d exécution. Des essais avec une collection progressive en nombre de documents ont permis de mesurer l'évolution des performances des modèles. 3. Les capacités d'extensibilité des modèles ont été analysées et rapportées. 4. Les capacités en compression dimensionnelle des modèles ont été mesurées par rapport au modèle vectoriel classique. Quelques hypothèses générales sur les objectifs de repérage ont permis de limiter le champ d'action des modèles à expérimenter. 1. L information à repérer est générale et non spécifique à un domaine. En conséquence, la comparaison ne tiendra aucun compte des apports spécifiques à un domaine, tels qu un thésaurus ou autres composantes spécifiques qui pourraient être introduits.

Thèse de doctorat Introduction 5 2. Le repérage doit être opéré automatiquement. Aucun apport de connaissance externe aux systèmes ne peut intervenir en cours de traitement. Cette hypothèse exclut en particulier toute forme de rétroaction de pertinence issue d une interaction avec l utilisateur. 3. Le type de repérage visé est non spécifique à une langue et, en conséquence, ne doit prendre avantage d aucune connaissance linguistique, à l exception de l élimination des hapax par le biais d une liste standard préétablie et de l extraction des morphèmes par le biais d une liste de règles communes à tous les modèles. Pour les besoins de la cause, les repérages sont opérés sur des textes en langue anglaise. Tous les modèles utilisent le "terme" comme élément atomique pour représenter les informations textuelles, tant pour les documents que pour les requêtes. Le terme est défini comme étant le morphème des mots-clés des textes. Toute autre forme d unité d information est exclue de l expérimentation. En particulier, les n-grammes et les compositions de termes sont exclus. Cependant l utilisation des cooccurrences de termes est admise dans les modèles et représente l apport principal d enrichissement sémantique. Un effort important a été déployé sur l élaboration d un environnement d essais et d une procédure d évaluation. Un dénominateur commun de comparaison des modèles a été établi en termes d objectif de repérage, d hypothèses, de paramètres, de mesures de performance et d environnement d essais. Les objectifs du repérage et les hypothèses générales des modèles sont décrits ci-avant. D autres hypothèses spécifiques et les options paramétriques sont décrites aux chapitres IV et VI. Trois unités d information spécifiques ont été retenues pour la représentation des connaissances des modèles : l information binaire, les fréquences documentaires et les poids documentaires. Ces unités d information sont documentées au chapitre III. La collection de documents catégorisés TREC a été utilisée pour les essais. Les données de cette collection ont été découpées en sous-collections majeures, puis analysées pour extraire trois sous-collections adéquates aux essais visés. Ces données d essais proviennent des sous-collections CR93H, FT934 et ZF109. L envergure de l expérimentation couvre les trois unités d information sur les trois sous-collections extraites de TREC et pour

Thèse de doctorat Introduction 6 chacun des neuf modèles de repérage. Les essais ont été exécutés sur ces 81 combinaisons de base. Certains essais se divisent davantage en fonction des paramètres spécifiques des modèles. En plus des métriques de rappel et de précision traditionnellement utilisées pour l évaluation des modèles de repérage, quatre métriques composites ont été ajoutées pour augmenter les contrastes dans la comparaison des résultats : la précision à 80% de rappel, la précision-m, la précision-r et l harmonique moyenne maximale. Ces mesures et la procédure d évaluation, ainsi que l élaboration de l environnement et des données d essais sont détaillées au chapitre V. Composantes cognitives et informatiques Cette thèse s inscrit dans plusieurs disciplines inter-reliées : le repérage de l information, l apprentissage machine, l intelligence artificielle et les sciences cognitives. Neuf modèles de catégorisation et de repérage de l'information ont été expérimentés où l'aspect cognitif peut être directement étudié pour supporter l'approche classique ou l'approche connexionniste. Le choix des modèles à expérimenter s'est établi délibérément dans l'optique de confronter ces deux approches cognitives. C'est notamment la raison qui a conduit à l'élaboration de trois nouveaux modèles de repérage suivant une approche connexionniste, dont deux avec le paradigme des réseaux de neurones artificiels et le troisième avec le paradigme de la génétique. Notre contribution aux sciences cognitives s'établit par l'élaboration des trois modèles suivant l'approche connexionniste, par l'étude comparative de ces modèles avec six autres modèles suivant une approche classique et par les résultats obtenus de chaque modèle appliqué aux problèmes de catégorisation et de repérage de l'information. Comme nous le verrons au chapitre des résultats, ces processus de repérage impliquent la modélisation cognitive d'une représentation des connaissances et l'élaboration d'un processus de classification. En particulier, le repérage de l information nécessite la formulation de la requête et l appariement de cette requête avec les documents de la collection. Les paradigmes d apprentissage développés et utilisés pour l acquisition des connaissances sont

Thèse de doctorat Introduction 7 souvent inspirés des avancées en sciences cognitives. Les algorithmes de classification et de segmentation sont inspirés des processus de perception et de classification chez l être humain. Les algorithmes génétiques, les réseaux de neurones artificiels, les colonies de fourmis artificielles et les systèmes immunitaires artificiels sont autant de paradigmes inspirés par les processus cognitifs équivalents du monde animal. Tous ces paradigmes ont été développés pour modéliser l acquisition de connaissances et plusieurs ont été employés pour le repérage de l information, comme nous le verrons en détail au chapitre 2. Au plan informatique, le développement et le déploiement des logiciels de repérage de l'information mettent à contribution les processus du génie logiciel. En particulier, les modèles de repérage développés mettent à contribution l ingénierie des algorithmes, la modélisation des connaissances et la programmation des modèles dans un paradigme orienté objet. L environnement d essais comporte aussi un aspect important de conception et programmation. Ces aspects sont couverts au chapitre 6. La section qui suit décrit l'organisation de cette thèse. Organisation de la thèse Cette section clos l'introduction aux divers domaines scientifiques abordés par la thèse et aux objectifs visés par cette recherche. Le reste de la thèse est organisé comme suit. Le chapitre I passe en revue les nombreux paradigmes et modèles de repérage de l information utilisés jusqu'ici pour résoudre la problématique, incluant les modèles de l'approche classique et les modèles de l'approche connexionniste. Le chapitre II décrit sommairement et justifie les modèles qui sont retenus pour l'expérimentation. Le chapitre III se consacre à la définition de l'élément à la base des représentations symboliques utilisées dans les modèles de repérage de l'information, à savoir l'unité d'information. Il passe en revue les éléments constituants qui peuvent entrer dans l'élaboration d'une unité de mesure de l'information et définit les trois unités de base qui ont été utilisées dans les modèles retenus.

Thèse de doctorat Introduction 8 Le chapitre IV décrit l'élaboration et l'implémentation de chacun des modèles retenus. Il précise entres autres les détails des paramètres et les disparités introduites par rapport aux modèles d'origine. Le chapitre V spécifie la méthodologie et l environnement développés pour conduire les essais. Il décrit également la procédure d évaluation élaborée et les mesures d évaluation utilisées pour valider les résultats. Le chapitre VI présente les résultats de repérage de chacun des neuf modèles expérimentés et analyse l'architecture cognitive de chaque modèle. Il identifie les forces et les faiblesses de chaque modèle et amorce quelques parallèles entre certains modèles. Le chapitre VII effectue la comparaison empirique et analytique des résultats des neuf modèles expérimentés. Il dresse des parallèles instructifs entre les modèles. Il résume les forces et des faiblesses. Il résume les critères cognitifs des modèles et positionne ces derniers entre l'approche classique et l'approche connexionniste. Le chapitre termine par une discussion sur la performance des modèles de l'approche connexionniste et amorce des voies de recherche pour parfaire ces modèles. La conclusion résume les objectifs atteints et les découvertes intéressantes qui sont ressorties des résultats obtenus. Elle pointe également les directions à suivre pour les travaux futurs.

CHAPITRE I MODÈLES POUR LE REPÉRAGE DE L INFORMATION Ce chapitre introduit le formalisme général et l'évolution des modèles dans le domaine du repérage de l'information. Les modèles couramment utilisés sont ensuite revus depuis la littérature et quelques paradigmes récents applicables au repérage sont introduits. Les modèles retenus aux fins de l'expérimentation comparative seront déterminés au chapitre suivant. Les modèles de repérage de l information sont formalisés par quatre caractéristiques : les documents, les requêtes, le cadre et une fonction d ordonnancement [Ba99]. Les documents de la collection sont représentés par un ensemble de vues logiques. Ils forment la source des informations sur laquelle le repérage s effectue. Les requêtes, aussi représentées par un ensemble de vues logiques, formulent le besoin de l utilisateur. Le cadre formalise les relations entre les documents et les requêtes. La fonction d ordonnancement associe un nombre réel entre une requête et un document pour formaliser leur degré de correspondance. Cette fonction permet d ordonnancer les documents par degré de correspondance à une requête donnée. Divers paradigmes ont été utilisés pour modéliser les problèmes du repérage de l information, tels que la théorie des probabilités, la théorie des ensembles, les règles d inférence, la théorie de l information, les algorithmes évolutionnaires 1, les statistiques référentielles, les réseaux de neurones artificiels, la logique floue et d autres algorithmes d apprentissage machine. Les applications des premiers paradigmes au domaine du repérage de l information ont généré une variété de modèles dans les années 70 et 80 dont plusieurs sont maintenant considérés classiques. Les plus récents paradigmes ont étendu les modèles classiques ou en ont généré de nouveaux au cours des années 90. On a aussi vu se développer au cours de ces années, et encore aujourd hui, plusieurs combinaisons de paradigmes pour améliorer la performance des modèles de base. L utilisation de sources multiples de représentation pour les documents et les requêtes ont 1 Voir la terminologie à la section 1 du chapitre II.

Thèse de doctorat Chapitre I Modèles pour le repérage de l information 10 aussi aidé à améliorer la performance de certains modèles en termes de rappel [Cr88; Tu89]. Baeza et Ribeiro [Ba99] ont classé les modèles classiques et quelques modèles récents dans les catégories suivantes. 1. Modèles ensemblistes a. Booléen classique b. Logique floue c. Booléen étendu 2. Modèles algébriques a. Vectoriel classique b. Vectoriel généralisé c. Index sémantique latent d. Réseau de neurones artificiels 3. Modèles probabilistes a. Probabiliste classique b. Réseau à inférence bayésienne c. Réseau de croyances La figure ci-dessous montre que chacun des modèles classiques a été une source d inspiration pour le développement de modèles plus évolués. Modèles classiques Théorie des ensembles T â c h e Repérage Ad Hoc Booléen Vectoriel Probabiliste Modèles structurés Liste non chevauchante Noeud proximal Furetage Flou Booléen étendu Algébrique Vectoriel généralisé Index sémantique latent Réseau de neurones Probabiliste Furetage De base Guidé par les structures Lien hypertexte Réseau à inférence Réseau de croyance

Thèse de doctorat Chapitre I Modèles pour le repérage de l information 11 Figure 2 Taxonomie des modèles de repérage de l information (source : [Ba99]) On retrouve généralement dans la littérature trois types de tâche caractéristique de la récupération sélective de l information : le repérage ("ad hoc"), le filtrage ("filtering") et le furetage ("browsing") [Ba99]. Le furetage est une exploration plus ou moins aléatoire de la collection d information. Elle peut être guidée par une structure tel qu un index hiérarchique ou par la navigation via les hyperliens. Le terme anglais "retrieval" est général et couvre autant le repérage que le filtrage. Le repérage concerne la récupération de l information à partir d une collection relativement statique. Les requêtes soumises peuvent évoluer par des processus de reformulation. Dans le filtrage de l information, c est la collection qui évolue alors que les requêtes sont considérées statiques et sont habituellement représentées par un profil d intérêts couvrant les besoins en information. La tâche est dite de routage ("routing") lorsque le modèle produit un ordonnancement des documents récupérés par degré de similarité au profil. À travers ces nuances terminologiques, le cœur de la tâche demeure l appariement d une requête avec les documents d une collection [Be92]. Dans la présente thèse, le terme 'repérage' est utilisé pour signifier cette tâche. Seuls les modèles capables de produire un ordonnancement des documents récupérés par degré de similarité aux requêtes sont considérés. Les sections suivantes passent en revue les principes de base qui caractérisent les principaux modèles et les éléments qui les distinguent. La dernière section termine ce chapitre en survolant les approches de combinaisons pour les modèles hybrides. 1. Les modèles probabilistes Les modèles probabilistes et, en particulier les modèles Bayesiens, sont des modèles à apprentissage supervisé qui nécessitent la connaissance a priori de la classe de sortie pour un ensemble d instances de document. La sortie est souvent modélisée en deux classes : pertinent et non pertinent. Tout le modèle est dépendant de la disponibilité d instances d entraînement classées par rapport à une requête donnée. Le modèle entraîné sur une requête ne peut être généralisé à d autres requêtes différentes.

Thèse de doctorat Chapitre I Modèles pour le repérage de l information 12 1.1 Bayésien naïf Dans le modèle bayésien naïf, chaque mot d un document est représenté par une variable positionnelle. La probabilité que chaque position prenne la valeur d un mot en particulier est établie à partir des instances connues de document. En théorie, on doit estimer la probabilité que chaque position prenne la valeur de chacun des mots de la collection. En pratique, on évalue seulement les probabilités pour les mots des requêtes. L application du classifieur naïf de Bayes [Mi97] donne la classe la plus probable pour une nouvelle instance, i.e. une requête ou un nouveau document : MAX C j j n p( C ) p( a C ) (I-1) j = 1 i j où C j représente les classes et a i les mots. La présomption habituelle d indépendance s entend ici sur l indépendance positionnelle des mots dans le document. L apparition d un mot dans une position particulière est indépendante de l apparition des mots dans les autres positions. Il est d'usage courant de présumer cette indépendance dans le modèle bayésien afin de réduire la quantité de probabilités conditionnelles à évaluer. De cette façon, il ne reste qu à multiplier les probabilités d apparition des mots. Ces probabilités peuvent être estimées par : nk + 1 p( wk C j ) = (I-2) n + m C j représente les classes; w k n k n m représente les mots, k [1,m]; est la fréquence du mot w k dans le document; est le nombre total de positions de mot dans les documents; est le nombre total de mots distincts dans la collection.