Jean-François PESSIOT

Transcription

1 Thèse de doctorat de l Université Pierre et Marie Curie Spécialité : Informatique présentée par Jean-François PESSIOT pour obtenir le grade de Docteur de l Université Paris VI Pierre et Marie Curie Apprentissage automatique pour l extraction de caractéristiques - Application au partitionnement de documents, au résumé automatique et au filtrage collaboratif soutenue publiquement le 30 juin 2008 devant le jury composé de Massih-Reza AMINI Maître de Conférences à l Université Pierre et Marie Curie directeur de thèse Patrick GALLINARI Professeur à l Université Pierre et Marie Curie directeur de thèse Stéphane CANU Professeur à l INSA de Rouen rapporteur Éric GAUSSIER Professeur à l Université Joseph Fourier rapporteur Franck LE OUAY Directeur Scientifique de la société Criteo examinateur Patrice PERNY Professeur à l Université Pierre et Marie Curie examinateur

2

3 Remerciements L écriture de ce mémoire a été grandement influencée par des rencontres, des discussions et des soutiens qui m ont marqué au cours de ces dernières années. Je remercie donc toutes les personnes qui y ont contribué à un moment ou à un autre. En particulier, je suis très redevable à Massih-Reza Amini, qui a su me communiquer son enthousiasme et sa rigueur dans le travail. Je suis également redevable à Patrick Gallinari, pour la confiance et la liberté qu il m a accordées depuis mon premier jour de thèse. Je remercie Stéphane Canu et Éric Gaussier d avoir accepté d être les rapporteurs de cette thèse. Je remercie également Patrice Perny et Franck Le Ouay d avoir accepté d en être les examinateurs. Je tiens à remercier Marc Caillet, Young-Min Kim, Vinh Truong et Nicolas Usunier pour leur collaboration sur le texte et sur le filtrage collaboratif. Ces collaborations m ont beaucoup enrichi, tant humainement que professionnellement. Je salue la patience de Guillaume Wisniewski, qui a dû me supporter pendant de longs week-ends de rédaction. Plus généralement, je tiens à remercier chaleureusement toutes les personnes que j ai eu la chance de croiser au LIP6 et ailleurs, et qui m ont rendu la vie au laboratoire plus agréable. Enfin je veux remercier mes amis et ma famille, qui m ont soutenu tout au long de la rédaction.

4

5 Résumé L apprentissage statistique définit des concepts et des algorithmes permettant d apprendre à partir des données, dans le but de faire des prédictions. Pour obtenir de bonnes performances en prédiction, le choix de la représentation des données est crucial, et a motivé le développement de méthodes permettant de modifier la représentation initiale des données. L accès à l information regroupe de nombreux domaines d application pour l apprentissage statistique, et en général, le choix de la représentation de l information est un problème difficile. Dans cette thèse, nous étudions la problématique du choix de la représentation des données au travers de l extraction de caractéristiques. Nous proposons d abord un cadre formel pour l extraction de caractéristiques, qui nous permet de distinguer trois principaux cadres d extraction. Puis dans le cadre de l extraction non supervisée, nous proposons deux modèles pour le cas particulier des données textuelles. Nous validons nos modèles sur deux tâches en recherche d information : le clustering de documents et le résumé automatique de texte. Nous proposons également un cadre de travail unifié pour étudier le problème nouveau de l extraction de caractéristiques multi-tâches. Ce cadre nous permet de proposer des algorithmes d apprentissage pour la régression multi-tâches et pour l ordonnancement d instances multi-tâches. Nous appliquons nos deux modèles au filtrage collaboratif, d abord vu comme un problème de prédiction de notes, puis comme un problème de prédiction d ordre. Cette deuxième formulation est plus adaptée au problème de la recommandation, où l ordre entre les articles est plus important que les notes ellesmêmes.

6 6

7 Table des matières 1 Introduction générale Apprentissage statistique et accès à l information Problématiques abordées Caractérisation de l information Applications à la recherche d information Applications au filtrage d information Plan de la thèse Présentation de l apprentissage statistique Introduction Apprentissage supervisé Introduction Classification et régression Ordonnancement d instances Apprentissage multi-tâches Introduction Un cadre de travail pour l apprentissage multi-tâches Apprentissage multi-tâches transductif Apprentissage non supervisé Introduction Estimation de densité Clustering Conclusion Représentation des données et extraction de caractéristiques Introduction Rôle de la représentation des données Qu est ce qu une bonne représentation? Choix de la représentation initiale Changement de la représentation Conclusion Extraction de caractéristiques Extraction de caractéristiques mono-tâche Extraction de caractéristiques multi-tâches Qu est ce qu un bon algorithme d extraction? Conclusion générale

8 8 Table des matières 4 État de l art sur l extraction de caractéristiques non supervisée Introduction Données vectorielles Extraction de caractéristiques : propriétés globales Extraction de caractéristiques : propriétés locales Clustering de caractéristiques Données textuelles Probabilistic latent semantic analysis Latent dirichlet allocation Cas particuliers d extraction non supervisée Extraction ou apprentissage? La tâche du clustering Exemples Choix de l algorithme d extraction Conclusion État de l art sur l extraction de caractéristiques multi-tâches Introduction Extraction de caractéristiques pour la régression multi-tâches Présentation Décomposition en valeurs singulières pondérée Factorisation en matrices non-négatives généralisée Extraction de caractéristiques pour la classification multi-tâches Classification binaire Régression ordinale Extraction de caractéristiques pour l ordonnancement d instances multitâches Conclusion Extraction de caractéristiques non supervisée pour les données textuelles Introduction Représentation vectorielle des documents Représentation basée sur les paires de co-occurrence Plan du chapitre Modèle pour le clustering de mots Présentation Apprentissage de concepts de mots Modèle PLSA étendu Probabilistic Latent Semantic Analysis (PLSA) Extension de PLSA Application au clustering de documents Présentation de la tâche Résultats Expérimentaux Conclusion Application au résumé automatique de texte Présentation de la tâche Compétitions DUC Caractéristiques pour le résumé automatique Algorithme d alignement de Marcu Mesures de similarité

9 Table des matières Résultats obtenus à la compétition DUC Conclusion Conclusion Extraction de caractéristiques multi-tâches Introduction Apprentissage multi-tâches transductif linéaire Apprentissage multi-tâches transductif Apprentissage hors ligne et en ligne Une instance non-négative de la régression multi-tâches Présentation Algorithmes hors ligne Algorithme en ligne Une instance de l ordonnancement d instances multi-tâches Présentation Algorithme hors ligne Algorithme en ligne Conclusion Application au filtrage collaboratif Introduction Présentation du filtrage collaboratif Enjeux du filtrage collaboratif Caractéristiques et spécifications des systèmes de filtrage collaboratif Prédiction pour le filtrage collaboratif Protocole expérimental Description et pré-traitements de la base initiale Génération des bases pour l apprentissage hors ligne et en ligne Mesures d erreurs Performances en généralisation faible Factorisation matricielle pour le filtrage collaboratif Décomposition en valeurs singulières pondérée Factorisation en matrices non-négatives généralisée Synthèse Performances en généralisation forte Interprétation et visualisation Description Discussion Conclusion Conclusion et perspectives Résumé de la thèse et des contributions Perspectives Extraction non supervisée pour les données textuelles Extraction multi-tâches pour l ordonnancement d instances Interprétabilité et choix de la représentation des données Bibliographie 217

10 10 Table des matières

11 Table des figures 1.1 Représentation sac-de-mots Le clustering thématique a pour but de regrouper les documents traitant de sujets similaires. Exemple : les documents rouges traitent de sport, les documents bleus de politique et les documents verts de religion Système de résumé extractif Système de recommandation Exemple de surapprentissage en régression. La courbe à apprendre est en pointillés, les points d apprentissage sont en rouge. La fonction apprise par MRE (en noir) minimise bien le risque empirique (elle passe par tous les points d apprentissage), mais possède une erreur en généralisation élevée Erreur empirique et erreur en généralisation en fonction de la complexité de l espace d hypothèses F. Quand F est trop simple par rapport à P, l erreur empirique est un bon estimateur de l erreur en généralisation mais les deux erreurs sont élevées. Quand F est trop complexe par rapport à P, alors l erreur empirique est faible et l erreur en généralisation élevée : il y a surapprentissage Parmi tous les classifieurs d erreur empirique nulle, les MVS déterminent celui qui maximise la marge deux classes non linéairement séparables dans R Erreur 0/1, erreur de Hinge et erreur exponentielle Exemple de régression linéaire dans R Apprentissage d un mélange de trois gaussiennes avec EM. Les paramètres des trois gaussiennes sont mis à jour à chaque itération Clustering hiérarchique agglomératif. La partition initiale contient autant de clusters que d observations, puis l algorithme fusionne deux clusters à chaque itération Clustering avec les K-moyennes. La partition est initialisée aléatoirement, puis les moyennes et les clusters sont alternativement mis à jour à chaque itération Le problème de clustering consiste à regrouper les cercles ensemble et les carrés ensemble. Il est clair que pour retrouver cette distance implicite, la représentation (a) est plus adaptée que la représentation (b) À gauche, des spectres acoustiques de phonèmes finlandais, représentés sur une carte auto-organisatrice. À droite, les classes phonétiques correspondantes. Les cartes autoorganisatrices arrivent à regrouper les phonèmes similaires Les données projetées sur la droite sont bien séparées en apprentissage (a) mais pas en test (b). La nouvelle représentation dégrade donc les performances en généralisation.. 85

12 12 Table des figures 4.1 Un visage est décomposé en une somme de parties (nez, oreilles, bouches, etc) grâce à la FMN Les données dans R 3 sont situées sur une variété non linéaire de dimension 2 (A). La réduction dimensionnelle non linéaire a pour but de déterminer une représentation des données dans R 2 qui préservent les distances sur la variété initiale (C) Modèle graphique de PLSA Modèle graphique de LDA. Les boites correspondent à des tirages répétés des variables aléatoires qu elles contiennent. La boite extérieure représente les documents, la boite intérieure représente la répétition du choix des thématiques et des mots à l intérieur d un document (a) Le modèle PLSA (b) Notre modèle étendu Précisions moyennes de l algorithme CEM obtenu dans l espace sac-de-mot (CEM) et les espaces de concepts induits par l hypothèse H (C-CEM) et par PLSA (P-CEM) Erreurs IMN moyennes de l algorithme CEM obtenu dans l espace sac-de-mot (CEM) et les espaces de concepts induits par l hypothèse H (C-CEM) et par PLSA (P-CEM) Performances du clustering de documents avec PLSA et PLSA étendu Évolution de la mesure de similarité en fonction du nombre de phrases supprimées avec l algorithme d alignement de Marcu pour quelques documents de la collection D0601 de DUC La distribution de mots filtrés dans les phrases Les scores moyens du contenu des systèmes participants à DUC2007 en fonction de la mesure Rappel ROUGE Apprentissage hors ligne. Le but est d apprendre B et C à partir des éléments partiellement observés de Y Apprentissage en ligne d une nouvelle tâche. Les matrices B, C ont déjà été apprises par apprentissage hors ligne sur Y. Le but est d apprendre b à partir de C et des éléments partiellement observés de y Soient [2, 3] les notes de deux articles A et B, r 1 = [2.5, 3.6] et r 2 = [2.5, 2.4] deux vecteurs de prédictions obtenus par deux méthodes différentes. Bien que r 1 et r 2 soient équivalents en terme d erreur carrée (les deux sont égales à ), seule r 1 prédit l ordre correctement, puisque le score qu elle attribue à B est supérieur à celui de A Erreur NMAE de validation en généralisation faible pour la DVSP, en fonction du rang K Erreur MRE de validation en généralisation faible pour la DVSP, en fonction du rang K Erreur NMAE en généralisation forte, pour 1 m app Erreur MRE en généralisation forte, pour 1 m app Erreur NMAE en généralisation forte, pour 20 m app Erreur MRE en généralisation forte, pour 20 m app Nombre d utilisateurs utilisés pour calculer l erreur NMAE et l erreur MRE, pour 20 m app Visualisation des notes moyennes par genre pour les comportements types 0 (à gauche) et 3 (à droite). Les différents genres identifiés sont inconnu(unk), action (act), aventure (adv), animation (ani), enfant (chil), policier (crime), comédie (com), documentaire (doc), drame (dram), fantastique (fant), noir (noir), horreur (hor), musical (mus), mystérieux (mist), romantique (rom), science fiction (sf), thriller (thri), guerre (war) et enfin western (wes)

13 Table des figures Notes moyennes par période pour les comportements types 1 (à gauche) et 7 (à droite). Les périodes considérées sont les suivantes : <1960, entre 1960 et 1970, entre 1980, entre 1980 et 1990, entre 1990 et 1995 et >

14 14 Table des figures

15 Liste des tableaux 6.1 Caractéristiques des collections Reuters, 20Newsgroups et WebKB Mesures de précisions et de rappels (moyennées sur 10 sous-bases), micro-moyenne de précision et micro-moyenne de rappel obtenues dans l espace de sac-de-mots et dans l espace de concepts par l algorithme CEM Meilleure Précision moyenne et le NMI moyen correspondant aux différents algorithmes de clustering Deux clusters de termes trouvés avec l algorithme CEM à DUC 2006 et DUC Un résumé synthétique pour la question Question(D0705) Statistiques sur l effet de l extension des requêtes Mesures ROUGE-1 et ROUGE-2 de l ensemble des phrases présentes dans tous les documents pour chaque sujet avant et après la technique d alignement de Marcu pour DUC Corrélation de Spearman entre différentes listes ordonnées obtenues avec les différentes caractéristiques Mesure-F ROUGE Mesure-F ROUGE-SU Scores linguistiques Distribution des notes dans la base pré-traitée Erreur NMAE de validation en généralisation faible pour la FMNG-norm, en fonction du rang K et du coefficient de régularisation β Erreur NMAE de validation en généralisation faible pour la FMNG-uno, en fonction du rang K et du coefficient de régularisation β Erreur MRE de validation en généralisation faible pour la FMNG-norm, en fonction du rang K et du coefficient de régularisation β Erreur MRE de validation en généralisation faible pour la FMNG-uno, en fonction du rang K et du coefficient de régularisation β Erreur MRE de validation en généralisation faible pour l OMT-norm, en fonction du rang K et du coefficient de régularisation β Erreur MRE de validation en généralisation faible pour l OMT-uno, en fonction du rang K et du coefficient de régularisation β Erreur NMAE de test en généralisation faible Erreur MRE de test en généralisation faible Erreur NMAE en généralisation forte pour m test = 2 notes de test Erreur MRE en généralisation forte pour m test = 2 notes de test Les 5 films les mieux notés par comportement type (CT)

16

17 Notations X R D Un espace d observations D La dimension de l espace de représentation x X Une observation X Un ensemble d observations Y Un espace de sorties y Y Une sortie Y Une matrice de sorties P Une distribution de probabilité sur X Y (x, y) Un exemple, composé de l observation x et de la sortie y S Un ensemble d exemples m Le cardinal d un ensemble d exemples n Le nombre de tâches dans un problème multi-tâches H Un nouvel espace de représentation de données K La dimension du nouvel espace de représentation Φ, Ψ Des fonctions de X dans H f Une fonction de X dans Y b Un vecteur de paramètres b k Le k-ième élément du vecteur b b 2 La norme euclidienne du vecteur b B Une matrice de paramètres C Une matrice de projection B lk L élément sur la l-ième ligne et la k-ième colonne de la matrice B B l. La l-ième ligne de la matrice B B.k La k-ième colonne de la matrice B B 2 F La norme de Frobenius de la matrice B β, γ Des coefficients de régularisation D Un ensemble de documents d D Un document V Un ensemble de mots w V Un mot Ω Un ensemble de clusters / concepts de mots ρ Ω Un cluster / concept de mots A Un ensemble de thématiques α A Une thématique

18 18 Liste des tableaux

19 1 Introduction générale Sommaire 1.1 Apprentissage statistique et accès à l information Problématiques abordées Caractérisation de l information Applications à la recherche d information Applications au filtrage d information Plan de la thèse Apprentissage statistique et accès à l information Les différentes communautés scientifiques comme les linguistes, les informaticiens et les statisticiens se sont intéressés depuis de nombreuses années aux problèmes de l accès à l information textuelle. Les différents courants issus de ces communautés se sont concentrés sur un ensemble de problématiques spécifiques et ont créé des domaines scientifiques qui ont rapidement évolué de façon autonome. C est par exemple le cas de la Recherche d Information (RI), de l Extraction d Information, ou dans le cas des statisticiens, des réponses aux questionnaires, des analyses stylistiques, etc. Ces dernières années, le domaine de l accès à l information textuelle a connu une évolution rapide, avec en particulier le développement de grandes bases de données textuelles et du web. Les frontières qui s étaient dessinées entre les différents domaines traditionnels du texte sont actuellement largement re-dessinées pour créer un grand domaine que nous désignons ici par accès à l information textuelle. De nouvelles problématiques apparaîssent, auxquelles les différentes communautés essaient d apporter des réponses en adaptant les outils existants, ou en développant de nouveaux outils. En particulier, il est devenu important d être capable de traiter d énormes quantités de données, d apporter des solutions diversifiées aux nouvelles demandes des utilisateurs, et d automatiser les outils qui permettent d exploiter l information textuelle. Plus récemment, le développement rapide des techniques d acquisition et de stockage de l information numérique a favorisé l explosion des quantités d information à traiter, mais également la diversité de leurs contenus. Ainsi, l accès à l information textuelle s est élargie au problème de l accès à l information en général, où l information à traiter prend des formes aussi diverses que des documents textuels, des images, des

20 20 Introduction générale vidéoclips ou encore de la musique. Les besoins des utilisateurs ont également évolué. Les systèmes d information doivent non seulement les aider à retrouver l information cherchée, mais également les conseiller ou leur faire de nouvelles suggestions. C est notamment le but des systèmes de recommandation, qui suggèrent à leurs utilisateurs des articles susceptibles de les intéresser : des livres, des films, des albums de musique... L apprentissage automatique propose une gamme d outils qui permettent d avancer dans ces directions. C est dans ce cadre que se situe notre travail, qui vise à explorer le potentiel des techniques d apprentissage pour répondre aux besoins de recherche et de filtrage de l information. Dans le cas de la recherche d information textuelle par exemple, les modèles d apprentissage automatique s appuient sur l hypothèse qu il est possible d effectuer de nombreuses tâches de traitement de l information textuelle par des analyses assez basiques du texte. Ainsi, tout algorithme d apprentissage travaille à partir d une représentation des données initialement connue et fixée. Il est fréquent de pré-traiter les données dans le but de modifier cette représentation initiale. L algorithme d apprentissage est alors utilisé sur la nouvelle représentation obtenue. Apprendre sur cette nouvelle représentation présente plusieurs avantages : des gains en complexité algorithmique et en espace mémoire, ainsi que la possibilité d interpréter ou de visualiser les données. En revanche l influence de la nouvelle représentation sur les performances en prédiction est plus difficile à analyser. Dans le cas idéal, nous voulons bien sûr que la nouvelle représentation améliore les performances en prédiction des algorithmes apprentissage. En clustering thématique par exemple, la nouvelle représentation des documents doit permettre de regrouper les documents traitant de sujets similaires. En apprentissage supervisé, la nouvelle représentation des données doit permettre de faire moins d erreurs de prédiction. Le choix de la nouvelle représentation, et donc le choix de la méthode utilisée pour modifier la représentation initiale, paraît ainsi essentiel en apprentissage. 1.2 Problématiques abordées Dans cette thèse, nous nous intéressons au problème général de la représentation des données en apprentissage statistique. Dans le cas des données textuelles par exemple, la grande taille des collections de documents, ainsi que la variabilité et la complexité des informations textuelles, ne permettent généralement pas d utiliser une représentation sophistiquée des documents, ni des modèles complexes pour traiter automatiquement et rapidement de grosses masses de données. Pour ces raisons, les modèles de l apprentissage numérique ont adopté l approche classique sac-de-mots (bagof-words) pour représenter un document, chaque document étant codé par exemple par l histogramme de ses mots clés. La représentation sac-de-mots est illustrée dans la figure 1.1. D autres types de données comme les images, les vidéos ou la musique posent également le problème du choix de la représentation des données. En général, il est difficile de savoir comment représenter ces données dans le but de faire de la recherche ou du filtrage d information.

21 1.2 Problématiques abordées 21 FIG. 1.1 Représentation sac-de-mots D un point de vue théorique, le problème du choix de la représentation des données ne se pose pas explicitement en apprentissage statistique, et la plupart des travaux supposent que la représentation est connue et fixée au moment de l apprentissage. Le lien entre le choix de la représentation et les performances en apprentissage n est donc pas toujours clair. Notre premier objectif sera de clarifier ce lien en définissant les propriété attendues d une "bonne" représentation des données. Ceci nous amènera naturellement à nous intéresser aux différentes stratégies permettant de modifier la représentation des données. Parmi elles, nous trouvons la sélection de caractéristiques, l extraction de caractéristiques et les méthodes à base de noyaux. Afin de fixer notre cadre de travail, dans cette thèse nous considérons les méthodes d extraction de caractéristiques. L étude du lien entre le choix de la représentation et les performances en apprentissage nous amènera à distinguer trois cadres d extraction de caractéristiques. Lorsque l extraction de caractéristiques est réalisée dans un cadre non supervisé (c est à dire sans information de classe), nous parlerons d extraction non supervisée. Dans un cadre supervisé (avec des informations de classes), nous parlerons d extraction supervisée. Citons également le cadre plus récent de l apprentissage multi-tâches, qui généralise l apprentissage supervisé précédent. Les premiers travaux ont commencé dans les années 1990 avec notamment [Caruana, 1997]. Comme son nom l indique, ce nouveau cadre considère plusieurs tâches d apprentissage supervisé, et a pour objectif de les résoudre simultanément. En apprenant l ensemble des tâches simultanément plutôt que séparément, l apprentissage multi-tâches permet d atteindre une erreur en généralisation plus faible sur chaque tâche [Ando et Zhang, 2005b]. Dans la suite de cette thèse, nous appelons extraction multi-tâches l extraction de caractéristiques dans le cadre de l apprentissage multi-tâches. En extraction multi-tâches, le but est de déterminer une nouvelle représentation des données pour toutes les tâches simultanément. Nous abordons dans ce travail deux problématiques en extraction de caractéristiques : l extraction non supervisée et l extraction multi-tâches. En extraction non supervisée, notre objectif sera de proposer des solutions dans le cas particulier des données textuelles. Les données textuelles sont historiquement les plus étudiées dans le

22 22 Introduction générale cadre la recherche d information, et de nombreuses méthodes d extraction de caractéristiques ont déjà été proposées. Dans le cadre non supervisé, la difficulté principale vient de l absence de critère pour déterminer une bonne représentation des données textuelles. Une connaissance a priori du domaine est donc nécessaire. Notre objectif sera la formulation et la validation d une telle connaissance dans le cas particulier du texte. Nous voulons également proposer des méthodes d extraction simples à implémenter, de faible complexité algorithmique et interprétables. D un point de vue applicatif, notre objectif est de proposer des solutions pour deux tâches en recherche d information textuelle : le clustering thématique de documents et le résumé automatique de texte. Ensuite nous étudierons le problème général de l extraction multi-tâches. Nous proposerons un cadre d extraction multi-tâches unifié pour traiter les problèmes de classification multi-tâches, de régression multi-tâches et d ordonnancement d instances multitâches. Nous verrons notamment que dans tous les cas, l extraction multi-tâches se formule comme un cas particulier de factorisation matricielle. Puis nous concentrerons notre étude sur deux cas particuliers d extraction multi-tâches. Dans un premier temps, nous étudierons l extraction multi-tâches dans le cadre de la régression multi-tâches, qui a déjà fait l objet de quelques travaux dans la littérature. Dans ce cadre le but de l extraction est de déterminer une nouvelle représentation des données adaptée pour la prédiction de sorties réelles. Nous voulons également qu elle soit simple à implémenter, rapide et interprétable. Nous proposerons des algorithmes d apprentissage satisfaisant ces critères. D un point de vue applicatif, notre modèle nous permet de proposer une solution simple, rapide et interprétable au problème du filtrage collaboratif, lorsqu il est formulé comme un problème de prédiction de notes. Notre modèle nous permet également de déterminer des communautés d utilisateurs dans la base de notes. Dans un deuxième temps, nous étudierons l extraction multi-tâches dans le cadre de l ordonnancement d instances multi-tâches. Dans ce cadre, le but de l extraction est de déterminer une nouvelle représentation des données adaptée pour la prédiction d ordre. À notre connaissance, nous sommes les premiers à nous être intéressés à ce problème et à proposer des algorithmes d apprentissage de faible complexité algorithmique pour le résoudre. D un point de vue applicatif, l ordonnancement multi-tâches nous conduit à nous intéresser à une formulation différente du filtrage collaboratif, dans laquelle l objectif est d ordonner les articles les uns par rapport aux autres plutôt que prédire leurs notes. 1.3 Caractérisation de l information Afin d implémenter des systèmes de recherche et de filtrage d information, nous avons besoin de caractériser les articles. Les données numérisées peuvent provenir de sources très diverses (pages web, courriels, photos, vidéos, etc...), que nous transformons en vecteurs de caractéristiques, plus facilement manipulables. Ces caractéristiques doivent permettre de décider quels articles répondent aux besoins d un utilisateur donné. La difficulté principale en recherche et en filtrage d information est de déterminer quelles sont les caractéristiques pertinentes pour cette tâche. La difficulté de ce problème dépend des besoins de l utilisateur et de la nature des articles.

23 1.3 Caractérisation de l information 23 Dans le cas particulier de la recherche d information textuelle (sur des pages web, des courriels, etc...), une représentation particulièrement répandue est la représentation dite sac-de-mots. Chaque document est représenté par un vecteur de nombres d occurrences de mots, éventuellement normalisés [Salton et McGill, 1986a]. Dans la mesure où le contenu sémantique d un texte est relativement bien représenté par certains mots, cette représentation semble adaptée pour la plupart des tâches en recherche d information textuelle. Néanmoins, la représentation sac-de-mots est typiquement creuse et bruitée, ce qui est une source de difficultés comme nous le verrons dans le chapitre 4. Remarquons que la représentation sac-de-mots précédente ne serait plus adaptée pour la recommandation de livres par exemple. Considérons un utilisateur qui a indiqué ses préférences pour quelques livres, et qui demande des conseils de lecture. Il est clair que compter les occurrences des mots d un livre ne permet pas de déterminer si celui ci correspond aux goûts littéraires de l utilisateur. De manière plus générale, les produits culturels (livres, musique, films, etc...) sont difficiles à caractériser pour la recommandation. D ailleurs en pratique, il arrive que les représentations vectorielles des articles ne soient tout simplement pas disponibles. Dans les deux cas, la représentation initiale des données n est pas la plus adaptée pour répondre aux besoins d information des utilisateurs. Ce constat légitime donc l utilisation de l extraction de caractéristiques pour déterminer une nouvelle représentation des données. Dans la partie applicative de cette thèse, nous appliquons nos méthodes d extraction de caractéristiques à différentes tâches de recherche et de filtrage d information. Notre but est de déterminer une représentation plus pertinente des données, afin de mieux répondre aux besoins en information des utilisateurs Applications à la recherche d information Nous allons d abord nous placer dans le cadre général de la recherche d information textuelle. Plus précisément, nous allons nous intéresser à deux sous-problèmes particuliers : le clustering thématique de documents et le résumé automatique de texte. Dans les deux cas, nous appliquons nos méthodes d extraction de caractéristiques afin de déterminer une nouvelle représentation des données. Notre but est ainsi d améliorer les performances sur chaque tâche. A chaque fois, nous validons expérimentalement nos approches sur des collections de textes standard du domaine. Le clustering thématique de documents. Le clustering thématique a pour but de répartir un ensemble de documents en plusieurs clusters, de telle sorte que deux documents appartenant au même cluster sont thématiquement proches (voir la figure 1.2). Le clustering thématique peut par exemple aider les utilisateurs à juger rapidement la pertinence des résultats d un moteur de recherche classique [Cutting et al., 1992], ou encore faciliter la navigation dans de grandes collections de documents [Van Rijsbergen, 1979]. Il a également été étudié dans le cadre du résumé automatique de texte et de la recherche d information distribuée [Xu et Croft, 1999]. La littérature en clustering est vaste, et de nombreuses méthodes existent pour regrouper les documents en clusters. Plus que le choix de la méthode de clustering, nous verrons que c est le choix de la représentation des documents qui est déterminant pour le résultat du clustering. Ainsi, une représentation adéquate des documents permet de retrouver les clusters attendus, c est à dire tels que

24 24 Introduction générale FIG. 1.2 Le clustering thématique a pour but de regrouper les documents traitant de sujets similaires. Exemple : les documents rouges traitent de sport, les documents bleus de politique et les documents verts de religion. deux documents appartenant au même cluster traitent du même sujet. Dans ce but, nous utiliserons nos deux modèles d extraction de caractéristiques non supervisée (C-CEM et PLSA étendu) pour déterminer une nouvelle représentation des documents. Nous montrerons empiriquement sur trois collections standard WebKB, 20Newsgroups et Reuters la validité de nos approches, en les comparant à plusieurs choix de représentation des documents. Le résumé automatique de texte. Le résumé automatique de texte a pour but d extraire des segments du texte (par exemple des phrases) qui décrivent le mieux possible son contenu. En général, un système de résumé automatique décompose le texte en segments, puis attribue un score de pertinence à chaque segment. Le résumé produit est constitué des segments obtenant les meilleurs scores. Dans cette thèse, nous nous plaçons dans le cas particulier du résumé automatique par rapport à une requête. Le but est de produire un ensemble de phrases constituant une réponse pertinente à cette requête. FIG. 1.3 Système de résumé extractif Comme précédemment, le choix de la représentation de chaque phrase est crucial pour le calcul des scores de pertinence. En résumé automatique, chaque phrase est représenté par un vecteur de scores individuels. Un score individuel mesure par exemple la similarité de la phrase avec la requête, le titre du document, le titre de la thématique, etc... En général les requêtes et les titres contiennent peu de mots, ce qui rend les calculs de similarités difficiles. Si par exemple une re-

25 1.3 Caractérisation de l information 25 quête et une phrase traitent du même sujet mais la phrase ne contient que des synonymes des mots de la requête, alors le calcul de similarité renvoie un score nul. Une solution consiste à enrichir les mots de la requête avec des mots sémantiquement proches. Dans ce but, nous utilisons notre algorithme C-CEM pour déterminer des clusters de mots sémantiquement proches. En améliorant la qualité de ces calculs de similarité, notre but est de déterminer une représentation pertinente des phrases, et donc d améliorer la qualité globale du clustering. Nous avons validé expérimentalement notre approche en participant à la compétition de résumé automatique TREC 2007, dans laquelle notre système de résumé s est classé premier parmi 32 équipes Applications au filtrage d information Un des problèmes de filtrage d information les plus connus et les plus étudiés est celui du filtrage collaboratif (FC). Comme son nom l indique, il s agit d une version collaborative du problème du filtrage d information. En filtrage collaboratif, nous considérons un ensemble d utilisateurs et un ensemble d articles. Chaque utilisateur a exprimé ses préférences pour quelques articles, en général sous la forme de notes entières. Le but est de déterminer pour chaque utilisateur un sous-ensemble d articles non notés correspondant à ses goûts. L aspect collaboratif vient du fait que pour chaque utilisateur, les recommandations sont générées à partir de toutes les notes de la base, et pas seulement celle qu il a fournies. L idée intuitive est que si deux utilisateurs partagent des goûts similaires sur un certain nombre de films, alors il est probable qu ils aient les mêmes avis sur d autres films qu ils n ont pas notés. En faisant collaborer ainsi les différents utilisateurs, le filtrage collaboratif exploite cette intuition pour générer les recommandations. Nous distinguons deux types d utilisateurs différents en filtrage collaboratif, associés à deux problèmes de recommandation différents. Les utilisateurs initiaux sont ceux sur lesquels le modèle de prédiction est initialement appris. La recommandation hors ligne consiste à générer des recommandations pour ces utilisateurs initiaux. En pratique, l arrivée régulière de nouveaux utilisateurs et les mises à jour des notes des utilisateurs initiaux rendent la base de notes très dynamique. Un système de recommandation doit être capable de générer des recommandations pour de nouveaux utilisateurs, absents de la base au moment de l apprentissage du modèle initial. La recommandation en ligne consiste à générer des recommandations pour ces nouveaux utilisateurs. Dans les deux scénarios, les notes fournies par les utilisateurs sont les seules informations disponibles pour générer les recommandations. En particulier, les représentations vectorielles des articles ne sont pas disponibles. Une manière de résoudre ce problème est d utiliser les notes pour déterminer ces représentations vectorielles manquantes, permettant ainsi de faire des prédictions. Et comme en recherche d information, la difficulté principale réside dans le choix de la représentation des articles à recommander. Quelles caractéristiques choisir pour répondre aux besoins des utilisateurs?

26 26 Introduction générale FIG. 1.4 Système de recommandation Pour générer les recommandations l approche la plus étudiée dans la littérature repose sur la prédiction de notes. Dans un premier temps, nous allons déterminer les représentations vectorielles des articles permettant de faire de la prédiction de notes. Pour cela nous utiliserons notre méthode d extraction de caractéristiques multi-tâches FMNG. Puis nous formulerons le filtrage collaboratif non plus comme un problème de prédiction de notes, mais comme un problème de prédiction d ordre. Afin de déterminer les représentations vectorielles des articles permettant de les ordonner les uns par rapport aux autres, nous utiliserons notre méthode d extraction de caractéristiques multi-tâches OMT. Nous validerons expérimentalement nos deux approches sur la base standard de filtrage collaboratif MovieLens. Nous comparerons les performances de nos approches à des méthodes de prédiction standard de la littérature. Les comparaisons seront faites dans les cadres de prédiction de notes et de prédiction d ordre, et pour les tâches de recommandation hors ligne et de recommandation en ligne. Dans le cas particulier de la prédiction de notes avec notre méthode FMNG, nous illustrerons les capacités d interprétabilité de notre modèle en terme de communautés d utilisateurs. 1.4 Plan de la thèse Cette thèse est organisée en deux parties. Dans la première partie, nous présentons la problématique générale liée au choix de la représentation des données en apprentissage statistique, ainsi que différentes méthodes pour modifier cette représentation. Dans

27 1.4 Plan de la thèse 27 la deuxième partie, nous présentons nos contributions en extraction de caractéristiques, ainsi que les applications en recherche d information et en filtrage d information. La première partie de cette thèse présente le cadre général de l apprentissage statistique, ainsi que le rôle de la représentation des données dans ce cadre. Cette première partie est composée de quatre chapitres. Dans le chapitre 2, nous présentons les principaux cadres d apprentissage statistique que sont l apprentissage supervisé, l apprentissage multi-tâches et l apprentissage non supervisé. Pour chaque cadre d apprentissage, nous présentons les concepts importants et les algorithmes qui nous seront utiles dans la deuxième partie de la thèse. Dans le chapitre 3, nous soulignons l importance d avoir une représentation des données adéquate pour un problème d apprentissage donné. En général ce n est pas le cas, ce qui nous amène à présenter l extraction de caractéristiques pour déterminer une nouvelle représentation des données. Comme en apprentissage, il existe trois cadres d extraction de caractéristiques : l extraction non supervisée, l extraction supervisée et l extraction multi-tâches. Dans les deux chapitres suivants, nous présentons un état de l art des deux cadres d extraction qui nous serviront dans la deuxième partie de cette thèse. L extraction de caractéristiques non supervisée dans le chapitre 4, et l extraction multi-tâches dans le chapitre 5. La deuxième partie de cette thèse présente nos contributions dans les cadres d extraction de caractéristiques non supervisée et multi-tâches. Cette partie est composée de trois chapitres. Dans le chapitre 6, nous présentons nos travaux en extraction de caractéristiques non supervisée dans le cas particulier des données textuelles. Nous proposons deux nouveaux modèles d extraction, que nous appliquons ensuite à deux tâches en recherche d information : le clustering thématique de documents et le résumé automatique de texte. Dans les deux chapitres suivants, nous présentons nos contributions en extraction de caractéristiques multi-tâches. Dans le chapitre 7, nous proposons un cadre unifié pour l extraction de caractéristiques multi-tâches, ainsi que nos contributions dans les cadre de la régression multi-tâches et de l ordonnancement d instances multi-tâches. Dans le chapitre 8, nous appliquons les modèles du chapitre 7 au problème du filtrage collaboratif, que nous voyons d abord comme un problème de prédiction de notes dans le chapitre 7, puis comme un problème de prédiction d ordre dans le chapitre 8.

28 28 Introduction générale

29 2 Présentation de l apprentissage statistique Sommaire 2.1 Introduction Apprentissage supervisé Introduction Classification et régression Ordonnancement d instances Apprentissage multi-tâches Introduction Un cadre de travail pour l apprentissage multi-tâches Apprentissage multi-tâches transductif Apprentissage non supervisé Introduction Estimation de densité Clustering Conclusion Introduction Dans cette section nous présentons les trois principaux cadres d apprentissage statistique que sont l apprentissage non supervisé, l apprentissage supervisé et l apprentissage multi-tâches. Pour chacun de ces trois cadres, nous présentons les concepts importants et les algorithmes qui nous seront utiles pour la suite de notre travail. En apprentissage supervisé, nous voulons apprendre la relation probabiliste (ou la distribution jointe) P(x, y) entre les exemples (sous forme vectorielle) x X et les sorties désirées y Y. Cet apprentissage se fait à l aide d un ensemble d apprentissage qui contient des exemples étiquetés {(x i, y i ) i = 1,..., m} tirés indépendamment de la probabilité jointe P(x, y). L apprentissage supervisé inclue notamment la classification (avec Y un ensemble discret) et la régression (avec Y R).

30 30 Présentation de l apprentissage statistique En apprentissage multi-tâches, nous voulons apprendre plusieurs tâches supervisées simultanément. À chaque tâche est associée une distribution de probabilité inconnue P l (x, y), dont sont indépendamment tirés des exemples d apprentissage {(xi l, yl i ) i = 1,..., m l}. Dans le cas de classification multi-tâches, les tâches à apprendre simultanément sont des problèmes de classification. Dans le cas de la régression multi-tâches, les tâches sont des problèmes de régression. En apprentissage non-supervisé, nous voulons apprendre la structure interne des données issues d une distribution marginale inconnue P(x) (appelée aussi source) à partir d un ensemble de données d apprentissage {x i i = 1,..., m}. Les algorithmes non-supervisés sont utilisés pour la visualisation (c est le cas des analyses factorielles comme l ACP [Jolliffe, 1986] et l analyse canonique [Hardoon et al., 2003]), la détection de similarité (algorithme de regroupement comme les K-moyennes [Bishop, 2006]) et l estimation de densité (modèle de mélange de densités [Dempster et al., 1977a]). Ce chapitre est composé de trois parties. Nous commençons par présenter l apprentissage supervisé dans la section 2.2 et l apprentissage multi-tâches dans la section 2.3. Puis nous présentons l apprentissage non-supervisé dans la section 2.4. Soulignons que ce chapitre n est pas une description exhaustive des algorithmes développés dans ces trois cadres. Nous concentrons donc notre présentation sur les concepts et les algorithmes dont nous aurons besoin dans nos contributions (voir chapitres 5, 6 et 7), avec des applications en clustering de documents et en filtrage collaboratif. 2.2 Apprentissage supervisé Introduction Un algorithme d apprentissage supervisé apprend une fonction de prédiction à partir d un ensemble d exemples, appelés exemples d apprentissage. Chaque exemple est un couple ( observation, réponse ). Le but de l apprentissage est de choisir une fonction de prédiction capable de prédire les réponses associées à de nouveaux exemples, c est à dire des exemples différents des exemples d apprentissage. En pratique, une fonction d erreur mesure l accord entre la prédiction et la réponse (également appelée sortie ou étiquette). Plus l erreur est faible et meilleure est la prédiction. Ainsi, l algorithme d apprentissage choisit la fonction de prédiction qui minimise l erreur moyenne sur les exemples d apprentissage, appelée risque empirique. En minimisant le risque empirique, nous espérons que la fonction de prédiction aura une erreur en généralisation faible, c est à dire qu elle fera peu d erreurs en moyenne sur de nouveaux exemples. L hypothèse sous-jacente est que les nouveaux exemples sont liés, d une façon ou d une autre, aux exemples d apprentissage utilisés pour choisir la fonction de prédiction. L étude du lien entre l erreur empirique et l erreur en généralisation est au cœur de la théorie de l apprentissage statistique [Vapnik, 1995]. Dans la suite de cette section, nous présentons trois grands problèmes en apprentissage statistique : la classification, la régression et l ordonnancement d instances. La classification et la régression sont les problèmes les plus connus et historiquement les plus étudiés dans la littérature. Ce sont deux problèmes très similaires, que nous présentons dans la section Dans le chapitre 7 nous présenterons nos contributions dans un cadre particulier de régression, pour lequel nous aurons besoin des concepts de

31 2.2 Apprentissage supervisé 31 régression présentés dans cette section. L ordonnancement d instances est un problème apparu plus récemment [Cohen et al., 1998]. Nous verrons qu il est possible de le formuler comme un problème de classification, ce qui nous sera utile pour formuler des algorithmes d ordonnancement d instances dans le chapitre 8. Dans la suite de cette thèse, nous désignerons par ordonnancement la tâche d ordonnancement d instances Classification et régression Présentation générale Nous présentons maintenant les deux problèmes les plus connus et les plus étudiés en apprentissage supervisé : la classification et la régression. Ils sont essentiellement semblables, mais diffèrent par l espace de sortie des fonctions de prédiction. En classification, l ensemble de sortie est discret, et en régression, l ensemble de sortie est un intervalle continu contenu dans R. Définitions et notations Nous donnons maintenant les définitions et les notations que nous utiliserons dans la suite de cette thèse. Un exemple est un couple composé d une observation et d une sortie désirée. Les observations possèdent une représentation numérique dans un espace vectoriel X, typiquement X R D pour D fixé. La réponse sera appelée sortie désirée, et elle est supposée faire partie d un ensemble de sortie Y. Lorsque Y est continu, la fonction recherchée f est dite généralement une fonction de régression ou un classifieur dans le cas de la classification. Un couple (x, y) désignera un élément de X Y, et S = {(x 1, y 1 ),..., (x m, y m )} (X Y) m dénotera un ensemble d exemples, un ensemble d apprentissage ou un ensemble de test selon les cas. Hypothèse fondamentale L hypothèse fondamentale de la théorie de l apprentissage statistique est que tous les exemples sont générés indépendamment par une distribution de probabilité P fixée mais inconnue. Ainsi pour tout ensemble d exemples S, les exemples (x i, y i ) sont générés indépendamment selon P. Nous disons alors que S est un échantillon d exemples i.i.d. (indépendants et identiquement distribués) suivant P. Informellement, cette hypothèse définit la notion de représentativité d un ensemble d apprentissage ou de test par rapport au problème : les exemples d apprentissage, ainsi que les observations futures et leur sortie désirée, sont issus d une même source. Fonctions d erreur La seconde notion fondamentale en apprentissage est la notion d erreur, aussi appelée risque ou coût. Étant donnée une fonction de prédiction f, l accord entre la prédiction f (x) et la sortie désirée y pour un couple (x, y) est mesuré grâce à une fonction L : Y Y R +. Intuitivement, L( f (x), y) mesure la similitude entre la réponse prédite et la réponse désirée. C est donc généralement une distance sur l ensemble des sorties Y. En classification, l erreur généralement considérée est l erreur de classification 0/1 : L( f (x), y) = [[ f (x) y]]

32 32 Présentation de l apprentissage statistique Où [[P]] vaut 1 si le prédicat P est vrai et 0 sinon. Autrement dit le coût d une erreur de prédiction sur l étiquette d un exemple x vaut 1. En régression, la fonction d erreur couramment utilisée est l erreur carrée entre la sortie désirée y et la prédiction f (x) : L( f (x), y) = ( f (x) y) 2 Erreur en généralisation et erreur empirique Nous sommes maintenant capable de calculer l erreur associée à la fonction de prédiction f sur tous les exemples (x, y) de l espace (X Y) m. Cette quantité est appelée erreur en généralisation : [ ] E gen ( f ) = E P L(y, f (x)) = L(y, f (x))dp(x, y) La fonction f qui nous intéresse est celle qui fait le moins d erreurs de prédiction sur les exemples z = (x, y), c est donc celle qui minimise E gen ( f ). Or, comme la distribution de probabilité P est inconnue cette erreur en généralisation ne peut être calculée pour trouver f. [Vapnik, 1995] a montré que la recherche de la fonction f peut se faire d une manière consistante via l optimisation de l erreur moyenne de f sur une base d apprentissage S. Cette quantité est un estimateur non-biaisé de l erreur en généralisation et elle est communément appelée le risque empirique de f sur S : E emp ( f ) = 1 m X Y m L(y i, f (x i )) Le principe de la minimisation du risque empirique (MRE) de Vapnik ainsi que les notions évoquées plus haut seront explicités dans les paragraphes suivants. Algorithme d apprentissage et principe MRE Un algorithme d apprentissage prend en entrée une base d apprentissage S, et retourne une fonction de prédiction f S : X Y. Formellement, un algorithme d apprentissage est donc une fonction A : m 1 (X Y) m F, où l espace F, appelé espace d hypothèses, est un espace de fonctions à l intérieur duquel A cherche la fonction f S. i=1 Intuitivement, l algorithme MRE se comprend de la manière suivante. Si les exemples d apprentissage contenus dans S sont suffisamment représentatifs de la distribution P, alors (sous certaines conditions à préciser) l erreur empirique E emp ( f ) est une bonne estimation de l erreur en généralisation E emp ( f ). Pour minimiser l erreur en généralisation, nous allons donc minimiser l erreur empirique. Étant données une fonction d erreur L, une base d apprentissage S contenant n exemples et une classe de fonctions F, l algorithme MRE retourne la fonction f S vérifiant : f S = arg min f F 1 m (x i,y i ) S L(y i, f (x i )) Généralisation et consistance d un algorithme d apprentissage Soulignons que la minimisation de l erreur empirique n est pas un but en soi, ce qui nous intéresse étant la minimisation de l erreur en généralisation. Ainsi, l algorithme MRE ne nous est d aucune utilité si la fonction apprise par MRE (notée f S ) a une erreur empirique faible et une erreur en généralisation élevée. Nous attendrons donc de l algorithme MRE qu il généralise, c est à dire que l erreur empirique de f S soit un bon estimateur de son

33 2.2 Apprentissage supervisé 33 erreur en généralisation. Si cette propriété de généralisation est respectée, alors nous savons que si MRE retourne la fonction f S d erreur empirique faible, alors son erreur en généralisation sera probablement faible aussi. Insistons également sur le fait que l algorithme MRE travaille dans un espace de fonctions F connu et fixé. Les fonctions considérées pour la recherche de la plus faible erreur en généralisation sont des éléments de F. Ainsi, une deuxième propriété naturellement désirable de l algorithme MRE est qu il finisse par trouver la meilleure fonction de F (pour l erreur en généralisation) pourvu qu il dispose de suffisamment d exemples pour apprendre. Cette propriété est appelée la consistance. Pour que l apprentissage ait un sens, il faut donc que l algorithme MRE vérifie les deux propriétés précédentes. Or des travaux montrent que la généralisation et la consistance sont étroitement liées à la notion de complexité de la classe de fonctions F considérée. Surapprentissage et complexité d une classe de fonctions Concentrons nous d abord sur la propriété de généralisation de l algorithme MRE. Pour quelles classes de fonctions F l erreur empirique de la fonction apprise f S n est elle pas un bon estimateur de son erreur en généralisation? Nous devinons qu il vaut mieux éviter que la fonction apprise soit trop compliquée par rapport aux exemples d apprentissage. En effet il est facile de construire une fonction d erreur empirique nulle sur les exemples d apprentissage, et arbitrairement compliquée partout ailleurs. Il est probable que cette fonction aura une erreur en généralisation élevée. Ce phénomène est appelé surapprentissage et est illustré dans la figure 2.1. FIG. 2.1 Exemple de surapprentissage en régression. La courbe à apprendre est en pointillés, les points d apprentissage sont en rouge. La fonction apprise par MRE (en noir) minimise bien le risque empirique (elle passe par tous les points d apprentissage), mais possède une erreur en généralisation élevée.

34 34 Présentation de l apprentissage statistique Ainsi nous voulons que l algorithme MRE apprenne des fonctions simples. Un moyen d imposer la simplicité est de contraindre la classe de fonctions F à ne contenir que des fonctions simples (la notion de simplicité restant à définir). Ainsi nous garantissons la généralisation de l algorithme MRE. De plus, il est possible de montrer que pour MRE, les propriétés de généralisation et de consistance sont équivalentes. En limitant la complexité de la classe de fonctions F, nous garantissons donc la généralisation et la consistance de l algorithme MRE. En revanche, si F est trop simple par rapport à la distribution P, alors la fonction apprise n aura probablement pas de bonnes performances en généralisation. Son erreur empirique comme son erreur en généralisation seront élevées. Nous voyons donc que le choix de l espace d hypothèses F est crucial : il ne doit être ni trop complexe pour éviter le problème du surapprentissage, ni trop simple afin d atteindre quand même de bonnes performances en généralisation. Ce compromis entre une erreur empirique faible et classe de fonctions complexe, également connu sous le nom de compromis biais variance, est fondamental en apprentissage. Ce compromis est illustré dans la figure 2.2 FIG. 2.2 Erreur empirique et erreur en généralisation en fonction de la complexité de l espace d hypothèses F. Quand F est trop simple par rapport à P, l erreur empirique est un bon estimateur de l erreur en généralisation mais les deux erreurs sont élevées. Quand F est trop complexe par rapport à P, alors l erreur empirique est faible et l erreur en généralisation élevée : il y a surapprentissage. Dimension VC Nous savons maintenant qu en apprentissage il est crucial de pouvoir limiter la complexité de la classe de fonctions considérée. Pour cela, nous devons d abord définir un moyen de définir cette complexité. Dans le cas de la classification binaire, un concept très important développé par [Vapnik, 1995] est la dimension VC (dimension de Vapnik Chervonenkis).

35 2.2 Apprentissage supervisé 35 Soit F un ensemble de fonctions de X dans Y = { 1, 1} et X = (x 1,..., x m ) un ensemble d observations dans X. Considérons S = {((x 1, y 1 ),..., (x m, y m )) (y 1,..., y m ) Y m }, autrement dit S est l ensemble de tous les étiquetages possible sur l ensemble d observations X. La classe de fonctions F pulvérise l ensemble d observations X si quel que soit l ensemble d exemples S S, il existe un classifieur f F capable de classer correctement tous les exemples de S. La dimension VC de F est le nombre maximal de points tel que la classe de fonctions peut générée toutes les classifications possible sur cet ensemble de points. On dit alors que l ensemble est pulvérisé par F. La notion de complexité d une classe de fonctions définie par sa dimension VC est donc liée à cette notion de pulvérisation : plus une classe de fonctions est capable de pulvériser un grand nombre de points, plus elle est complexe. Borne sur l erreur en généralisation L étude de la relation entre erreur empirique, erreur en généralisation et complexité de la classe de fonctions est au cœur de la théorie de l apprentissage statistique. La plupart de ces travaux prennent la forme de bornes probabilistes de l erreur en généralisation. Soit un ensemble de m exemples tirés indépendamment d une distribution P. Considérons F une classe de fonctions de X dans Y = { 1, 1} et notons V la dimension VC de F. [Vapnik, 1995] a démontré que pour f F et δ > 0, l inégalité suivante est vraie avec une probabilité 1 δ : V(log(2m/V) + 1) + log(4/δ) E gen ( f ) E emp ( f ) + m Il est donc clair que pour avoir un risque faible, il faut que les deux termes à droite de l inégalité soient faibles : l erreur empirique qui dépend de la fonction de prédiction f, et le second terme qui dépend de la classe de fonctions F. Plus précisément, ce second terme mesure la complexité de F au travers de la dimension VC de la classe de fonctions. Pour avoir une garantie théorique sur l erreur en généralisation, il ne faut donc pas seulement minimiser l erreur empirique, il faut également choisir une classe de fonctions simple. Mais elle ne doit pas être trop simple, sinon l erreur empirique sera élevée. Nous retrouvons donc le compromis biais-variance, dont nous avons déjà souligné l importance précédemment. Minimisation du risque structurel Nous avons souligné précédemment que la difficulté principale en apprentissage supervisé réside dans le choix de la classe de fonctions, car c est ce choix qui implémente le compromis biais variance. Or la borne en généralisation précédente suggère une stratégie simple pour déterminer la classe de fonctions adéquate. Considérons plusieurs classes de fonctions candidates F 1,..., F N dont nous connaissons les dimensions VC. Pour chaque classe, nous pouvons trouver une fonction par l algorithme MRE, puis calculer la valeur de la borne sur l erreur en généralisation. La classe de fonctions qui minimise cette borne obtient la meilleure garantie théorique sur l erreur en généralisation parmi les classes de fonctions candidates. C est donc naturellement celle-ci que nous voulons sélectionner. C est exactement le principe de la minimisation du risque structurel (MRS) [Vapnik, 1995]. Les deux principes de la minimisation du risque empirique et de la minimisation du risque structurel sont à l origine d un grand nombre d algorithmes d apprentissage, et

36 36 Présentation de l apprentissage statistique peuvent expliquer les algorithmes qui existaient avant l établissement de cette théorie. C est notamment le cas des machines à vecteurs de support (MVS), dont le succès empirique a pu être justifié après coup grâce au principe MRS. Machine à vecteurs de support FIG. 2.3 Parmi tous les classifieurs d erreur empirique nulle, les MVS déterminent celui qui maximise la marge Dans cette section, nous présentons l algorithme des MVS dans le cas de la classification binaire. Les MVS sont sans aucun doute les algorithmes de classification les plus populaires aujourd hui, principalement grâce aux justifications théoriques sur leur fonctionnement. Nous commençons par présenter les notions d hyperplan séparateur d un ensemble d exemples et de noyau, puis le principe des machines à vecteurs de support [Vapnik, 1995], qui permettent de trouver un hyperplan séparateur grâce à une méthode qui peut être interprétée comme une minimisation du risque structurel présenté à la section précédente. Classifieurs linéaires et marge de séparation Considérons un espace d entrée X R D, avec D fixé. Un classifieur linéaire est une fonction de R D dans { 1, 1} de la forme f (x) = sgn(b T x + b 0 ) avec b R D et b 0 R, et sgn(t) = 1 si t > 0, 1 sinon. Nous remarquons que le classifieur f (x) = b T x + b partage X en deux sous-espaces : les ensembles {x X b T x + b 0 < 0} et {x X b T x + b 0 > 0}. Considérons un classifieur f (x) = b T x + b 0 d erreur empirique nulle, c est à dire classifiant correctement tous les exemples de S. Comme nous avons supposé que S est linéairement séparable, alors il existe un scalaire tel que les exemples (x i, y i ) les plus proches de l hyperplan vérifient b T x + b 0 = 1. Considérons maintenant deux observations x 1 et x 2 de classes différents, telles que b T x 1 +b 0 = 1 et b T x 2 +b 0 = 1. La marge est définie comme la distance entre ces deux points, mesurée perpendiculairement à b l hyperplan. Autrement dit la marge vaut b (x 1 x 2 ) = 2 b. Cette notion de marge est illustrée dans la figure 2.3

37 2.2 Apprentissage supervisé 37 MVS à marge dure Nous avons vu précédemment que sous réserve que les exemples les plus proches à l hyperplan vérifient b T x + b 0 = 1, alors la marge est liée à la norme b par la relation γ = 2 b. Ce résultat suggère donc de minimiser la norme de b dans le but de déterminer un hyperplan de marge maximale. En remarquant que les contraintes b T x+b 0 = 1 peuvent s écrire y(b T x+b 0 ) = 1 pour les exemples proches de l hyperplan, cela revient donc à résoudre le problème d optimisation suivant : min b R D,b 0 R 1 2 b 2 s.c. i, y i (b T x i + b 0 ) 1 Nous reconnaissons un problème d optimisation quadratique avec des contraintes linéaires. En général nous ne chercherons pas à résoudre ce problème directement, mais nous nous intéresserons plutôt au problème dual [Burges, 1998, Merler et Jurman, 2006] : max (α 1,...,α m ) R m s.c. m α i 1 2 i=1 m y i α i = 0 i=1 i, α i 0 m i=1 m y i y j α i α j xi T x j Cette formulation présente l avantage d exprimer le vecteur b solution du problème d optimisation initial sous la forme suivante : j=1 b = m y i α i x i i=1 où (α 1,..., α m ) est une solution optimale du problème dual. De plus, il peut être montré que α i > 0 si et seulement si y i (b T x i + b 0 ) = 1. Ainsi, le vecteur directeur de l hyperplan optimal peut se décomposer comme une combinaison linéaire des vecteurs d entrée qui sont à la distance minimale de cet hyperplan. Ces vecteurs d entrée sont appelés les vecteurs de support. Ainsi, l hyperplan de marge maximale possède la propriété de ne dépendre que d un sous-ensemble d exemples. Ces exemples se trouvent exactement sur la marge et sont appelés les vecteurs support. Les autres exemples pourraient se trouver n importe où en dehors de la marge sans modifier la solution. Nous trouverions donc la même solution si l ensemble d apprentissage S ne contenait que les vecteurs support. Justification théorique Les machines à vecteurs de support ont été utilisées avec succès dans de nombreux domaines, mais il n est pas immédiat de comprendre leurs bonnes performances d un point de vue théorique. [Vapnik, 1995] avance une explication en reliant la notion de marge de séparation à celle de dimension VC. En particulier, il démontre le théorème suivant : Soit b R D tel que b = 1, c b,b0,γ le classifieur défini par la relation suivante : c b,b0,γ(x) = 1 si b T x + b 0 γ, et c b,b0,γ(x) = 1 si b T x + b 0 γ. Ce classifieur est appelé un hyperplan séparateur à marge γ. Dans les cas où x ne vérifie aucune des

38 38 Présentation de l apprentissage statistique deux conditions, nous considérons qu il est ignoré. Alors, si l espace des observations X est inclus dans une boule de rayon B, la dimension VC de l ensemble des hyperplans séparateurs à marge γ sur X est inférieure à R 2 /γ 2 + 1, où t est la partie entière supérieure de t. La marge de séparation est donc reliée à la dimension VC : plus un hyperplan séparateur réalise une large marge de séparation sur un ensemble S, plus il peut être considéré comme faisant partie d un ensemble de fonctions de petite dimension VC. Or nous avons vu que le principe de minimisation du risque structurel suggère de favoriser les classifieurs binaires de faible dimension VC. Ainsi en maximisant la marge, les machines à vecteurs de support minimisent la dimension VC et peuvent donc être vues comme des implémentations du principe de minimisation du risque structurel. MVS à marge molle Les MVS à marge dure présentés dans la section précédente ne peuvent s appliquer que lorsque S est linéairement séparable. En pratique c est rarement le cas, notamment à cause des problèmes de bruit (S contient des exemples dont la classe observée n est pas la vraie classe), ou tout simplement parce que le problème n est pas linéairement séparable. Un exemple de problème de classification non linéairement séparable est donné dans la figure 2.4. Pour pouvoir utiliser des MVS sur de telles données, il faut donc les rendre capables d accepter de mal classer certains exemples. FIG. 2.4 deux classes non linéairement séparables dans R 2 Un moyen simple de permettre des erreurs de classification est de relâcher les contraintes sur le marge en introduisant des variables ressort [Cortes et Vapnik, 1995]. À un exemple de S est associée une variable ressort, qui nous permet d associer un coût chaque fois que l exemple correspondant viole la contrainte sur la marge. Le nouveau MVS ainsi défini est alors dit à marge molle. Le nouvel objectif du MVS à marge molle est donc double : maximiser la marge et minimiser le nombre d exemples violant la contrainte sur la marge. Autrement dit nous allons minimiser la norme de b et la somme des coûts associés aux variables ressort. Le nouveau problème d optimisation s écrit :

39 2.2 Apprentissage supervisé 39 min b R D,b 0 R 1 m 2 b 2 + C i=1 ξ i s.c. i, y i (b T x i + b 0 ) 1 ξ i i, ξ i 0 où les ξ i sont les variables ressort, C > 0 un réel à choisir. Lorsque nous avons ξ i > 0, alors la contrainte correspondante est violée. Le coût associé à cette violation vaut Cξ i, ce que nous pouvons compenser en diminuant la norme de b. Si C est grand, alors la moindre violation de contrainte aura un coût important, et la solution privilégiera donc les hyperplans de marge petite mais faisant peu de violations de contraintes de marge. À l inverse un C est faible autorisera plus d erreurs de classification et favorisera les hyperplans de grande marge. Nous voyons donc que C permet de paramétrer le compromis entre la maximisation de la marge et les violations des contraintes sur la marge. En pratique le coefficient C sera choisi par des méthodes classiques de sélection de modèle comme la validation croisée. Erreur de Hinge et régularisation Nous allons maintenant interpréter les MVS à marge molle sous l angle de la régularisation. Un problème d optimisation est dit régularisé lorsque la fonction optimisée est la somme de deux erreurs : la fonction de coût qui nous intéresse vraiment (l erreur de classification par exemple), et une fonction de régularisation. Cette fonction de régularisation est utilisée soit pour stabiliser la solution (c est à dire faire en sorte qu elle ne varie pas trop), soit pour incorporer une connaissance a priori du problème (c est à dire introduire un biais). De nombreux algorithmes d apprentissage peuvent être interprétés comme des problèmes régularisés. Nous allons voir que c est notamment le cas des MVS à marge molle. Pour cela nous définissons la fonction d erreur L( f (x), y) = max(0, 1 y f (x)), appelée erreur de Hinge. Cette fonction est représentée sur la figure 2.5 : FIG. 2.5 Erreur 0/1, erreur de Hinge et erreur exponentielle

40 40 Présentation de l apprentissage statistique Nous pouvons maintenant réécrire le problème d optimisation précédent sans les contraintes : 1 min b R D,b 0 R 2 b 2 + C m max ( 0, 1 y i (b T x i + b 0 ) ) i=1 Si nous divisons la fonction de coût par la constante C, nous reconnaissons une fonction de régularisation et une erreur empirique : fonction de régularisation erreur empirique { }} { { }} { 1 m 2C b 2 + max ( 0, 1 y i (b T x i + b 0 ) ) i=1 Ainsi le MVS à marge molle peut être vu comme un problème d apprentissage régularisé, où la fonction de régularisation introduit un biais vers les hyperplans de grande marge. Remarquons qu avec cette interprétation d apprentissage régularisé, l erreur empirique n est pas l erreur 0/1 qui nous intéressait initialement mais l erreur de Hinge. Ainsi, nous n avons pas de garantie théorique sur l erreur de classification 0/1 mais sur l erreur de Hinge, qui est elle même une borne supérieure du nombre moyen d exemples mal classés. Régression linéaire et non linéaire Nous présentons maintenant un modèle de régression linéaire (ainsi que son extension non linéaire), qui nous servira dans le chapitre 7. Considérons une distribution P sur (X Y) m où X R D est l espace d entrée, et Y = R est l espace de sortie. Nous ne connaissons pas P, en revanche nous avons accès à un ensemble d exemples S = {(x 1, y 1 ),..., (x m, y m )} tirés indépendamment de P. Pour prédire une étiquette à partir d une observation x, nous considérons la classe F des fonctions de régression linéaires de la forme f (x) = b T x+b 0, avec b R D et b 0 R. Nous supposons également un bruit gaussien sur les sorties, de sorte que la sortie y observée pour une observation x s écrit : y = b T x + b 0 + ɛ avec ɛ N(0, σ 2 ). Ce modèle de régression linéaire comporte donc trois paramètres à déterminer : b R D, b 0 R et σ 2 R. Un problème de régression linéaire est montré dans la figure 2.6. Formulation matricielle La solution de ce problème d optimisation est plus facile à écrire avec des notations matricielles. Ainsi, nous notons y le vecteur des sorties désirées [y 1,..., y m ] T, X la matrice de taille m (D + 1) dont chaque ligne i correspond à l observation x i et contient le vecteur [xi T, 1] (c est à dire le vecteur x i transformé en vecteur ligne, et auquel on a ajouté un 1 à la fin ). Avec ces nouvelles notations, l erreur empirique devient :

41 2.2 Apprentissage supervisé 41 FIG. 2.6 Exemple de régression linéaire dans R 2 m (y i b T x i b 0 ) 2 = i=1 m i=1 ( [ ]) 2 b y i [x i, 1] b 0 [ ] = b 2 y X b 0 En annulant la dérivée de l expression précédente, et sous réserve que la matrice X T X soit inversible, la solution de ce problème d optimisation s écrit : [ ] ˆb = (X T X) 1 X T y (2.1) ˆb 0 En fixant b = ˆb et b 0 = ˆb 0 et en maximisant la vraisemblance par rapport à σ, nous trouvons : ˆσ 2 = 1 m (y i ˆb T x i ˆb 0 ) 2 m i=1 Biais et variance des estimateurs Il est possible de montrer que les estimateurs ˆb et ˆb 0 précédents vérifient [Bishop, 2006] : σ 2 ˆb N(b, m(x 2 x 2 ) ) ˆb 0 N(b 0, 1 m + x 2 m(x 2 x 2 ) σ2 ) où x 2 = ( 1 m mi=1 x i ) 2 et x2 = 1 m mi=1 x 2 i. Il est immédiat que E[ˆb] = b et E[ˆb 0 ] = b 0, autrement dit les estimateurs ˆb et ˆb 0 sont non biaisés. Dans la section nous avons déjà souligné l intérêt d introduire un peu de biais dans l estimation. En effet le biais peut permettre de réduire la variance de l estimateur, et donc d atteindre une erreur en généralisation plus faible. C est ce que nous allons faire en régularisant la régression.

42 42 Présentation de l apprentissage statistique Régression régularisée Nous présentons maintenant la régression linéaire régularisée (appelée ridge regression en anglais). L apprentissage suivant le principe MRE est régularisé avec la norme euclidienne du vecteur de paramètres [b, b 0 ], de telle sorte que la nouvelle fonction de coût à minimiser s écrit : [ ] b 2 [ ] y X + β b 2 b 0 b 0 où β > 0 est le coefficient de régularisation choisi par l utilisateur. Autrement dit nous introduisons un biais favorisant les solutions de norme euclidienne faible. En annulant la dérivée, et sous réserve que la matrice X T X soit inversible, la solution s écrit : [ ] ˆb = (βi D+1 + X T X) 1 X T y ˆb 0 où I D+1 est la matrice identité de taille (D + 1) (D + 1). En quoi le terme de régularisation permet-il de stabiliser cette solution? Revenons au problème non régularisé, et considérons la matrice X T X à inverser. Notons {v 1,..., v D+1 } l ensemble des vecteurs propres de X T X et {λ 1,..., λ D+1 } l ensemble des valeurs propres correspondantes. Autrement dit nous avons X T Xv d = λ d v d pour d {1,..., D + 1}. Notons Q la matrice (D + 1) (D + 1) telle que la d-ième colonne de Q contient le vecteur propre v d, et Λ la matrice diagonale (D + 1) (D + 1) telle que Λ dd = λ d. Nous pouvons alors écrire X T X = QΛQ 1, et si X T X est inversible nous avons : (X T X) 1 = QΛ 1 Q 1. Dans la version régularisée du problème, nous devons inverser la matrice (βi D+1 + X T X) au lieu de X T X. Or il est aisé de voir que si cette nouvelle matrice est inversible, son inverse s écrit : (βi D+1 + X T X) 1 = Q(βI D+1 + Λ) 1 Q 1 où [ (βi D+1 + Λ) 1] ii = 1/(β+λ i). Nous comprenons maintenant comment agit la régularisation. Lorsque les valeurs propres λ i de X T X sont faibles, leurs inverses risquent de beaucoup varier pour de petites perturbations de la base d apprentissage. En conséquence, la solution [ˆb, ˆb 0 ] est instable. En additionnant un terme positif aux valeurs propres, la régularisation les éloigne de 0 et permet donc de stabiliser la solution. Là encore, toute la difficulté réside dans le choix du coefficient de régularisation β. Si sa valeur est faible, il y a peu de biais mais la solution risque d être trop dépendante de la base d apprentissage, et d avoir de mauvaises performances en généralisation. Si sa valeur est élevée le biais vers 0 est important et risque également de pénaliser les performances en généralisation. Nous retrouvons le compromis biais-variance fondamental en apprentissage. En pratique, le coefficient de régularisation est choisi par des méthodes classiques de sélection de modèle comme la validation croisée. Extension non linéaire En pratique, de nombreux problèmes de régression ne sont pas linéaires et tel quel, le modèle linéaire précédent n est pas adapté pour les résoudre. Heureusement il est possible de l étendre pour des problèmes de régression

43 2.2 Apprentissage supervisé 43 non linéaire. Cette extension repose sur l utilisation de fonctions noyaux, et est très similaire à l extension des machines à vecteurs de support à la classification non linéaire (voir section 2.2.2). Le principe général est de projeter non linéairement les données dans un nouvel espace, et d apprendre une régression linéaire dans ce nouvel espace. L intérêt principal des fonctions noyaux est de rendre cette projection transparente : à aucun moment nous n aurons besoin de connaître la fonction φ et l espace de Hilbert correspondant H. La seule connaissance de la fonction noyau nous permet donc de résoudre un problème de régression dans un espace de dimension potentiellement infini sans les inconvénients algorithmiques. Notons φ une fonction de projection de X dans un espace de Hilbert H de dimension D. Notons K la fonction noyau associée, nous avons donc K(x, x ) = φ(x) T φ(x ) pour (x, x ) X. Notons Ψ la matrice n (D + 1) telle que la i-ième ligne de ψ contient le vecteur [φ(x), 1]. L estimateur du maximum de vraisemblance de (b, b 0 ) est : [ ] ˆb = (βi D+1 + Ψ T Ψ) 1 Ψ T y = Ψ T (ΨΨ T + βi m ) 1 y ˆb 0 La deuxième égalité est classique en algèbre linéaire. Une fois le vecteur de paramètres appris, la prédiction pour une nouvelle observation x s écrit : [ ] [ ] φ(x) φ(x) y = [ˆb, ˆb 0 ] = y(ψψ T + βi m ) 1 Ψ = y(k + βi m ) 1 κ(x) 1 1 où K est une matrice (m m) telle que K i j = [φ(x i ), 1] [ φ(x j ] ) 1 et κ(x) est un vecteur de taille m tel que κ(x) i = K(x i, x) pour i {1,..., m}. Comme dans l extension des machines à vecteurs de support à la classification non linéaire, remarquons la fonction φ n apparaît pas dans la formule de prédiction du nouvel exemple x. Ainsi, seule la connaissance du noyau K suffit pour faire des prédictions. Comme en classification binaire, le choix d une fonction noyau adéquate pour la régression (c est à dire telle que le problème projeté devient linéaire dans le nouvel espace) est difficile en général Ordonnancement d instances Dans cette section, nous présentons d abord un problème relativement récent en apprentissage supervisé : l ordonnancement d instances. Puis nous montrons que ce nouveau problème peut être reformulé dans le cadre plus classique de la classification binaire. Enfin, nous présentons le cas particulier de l ordonnancement d instances linéaire, dans lequel nous présentons l utilisation des machines à vecteurs de support pour l ordonnancement d instances. Ce cadre nous sera utile dans le chapitre 8. Présentation La classification et la régression décrits précédemment sont historiquement les deux premiers problèmes en apprentissage, et de loin les plus étudiés dans la littérature. Il y a pourtant de nombreux problèmes réels où il est plus pertinent d ordonner les observations plutôt que de leur attribuer une classe. En recherche d information, l exemple le plus courant est celui des moteurs de recherche comme qui présentent à l utilisateur une liste de documents triés par ordre de pertinence, et non pas un ensemble de documents tous jugés pertinents et présentés sans ordre particulier.

44 44 Présentation de l apprentissage statistique En filtrage d information, citons l exemple des systèmes de recommandation, dont le but est de recommander des articles susceptibles d intéresser un utilisateur. Du point de vue de la recommandation, trier les articles par ordre de pertinence semble plus approprié que prédire une note ou une classe pour chaque article. La tâche consistant à ordonner un ensemble d objets par rapport à une demande d information fixe s appelle l ordonnancement d instances. Plus précisément, un problème d ordonnancement d instances est défini par une relation d ordre R sur l espace d instances X, permettant d ordonner x 1 et x 2 pour toute paire d instances (x 1, x 2 ) dans X. Une manière plus simple et naturelle de modéliser la relation d ordre R est d utiliser une fonction f : X R qui attribue un score réel à toute instance x X. L ordre entre les instances se déduit alors de la comparaison des valeurs de f. Ainsi, f (x 1 ) > f (x 2 ) signifie que x 1 est ordonné au dessus de x 2. En modélisant ainsi la relation d ordre, nous formulons l ordonnancement d instances comme l apprentissage d une fonction de score, comme en classification et en régression. En revanche, soulignons une différence importante : en classification et en régression, les fonctions apprises donnent directement les prédictions attendues. En ordonnancement d instances, les fonctions apprises renvoient des scores dont les valeurs absolues ne sont pas importantes en soi. En effet, ces valeurs ne servent qu à comparer les instances les unes avec les autres. Ce sont donc les valeurs relatives des scores qui sont importantes. Ordre souhaité induit par des scores Étant donné un ensemble d observations X = (x 1,..., x m ), nous supposons que l ordre souhaité est induit par des scores Y = (y 1,..., y m ). Ces scores induisent un ordre partiel strict sur l ensemble des entrées X : x i est ordonné au dessus de x j si y i > y j. C est le cas par exemple en routage d information, où à chaque document est attribué un jugement de valeur indiquant sa pertinence par rapport à une thématique fixée r : y = 1 si le document est pertinent par rapport à r et 1 sinon. C est également le cas en filtrage collaboratif (FC), où chaque utilisateur peut attribuer à chaque article un jugement de valeur exprimant ses préférences sur une échelle de notes : y = 5 s il a beaucoup aimé, y = 1 s il a détesté. Dans les deux cas, des documents ou des articles possédant des scores différents peuvent être ordonnés les uns par rapport aux autres. Nous supposons qu une partie des exemples (x i, y i ) est connue et disponible pour l apprentissage. Le but de l ordonnancement d instances est d apprendre une fonction de score qui doit retrouver un ordre souhaité à partir des exemples d apprentissage. Nous retrouvons donc une tâche similaire à la classification et à la régression, où le but est d apprendre une fonction à partir de quelques exemples afin de retrouver les sorties pour de nouvelles observations. En revanche, notre but n est plus de prédire les scores des exemples non observés, mais de prédire l ordre entre les instances. Pour tenir compte de cette différence, nous devons adapter les notions d erreur d apprentissage et d erreur en généralisation au cadre de l ordonnancement d instances. Erreur d ordonnancement sur les paires cruciales Une fonction d erreur d ordonnancement est une fonction de la forme L : R m R m R +. Elle prend deux vecteurs

45 2.2 Apprentissage supervisé 45 de scores en entrée : le vecteur des scores désirés, et le vecteur des scores prédits. Elle renvoie un réel positif qui mesure l erreur entre le vecteur de scores désirés et le vecteur de prédictions. Soulignons la différence avec les fonctions d erreur utilisées en classification et en régression, qui comparent la valeur d une sortie désirée avec sa prédiction. En ordonnancement, la valeur d une sortie n a pas d importance, c est sa valeur relative par rapport aux autres sorties qui importe. C est pourquoi les fonctions d erreur considèrent des vecteurs de scores et non pas des scores individuels. Nous appelons paires cruciales les paires d observations (x i, x j ) telles que y i > y j. Nous attendons d une fonction de prédiction f qu elle fasse peu d erreurs de prédiction sur les paires cruciales, c est à dire qu elle vérifie f (x i ) > f (x j ). Ceci nous amène à définir l erreur d ordonnancement sur les paires cruciales : 1 L cp ( f (X), Y) = [[ f (x i ) f (x j )]] i, j[[y i > y j ]] y i >y j où f (X) = ( f (x 1 ),..., f (x m )) et Y = (y 1,..., y m ). Le dénominateur est simplement le nombre de paires cruciales que l on peut générer à partir du vecteur de scores Y. Au numérateur, nous reconnaissons le nombre de paires cruciales sur lesquelles l ordre prédit par f n est pas l ordre souhaité. L erreur d ordonnancement sur les paires cruciales, qui nous sert d erreur empirique, est donc simplement la proportion de paires cruciales mal prédites par f. Comme en classification et en régression, la minimisation du risque empirique n est pas un but en soi. Ce qui nous intéresse c est de minimiser l erreur en généralisation, dont l erreur empirique est un estimateur. En notant P la distribution fixée mais inconnue dont sont indépendamment tirés les exemples, cette erreur s écrit : L( f (X), Y) = E P { [[ f (xi ) f (x j ) y i > y j ]] } Ordonnancement d instances et classification binaire de paires cruciales Il existe d autres erreurs d ordonnancement, mais nous nous concentrons sur l erreur de classification sur les paires cruciales dans cette thèse. Son intérêt principal réside dans son lien étroit avec la classification. En effet, considérons deux exemples (x i, y i ) et (x j, y j ) et construisons le nouvel exemple ( (x i, x j ), 1 ) si y i > y j, ( (x i, x j ), 1 ) sinon. Ainsi, nous reformulons l apprentissage d une fonction de score qui ordonne correctement (x i, y i ) et (x j, y j ) en l apprentissage d un classifieur binaire, qui doit classer correctement la paire (x i, x j ) dans la classe 1 ou -1. L erreur d ordonnancement mesurée par L cp est donc une erreur de classification sur les paires cruciales. Pour illustrer cette relation entre erreur d ordonnancement et erreur de classification sur les paires cruciales, considérons l ensemble d exemples S = {(x 1, y 1 ),..., (x m, y m )} (X Y) m. À partir des exemples de S nous construisons l ensemble de paires cruciales T(S ) défini comme : T(S ) = {( (x i, x j ), 1 ) (i, j) {1,..., m} t.q. y i > y j } Soit une fonction de score f qui permet d ordonner les instances de X. Notons f cp le classifieur de paires associé à f, défini comme : f cp ((x, x )) = sgn( f (x) f (x )) pour

46 46 Présentation de l apprentissage statistique deux instances (x, x ) dans X. Il est alors aisé de voir que : 1 1 [[ f (x i ) f (x j )]] = i, j[[y i > y j ]] T(S ) y i >y j ((x i,x j ),1) T(S ) [[ f cp ((x i, x j )) 1]] Ainsi, l erreur empirique d ordonnancement de f est égale à l erreur de classification du classifieur de paires f cp. Cette relation sera particulièrement intéressante dans le cas des fonctions de score linéaires, car elle nous permettra de réutiliser tels quels tous les algorithmes de classification binaire pour l ordonnancement d instances. Ordonnancement d instances linéaire Considérons maintenant le cas particulier des fonctions de score linéaires, qui nous servira dans le chapitre 8. Une fonction de score linéaire est de la forme f (x) = b T x avec x R D où b R D est un vecteur de paramètres. Notons f cp le classifieur de paires associé à f, et (x i, x j ) une paire d observations à classer. Autrement dit nous voulons savoir laquelle des deux observations est ordonnée au dessus de l autre. La prédiction s écrit : f cp (x i, x j ) = b T x i b T x j = b T (x i x j ) Nous reconnaissons un produit scalaire entre b et le vecteur (x i x j ). Autrement dit, classer la paire (x i, x j ) avec le classifieur de paires f cp revient à classer le vecteur (x i x j ) avec le classifieur f (x) = sgn(b T x). Ainsi, apprendre le classifieur de paires f cp sur l ensemble de paires T(S ) revient à apprendre le classifieur binaire f c sur l ensemble d exemples transformés T (S ) : T (S ) = {( (x i x j ), 1 ) (i, j) {1,..., m} t.q. y i > y j } En conséquence, n importe quel algorithme de classification linéaire peut être utilisé pour apprendre une fonction de score linéaire pour un problème d ordonnancement. Il suffit d utiliser, comme ensemble d exemples, l ensemble d exemples transformés T (S ) construit à partir de S. C est une propriété très importante d un point de vue algorithmique, puisque tout algorithme de classification binaire peut être utilisé tel quel pour l ordonnancement, sans modification. La seule différence entre ordonnancement d instances et classification est qu en ordonnancement, ce n est pas l ensemble d exemples S qui sert de base d apprentissage, mais l ensemble d exemples transformés T (S ). D un point de vue théorique, le passage de l ordonnancement d instances à la classification binaire est plus subtil. En effet, si les exemples initiaux de S sont tirés indépendamment d une distribution inconnue P, l hypothèse i.i.d n est plus vraie pour les exemples transformés de T(S ). Nous pouvons donc nous interroger sur la justification théorique de l application des algorithmes de classification binaire pour résoudre des problèmes d ordonnancement d instances. Cette question ne sera pas abordée dans cette thèse (voir par exemple [Usunier, 2006] pour une étude approfondie de cette question), et nous nous concentrerons plutôt sur les aspects algorithmiques du problème. MVS pour l ordonnancement d instances Nous allons maintenant regarder plus particulièrement l utilisation des machines à vecteurs de support pour l ordonnancement d instances. Considérons un ensemble d exemples S = {(x 1, y 1 ),..., (x m, y m )}

47 2.3 Apprentissage multi-tâches 47 (X Y) m. Notons T (S ) l ensemble des exemples transformés afin d apprendre le problème d ordonnancement d instances comme un problème de classification binaire : T (S ) = {( (x i x j ), 1 ) (i, j) {1,..., m} t.q. y i > y j } Nous avons expliqué précédemment que classer correctement les paires cruciales (x, x ) T(S ) avec la fonction f (x) = b T x revient à classer correctement les exemples (x x, 1) T (S ) avec le classifieur f (x) = sgn(b T x). Or nous avons vu dans la section que les machines à vecteurs de support apprennent des classifieurs linéaires de la forme f (x) = sgn(b T x + b 0 ). En fixant b 0 = 0, l utilisation des MVS à marge molle pour l ordonnancement est immédiate : 1 ( 2C b 2 + max 0, 1 b T (x i x j ) ) y i >y j où C > 0 est le coefficient de régularisation à choisir par l utilisateur. Complexité algorithmique Remarquons que l apprentissage d un problème d ordonnancement d instances avec un classifieur binaire peut être une source de difficultés d un point de vue algorithmique. En effet, considérons l ensemble d exemples initial S = {(x 1, y 1 ),..., (x m, y m )} (X Y) m. Construisons l ensemble de paires cruciales T(S ) = {(x i, x j ) y i > y j }, autrement dit T(S ) contient toutes les paires d observations dont les étiquettes diffèrent. En supposant que l espace Y est discret et que les différentes sorties y Y sont équiprobables pour x X fixé, alors la taille moyenne de T(S ) est en O(m 2 ). Ensuite nous devons construire le nouvel ensemble d exemples T (S ), sur lequel notre classifieur binaire sera effectivement entraîné. Chaque paire de T(S ) est transformée en un exemple du nouvel ensemble T (S ). L ensemble T (S ) contient donc O(m 2 ) éléments. C est évidemment un gros inconvénient algorithmique pour l apprentissage du classifieur binaire. Heureusement, il sera parfois possible de tirer partie de certaines propriétés de la fonction de coût choisie pour réduire cette complexité algorithmique. Nous détaillerons cet aspect dans le chapitre Apprentissage multi-tâches Dans cette section nous présentons le cadre général de l apprentissage multi-tâches. Puis nous présenterons un cadre de travail particulier d apprentissage multi-tâches développé par [Ando et Zhang, 2005a]. Enfin nous adapterons ce cadre de travail à celui de l apprentissage multi-tâches transductif, qui sera notre cadre de travail dans les chapitres 7 et Introduction L apprentissage multi-tâches repose sur le principe que lorsqu il y a plusieurs tâches d apprentissage supervisé à résoudre, mieux vaut les résoudre simultanément plutôt que séparément. L intuition sous-jacente est la suivante : si les tâches sont reliées entre elles d une manière ou d une autre, alors il existe une information commune dont la connaissance pourrait faciliter la résolution de chacune des tâches. Le but de

48 48 Présentation de l apprentissage statistique l apprentissage est d apprendre cette information commune sur toutes les tâches simultanément, afin d améliorer la prédiction sur chacune des tâches. Illustrons l intuition de l apprentissage multi-tâches avec un exemple simple. Considérons un ensemble de films pour lesquels nous disposons de représentations vectorielles. Demandons à un utilisateur de classer quelques uns de ces films en deux classes : les films qu il a aimés, et ceux qu il n a pas aimés. À partir de ces informations, nous voulons deviner ses préférences sur les films restants. Nous reconnaissons bien sûr une instance de la classification binaire. Les observations sont les vecteurs représentant les films, et les exemples d apprentissage sont les films déjà classés par l utilisateur. Notre but est de minimiser l erreur en généralisation, c est à dire de classer correctement les films restants. Pour le résoudre, nous pouvons par exemple utiliser une machine à vecteurs de support décrite dans la section Considérons maintenant un deuxième utilisateur, qui partage les mêmes goûts cinématographiques que le premier. La tâche qui nous intéresse est la même, à savoir prédire la prédiction sur les films non classés. Il est évidemment possible de résoudre chacun des deux problèmes indépendamment, et c est ce que nous ferions dans le cadre de l apprentissage supervisé classique. Nous pouvons cependant soupçonner que ce n est pas la manière optimale de résoudre ces deux problèmes. En effet, les deux utilisateurs possèdent des goûts en commun et partagent probablement des avis similaires sur de nombreux films. Intuitivement nous aimerions faire "collaborer" les deux tâches de prédiction, c est à dire exploiter leurs similarités afin d améliorer la prédiction sur chacun des deux problèmes. Cette intuition est précisément celle de l apprentissage multi-tâches Un cadre de travail pour l apprentissage multi-tâches Dans cette section nous présentons le cadre d apprentissage multi-tâches développé par [Ando et Zhang, 2005b]. Ce cadre possède la particularité d être directement formulé comme de l apprentissage de classe de fonctions. Nous insisterons sur cette différence majeure avec les cadres d apprentissages non supervisé et supervisé présentés précédemment, dans lesquels la classe de fonctions doit être connue et fixée au moment de l apprentissage. Présentation Notations Considérons un problème d apprentissage multi-tâches constitué de n tâches d apprentissage supervisé sur un espace d observations X et un espace de sortie Y. À la tâche l {1,..., n} est associée une distribution de probabilité D l sur X Y. Ces distributions sont fixes mais inconnues, en revanche pour chaque tâche nous avons accès à m l exemples tirés indépendamment de P l. Nous notons S l = {(x l 1, yl 1 ),..., (xl m l, y l m l )} la base d apprentissage associée à la tâche l. Nous considérons également un ensemble de classes de fonctions paramétrées {H l,c }, où H l,c est la classe de fonctions considérée pour apprendre la tâche l, et C C est un paramètre commun à toutes les classes.

49 2.3 Apprentissage multi-tâches 49 Apprendre de bons espaces d hypothèses Nous avons déjà souligné qu en apprentissage supervisé, les performances en généralisation dépendent de manière cruciale du choix de la classe de fonctions considérée. Avec les notations précédentes, le choix des classes de fonctions pour toutes les tâches se fait en choisissant le paramètre commun C. Nous cherchons donc le paramètre commun C qui permet d atteindre des erreurs en généralisation faibles sur toutes les tâches. Dans ce but, nous pourrions utiliser des méthodes classiques de sélection de modèle comme la validation croisée par exemple. Nous aurions alors à tester plusieurs valeurs de C, à estimer l erreur en généralisation moyenne pour chaque valeur et à sélectionner la meilleure. Bien sûr, cette stratégie pour choisir C n est envisageable que si l espace des paramètres est simple (par exemple C = R ) L apprentissage multi-tâches nous permet d apprendre simultanément les fonctions de prédiction f l H l,c ainsi que le paramètre commun C C. En apprenant le paramètre C, l apprentissage multi-tâches permet d apprendre la classe de fonctions à partir des données. Autrement dit nous apprenons simultanément les classes de fonctions H l,c (via le paramètre C ) et les fonctions de prédiction correspondantes. C est une différence fondamentale avec l apprentissage supervisé décrit précédemment, dans lesquel la classe de fonctions doit être connue et fixée au moment de l apprentissage. Dans la suite nous désignerons par apprentissage supervisé mono-tâche le cadre supervisé classique décrit dans la section 2.2, pour souligner la différence avec l apprentissage multi-tâches. Expliquons l intuition sous-jacente à l apprentissage multi-tâches. Soit un espace d observations X sans structure connue, et un ensemble de tâches d apprentissage sur X. Si les tâches sont reliées les unes aux autres, alors en général il existe des régions de X où l étiquette est constante quelque soit la tâche. Les différentes tâches d apprentissage définissent ainsi une distance implicite sur X, commune à toutes les tâches. Considérons deux points proches selon cette distance : pour chaque tâche, ces deux points ont des étiquettes similaires. Ainsi, une fonction de prédiction qui produirait des prédictions très différentes sur ces deux points serait considérée comme mauvaise. Plus généralement, une fonction de prédiction qui respecte la distance implicite précédente est considérée comme "bonne". Reprenons l exemple du filtrage collaboratif, et considérons un ensemble d utilisateurs et un ensemble de films. Chaque utilisateur a noté quelques films, et pour chaque utilisateur nous voulons prédire les films non notés. En général, il existe des groupes de films dans lesquels les notes sont homogènes, quel que soit l utilisateur considéré. Considérons les films de Jean-Luc Godart par exemple, et supposons que chaque utilisateur a noté ses films de manière très homogène. Autrement dit chaque utilisateur pense la même chose de tous ses films (chefs d œuvre, navets...). Si une même fonction de prédiction renvoyait deux notes très différentes pour deux films de Godart, il serait alors légitime de considérer cette fonction de prédiction comme mauvaise. Finalement, l observation de plusieurs tâches de prédiction nous permet de savoir à quoi ressemble une "bonne" fonction de prédiction. Nous savons donc également à quoi ressemble une "bonne" classe de fonctions de prédictions. L apprentissage multitâches est une formalisation de cette intuition pour apprendre une classe de fonctions commune à toutes les tâches.

50 50 Présentation de l apprentissage statistique Minimisation du risque empirique joint Pour apprendre le paramètre structurel C et les fonctions de prédiction { f l } simultanément, [Ando et Zhang, 2005b] propose le principe de minimisation du risque empirique joint (MREJ). Dans la version non régularisée, les paramètres cherchés sont solution du problème d optimisation : min C C,{ f l H l,c } n 1 m l m l=1 l i=1 L(y l i, f l(x l i )) Nous voyons que le principe de minimisation du risque empirique joint est directement inspiré du principe de minimisation du risque empirique en apprentissage supervisé. Au lieu de minimiser le risque empirique d une seule tâche, nous minimisons la somme des erreurs empiriques sur toutes les tâches. Là encore la minimisation du risque empirique joint n est pas un but en soi, ce qui nous intéresse c est la minimisation du risque joint, c est à dire la somme des risques sur toutes les tâches : n E gen ( f 1,..., f n ) = E Pl [L(y, f l (x))] l=1 En particulier, [Ando et Zhang, 2005b] a borné le risque joint par une somme de deux termes : le risque empirique joint et un terme dépendant de la complexité des classes de fontions H l,c et de la complexité de l espace de paramètres C. Comme en apprentissage supervisé, ce type de borne offre une garantie théorique sur le risque joint, et justifie l utilisation du principe MREJ avec des classes de fonctions et un espace de paramètres simples. Nous allons donc régulariser les classes de fonctions et l espace des paramètres dans le but de limiter leur complexité. Apprentissage d une nouvelle tâche Après application du principe de MREJ, le paramètre commun C et les n tâches ont été appris. Considérons une nouvelle tâche t, définie par l ensemble d exemples S t = {(x 1, y 1 ),..., (x mt, y mt )} tirés indépendamment d une distribution inconnue P t. L apprentissage de cette nouvelle tâche, non vue pendant l apprentissage des tâches initiales, est immédiat. Sa classe de fonctions, paramétrée par C, est maintenant connue et fixée. Nous retrouvons un problème d apprentissage supervisé classique, et il suffit d apprendre la nouvelle tâche par minimisation du risque empirique. Cas particulier linéaire 1 min f H t,c m t m t i=1 L(y l i, f (xl i )) Nous développons maintenant le cas particulier des fonctions de prédiction linéaires, dans lequel la structure commune cherchée est un sous-espace de faible dimension commun à toutes les tâches. Notons X l espace d entrée, qui nous sert à représenter les données. Supposons que nous disposons d informations supplémentaires sur les données, et que nous sommes capables d associer à chaque observation x X deux représentations vectorielles supplémentaires dans deux espaces différents. Nous les notons Φ : X R p et Ψ : X R q pour p, q > 0. Notons également C une matrice de projection (k q) avec k > 0 faible. La famille de fonctions de prédiction linéaire proposée par [Ando et Zhang, 2005b] est de la forme :

51 2.3 Apprentissage multi-tâches 51 f (x) = a T Φ(x) + b T CΨ(x) (2.2) où a R p, b R k et C sont les trois paramètres de notre famille de fonctions. Remarquons que la fonction f est une somme de deux fonctions. La fonction x a T Φ(x) est paramétrée par a, et associe à x un produit scalaire dans R p. Pour la deuxième fonction, remarquons d abord que la matrice C projette le vecteur Ψ(x) dans R k. La fonction x b T CΨ(x) est paramétrée par b et C, et associe à x un produit scalaire dans l espace de faible dimension R k. Le choix de cette famille de fonctions est justifié pour l apprentissage multi-tâches. En effet, le point clé de cette formulation est que si les paramètres a et b seront spécifiques à chaque tâche, la matrice C sera en revanche commune à toutes les tâches. C est donc la matrice de projection C qui joue le rôle de structure commune à toutes tâches : elle contraint toutes les tâches à être apprises dans un même sous-espace commun. Nous pouvons maintenant interpréter les deux produits scalaires a T Φ(x) et b T CΨ(x) comme de l apprentissage sur deux niveaux. La fonction x a T Φ(x) correspond à un apprentissage dans un espace de grande dimension, dans lequel les tâches sont indépendantes les unes des autres. La fonction x b T CΨ(x) correspond à un apprentissage dans un espace de faible dimension, dans lequel les tâches sont liées au travers du paramètre structurel commun C. Minimisation du risque empirique joint En appliquant le principe de minimisation du risque empirique joint à la famille de fonctions précédente, nous obtenons : min {a l,b l } l,c n r(c) + g(a l, b l ) + 1 m l L( f C (a l, b l ; xi l m ), yl i ) l l=1 où r et g sont des fonctions permettant de régulariser les paramètres C et {a l, b l } l, et f C (a l, b l ; x l i ) = at Φ(x) + b T CΨ(x). Ainsi l apprentissage multi-tâches selon le principe de minimisation du risque empirique joint se formule comme un problème d optimisation sur les paramètres C et {a l, b l } l. Évidemment, la façon dont nous allons résoudre ce problème d optimisation dépend du choix de la fonction de coût L et des fonctions de régularisation g et r. En général, le problème ne sera malheureusement pas convexe en C, {a l, b l } l. En revanche, les auteurs suggèrent de choisir les fonctions L, g et r telles que le problème sera convexe en {a l, b l } l d une part (c est à dire pour C fixé), et en C d autre part (pour {a l, b l } l fixés). Si cette propriété est respectée, alors nous pourrons initialiser aléatoirement les paramètres et appliquer des approches de minimisation alternée du type : n {a l, b l } l arg min {a l,b l } l r(c) + g(a l, b l ) + 1 m l L( f C (a l, b l ; xi l m ), yl i ) l=1 l i=1 n C arg min r(c) + g(a l, b l ) + 1 m l L( f C (a l, b l ; x C i l m ), yl i ) l l=1 i=1 i=1

52 52 Présentation de l apprentissage statistique Il est aisé de voir que l alternance de ces deux étapes fait diminuer itérativement le risque empirique joint régularisé. En revanche la solution finale C, {a l, b l } l obtenue à la convergence de l algorithme n est qu un minimum local de cette fonction. Nous reverrons ce type d algorithmes plus en détails dans les chapitres 6 et 7. Apprentissage d une nouvelle tâche La matrice commune C ayant été apprise par le principe MREJ, nous considérons l apprentissage d une nouvelle tâche t, non vue en apprentissage. En notant S t = {(x 1, y 1 ),..., (x mt, y mt )} la nouvelle base d apprentissage, le principe de minimisation du risque empirique s écrit : min g(a, b) + 1 m t L( f C (a, b; xi t a,b m ), yt i ) t Apprentissage multi-tâches transductif i=1 Dans cette section, nous adaptons le cadre d apprentissage multi-tâches présenté précédemment au cas de l apprentissage transductif. Pour cela, nous faisons d abord un bref rappel sur l apprentissage transductif dans le cadre traditionnel supervisé monotâche. Puis nous donnons une formulation de l apprentissage multi-tâches transductif. Nous nous attarderons particulièrement sur le cas des fonctions de prédiction linéaires, qui nous servira dans la suite de cette thèse. Apprentissages inductif et transductif Commençons par un bref rappel de l apprentissage supervisé mono-tâche présenté dans la section 2.2. Soient X un espace d observations et Y un espace de sorties. Considérons une distribution de probabilité P sur (X Y) m. La distribution P est fixe mais inconnue, en revanche nous avons accès à un ensemble d exemples S = {(x 1, y 1 ),..., (x m, y m )} (X Y) m tirés indépendamment de P. Notons F une classe de fonctions de X dans Y. Le but de l apprentissage est de déterminer la fonction de F qui minimise l erreur en généralisation à partir des exemples de S : min E [ ] P L(y, f (x)) f F Autrement dit nous cherchons la fonction qui fait le moins d erreurs (en moyenne) sur de nouveaux exemples non vus pendant l apprentissage. Ce cadre d apprentissage est appelé apprentissage inductif. Le cadre de l apprentissage transductif est différent. Considérons l ensemble d exemples S = {(x 1, y 1 ),..., (x m, y m )} (X Y) m tirés indépendamment de P. Supposons que seule une partie de ces exemples est disponible pour l apprentissage. Le reste des exemples est constitué de paires (x, y) où la sortie y n est pas observée. Notons S app l ensemble des exemples de S disponibles pour l apprentissage, et S test l ensemble des exemples restants : S = S app S test En apprentissage transductif, nous apprenons sur les exemples de S app dans le but de faire des prédictions sur les observations de S test, et uniquement celles ci. À la différence de l apprentissage inductif, le but n est donc plus de déterminer la fonction

53 2.3 Apprentissage multi-tâches 53 qui minimise l erreur en généralisation, mais celle qui minimise l erreur moyenne sur S test : min f F 1 S test (x,y) S test L(y, f (x)) Autrement dit nous cherchons la fonction qui fait le moins d erreurs (en moyenne) sur un ensemble d observations connu pendant l apprentissage. Apprentissage multi-tâches transductif Nous pouvons maintenant décrire le cadre de l apprentissage multi-tâches transductif. Soit un ensemble d observations X = (x 1,..., x m ) X, et considérons n tâches d apprentissage de X dans Y. Pour chaque tâche l, nous considérons l ensemble d exemples S l = {(x 1, y l 1 ),..., (x m, y l m)} tirés indépendamment de P l. C est donc le même ensemble d observations X qui est utilisé dans tous les ensembles S l. Pour chaque base S l, une partie des exemples est disponible pour l apprentissage. Les sorties des exemples restants ne sont pas observées, et constituent la tâche de prédiction. Notons S app l la base d apprentissage, qui contient m l exemples ( 1 m l < m ). Notons S test l la base de test, qui contient les m m l exemples restants : S l = S l app S l test Autrement dit, les n problèmes d apprentissage sont transductifs, et considèrent tous le même ensemble d observations X. La même observation x X pourra faire partie des exemples d apprentissage dans certaines tâches, et faire partie des observations de test dans d autres tâches. Comme précédemment, nous considérons un ensemble de classes de fonctions paramétrées {H l,c }, où H l,c est la classe de fonctions considérée pour apprendre la tâche l, et C C est le paramètre commun à toutes les classes. La formulation du principe de minimisation du risque empirique joint reste exactement la même que celle donnée dans la section En revanche, notre but n est plus de minimiser la somme des erreurs en généralisation sur toutes les tâches, mais la somme des erreurs de test moyennes sur les ensembles S l test : E test ({ f 1,..., f n }) = n l=1 1 m m l Apprentissage multi-tâches transductif linéaire (x,y) S l test L(y, f l (x)) Nous présentons maintenant le cas particulier de l apprentissage multi-tâches transductif pour des fonctions linéaires. Ce cas particulier nous servira dans la suite de cette thèse. Reprenons la famille de fonctions de prédiction linéaire présentée dans la section Pour chaque tâche l, nous considérons la fonction de prédiction : f l (x i ) = a T l Φ(x i) + b T l CΨ(x i)

54 54 Présentation de l apprentissage statistique pour i {1,..., m}. Encore une fois, soulignons que nous considérons un ensemble X fixé d observations, commun à toutes les tâches. Nous ignorons les autres observations de l espace X. Rappelons également que les fonctions Φ(x) et Ψ(x) correspondent à des représentations vectorielles de l objet décrit par x. Ces deux fonctions peuvent être considérées comme des informations de description supplémentaires que nous voulons exploiter pour l apprentissage. Dans le chapitres 7, nos contributions en apprentissage multi-tâches utiliseront un cas particulier de cette famille de fonctions linéaires. 2.4 Apprentissage non supervisé Introduction Dans cette section nous présentons le cadre de l apprentissage non supervisé. Autrement dit nous nous intéressons à des procédures permettant d apprendre à partir d exemples non étiquetés. Il existe trois raisons qui justifient ce cadre d apprentissage : 1. La collection et l étiquetage d un grand nombre d exemples peuvent être coûteux en temps d élaboration. En initialisant un classifieur sur un petit ensemble d exemples étiquetés, et en l utilisant ensuite sans supervision sur un grand ensemble de formes non étiquetées, nous pouvons gagner en temps et en investissement. 2. Dans beaucoup d applications les caractéristiques des formes évoluent au cours du temps. L apprentissage non-supervisé apporte alors une solution plus dynamique à ces problèmes que l apprentissage supervisé. 3. Dans les premiers stades d une étude il est parfois intéressant de connaître la nature ou la structure propre des données (ceci en fonction des caractéristiques choisies pour décrire les exemples et de la distance choisie pour évaluer leur similarité). La découverte des sous-classes distinctes peut aider à choisir le modèle adéquat. Soulignons que cette section n est pas une description exhaustive des techniques non-supervisées. Nous concentrerons notre présentation sur deux problèmes non supervisés importants : l estimation de densité et le partitionnement (ou clustering). Les concepts et les algorithmes présentés nous serviront dans la suite de cette thèse (voir chapitre 5), avec notamment des applications en clustering de documents. Dans la section nous présentons le problème de l estimation de densité, en insistant en particulier sur les concepts de mélange de densités et de fonction de vraisemblance. Dans la section nous présentons le problème du clustering et les principales familles d algorithmes existantes Estimation de densité Soit P(x) une distribution de probabilité d une variable aléatoire x X. En général nous ne connaissons pas P, mais nous avons accès à un ensemble fini d observations X = {x 1,..., x m } tirés indépendamment de P. L estimation de densité est le problème consistant à modéliser P(x) à partir des observations disponibles. Il existe essentiellement deux types d approches pour résoudre ce problème : l estimation de densité paramétrique et l estimation de densité non paramétrique [Duda et al., 2000,

55 2.4 Apprentissage non supervisé 55 Bishop, 2006]. L estimation de densité paramétrique considère des distributions de probabilité contrôlées par un petit nombre de paramètres. Il y a également des paramètres en estimation de densité non paramétrique, mais ceux-ci contrôlent la complexité du modèle plutôt que la forme de la distribution elle-même. Dans la suite de cette section nous nous intéressons à l estimation de densité paramétrique. Pour modéliser P(x) nous considérons des distributions paramétriques, c est à dire des distributions qui dépendent du choix d un ou de plusieurs paramètres. Un exemple simple est la distribution gaussienne, paramétrée par la moyenne et la variance. L utilisation de telles distributions pour modéliser P(x) nécessite des procédures permettant d estimer des valeurs appropriées pour les paramètres, pour un ensemble d observations donné. En général nous définissons un critère à partir des données, que les paramètres optimaux inconnus sont censés optimiser. Dans la suite de cette section, nous présentons trois algorithmes importants d estimation de paramètres : le principe du maximum de vraisemblance, le principe du maximum de vraisemblance classifiante et le principe du maximum a posteriori. Principe du maximum de vraisemblance Le principe du maximum de vraisemblance est une méthode d estimation de paramètres largement utilisée dans le cadre non supervisé. Soit f θ une distribution paramétrée par θ Θ, où Θ est un espace de paramètres. L estimateur du maximum de vraisemblance θ MV détermine les paramètres qui maximisent la fonction de vraisemblance V(θ) : V(θ) = f θ (x 1,..., x m θ) Les observations étant indépendantes, nous pouvons écrire : V(θ) = m f θ (x i θ) i=1 En général, le logarithme de la vraisemblance est plus facile à maximiser que la vraisemblance elle-même. La fonction logarithme étant croissante, la valeur du paramètre optimal reste la même. Nous considérons donc la fonction de log-vraisemblance : L(θ) = m log f θ (x i θ) i=1 Et le principe du maximum de vraisemblance revient donc à résoudre le problème d optimisation : max θ Θ L(θ) Apprentissage de la distribution normale Nous illustrons le principe du maximum de vraisemblance avec une distribution sur les scalaires simple et très utilisée, la distribution gaussienne (également appelée distribution normale). Les paramètres d une distribution gaussienne sont sa moyenne µ R et sa variance σ R. La distribution de probabilité correspondante s écrit alors :

56 56 Présentation de l apprentissage statistique f (x µ, σ 2 ) = ) 1 (x µ)2 exp ( 2πσ 2σ 2 Pour un ensemble d observations X = {x 1,..., x m }, la fonction de vraisemblance s écrit : m ( ) m/2 ( V(θ) = f (x i µ, σ 2 1 mi=1 (x i µ) 2 ) ) = exp 2πσ 2 2σ 2 i=1 Et la log-vraisemblance, plus facile à maximiser, s écrit : L(θ) = m i=1 log f (x i µ, σ 2 ) = m 2 log ( 2πσ 2) 1 2σ 2 m (x i µ) 2 Pour déterminer µ MV il suffit d annuler la dérivée de la log-vraisemblance par rapport à µ, et nous trouvons : i=1 µ MV = 1 m m i=1 x i En annulant la dérivée par rapport à σ, nous pouvons exprimer σ MV en fonction de µ MV : m m m m σ 2 MV = 1 m i=1 (x i µ MV ) 2 = 1 m i=1 x 2 i 1 m 2 i=1 j=1 x i x j Biais des estimateurs du maximum de vraisemblance Les estimateurs précédents ont été calculés sur l ensemble d observations connu et fixé X, dont chaque élément est tiré indépendamment de P. Nous voulons maintenant savoir si ces estimateurs convergent vers les vrais paramètres cherchés lorsqu il y a suffisamment d observations. Nous calculons donc l espérance de ces deux estimateurs sur tous les ensembles d observations de taille m, et nous trouvons [Bishop, 2006] : E [ ] µ MV = µ [ ] E σ 2 m 1 MV = m σ2 L espérance de µ MV est égale à la vraie moyenne de la distribution. Cela signifie qu en moyenne, l estimateur MV retrouve effectivement la vraie valeur de la moyenne, ce qui semble intuitivement désirable pour un estimateur. L estimateur MV de la moyenne est dit non biaisé. En revanche, l espérance de E [ σ 2 MV ] est inférieure à la vraie variance. Nous disons alors que l estimateur MV de la variance est biaisé. Remarquons qu un estimateur biaisé n est pas forcément mauvais. En effet, nous attendons deux propriétés d un bon estimateur. Nous voulons d abord qu il converge vers la vraie valeur des paramètres lorsqu il y a beaucoup d observations. Mais nous voulons également qu il soit stable, afin que de petites perturbations dans la base d apprentissage ne modifient pas trop le résultat de l estimation. Le biais permet précisément cette

57 2.4 Apprentissage non supervisé 57 stabilisation : en introduisant un peu biais, nous pouvons réduire la variance de l estimateur. En revanche si nous introduisons trop de biais, l estimateur s écarte trop en moyenne de la vraie valeur cherchée. Il y a donc un compromis à trouver entre le biais d un estimateur et sa variance. Si la plupart des distributions comme la distribution gaussienne sont simples à utiliser, leur simplicité est également une limitation. En effet, elles ne permettent pas de modéliser des distributions complexes. Une approche simple pour augmenter la capacité de modélisation est de modéliser les observations avec plusieurs distributions au lieu d une seule. C est le principe des modèles de mélange. Modèles de mélange Il arrive fréquemment d avoir à traiter des données naturellement organisées en sous-groupes. C est le cas par exemple des documents textuels qui peuvent être organisés par sujet ou par auteur, des films qui peuvent être organisés par genre ou par réalisateur, ou bien encore des gènes qui peuvent être regroupés par fonctionnalité biologique. Des distributions simples comme les distributions gaussiennes ne sont pas adaptées pour modéliser de telles structures. Les modèles de mélange sont des modèles probabilistes simples et très utilisés, permettant d identifier des sous-groupes dans les données. Un modèle de mélange considère que chaque observation peut être générée de plusieurs manières différentes. Plus précisément, chaque observation est supposée avoir été générée par une distribution de probabilité, où chaque distribution correspond à un sous-groupe. En "mélangeant" ainsi plusieurs distributions de probabilité, le modèle de mélange offre une capacité de modélisation à la fois simple et flexible pour pouvoir modéliser des structures plus complexes. Formellement, soit X = {x 1,..., x m } un ensemble d observations dans X. Nous supposons que chaque observation x i est générée par un mélange de K composantes. Pour un ensemble de paramètres θ = {θ 1,..., θ K } connu et fixé où θ k est l ensemble des paramètres de la composante k, la probabilité d observer x s écrit : P(x; θ) = K π k P(x θ k ) k=1 où π k est la probabilité d observer la composante k et P(x θ k ) est la probabilité d observer x sachant que la composante k est observée. Les quantités π k et P(x θ k ) sont des probabilités et vérifient k π k = 1 et X P(x θ k)dx = 1 pour k {1,..., K}. En décomposant ainsi P(x; θ), nous supposons que chaque observation est générée selon le processus suivant : une composante k {1,..., K} est générée suivant la distribution π k une observation x est générée suivant la distribution P(x θ k ) Le processus génératif traduit bien l idée que chaque observation peut être générée par plusieurs distributions différentes. Évidemment, les modèles de mélange ne sont utiles que s il existe des moyens simples de les apprendre, c est à dire d estimer l ensemble de paramètres θ pour un ensemble d observations X donné. Données complètes Pour comprendre comment estimer l ensemble des paramètres θ = {π k, θ k } k=1,...,k d un modèle de mélange, étudions d abord le cas où nous savons

58 58 Présentation de l apprentissage statistique quelle composante a généré quelle observation. Autrement dit nous connaissons les δ ik tels que δ ik = 1 si x i a été générée par la composante k, 0 sinon. La log-vraisemblance des données s écrit alors : L(θ) = = = m i=1 k=1 m i=1 k=1 k=1 K δ ik log P(x i ; θ) K δ ik log (π k P(x i θ k )) K m K m δ ik log π k + δ ik log P(x i θ k ) i=1 k=1 i=1 Nous remarquons que lors de la maximisation de la log-vraisemblance, les paramètres θ k des différentes composantes du mélange peuvent être estimés indépendamment les uns des autres. Le problème de maximisation initial se décompose en K + 1 problèmes d optimisation indépendants : max k π k =1 max θ 1 Θ 1 max θ K Θ K.. K m δ ik log π k k=1 i=1 m δ ik log P(x i θ 1 ) i=1 m δ ik log P(x i θ K ) i=1 où Θ k est l espace de recherche des paramètres θ k. C est une conséquence heureuse de notre connaissance complète du problème : nous savons quelle composante a généré quelle observation, ce qui nous permet d estimer les paramètres de chaque composante en n utilisant uniquement les observations générées par celle ci. Ainsi, la connaissance des δ ik rend le problème facile à maximiser. Dans le modèle de mélange, nous ne savons pas quelle composante a généré quelle observation et la maximisation de la log-vraisemblance devient alors un problème d optimisation difficile à résoudre. Algorithme EM L algorithme Espérance Maximisation (EM) est une méthode d estimation de paramètres en présence de variables non observées. Le but de l algorithme EM est de déterminer les paramètres θ Θ qui maximisent la log-vraisemblance : L(θ) = m log p(x i ; θ) = i=1 m K log p(x i, k; θ) i=1 k=1 Comme nous l avons souligné précédemment, c est un problème d optimisation difficile. Le principe général de l algorithme EM est d utiliser l estimation courante du modèle pour se ramener au problème de données complètes décrit précédemment. Pour

59 2.4 Apprentissage non supervisé 59 cela, l algorithme alterne les deux étapes suivantes : une étape E qui utilise l estimation courante des paramètres pour transformer le problème incomplet (dans lequel certaines variables ne sont pas observées) en un problème complet, et une étape M dans laquelle les paramètres sont ré-estimés afin de maximiser la log-vraisemblance du nouveau problème. Ces deux étapes sont appliquées itérativement à partir d une estimation initiale des paramètres jusqu à la convergence de l algorithme. L apprentissage d un mélange de gaussiennes avec l algorithme EM est illustré dans dans la figure 2.7. FIG. 2.7 Apprentissage d un mélange de trois gaussiennes avec EM. Les paramètres des trois gaussiennes sont mis à jour à chaque itération. Dans le modèle de mélange précédent, les variables non observées sont les indicateurs δ ik identifiant quelle composante a généré quelle observation. En notant θ (t) l estimation courante des paramètres, l étape E revient à remplacer les indicateurs inconnus δ ik par les probabilités p(k x, θ (t) ), c est à dire la probabilité d observer la composante k sachant que x est observé d après l estimation du modèle à l étape t. L étape E correspond ainsi au calcul de l espérance de la log-vraisemblance : E [ L(θ) θ (t) ] = K k=1 i=1 m p(k x i, θ (t) ) log (π k P(x i θ k )) Grâce à l étape E, nous avons maintenant un problème complet : toutes les variables ont été déterminées à partir de l estimation courante des paramètres du modèle. L étape M consiste simplement à déterminer les nouveaux paramètres θ (t+1) qui maximisent l espérance de la log-vraisemblance : [ θ (t+1) arg max ] E L(θ) θ (t) θ Θ Les étapes E et M alternent jusqu à la convergence de l algorithme. Il faut pour cela définir un critère de convergence, qui détermine quand l algorithme doit s arrêter. Nous pouvons par exemple arrêter l algorithme quand les paramètres θ (t) n évoluent plus, ou bien quand la log-vraisemblance n augmente plus : [ ] [ E L(θ) θ (t) ] E L(θ) θ (t+1) E [ L(θ) θ (t)] < ε où ε est une valeur faible choisie empiriquement. Borne inférieure de la log-vraisemblance Nous avons détaillé les deux étapes de l algorithme EM, mais nous n avons pas encore montré qu elles permettent de maximiser la log-vraisemblance des données. Pour clarifier ce point, nous présentons maintenant une interprétation plus récente et plus générale de l algorithme, qui montre que

60 60 Présentation de l apprentissage statistique l algorithme EM permet de maximiser une borne inférieure de la log-vraisemblance [Neal et Hinton, 1998]. Pour cela, notons Q = {q(k i) k {1,..., K}, i {1,..., m}} un ensemble de m distributions sur les K composantes (vérifiant donc K k=1 q(k i) = 1 pour i {1,..., m} ). Notre but est de déterminer les paramètres θ Θ qui maximisent la log-vraisemblance : m L(θ) = log p(x i ; θ) = = i=1 m K log p(x i, k; θ) i=1 i=1 k=1 m K log m K i=1 k=1 k=1 p(x i, k; θ) q(k i) q(k i) q(k i) log p(x i, k; θ) q(k i) La dernière inégalité est obtenue grâce à l inégalité de Jensen. Ainsi, nous avons déterminé une borne inférieure de la fonction de log-vraisemblance à maximiser. Notons f cette borne inférieure : f (θ, Q) = K m K m q(k i) log (π k P(x i θ k )) q(k i) log q(k i) k=1 i=1 k=1 i=1 Pour maximiser f, une stratégie simple consiste à fixer alternativement un des deux ensembles de paramètres ( θ ou Q ) et à optimiser f par rapport à l autre. Cette stratégie de maximisation alternée s écrit : Étape E : Q (t+1) arg max Q Q f (θ(t), Q (t) ) Étape M : θ (t+1) arg max θ Θ f (θ(t), Q (t+1) ) Les auteurs [Neal et Hinton, 1998] montrent que ces deux étapes sont exactement équivalentes aux deux étapes de l algorithme EM. Considérons la maximisation de f à θ (t) fixé. Quelques calculs montrent que la solution Q (t+1) est telle que q(k i) = p(k x i, θ (t) ), et que f vérifie alors : f (θ (t), Q (t+1) ) = L(θ (t) ) D autre part, il est aisé de voir que la stratégie de maximisation alternée précédente fait augmenter la borne inférieure f :... f (θ (t), Q (t+1) ) f (θ (t+1), Q (t+1) ) f (θ (t+1), Q (t+2) )... Comme nous savons que f (θ (t), Q (t+1) ) = L(θ (t) ) et f (θ (t+1), Q (t+2) ) = L(θ (t+1) ), nous pouvons donc conclure L(θ (t) ) L(θ (t+1) )

61 2.4 Apprentissage non supervisé 61 pour toute itération t de l algorithme. Avec cette interprétation de l algorithme, il est donc clair que les étapes de l algorithme EM font d augmenter la fonction de logvraisemblance. En revanche l algorithme n atteint qu un maximum local de la fonction, et les paramètres trouvés ne sont donc pas optimaux. Principe du maximum de vraisemblance classifiante Présentation Le principe du maximum de vraisemblance classifiante (MVC) est une variante du principe du maximum de vraisemblance décrit précédemment. Soit f θ une distribution paramétrée par θ Θ, où Θ est un espace de paramètres. Soit l ensemble d indicateurs T = {t ki k {1,..., K}, i {1,..., m}}, qui détermine une partition des observations en K clusters : t ki = 1 si x i C k, 0 sinon. L estimateur du maximum de vraisemblance classifiante θ MVC détermine les paramètres qui maximisent la fonction de log-vraisemblance classifiante : L MVC (θ, T) = m K t ki log p(x i, y = k; θ) i=1 k=1 Le principe du maximum de vraisemblance classifiante revient donc à résoudre le problème d optimisation : max θ,t L MVC (θ, T) Algorithme CEM L algorithme utilisé pour maximiser la vraisemblance classifiante est l algorithme classification espérance maximisation (CEM). L algorithme CEM reprend les deux étapes E et M de l algorithme EM, et rajoute une troisième étape C de classification. Algorithm 1: CEM Initialiser: θ, T répéter Étape E : calculer les probabilités a posteriori p(k x i, θ (t) ) Étape C : déterminer une nouvelle partition T (t) en assignant chaque observation x i au cluster de probabilité a posteriori maximale : t ki = 1 si p(k x i, θ (t) ) = max k p(k x i, θ (t) ), 0 sinon. Étape M : déterminer les paramètres θ maximisant la log-vraisemblance : jusqu à convergence de L MVC (θ, T) ; Sortie : θ, T θ (t+1) arg max L MVC (θ, T (t) ) θ Principe du maximum a posteriori Soit f θ une distribution paramétrée par θ Θ, où Θ est un espace de paramètres. Notre but est toujours de déterminer les paramètres de notre distribution sur un ensemble d observations X = {x 1,..., x m } tirées indépendamment de la distribution inconnue P. Nous avons vu déjà que l estimateur du maximum de vraisemblance θ MV

62 62 Présentation de l apprentissage statistique est solution de : max θ Θ V(θ) Soit une distribution de probabilité g sur l espace des paramètres Θ. La distribution g peut être interprétée comme une connaissance a priori du problème : nous savons que certains paramètres sont plus probables que d autres. Le principe du maximum a posteriori (MAP) consiste à déterminer les paramètres θ MAP solution de : max θ Θ g(θ)v(θ) Autrement dit nous ne voulons plus seulement maximiser la vraisemblance des données, mais nous voulons également maximiser la probabilité du modèle. Remarquons que lorsque g est la distribution uniforme sur l espace de paramètres, les deux principes d estimation MV et MAP sont équivalents. Le principe du maximum a posteriori généralise donc le principe du maximum de vraisemblance. Nous verrons que cela rejoint la notion de régularisation que nous avons présenté en apprentissage supervisé (voir section 2.2.2). Le principe du maximum a posteriori peut être vu comme une version régularisée du maximum de vraisemblance, dans laquelle nous introduisons un biais vers les modèles les plus probables. En général, déterminer une distribution g adéquate est difficile. En l absence de connaissance a priori du problème, nous utiliserons plutôt le principe du maximum de vraisemblance ou sa variante classifiante Clustering Présentation Lorsque les données sont étiquetées, les étiquettes structurent naturellement les données en sous-groupes : deux observations appartiennent au même sous-groupe si leurs étiquettes sont identiques. Or dans de nombreux problèmes réels, les données sont pléthoriques mais les étiquettes sont difficiles et coûteuses à obtenir. C est le cas par exemple des données textuelles sur internet : des pages web sont disponibles par millions mais leur organisation par genre (sport, actualité, loisir, etc...) nécessite un étiquetage humain. Nous disposons alors de grandes quantités de données non étiquetées, que nous aimerions structurer en sous-groupes. Le clustering est le problème d apprentissage non supervisé consistant à organiser les observations en clusters, de telle sorte que deux observations considérées comme similaires sont dans un même cluster et deux objets considérées comme dissimilaires sont dans des clusters différents. Autrement dit le clustering permet de détecter des sous-groupes d objets similaires. Une telle organisation des données en sous-groupes est utile pour plusieurs raisons. D abord d un point de vue algorithmique, il peut être intéressant de lancer un algorithme d apprentissage ou d analyse de données sur quelques représentants bien choisis de chaque cluster plutôt que sur toute la base initiale. De plus en interprétant chaque cluster comme un concept généralisant les observations qu il contient, le clustering peut être vu comme un moyen d abstraire la représentation des données. Pour reprendre l exemple du texte, des documents parlant de

63 2.4 Apprentissage non supervisé 63 football, de natation et de ski pourraient naturellement être regroupés dans un même cluster, qui définirait alors implicitement une thématique générale relative au sport. Plus généralement, le clustering peut permettre de visualiser et de mieux comprendre la structure implicite des données. C est donc un outil très pratique dans une optique de fouille de données. Dans la suite de cette section, nous présentons les deux principales familles d algorithmes de clustering ainsi que leurs représentants les plus populaires, sans souci d exhaustivité. En revanche nous insisterons sur le point commun à tous ces algorithmes, qui est le choix implicite ou explicite d une fonction distance, permettant d évaluer si des objets sont considérés comme proches ou éloignés. Nous verrons que ce choix est crucial, puisque de lui dépendra le résultat de l algorithme de clustering. Différentes familles d algorithmes Nous présentons maintenant deux grandes familles d algorithmes de clustering : le clustering hiérarchique et le clustering par partitionnement. Ces deux approches diffèrent principalement par la structure des clusters produits en sortir. Le clustering hiérarchique produit une arborescence de clusters, alors que le clustering par partitionnement produit une liste "plate" de clusters. Clustering hiérarchique Le clustering hiérarchique regroupe une famille de méthodes itératives qui fusionnent ou divisent des clusters à chaque itération [Jain et al., 1999]. Le clustering hiérarchique agglomératif initialise une partition initiale des données où chaque observation correspond à un cluster. À chaque itération, l algorithme décide de fusionner deux clusters similaires en un nouveau cluster. Le clustering hiérarchique divisif initialise une partition constituée d un unique cluster contenant toutes les observations. À chaque itération, l algorithme décide de diviser un cluster hétérogène en deux nouveaux clusters. Le déroulement d un algorithme de clustering hiérarchique agglomératif est illustré dans la figure 2.8. FIG. 2.8 Clustering hiérarchique agglomératif. La partition initiale contient autant de clusters que d observations, puis l algorithme fusionne deux clusters à chaque itération. Qu il soit agglomératif ou hiérarchique, le résultat du clustering hiérarchique dépend principalement du choix des clusters qui sont fusionnés ou divisés. Prenons l exemple du clustering agglomératif, qui à chaque itération fusionne deux clusters similaires. Pour savoir si deux clusters sont similaires, nous avons besoin de définir

64 64 Présentation de l apprentissage statistique une distance entre les clusters. Considérons une fonction distance d entre observations connue et fixée, et notons C 1 et C 2 deux clusters dont nous voulons mesurer la distance. Parmi les mesures de distance entre clusters, les plus populaires sont les distances single link et complete link. La distance simple link notée d sl est la distance minimale de toutes les paires de points entre les deux clusters. La distance complete link notée d cl est la distance maximale de toutes les paires de points entre les deux clusters : d sl (C 1, C 2 ) = d cl (C 1, C 2 ) = min d(x 1, x 2 ) x 1 C 1,x 2 C 2 max x 1 C 1,x 2 C 2 d(x 1, x 2 ) Quelque soit l algorithme utilisé, l inconvénient principal du clustering hiérarchique est sa complexité élevée. Le calcul de la distance entre deux clusters C 1 et C 2 requiert de calculer les distances entre toutes les paires d observations des deux clusters. Plus généralement, la complexité algorithmique d un algorithme de clustering hiérarchique est au moins en O(m 2 ) où m est le nombre d observations [Jain et al., 1999]. Cette complexité rend le clustering hiérarchique inutilisable lorsque le nombre d observations est grand. Enfin, soulignons que le résultat du clustering hiérarchique dépend du choix de la distance entre les clusters, qui dépend elle même du choix de la distance d entre les observations. Le choix de cette distance est donc crucial, et détermine la façon dont les observations seront regroupées en clusters. Clustering par partitionnement Le but du clustering par partitionnement est de déterminer une partition "plate" des données, et non pas une arborescence de clusters. Un des algorithmes de clustering par partitionnement les plus populaires est l algorithme des K-moyennes. Cet algorithme cherche à regrouper les observations en K clusters, de telle sorte que chaque cluster soit compact. Plus précisément, nous voulons que chaque observation soit proche selon la distance euclidienne du centre du cluster auquel il appartient. Une manière de formaliser le problème est de définir des coefficients d appartenance δ ik tels que δ ik = 1 si x i C k, 0 sinon. Les coefficients δ ik cherchés sont ceux qui minimisent la fonction de coût : L = où µ k est le centre du cluster C k : µ k = K k=1 i=1 m δ ik x i µ k 2 1 mj=1 δ jk m δ jk x j sous contraintes K k=1 δ ik = 1, i {1,..., m}. C est un problème d optimisation combinatoire, et nous nous contenterons d une solution approchée. Ainsi l algorithme des K-moyennes le simplifie en considérant que les moyennes µ k ne dépendent plus des δ ik, mais deviennent des paramètres supplémentaires à déterminer. Une stratégie de minimisation simple de L consiste à alterner les deux étapes suivantes jusqu à la convergence des paramètres ou de L : j=1

65 2.4 Apprentissage non supervisé 65 {µ 1,..., µ K } arg min {µ 1,...,µ K } {δ ik } i,k arg min {δ ik } i,k K K k=1 i=1 k=1 i=1 m δ ik x i µ 2 m δ ik x i µ k 2 sous contraintes K k=1 δ ik = 1, i {1,..., m}. L alternance de ces deux étapes sont le cœur de l algorithme des K-moyennes, dont le déroulement est illustré dans la figure 2.9. FIG. 2.9 Clustering avec les K-moyennes. La partition est initialisée aléatoirement, puis les moyennes et les clusters sont alternativement mis à jour à chaque itération. Remarquons que grâce à la distance euclidienne, les paramètres µ k minimisant le premier problème sont simplement les moyennes des clusters : µ k = (1/ i δ ik ) i δ ik x i. Pour d autres fonctions distance, le problème d optimisation serait plus compliqué. Précisons également que cet algorithme simple n est pas optimal, et que la solution trouvée par les K-moyennes n est qu un minimum local de la fonction de coût L. L algorithme des K-médians est une variante des K-moyennes, dans laquelle chaque cluster est représenté par une des observations qu il contient, et non plus par la moyenne des observations. Nous cherchons un sous-ensemble M des observations initiales contenant K éléments et minimisant la fonction de coût : L = m i=1 min d(x i, x j ) x j M où d : X X R + est une fonction distance choisie par l utilisateur. La distance utilisée par les K-médians est donc paramétrable, ce qui est une différence importante avec l algorithme des K-moyennes précédent. La complexité algorithmique diffère selon les implémentations, mais elle est en général plus élevée que celle des K- moyennes. Une implémentation populaire des K-médians est l algorithme CLARANS, dont la complexité algorithmique est en O(m 2 ) où m est le nombre d observations [Ng et Han, 1994]. Enfin, les modèles de mélange probabilistes présentés dans la section peuvent également être utilisés pour faire du clustering. Après avoir appris les paramètres d un modèle de mélange de k distributions avec l algorithme EM, nous pouvons calculer les probabilités a posteriori p(k x i ), où p(k x i ) est la probabilité d observer la composante k

66 66 Présentation de l apprentissage statistique sachant l observation x i. En associant chaque composante à un cluster, cette probabilité s interprète naturellement comme la probabilité que x i appartienne au cluster k. Nous choisissons alors d attribuer à x i le cluster qui maximise la probabilité a posteriori : cluster(x i ) = arg max p(k x i) k {1,...,K} Comme tous les algorithmes utilisés pour le clustering, le modèle de mélange définit une distance déterminant si deux observations sont proches ou éloignés. Cette distance est plus ou moins explicite en fonction des distributions utilisées dans le mélange. Dans le cas du mélange de gaussiennes, deux observations sont proches si elles sont été générées par la même gaussienne. Cette proximité repose donc sur le calcul de la distance entre une observation x et le centre d une gaussienne de paramètres (µ k, Σ k ), mesurée par la distance paramétrée par Σ : d(x, µ k ) = (x µ k ) T Σ 1 k (x µ k), appelée distance de Mahalanobis. Deux observations sont proches si leurs distances de Mahalanobis au centre d une même gaussienne sont faibles. Clustering et distance Nous avons donc vu qu en regroupant les observations d une certaine façon plutôt qu une autre, tous les algorithmes de clustering définissent explicitement ou implicitement une fonction distance. Et quelque soit la stratégie de regroupement utilisée (hiérarchique, par partitionnement, etc...), le résultat du clustering dépend grandement de la distance utilisée. Or souvent, nous voulons utiliser le clustering pour regrouper les observations selon une distance implicite, pas forcément bien définie. C est le cas par exemple du clustering thématique de documents textuels. Pour une collection de documents donnée, le but du clustering thématique est de regrouper les documents en clusters, de telle sorte que chaque cluster regroupe des documents thématiquement similaires (sport, actualité, loisir, etc...). Autrement dit nous cherchons donc à regrouper les documents selon une distance inconnue, telle que deux documents thématiquement similaires sont proches selon cette distance. Nous pouvons également vouloir regrouper les documents par style, par époque, par auteur, etc... Chacun de ces regroupements correspond à une distance implicite entre les documents, à déterminer. Lorsque l algorithme de clustering utilisé laisse la possibilité de modifier ou de paramétrer la distance, alors il faut évidemment choisir une distance la plus "proche" possible de la distance cherchée. En l absence d information de classe, ce choix est difficile et repose sur une connaissance a priori du problème. Pour reprendre l exemple du clustering thématique, sans connaissance a priori il est difficile de définir une distance telle que deux documents thématiquement similaires sont proches. Lorsque l algorithme de clustering repose sur une distance non modifiable, alors c est le choix de l algorithme lui-même qui devient important. Là encore, ce choix est difficile et repose sur une connaissance a priori du problème. Enfin, remarquons qu il n est pas toujours aisé de modifier la distance associée à un algorithme de clustering. Nous avons déjà vu que certains algorithmes de clustering par partitionnement comme les K-moyennes ou le mélange de gaussiennes offrent peu de possibilité de paramétrage de la distance. Les algorithmes de clustering hiérarchique et l algorithme des K-médians permettent de paramétrer la distance mais possèdent des

67 2.5 Conclusion 67 complexités algorithmiques élevées. Nous aimerions donc trouver une autre stratégie que le changement de distance pour obtenir les clusters désirés. Dans le chapitre 6, nous modifierons directement la représentation des données plutôt que la distance. 2.5 Conclusion Dans ce chapitre, nous avons fait un rapide tour d horizon des cadres d apprentissage non supervisé, supervisé et multi-tâches. Dans les trois cas, nous avons vu que les différentes tâches d apprentissage consistent à apprendre des paramètres ou des fonctions à partir des données d apprentissage, afin de faire des prédictions. En clustering, nous voulons prédire si deux observations appartiennent au même cluster. En classification et en régression, nous voulons prédire des étiquettes pour de nouvelles observations. En ordonnancement, nous voulons ordonner de nouvelles paires d exemples. La distinction fondamentale entre ces trois cadres d apprentissage réside dans l information disponible pour l apprentissage. En apprentissage non supervisé, les seules informations disponibles sont les représentations vectorielles des données. Nous avons vu que c est le cadre d apprentissage le plus difficile, c est à dire celui qui nécessite le plus de connaissance a priori du problème. Dans le problème du clustering par exemple, nous n avons aucun critère objectif permettant de juger si une distance est appropriée aux données, c est à dire telle que le clustering renvoie les clusters désirés en sortie. En apprentissage supervisé, nous connaissons les représentations vectorielles des données ainsi que leurs étiquettes de classe. Le but de l apprentissage supervisé est de choisir la meilleure fonction de prédiction parmi une classe de fonctions candidates, c est à dire celle qui minimise l erreur en généralisation. Nous avons vu que le choix de la classe de fonctions est déterminant pour les performances en généralisation. Or en apprentissage supervisé ce choix repose principalement sur une connaissance a priori du problème. Les techniques de sélection de modèle comme la validation croisée consistent à considérer plusieurs classes de fonctions candidates, à apprendre sur chacune d entre elles et à sélectionner la meilleure. Mais ce type d approche n offre qu un paramétrage limité des classes de fonctions, est souvent coûteux d un point de vue algorithmique et permet rarement de déterminer la classe de fonctions optimale. Enfin en apprentissage multi-tâches nous considérons plusieurs problèmes d apprentissage supervisé simultanément, et nous disposons donc de plusieurs ensembles d observations et d étiquettes de classe, chaque ensemble correspondant à une tâche. En considérant que les différentes classes de fonctions partagent un paramètre commun, nous avons vu qu il est possible d apprendre ce paramètre et donc d apprendre les classes de fonctions pour les différentes tâches. Il reste des hyper-paramètres à choisir (puisque nous régularisons les classes de fonctions ainsi que l espace de recherche du paramètre commun), mais pour un jeu d hyper-paramètres fixé, nous apprenons les classes de fonctions des différentes tâches d apprentissage. Et plus il y a de tâches de prédiction, et plus il est facile d apprendre les différentes classes de fonctions. C est une différence fondamentale avec l apprentissage supervisé classique : apprendre une classe de fonctions est difficile avec une seule tâche, ce qui nous limite à estimer la

68 68 Présentation de l apprentissage statistique classe de fonctions cherchée avec des techniques de sélection de modèle. Dans notre présentation générale des trois cadres d apprentissage statistique, nous avons considéré que la représentation des données était initialement connue et fixée au moment de l apprentissage. À partir de là, la difficulté de l apprentissage consiste à choisir la distance adéquate en clustering, et à choisir la classe de fonctions adéquate dans les problèmes supervisés et multi-tâches. À aucun moment la question de la pertinence de la représentation par rapport à la tâche d apprentissage ne s est donc posée. Pourtant, il semble légitime de se demander si certaines représentations sont plus adaptées que d autres pour résoudre un problème d apprentissage donné. Une représentation adéquate des données peut-elle nous aider à retrouver les clusters désirés en clustering? Peut-elle nous aider à atteindre une erreur en généralisation plus faible dans les problèmes supervisés et multi-tâches? Quel est le lien entre représentation des données et distance? Entre représentation des données et classe de fonctions? Dans la suite de cette thèse, nous allons voir que ces différentes notions sont étroitement liées. En particulier, nous verrons que le choix de la représentation permet de choisir la distance en clustering, et permet de choisir la classe de fonctions dans les cadres supervisé et multi-tâches.

69 3 Représentation des données et extraction de caractéristiques Sommaire 3.1 Introduction Rôle de la représentation des données Qu est ce qu une bonne représentation? Choix de la représentation initiale Changement de la représentation Conclusion Extraction de caractéristiques Extraction de caractéristiques mono-tâche Extraction de caractéristiques multi-tâches Qu est ce qu un bon algorithme d extraction? Conclusion générale Introduction Dans ce chapitre nous soulignons l importance de la représentation des données en apprentissage statistique. Dans la section 3.2, nous identifions une liste de propriétés désirables pour cette représentation. Du point de vue de l apprentissage, la propriété la plus importante est celle des performances en prédiction (que ce soit en apprentissage supervisé ou non supervisé). Nous préciserons formellement en quoi le choix de la représentation permet d influer sur ces performances, soulignant ainsi l importance de la représentation pour un problème d apprentissage donné. L importance de ce choix motive le besoin de modifier, dans certains cas, la représentation initiale des données. Dans cette perspective nous distinguons deux grandes approches décrites dans la littérature et qui sont la sélection et l extraction de caractéristiques. La sélection de caractéristiques consiste à sélectionner un sous-ensemble des caractéristiques initiales pour représenter les données, alors que l extraction de caractéristiques consiste à extraire de nouvelles caractéristiques à partir des variables initiales. Dans le cadre de cette thèse, nous nous intéressons à cette deuxième approche.

70 70 Représentation des données et extraction de caractéristiques La littérature sur l extraction de caractéristiques est très vaste, et rassemble des méthodes en apparence très différentes. Dans la section 3.3, nous formulons un cadre de description unificateur pour cette tâche. Pour cela nous identifions un ensemble de critères permettant de décrire les différentes méthodes d extraction. En particulier, nous verrons que le critère des performances nous amènera à distinguer trois cadres d extraction de caractéristiques : l extraction non supervisée, supervisée et multi-tâches. Enfin, après avoir déterminé les propriétés désirables pour la représentation des données, nous identifions les propriétés désirables pour les algorithmes d extraction dans la section Rôle de la représentation des données Dans le chapitre précédent, nous avons fait une présentation générale de plusieurs algorithmes d apprentissage non supervisé et supervisé. En clustering par exemple, nous avons vu que le résultat du clustering dépend du choix de l algorithme de clustering utilisé et de la distance explicitement ou implicitement employée par celui-ci [Berkhin, 2002, Jain et al., 1999]. Pour obtenir des clusters pertinents (c est à dire en accord avec la distance implicite désirée), toute la difficulté réside alors dans le choix d un algorithme de clustering et d une fonction distance appropriée. En apprentissage supervisé, nous avons vu que l erreur en généralisation dépend du choix de l algorithme d apprentissage, et de la classe de fonctions considérée [Vapnik, 1995]. Dans tous les cas, nous avons donc supposé que la représentation des données était connue et fixée à l avance. Or il est clair que les performances d un algorithme d apprentissage dépendent également de cette représentation initiale. Dans le cas du clustering, pour un algorithme et une fontion distance donnés, les clusters produits dépendent de la représentation utilisée pour grouper les données similaires entre elles. Un exemple jouet est donné dans la figure 3.1. En apprentissage supervisé, pour une classe de fonctions donnée, l erreur en généralisation dépend également de la représentation utilisée. En effet, cette dernière joue un rôle dans le calcul de l erreur empirique et dans l estimation de la complexité de la classe de fonctions considérée. Ce constat nous amène naturellement à nous interroger sur l influence de la représentation et sur les performances aussi bien en apprentissage supervisé que non supervisé. Du point de vue des performances, une bonne représentation est donc telle qu elle permet d atteindre une erreur faible. Dans la section suivante nous allons répondre à la question suivante : Y a t il d autres propriétés désirables pour la représentation des données? Qu est ce qu une bonne représentation? Dans cette section nous présentons à travers des exemples les trois critères proposés dans l état de l art que doit remplir une bonne représentation. Il s agit des performances en prédiction, de la dimension de l espace de représentation et de l interprétabilité des caractéristiques. Performances en prédiction Du point de vue de l apprentissage, le premier critère qui nous intéresse est naturellement le critère de performances. Dans un problème non supervisé comme le clustering, nous cherchons des clusters correspondant à un certaine distance implicite,

71 3.2 Rôle de la représentation des données 71 FIG. 3.1 Le problème de clustering consiste à regrouper les cercles ensemble et les carrés ensemble. Il est clair que pour retrouver cette distance implicite, la représentation (a) est plus adaptée que la représentation (b). inconnue (chapitre 2, section 2.4.3). Pour un algorithme de clustering donné, une bonne représentation est donc telle que les clusters produits soient en accord avec cette distance implicite. Si ce n est pas le cas, alors la représentation utilisée n est probablement pas adaptée au problème de clustering à résoudre. Prenons l exemple des données textuelles, et considérons l algorithme des K- moyennes. Considérons deux problèmes de clustering suivants : nous voulons regrouper les documents par thématique d une part, et par auteur d autre part. Il n y a aucune raison pour que l algorithme des K-moyennes permette de résoudre ces deux problèmes à partir d une même représentation des documents. Il est plus vraisemblable qu il existe une représentation des données textuelles adaptée à chacun de ces deux problèmes. Du point de vue de l évaluation, lorsque les clusters attendus sont connus, nous pouvons évaluer la qualité des clusters prédits (et donc la pertinence de la représentation utilisée) par des mesures de précision /rappel [Slonim et al., 2002] ou encore des mesures d information mutuelle [Strehl et Ghosh, 2002]. En apprentissage supervisé (classification, régression, ordonnancement), les performances sont mesurées par l erreur en généralisation, c est à dire par l erreur de prédiction sur les exemples non vus en apprentissage. Pour un algorithme d apprentissage donné, une bonne représentation permet d atteindre une erreur en généralisation faible. C est devant cette hypothèse implicitement admise qu il y a eu beaucoup de travaux dans la communauté d apprentissage autour des algorithmes travaillant sur des données projetées dans des espaces de plus grande dimension que l espace de départ (comme les MVS) [Burges, 1998]. Dimension de l espace de représentation Avoir une représentation de dimension faible possède plusieurs avantages. Il y a d abord des avantages de complexités en temps et en espace [Fodor, 2002]. En effet pour de nombreux algorithmes, la complexité algorithmique dépend de la dimension de l espace de représentation. Une dimension faible permet ainsi de réduire les temps de traitement des algorithmes, ou de manière équivalente de traiter de plus grandes quantités de données. Une dimension faible permet également de diminuer la com-

72 72 Représentation des données et extraction de caractéristiques plexité en espace des données, et facilite donc leur stockage en mémoire. Dans le cas particulier où les données sont représentées dans R 2 ou dans R 3, il est possible de visualiser les données (c est par exemple le cas des figures utilisées dans cette thèse). Cette propriété de visualisation peut s avérer utile dans une optique exploratoire des données. Les cartes auto-organisatrices sont un des algorithmes de visualisation les plus anciens et les plus populaires de la littérature [Kohonen et al., 2001]. La figure 3.2 illustre leur utilisation pour représenter des phonèmes dans un espace à deux dimensions 1. FIG. 3.2 À gauche, des spectres acoustiques de phonèmes finlandais, représentés sur une carte auto-organisatrice. À droite, les classes phonétiques correspondantes. Les cartes auto-organisatrices arrivent à regrouper les phonèmes similaires Enfin, nous remarquons dans de nombreux problèmes réels que toutes les dimensions ne sont pas utiles pour l apprentissage. Prenons l exemple du texte, où les documents sont représentés dans l espace des mots. Il est peu probable que tous les mots contiennent une information utile pour résoudre la tâche d apprentissage donnée [Yang et Pedersen, 1997, Forman, 2003]. De façon plus générale, nous constatons souvent qu un petit nombre de caractéristiques bien choisies permettent d obtenir de meilleures performances qu en apprenant dans l espace initial [Guyon et Elisseeff, 2003]. Ce constat empirique est un autre argument en faveur de la recherche d une représentation de faible dimension. Interprétabilité Une autre propriété désirable d une représentation est son interprétabilité. C est une propriété assez générale, parfois subjective, qui désigne la capacité de donner un sens aux caractéristiques associées à la représentation. Dans cette thèse nous allons nous restreindre à un cas particulier de la notion d interprétabilité. Considérons un espace de représentation X R D +, autrement dit les éléments de X sont des vecteurs de réels positifs. Supposons qu additionner les composantes d un vecteur x X a un sens. Évidemment c est une propriété informelle et intuitive, qui dépend du problème traité. Prenons l exemple du texte, où un document est représenté par un vecteur de nombres d occurrences des mots du vocabulaire. Autrement dit la i-ième composante de x est le nombre d occurrences du mot d indice i {1,..., D}. Construisons une nouvelle caractéristique de x notée φ(x), et qui est définie comme 1

73 3.2 Rôle de la représentation des données 73 φ(x) = τ T x τ où T correspond à un sous-ensemble de mots relatifs à une certaine thématique (par exemple le sport, la politique,...). La quantité φ(x) s interprète naturellement comme une mesure de l importance de cette thématique dans le document. C est sur cette interprétation que reposent les méthodes à base de clustering de mots [Slonim et Tishby, 2000, Baker et McCallum, 1998]. Plus généralement, toute combinaison linéaire à coefficients positifs des composantes de x garde cette même interprétation. Considérons un vecteur b R D + à coefficients positifs. Le vecteur b est interprété comme une thématique, au sens où chaque composante b k est interprétée comme un poids mesurant l importance de la caractéristique k. Pour reprendre l exemple du texte du paragraphe précédent, le vecteur b pourra par exemple accorder des poids importants à des mots comme "football", "arbitre" ou "championnat" et faibles par ailleurs, définissant alors une thématique associée au "sport". Le produit scalaire φ(x) = b T x s interprète alors comme une mesure de l importance de la thématique définie par b dans l observation initiale x X. Si φ(x) est grand alors le document représenté par x parle de sport. Si φ(x) = 0 alors cette thématique est absente du document. Enfin, remarquons que le mot "thématique" n a pas forcément de connotation spécifiquement textuelle (même si c est la plus intuitive). Une thématique est simplement définie par l ensemble des composantes initiales i {1,..., D} qui ont un poids important. Donnons un deuxième exemple de représentation interprétable, toujours dans le cas de données positives ( X R D + ) où additionner les composantes des vecteurs a un sens. Supposons que nous pouvons exprimer chaque observation x X comme une combinaison linéaire à coefficients positifs de K vecteurs de base {c 1,..., c K } X K. Autrement dit il existe K coefficients positifs {α 1,..., α K } tels que x = K k=1 α k c k. Alors nous pouvons interpréter les vecteurs de base c k comme des thématiques : chaque vecteur de base c k associe un poids à chaque caractéristique, interprétée comme son importance pour la thématique. Les vecteurs de base c k s interprètent ainsi comme des prototypes imaginaires, représentatifs d un sous-groupe de données. Les coefficients α k s interprètent comme des coefficients d appartenance à ces sous-groupes. Plus α k est élevé, et plus le vecteur de base c k "explique" le vecteur x, ou de manière équivalente plus x appartient au sous-groupe k. C est sur cette interprétation que reposent des modèles probabilistes [Hofmann, 1999c, Blei et al., 2003] et certaines méthodes de factorisation matricielle [Lee et Seung, 1999a]. Finalement, nous voyons que la positivité (des vecteurs de projection, des vecteurs de base, de la combinaison linéaire des vecteurs de base) semble être un critère important pour interpréter la représentation des données. Ce n est pas le seul critère, mais c est celui qui nous intéressera dans cette thèse. Nous verrons que ces critères de positivité apparaissent dans plusieurs méthodes que nous décrirons dans la suite, que ce soit de manière naturelle (dans les modèles probabilistes [Hofmann, 1999c, Blei et al., 2003], les probabilités sont évidemment positives) ou imposée (certaines méthodes comme la sélection de caractéristiques [Guyon et Elisseeff, 2003] ou la factorisation en matrices non négatives [Lee et Seung, 1999a] imposent des contraintes de positivité sur leur modèle).

74 74 Représentation des données et extraction de caractéristiques Choix de la représentation initiale Nous venons donc de présenter un ensemble de critères quantitatifs et qualitatifs que devraient remplir une "bonne" représentation des données. Le premier d entre eux est le critère de performances : une "bonne" représentation permet de trouver des clusters pertinents en apprentissage non supervisé, ou d atteindre une erreur en généralisation faible en apprentissage supervisé. Dans l idéal, nous attendons également de l espace de représentation qu il soit de faible dimension, et que la représentation soit interprétable. Si une telle représentation est disponible initialement, alors l apprentissage ne pose pas de difficulté. La plupart du temps, la représentation initiale des données est rarement adaptée au problème d apprentissage que nous voulons résoudre. En pratique, deux situations se présentent. Dans la première, nous devons faire l acquisition des données, c est à dire transformer des objets du monde réel en un ensemble de vecteurs. Pour cela nous devons choisir nous-mêmes les caractéristiques suivant lesquelles les objets vont être mesurés (lorsque c est possible) [Duda et al., 2000]. Prenons l exemple des données textuelles, et supposons que nous disposons d une collection de textes numérisés. Il est facile de déterminer une représentation vectorielle de ces documents dans l espace des mots. En revanche, il est moins facile de savoir si cette représentation est pertinente pour un problème d apprentissage donné. En général, elle ne l est pas. Dans la deuxième situation, l acquisition des données a déjà été faite, et nous disposons directement d un ensemble de vecteurs dans un espace de représentation donné. Là encore, il est rare que cette représentation soit la plus adaptée au problème d apprentissage à résoudre. Dans les deux situations décrits précédemment, la représentation vectorielle des données dont nous disposons n a a priori aucune raison d être particulièrement pertinente pour la tâche d apprentissage à résoudre. Pour reprendre la liste des propriétés attendues d une "bonne" représentation, la représentation initiale n a pas de raison d être optimale pour le critère des performances. De plus, avec les capacités de calcul et de mémoire toujours plus grandes, la tendance actuelle est de représenter les données dans des espaces de dimensions de plus en plus grandes [Donoho, 2000]. Enfin sans contraintes appropriées (par exemple des contraintes de positivité), la représentation initiale n a pas de raison d être interprétable. Ces considérations motivent donc le besoin de modifier la représentation initiale des données et de déterminer une nouvelle représentation, qui remplirait (au moins en partie) les critères définis précédemment Changement de la représentation Plusieurs types d approches Nous distinguons deux grands types d approches pour modifier la représentation initiale des données. La plus naturelle et la plus intuitive est la modification explicite de la représentation initiale. Une nouvelle représentation est construite à partir de la représentation initiale des données, puis les algorithmes d apprentissage sont appliqués sur cette nouvelle représentation. Les deux stratégies de changement explicite de représentation sont la sélection de caractéristiques et l extraction de caractéristiques. Le changement de représentation peut également être implicite. Cela concerne des algorithmes d apprentissage qui ne modifient pas la représentation initiale des données,

75 3.2 Rôle de la représentation des données 75 mais qui se comportent comme si l apprentissage se faisait dans un nouvel espace de représentation, qui n est jamais explicité. Ce changement implicite de la représentation concerne notamment les algorithmes utilisant des fonctions noyaux. Sélection de caractéristiques La sélection de caractéristiques, comme son nom l indique, consiste à choisir un sous-ensemble des caractéristiques initiales pour construire la nouvelle représentation. Par construction, cette stratégie permet donc de réduire la dimension du problème : la dimension du nouvel espace de représentation est inférieure à la dimension initiale. Elle remplit ainsi les critères de complexités (en temps et en espace) et de visualisation décrits dans la section Une autre propriété agréable de la sélection de caractéristiques est son interprétabilité. Ainsi, si les caractéristiques initiales sont interprétables, alors il est évident que les caractéristiques sélectionnées le sont aussi. En général, les caractéristiques sont évaluées suivant un critère donné, et les caractéristiques sélectionnées sont celles qui optimisent ce critère. En général, toute la difficulté consiste à choisir un critère adapté à un problème d apprentissage donné, c est à dire tel que la nouvelle représentation permettre d atteindre une erreur faible. Il existe de nombreux travaux en sélection de caractéristiques. Nous ne les détaillerons pas ici, voir [Guyon et Elisseeff, 2003] pour un état de l art général sur la sélection de caractéristiques, et [Dhillon et al., 2003, Liu et al., 2003, Forman, 2003] dans le cas particulier de la sélection de caractéristiques pour le texte. Extraction de caractéristiques L extraction de caractéristiques permet d extraire une nouvelle représentation à partir de la représentation initiale des données. À la différence de la sélection de caractéristiques, les nouvelles caractéristiques extraites ne font en général pas partie des caractéristiques initiales. L idée générale derrière l extraction est l utilisation d une transformation qui permet de l espace de représentation vers un nouvel espace. Évidemment, toute la difficulté consiste à choisir cette transformation de telle sorte à obtenir une nouvelle représentation intéressante par rapport à la tâche d apprentissage considérée. Remarquons que rien n empêche les nouvelles caractéristiques extraites de faire partie des caractéristiques initiales. La sélection de caractéristiques décrite précédemment peut donc être vue comme un cas particulier de l extraction de caractéristiques. En revanche, les algorithmes utilisés en extraction et en sélection sont assez différents, et en général les algorithmes d extraction ne sont pas utilisés pour faire de la sélection de caractéristiques. De nombreux travaux existent en extraction de caractéristiques, nous en ferons une présentation formelle dans la section 3.3 de ce chapitre et un état de l art dans les chapitres 4 et 5. Méthodes à base de noyaux Nous avons déjà décrit l utilisation des noyaux dans le cadre des machines à vecteur de support et de la régression (chapitre 2, section 2.2). Rappelons brièvement qu un noyau K est une fonction de X X R, où X R D. Le noyau K est associé à une projection φ de X dans un espace de Hilbert H, de telle sorte que K(x, x ) = φ(x) T φ(x ) pour (x, x ) X. En remplaçant les produits scalaires x T x dans R D par K(x, x ), les algorithmes comme les MVS et la régression linéaire se

76 76 Représentation des données et extraction de caractéristiques comportent comme si le problème de classification ou de régression était appris dans l espace H plutôt que dans X [Burges, 1998]. La nouvelle représentation des données dans l espace de Hilbert H n étant pas explicitée, ce changement de représentation est donc implicite. Représentation des données et distance Revenons à la tâche du clustering. Dans le chapitre 2 (section 2.4.3), nous avons vu que pour un algorithme de clustering donné, le résultat du clustering dépendait de la distance (ou la similarité) utilisée par l algorithme. Nous allons maintenant clarifier ce lien. Soit S = (x 1,..., x m ) un ensemble d observations dans X R D pour D fixé. Nous considérons une fonction φ de X dans un nouvel espace de représentation H. Comme précédemment, la fonction φ définit un changement de représentation des données, et le vecteur φ(x) H est la nouvelle représentation de l observation initiale x X. Considérons maintenant une fonction distance de H H R +, notée d. Rappelons que l algorithme de clustering étant fixé, le résultat du clustering dépend de la fonction distance d, le choix de la distance est donc crucial. Nous pouvons maintenant définir une nouvelle distance de X X dans R +, notée d φ. Elle dépend de la fonction φ, et est définie comme d φ (x, x ) = d ( φ(x), φ(x ) ) La distance d φ est donc une distance paramétrée par la fonction φ. En modifiant la représentation des données, nous modifions donc la distance d φ. Ainsi nous voyons que : En apprentissage non supervisé, choisir la représentation permet de choisir la distance. Représentation des données et classe de fonctions Dans la section 3.2.1, nous avons aussi vu que pour une classe de fonctions fixée, l erreur en généralisation dépend du choix de la représentation des données. Nous allons maintenant clarifier ce lien. Soit S = ((x 1, y 1 ),..., (x m, y m )) un ensemble d exemples dans (X Y) m avec X R D pour d fixé. Considérons une fonction φ de X dans un nouvel espace de représentation H. La fonction φ représente par exemple la transformation associée à une extraction ou à une sélection de caractéristiques, ou encore une projection dans un espace de Hilbert associée à une fonction noyau. Ainsi le vecteur φ(x) H est la nouvelle représentation de l observation initiale x X. Considérons maintenant une classe de fonctions F de X dans H. Rappelons que l erreur en généralisation dépend de F, le choix de la classe de fonctions est donc crucial. Nous pouvons maintenant définir une nouvelle classe de fonctions F φ qui dépend de la fonction φ, et qui est définie comme F φ = { f φ f F } La classe de fonctions F φ est donc une classe de fonctions paramétrée par la fonction φ. En modifiant la représentation des données, nous modifions donc la classe de fonctions F φ. Ainsi nous voyons que :

77 3.3 Extraction de caractéristiques 77 En apprentissage supervisé, choisir la représentation permet de choisir la classe de fonctions Conclusion L importance du choix de la représentation est maintenant plus clair. En clustering, choisir la représentation permet de choisir la distance, ce choix est donc très important pour produire les clusters attendus. Ainsi, nous verrons que plusieurs travaux en clustering formulent la recherche d une bonne distance comme le problème de recherche d une bonne représentation des données (voir section 3.3.1). En apprentissage supervisé, choisir la représentation permet de choisir la classe de fonctions, ce choix est donc très important pour atteindre une erreur en généralisation faible. Finalement, les trois notions de représentation des données, de distance et de classe de fonctions sont étroitement liées. Ces liens étroits justifient nos travaux dans la suite de cette thèse. En effet dans le chapitre 6, nous chercherons à modifier la représentation des données textuelles dans le but de retrouver une distance thématique implicite entre les documents. Dans les chapitres 7 et 8, nous chercherons à modifier la représentation des données dans le but de minimiser l erreur en généralisation, dans les cadres de la régression multi-tâches et de l ordonnancement d instances multi-tâches. Dans tous les cas, nos travaux se placent dans le cadre de l extraction de caractéristiques, cadre que nous allons maintenant présenter plus en détails. 3.3 Extraction de caractéristiques Dans cette section nous faisons une présentation générale de l extraction de caractéristiques. Rappelons que l extraction consiste, comme son nom l indique, à extraire une nouvelle représentation des données à partir d une représentation initiale. C est un sujet très général qui recouvre de nombreux travaux, en apparence assez différents. La distinction fondamentale que nous faisons entre les différents scénarios d extraction, est la présence ou l absence d information permettant de guider cette dernière. Dans cette thèse, l information que nous considérons est contenue dans les étiquettes y Y associées aux exemples x X. En nous basant sur la présence ou non de l information de classe, nous distinguons trois grands cadres d extraction de caractéristiques : Extraction de caractéristiques non supervisée. Ce cadre d extraction consiste, comme son nom l indique, à extraire des caractéristiques pertinentes pour des données non étiquetées. Sans information de classe, ce type d extraction repose principalement sur la connaissance a priori du problème : il faut savoir a priori quelles sont les caractéristiques pertinentes pour le problème d apprentissage, et comment les obtenir à partir de la représentation initiale. L extraction non supervisée regroupe un grand nombre de méthodes, dont la plus populaire est sans doute l analyse en composantes principales (ACP) [Jolliffe, 1986].

78 78 Représentation des données et extraction de caractéristiques Extraction de caractéristiques supervisée. Ce cadre d extraction consiste à utiliser l information de classe pour guider la recherche d une "bonne" représentation. Là aussi il existe de nombreuses méthodes, dont la plus populaire est sans doute l analyse discriminante linéaire (ADL) [Duda et al., 2000]. Extraction de caractéristiques multi-tâches. Ce cadre correspond à l extraction de caractéristiques dans le cadre de l apprentissage multi-tâches. Rappelons qu en apprentissage multi-tâches, nous cherchons à résoudre plusieurs tâches d apprentissage simultanément, au travers d une structure commune apprise sur toutes les tâches. Ce que nous appelons extraction multi-tâches est le cas particulier où cette structure commune permet d extraire une nouvelle représentation des données, représentation qui sera commune à toutes les tâches [Ando et Zhang, 2005b]. Nous verrons dans la suite que l extraction non supervisée et l extraction supervisée ont des formulations très similaires. Dans la section 3.3.1, nous les présentons ensemble sous l appellation extraction de caractéristiques mono-tâche pour souligner le fait que la nouvelle représentation est extraite à partir d une unique tâche d apprentissage (supervisée ou non supervisée). Cela contraste donc fortement avec l extraction de caractéristiques multi-tâches que nous présentons dans la section En extraction de caractéristiques multi-tâches, la nouvelle représentation commune est extraite à partir de plusieurs tâches d apprentissage. Nous verrons que la différence fondamentale entre ces deux cadres d extraction de caractéristiques réside dans le lien entre extraction et erreur en généralisation Extraction de caractéristiques mono-tâche Dans cette section nous faisons une présentation générale de l extraction de caractéristiques mono-tâche, qui regroupe l extraction non supervisée et l extraction supervisée. L extraction mono-tâche regroupe un grand nombre de travaux en apparence assez différents. Nous présentons d abord un cadre permettant d unifier les différentes formulations qui existent dans la littérature. Pour cela nous identifions plusieurs caractéristiques importantes d un algorithme d extraction. Puis nous présentons le cas particulier linéaire. Enfin, nous précisons les liens qui existent entre extraction de caractéristiques mono-tâche et l erreur en généralisation dans le supervisé. Cadre d étude Présentation générale Soient X et H deux espaces de représentation. Considérons un ensemble d observations X = {x 1,..., x m } X m, où X est notre espace de représentation initial. Le but de l extraction de caractéristiques est de déterminer une nouvelle représentation des éléments de X dans l espace de représentation final H. Ce changement de représentation définit une fonction φ : X H, qui permet de déterminer la nouvelle représentation dans H de n importe quel élément de X. La manière dont est déterminée la fonction φ à partir de X (et éventuellement d informations supplémentaires) constitue le cœur de tout algorithme d extraction [Guyon et al., 2006]. Comme en sélection de caractéristiques [Guyon et Elisseeff, 2003], la principale distinction entre les différentes méthodes d extraction mono-tâche est l utilisation (ou

79 3.3 Extraction de caractéristiques 79 pas) de l information de classe pour guider la recherche de la nouvelle représentation. Un algorithme d extraction de caractéristiques non supervisé E uns associe à un ensemble d observations {x 1,..., x m } X m une fonction φ : X H. L algorithme d extraction E uns peut donc être vu comme une fonction E uns : m>0 X m Φ, où m>0 X m est l ensemble des ensembles d observations dans X et Φ est un ensemble de fonctions de X dans H. De manière similaire, un algorithme d extraction de caractéristiques supervisé E sup associe à un ensemble d exemples {(x 1, y 1 ),..., (x m, y m )} (X Y) m une fonction φ : X H. L algorithme d extraction E sup peut donc être vu comme une fonction E sup : m>0 (X Y) m Φ, où m>0 (X Y) m est l ensemble des ensembles d exemples dans X Y et Φ est un ensemble de fonctions de X dans H. Espace de représentation initial Un espace de représentation couramment rencontré est simplement X = R D pour D fixé. C est le cas le plus général, qui permet de représenter la plupart des données issues du monde réel. Nous trouverons parfois des données spécifiquement positives, et nous considérons alors l espace d entrée X = R+ D. C est le cas par exemple des données biologiques comme les puces à ADN [Furey et al., 2000]. Les observations représentent des patients malades ou sains, et ils sont représentés dans un espace de gènes. Ainsi un patient est représenté par un vecteur x = (x 1,.., x g,.., x D ) R D, où x g représente le niveau d expression du gène g D. Lorsque les mesures issues du monde réel sont positives, nous considérons alors l espace d entrée X = R+ D. Certains types de données se présentent naturellement comme des mesures entières positives. C est par exemple le cas des données textuelles, où une représentation simple et intuitive consiste à représenter chaque document comme un vecteur de nombre d occurences de chaque mot [Van Rijsbergen, 1979]. Dans ce cas nous considérons l espace d entrée X = N D. Chaque document est représenté par un vecteur x = (x 1,.., x w,.., x D ) X dans l espace des mots, où la composante x w est le nombre d occurrences du mot d indice w D dans le document. Dans le cas particulier des mesures entières positives, il est parfois pratique de modéliser les données comme des données de co-occurrence [Hofmann, 1999c]. Prenons l exemple du texte. Un corpus de documents contenant m documents et un vocabulaire de V mots sera modélisé comme un ensemble de paires (d, w). La différence avec la représentation des documents dans N D est importante. Lorsque l espace d entrée est X = N D, une observation est un document, représenté par un vecteur x N D. Avec les données de co-occurrence, une observation est une paire (d, w). Espace de représentation final Il s agit du nouvel espace de représentation H des données. Selon l algorithme d extraction utilisé, les nouvelles représentations pourront être des vecteurs de réels dans H = R K avec K < D, mais aussi des vecteurs de réels positifs dans H = R+ K (voir par exemple [Lee et Seung, 1999a, Hofmann, 1999c, Blei et al., 2003] ) ou encore des vecteurs d entiers positifs dans H = N K (voir par exemple [Slonim et Tishby, 2000, Baker et McCallum, 1998]).

80 80 Représentation des données et extraction de caractéristiques Sortie d un algorithme d extraction Nous avons vu qu un algorithme d extraction de caractéristiques peut être vu comme une fonction qui associe à un ensemble d observations (dans le cas non supervisé) ou à un ensemble d exemples (dans le cas supervisé) une fonction φ : X H. Nous nous attendons donc à ce qu un algorithme renvoie la fonction φ en sortie, mais ce n est pas toujours le cas. Ainsi, nous distinguons deux types d extraction en fonction de la sortie de l algorithme : extraction fonctionnelle : la sortie de l algorithme d extraction est une fonction φ : X H. Remarquons qu avec l extraction fonctionnelle il est aisé de déterminer la nouvelle représentation de tout nouvel exemple x X non vu par l algorithme d extraction. Sa nouvelle représentation dans H est simplement φ(x). En extraction fonctionnelle, citons par exemple [Achlioptas, 2001, Weinberger et al., 2006, Globerson et Roweis, 2006, Schultz et Joachims, 2004]. extraction embarquée : la sortie de l algorithme est un ensemble de paramètres Θ, qui contient notamment les nouvelles représentations vectorielles des données {φ(x 1 ),..., φ(x m )} H m. Insistons sur le fait que la fonction φ n est pas explicitée. La fonction φ n étant pas connue, l extraction embarquée ne permet pas directement de traiter de nouvelles observations, non vues par l algorithme d extraction. Selon l algorithme d extraction utilisé, il existera parfois des solutions spécifiques permettant de traiter de nouvelles observations. En extraction embarquée, citons par exemple [Hofmann, 1999c, Lee et Seung, 1999b, Belkin et Niyogi, 2002, Roweis et Saul, 2000, Tenenbaum et al., 2000]. Fonction de coût La manière dont un algorithme d extraction associe une fonction φ : X H à un ensemble d observations (dans le cas non supervisé) ou d exemples (dans le cas supervisé) constitue le cœur de l algorithme d extraction. En général un algorithme d extraction utilise une fonction de coût L qui définit explicitemet ou implicitement ce qu est une bonne représentation des données. Par exemple L peut être faible pour des représentations considérées comme "bonnes", et élevée pour des fonctions considérées comme "mauvaise". Ainsi, de nombreuses méthodes d extraction se formulent comme des problèmes d optimisation, et de nombreux algorithmes d extraction se présentent comme des procédures d optimisation du coût L. Nous verrons plusieurs exemples de fonctions de coût dans les chapitres d état de l art 4 et 5. Dans le cas non supervisé, la fonction de coût L dépend de l ensemble d observations initial X = {x 1,..., x m } X m et la fonction de transformation φ : X H. De nombreuses méthodes d extraction non supervisée se présentent comme des problèmes d optimisation de la forme : min L(φ, X) φ Φ Dans le cas supervisé, la fonction de coût L dépend de l ensemble d exemples initial S = {(x 1, y 1 ),..., (x m, y m )} (X Y) m et la fonction de transformation φ : X H. De nombreuses méthodes d extraction supervisée se présentent comme des problèmes d optimisation de la forme : min L(φ, S ) φ Φ

81 3.3 Extraction de caractéristiques 81 Contraintes sur la nouvelle représentation Certaines méthodes d extraction de caractéristiques imposent des contraintes sur la nouvelle représentation des données. Un exemple simple et répandu est la contrainte de positivité [Lee et Seung, 1999b] : nous voulons que les nouvelles représentations soient des vecteurs positifs. Nous pouvons également désirer que les nouvelles représentations soient des distributions de probabilités [Hofmann, 1999c, Blei et al., 2003]. En général, ce type de contrainte est motivé par des besoin d interprétabilité de la nouvelle représentation (voir section 3.2.1). Remarquons que ce type de contraintes n est pas forcément explicité, et pourra être pris en compte de manière implicite via le choix d une classe de fonctions de transformation Φ adéquate. Différence entre extraction non supervisée et supervisée Dans la section précédente nous avons fait une présentation unifiée des cadres d extraction non supervisée et supervisée. Ces deux cadres sont donc similaires dans la forme, et leur principale différence réside dans la présence ou non de l information de classe. Précisons que cette seule différence est une différence de taille du point de vue de l apprentissage : l information de classe est la seule information dont nous disposons pour guider l extraction. En apprentissage non supervisé cette information n est pas disponible, et la recherche d une bonne représentation repose sur une connaissance a priori du problème. Cas particulier linéaire Dans cette section nous présentons un cas particulier important de l extraction de caractéristiques mono-tâche. Il s agit du cas linéaire, qui nous servira dans la suite de cette thèse. L extraction linéaire se décline sous deux formes : la projection linéaire et la factorisation matricielle. Projection linéaire Ici la fonction φ est une projection linéaire de X R D dans H R K (en général K est choisi faible et K < D). Ainsi l espace des fonctions de transformation qui nous intéresse est P R K D. Dans le cas non supervisé, X = {x 1,..., x m } X m et le problème d optimisation s écrit : min P P L(P, X) Dans le cas supervisé, S = {(x 1, y 1 ),..., (x m, y m )} (X Y) m et le problème d optimisation s écrit min P P L(P, S ) Projection linéaire : exemples Nous donnons maintenant quelques exemples de méthodes de projection linéaire non supervisée et supervisé. Cette partie n est pas un état de l art, et a simplement pour but de remettre certaines méthodes connues de la littérature dans le contexte défini dans la section précédente. Il existe de nombreuses méthodes de projection linéaire non supervisée dans la littérature, parmi lesquelles la plus connue est sans doute l analyse en composantes principales (ACP) [Jolliffe, 1986]. L analyse en composantes principales cherche la projection qui minimise une erreur de reconstruction carrée entre la représentation initiale des données et leur représentation finale. Citons également les projections aléatoires, qui

82 82 Représentation des données et extraction de caractéristiques cherchent une projection telle que les distances entre les paires de points se conservent entre l espace de représentation initial et l espace final. Ces deux méthodes seront expliquées plus en détails dans le chapitre 4 d état de l art consacré à l extraction de caractéristiques non supervisée. Parmi les méthodes de projection linéaire supervisée, le cas de la classification a été le plus étudié dans la littérature. Une des méthodes les plus connues de projection linéaire supervisée pour la classification binaire est l analyse discriminante linéaire (ADL) [Bishop, 2006]. Pour l analyse discriminante linéaire, une bonne représentation dans l espace H est telle que les deux classes sont bien séparées dans H. Ainsi, la projection cherchée est donc celle qui optimise un certain critère de séparabilité des classes dans H. D autres méthodes similaires cherchent à extraire une nouvelle représentation telle que les classes sont bien séparées [Weinberger et al., 2006, Goldberger et al., 2005]. Toujours parmi les méthodes de projection linéaire supervisé, le cas de la régression a également été étudié. Citons par exemple l analyse de corrélation canonique (ACC) [Hardoon et al., 2003]. Le but de cette méthode est de déterminer une projection linéaire telle que le problème de régression devient linéaire dans le nouvel espace H. Ainsi, la projection cherchée est celle qui optimise un certain critère de linéarité des données dans H. Projection linéaire et distance de Mahalanobis Nous avons déjà expliqué comment le choix de la représentation permet de choisir la distance dans la section Nous illustrons maintenant ce lien dans le cas particulier des projections linéaires. Notons P une matrice (K D) de projection de R D dans R K. La projection d un vecteur x R D est Px R K. Soient x et x deux observations dans X. Leurs images par la projection P sont Px et Px. Calculons maintenant la distance euclidienne entre ces deux images : Px Px 2 = (Px Px ) T (Px Px ) = (x x ) T P T P(x x ) = (x x ) T Q(x x ) = d Q (x, x ) où d Q : R D R D R + est une distance paramétrée par la matrice Q = P T P appelée distance de Mahalanobis. Ainsi, nous voyons que considérer la distance euclidienne dans l espace projeté par P est équivalent à considérer une distance de Mahalanobis paramétrée par P dans l espace de représentation initial. Nous retrouvons donc le lien étroit entre choix de la représentation et choix de la distance dans le cas particulier linéaire. Plusieurs travaux en extraction de caractéristiques supervisée utilisent ce lien entre projection linéaire et distance de Mahalanobis. La plupart de ces travaux se placent dans un cadre d apprentissage de distance [Weinberger et al., 2006] [Globerson et Roweis, 2006] [Schultz et Joachims, 2004]. Leur but est de déterminer une distance adaptée à un problème supervisé donné. Dans le cas de la classification, une propriété désirable d une distance est par exemple que les exemples d une même classe soient proches les uns des autres, et éloignés des exemples des autres classes. Si cette propriété reste vraie

83 3.3 Extraction de caractéristiques 83 pour les exemples de test, alors l utilisation de cette distance pourra améliorer les performances en généralisation de classifieurs basés sur le choix d une distance, tel que le classifieur des K plus proches voisins. Or nous avons vu que choisir la représentation des données est un moyen de choisir la distance. En particulier, le choix d une projection linéaire permet de choisir une distance de Mahalanobis. Ainsi la plupart des travaux en apprentissage de distance se formulent de la même manière : leur objectif commun est de déterminer une distance de Mahalanobis qui respecte certaines propriétés désirables, ce qui est équivalent à déterminer une projection linéaire telle que la distance euclidienne dans le nouvel espace de représentation respecte ces mêmes propriétés. Factorisation matricielle La factorisation matricielle représente la deuxième grande famille d extraction de caractéristiques linéaire. Rappelons brièvement son principe. Soit X une matrice de taille (m D). Le but de la factorisation matricielle est de déterminer une matrice ˆX de faible rang k (en général k < min(m, D)), telle que ˆX minimise L(X, ˆX), où L : R m D R m D R est une fonction de coût fixée. Autrement dit, nous cherchons une matrice ˆX de rang k qui soit similaire à X, la similarité étant implicitement définie par la fonction de coût L. Une manière simple d imposer la contrainte de rang consiste à écrire ˆX comme le produit de matrices ˆX = BC, où B et C sont des matrices de tailles (m K) et (K D). La factorisation matricielle s exprime alors comme un problème d optimisation sur B et C : min B,C L(X, BC) Et la solution notée ˆB, Ĉ permet de déterminer la meilleure approximation de rang k de la matrice X : X ˆBĈ Lorsque la factorisation matricielle est utilisée pour faire de l extraction de caractéristiques, la matrice X est la matrice des observations {x 1,..., x m } X m où la i-ème ligne de X contient le vecteur x i. Remarquons qu en approximant X avec produit BC, nous sommes capables d exprimer chaque ligne x i en fonction du vecteur B i. et des lignes de C. Plus précisément, nous avons : x i K B ik C k. k=1 où C k. est la k-ième ligne de C. La nouvelle représentation du vecteur initial x i R D est le nouveau vecteur B l. R K. Factorisation matricielle : exemples Les méthodes de factorisation matricielle non supervisée ont fait l objet de nombreux travaux dans la littérature. Parmi les plus connues, citons la décomposition en valeurs singulières (DVS) ou encore la factorisation en matrices non négatives (FMN) [Lee et Seung, 1999a]. Ces deux méthodes

84 84 Représentation des données et extraction de caractéristiques ont en commun de minimiser la même fonction de coût : elles cherchent le produit de matrices BC qui minimise une erreur carrée avec la matrice initiale. Elles diffèrent par les contraintes qu elles imposent à la factorisation. En particulier la factorisation en matrices non négatives impose aux matrices B et C d être positives, principalement dans un souci d interprétabilité des résultats. Ces méthodes sont expliquées en détails dans le chapitre 4 d état de l art sur l extraction de caractéristiques non supervisée. Extraction mono-tâche et erreur en généralisation Dans la section 3.2.3, nous avons souligné le lien qui existe entre représentation des données et classe de fonctions. En particulier nous avons vu que choisir la représentation permet de choisir la classe de fonctions, ce qui légitime l utilisation de l extraction de caractéristiques pour déterminer une représentation adaptée à un problème d apprentissage donné. En général, toute la difficulté réside dans le choix de la nouvelle représentation, et donc de la méthode d extraction utilisée. Dans cette section nous étudions le cas particulier de l extraction mono-tâche, qui regroupe l extraction non supervisée et l extraction supervisée. Extraction non supervisée et erreur en généralisation En extraction de caractéristiques non supervisée, nous disposons d un ensemble d observations X = {x 1,..., x m } X m. Déterminer une classe de fonctions adéquate est difficile en apprentissage non supervisé. Il n y a par définition aucune information de classe, et le choix de la classe de fonctions repose alors totalement sur une connaissance a priori du problème. Choisir la représentation étant équivalente à choisir la classe de fonctions, l extraction de caractéristiques non supervisée est une tâche aussi difficile que le choix de la classe de fonctions en apprentissage non supervisé, et nécessite donc une connaissance a priori du problème. Sans connaissance a priori, la nouvelle représentation choisie n a aucune raison d être particulièrement pertinente pour le problème, et n a donc pas plus de raison de permettre une erreur de généralisation faible. Extraction supervisée et erreur en généralisation Nous disposons dans ce cas d un ensemble d exemples S = {(x 1, y 1 ),..., (x m, y m )} (X Y) m. L information de classe peut-elle nous aider à déterminer une "bonne" représentation des données? Autrement dit, l information de classe peut-elle nous aider à déterminer une représentation permettant d atteindre une erreur en généralisation faible? Nous allons voir que la question est ouverte. Il existe de nombreux travaux en extraction de caractéristiques supervisée dans la littérature. Le cadre d extraction supervisée le plus étudié est celui de la classification. En particulier, de nombreux travaux implémentent l idée suivante : la nouvelle représentation cherchée est telle que les exemples de chaque classe sont regroupés de manière compacte dans le nouvel espace de représentation, et éloignés des exemples des classes. Comme nous l avons vu précédemment, l implémentation la plus populaire de cette idée est probablement l analyse discriminante linéaire (ADL) [Duda et al., 2000]. A première vue l idée implémentée par l ADL et les méthodes similaires paraît naturelle : nous cherchons une projection qui sépare bien les classes pour les exemples d apprentissage, dans l espoir qu elle séparera également bien les exemples de test.

85 3.3 Extraction de caractéristiques 85 Une situation indésirable que nous voulons éviter est la suivante : nous voulons éviter qu une projection sépare bien les classes des exemples d apprentissage, et mélange les classes des exemples de test. Un exemple jouet illustre cette situation dans la figure 3.3.Ce phénomène s apparente à celui du surapprentissage, présenté dans le chapitre 2 (section 2.2). Or il est important de constater qu à notre connaissance, aucun des travaux en extraction de caractéristiques supervisée pour la classification n offre de garantie dans ce sens. FIG. 3.3 Les données projetées sur la droite sont bien séparées en apprentissage (a) mais pas en test (b). La nouvelle représentation dégrade donc les performances en généralisation. Le problème se pose également pour le cadre de la régression. Nous avons évoqué précédemment l analyse de corrélation canonique (ACC) [Hardoon et al., 2003], qui permet de déterminer une projection qui rend le problème linéaire dans le nouvel espace de représentation (dans le but d apprendre une simple régression linéaire dans le nouvel espace de représentation). Le problème du "surapprentissage" qui se pose pour l ACC en régression est le même que pour les méthodes telles que l ADL en classification. Il n est pas clair de comprendre pourquoi une projection rendant le problème linéaire sur les exemples d apprentissage rendrait également le problème linéaire sur les exemples de test. En pratique ces lacunes apparentes de l extraction de caractéristiques supervisée ne paraissent pas insurmontables, puisque des méthodes comme l ADL sont largement utilisées en classification. Des travaux empiriques montrent même qu elles permettent de réduire l erreur en généralisation, lorsqu elles sont utilisées pour prétraiter les données avant d apprendre des classifieurs basés sur la distance euclidienne comme les machines à vecteurs de support ou le classifieur des K plus proches voisins [Weinberger et al., 2006, Goldberger et al., 2005]. Comment expliquer le succès empirique de ces méthodes d extraction supervisée malgré l absence de garantie théorique évoquée précédemment? Tout d abord, remarquons que plus la transformation appliquée aux données initiales est complexe, et moins la nouvelle représentation a de chances d être pertinente en généralisation. Dans le cas de la classification, une fonction de transformation arbitrairement compliquée

86 86 Représentation des données et extraction de caractéristiques sera capable de bien séparer les exemples d apprentissage, mais mélangera probablement les exemples de test. Ce phénomène, que nous appelons surextraction en référence au surapprentissage défini dans le chapitre 2 (section 2.2), est illustré dans la figure 3.3. De la même manière que le problème du surapprentissage peut s éviter en choisissant d apprendre avec des classes de fonctions simples, nous pensons que le problème de la surextraction peut être évité en choisissant des classes de fonctions de transformation simples. L extraction de caractéristiques linéaire, qui comprend les projections linéaires et la factorisation matricielle, serait donc naturellement protégée contre la surextraction. Il nous semble cela permet d expliquer le succès empirique des méthodes telles l analyse discriminante linéaire vue précédemment Extraction de caractéristiques multi-tâches Dans cette nous présentons l extraction de caractéristiques multi-tâches, qui est un cas particulier de l apprentissage multi-tâches présenté dans le chapitre 2 (section 2.3). Nous soulignons en particulier le lien entre extraction de caractéristiques multi-tâches et erreur en généralisation dans la section Ce lien constitue la différence fondamentale avec l extraction de caractéristiques mono-tâche présentée précédemment. Cas particulier linéaire Faisons d abord un bref rappel du cadre d apprentissage multi-tâches linéaire présenté dans le chapitre 2 (section 2.3). Nous considérons un ensemble de tâches de prédiction de X dans Y. À chaque tâche est associée une distribution fixée mais inconnue P l, que nous ne connaissons qu au travers d un ensemble d exemples S l tirés indépendamment de P l. Pour chaque tâche de prédiction nous considérons la classe des fonctions de prédiction linéaires de la forme f l (x) = a T l φ(x) + bt l Cψ(x), où φ(x) Rp et ψ(x) R q sont des représentations vectorielles associées à l observation x, a R p et b R K sont des vecteurs de paramètres et C est une matrice (K q) commune à toutes les tâches. Les paramètres à apprendre sont les vecteurs {a l, b l } l et la matrice commune C. Concentrons nous sur le terme b T l Cψ(x). Le paramètre commun C à toutes les tâches est une matrice de projection de R q dans R K, qui permet de projeter les données dans un espace de représentation commun. La matrice commune C apprise sur toutes les tâches étant une matrice de projection, il est immédiat que l apprentissage multi-tâches linéaire peut être vu comme de l extraction de caractéristiques. Plus précisément, cela rentre dans le cadre de la projection linéaire de la section Une fois la matrice C apprise, toute observation x X peut être projetée dans le sous-espace commun R K et sa nouvelle représentation s écrit simplement Cψ(x). Dans la suite de cette thèse, nous appelons extraction de caractéristiques multitâches le cas particulier de l apprentissage multi-tâches linéaire précédent. En l appelant ainsi, nous soulignons le fait que la matrice de projection C est apprise sur toutes les tâches simultanément, contrairement au cadre de l extraction de caractéristiques mono-tâche (non supervisée et supervisée) où la fonction d extraction n est apprise que sur une seule tâche. Dans la section suivante, nous verrons que c est une différence

87 3.3 Extraction de caractéristiques 87 fondamentale entre les deux cadres d extraction de caractéristiques. Extraction multi-tâches et erreur en généralisation Dans la section 3.2.3, nous avons souligné le lien qui existe entre représentation des données et classe de fonctions. En particulier nous avons montré que choisir la représentation permet de choisir la classe de fonctions. Or l erreur en généralisation, dont la minimisation est notre objectif principal, dépend de manière cruciale du choix de la classe de la fonctions (voir chapitre 2, section 2.2.2). Ce résultat légitime donc la première propriété que nous attendons d une nouvelle représentation : nous voulons qu elle nous permette d atteindre une erreur en généralisation faible. C est une propriété désirable quel que soit le cadre d extraction dans lequel nous travaillons : non supervisé, supervisé ou multi-tâches. Il existe donc une distinction fondamentale que nous faisons entre l extraction mono-tâche (supervisée et non supervisée) et l extraction multi-tâches. En extraction mono-tâche, nous tentons d estimer une nouvelle représentation des données appropriée pour la tâche d apprentissage. Cette estimation repose sur une connaissance a priori du problème dans le cas non supervisé, ou sur un ensemble d exemples étiquetés dans le cas supervisé. Dans les deux cas, il n y a aucune garantie que la nouvelle représentation du problème permette d atteindre une erreur en généralisation faible. En extraction multi-tâches, nous apprenons la représentation des données qui minimise l erreur en généralisation [Ando et Zhang, 2005b]. Sous réserve que l apprentissage multi-tâches vérifie les propriétés de généralisation et de consistance (ce qui peut être garanti par la régularisation, voir chapitre 2, section 2.2.2), nous savons que la représentation apprise est celle qui minimise l erreur en généralisation. En résumé, l extraction de caractéristiques multi-tâches permet de faire ce que l extraction de caractéristiques mono-tâche ne peut pas faire : déterminer une nouvelle représentation qui minimise l erreur en généralisation Qu est ce qu un bon algorithme d extraction? Dans la section nous avons défini les propriétés que nous attendons d une bonne représentation des données. Ici nous présentons les propriétés que nous attendons d un bon algorithme d extraction. Il y a principalement deux propriétés qui nous intéressent : une faible complexité algorithmique et la capacité de traiter des données en ligne. Complexité algorithmique Nous attendons d un bon algorithme d extraction de caractéristiques qu il calcule les nouvelles représentations des données en des temps raisonnables. Il est évident que la représentation optimale pour un problème d apprentissage donné ne nous est d aucune utilité si les temps de calculs nécessaires pour la déterminer sont prohibitifs. En général, nous chercherons à écrire des algorithmes de complexité linéaire en chacun des paramètres du problème (autrement dit la complexité est linéaire en chacun des paramètres lorsque tous les autres paramètres sont fixés). En général, ces paramètres comprennent le nombre d observations, la dimension de l espace de représentation initial et

88 88 Représentation des données et extraction de caractéristiques la dimension du nouvel espace de représentation. À ceux là s ajoutent éventuellement d autres paramètres qui diffèrent selon l algorithme utilisé. Une complexité linéaire est un critère important pour pouvoir traiter des grandes quantités de données. Traitement des données en ligne Notons X l espace de représentation initial, H le nouvel espace de représentation. L extraction de caractéristiques sur les données initiales (étiquetées ou non) renvoie la nouvelle représentation des données. Une autre propriété désirable d un algorithme d extraction de caractéristiques est sa capacité à travailler en ligne. Autrement dit nous voulons déterminer la nouvelle représentation dans H pour de nouvelles observations, non vues pendant l extraction de caractéristiques sur les données initiales. Lorsque nous sommes dans le cadre de l extraction fonctionnelle (voir section 3.3.1), alors l extraction de caractéristiques renvoie une fonction de transformation φ : X H. Le traitement d une nouvelle observations x X est immédiat, il suffit de calculer φ(x). Dans le cadre de l extraction embarquée, l algorithme d extraction renvoie seulement les images des observations initiales dans le nouvel espace H. Il n existe alors pas de moyen générique pour traiter de nouveaux exemples. Des solutions peuvent exister suivant l algorithme d extraction utilisé. 3.4 Conclusion générale Dans ce chapitre, nous avons précisé le rôle de la représentation des données en apprentissage. En particulier nous avons clarifié les liens entre représentation, classe de fonctions et distance. Choisir la représentation permet de choisir la classe de fonctions, ce qui est crucial dans le but de de minimiser l erreur en généralisation dans le cas supervisé. Choisir la représentation permet également de choisir la distance, ce qui est crucial dans le but de déterminer des partitions pertinents en clustering. Ainsi, nous attendons d abord d une bonne représentation des données qu elle nous permette d obtenir de bonnes performances en prédiction. Par rapport à ce critère de performances, nous avons distingué deux cadres d extraction de caractéristiques. L extraction de caractéristiques mono-tâche (qui regroupe l extraction non supervisée et l extraction supervisée), et l extraction de caractéristiques multi-tâches. Ces deux cadres d extraction permettent tous deux de choisir la classe de fonctions, mais seule l extraction multi-tâches offre des garanties théoriques permettant d affirmer que la nouvelle représentation apprise minimise effectivement l erreur de généralisation. Dans la suite de cette thèse, nous nous placerons dans les cadres d extraction monotâche et multi-tâches. Dans le chapitre 6, nous étudierons l extraction de caractéristiques non supervisée dans le cas particulier des données textuelles. Comme nous l avons souligné, c est une tâche difficile qui nécessite une connaissance a priori du problème. Nous proposerons notamment une solution où cette connaissance a priori est une hypothèse que nous faisons sur les relations de co-occurrence entre les mots sémantiquement proches. Dans les chapitres 7 et 8, nous nous placerons dans le cadre de l extraction multi-tâches. Dans ces deux chapitres, nous verrons que le cadre de

89 3.4 Conclusion générale 89 l apprentissage multi-tâches nous permet d apprendre une représentation des données pertinente à partir d une représentation initiale très pauvre.

90 90 Représentation des données et extraction de caractéristiques

91 4 État de l art sur l extraction de caractéristiques non supervisée Sommaire 4.1 Introduction Données vectorielles Extraction de caractéristiques : propriétés globales Extraction de caractéristiques : propriétés locales Clustering de caractéristiques Données textuelles Probabilistic latent semantic analysis Latent dirichlet allocation Cas particuliers d extraction non supervisée Extraction ou apprentissage? La tâche du clustering Exemples Choix de l algorithme d extraction Conclusion Introduction D ans ce chapitre, nous présentons un état de l art détaillé des techniques d extraction de caractéristiques non supervisée. Une première distinction que nous pouvons faire entre les différentes méthodes existantes concerne le type de représentation utilisé par un algorithme d apprentissage. Le type de représentation le plus intuitif et le plus répandu concerne les données vectorielles. Dans la section 4.2, nous présentons plusieurs méthodes d extraction non supervisée utilisant la représentation vectorielle des données. Dans la section 4.3, nous présentons des méthodes d extraction de caractéristiques dans le cas particulier des données textuelles. En dehors de la représentation vectorielle classique, l une de ces méthodes utilise un type de données appelé données de co-occurrence, particulièrement adapté pour représenter par exemple des données textuelles. Enfin dans la section 4.4, nous verrons que lorsque la tâche d apprentissage est un problème de clustering, les nouvelles caractéristiques extraites peuvent être directement utilisées pour prédire les clusters.

92 92 État de l art sur l extraction de caractéristiques non supervisée 4.2 Données vectorielles La représentation vectorielle des objets du monde réel est probablement l approche la plus commune et la plus intuitive. Pour décrire ces objets, nous définissons d abord un ensemble de caractéristiques mesurables. Chaque objet peut alors être mesuré selon une variable donnée. Prenons l exemple des données textuelles. Une modélisation commune consiste à déterminer l ensemble des mots d un vocabulaire donné (qui peut être par exemple l ensemble des mots présents dans la collection), et à considérer chaque mot comme une caractéristique. La quantité mesurée pour chaque mot dans un document est par exemple son nombre d occurrences (éventuellement normalisé) dans le document. Ainsi, chaque document est représenté par un vecteur x = (x 1,.., x i,.., x D ) R D où D est le nombre de mots, et où la i-ième composante de x est le nombre d occurrences du mot d indice i dans le document. Dans cette section nous nous intéressons à des méthodes d extraction de caractéristiques dont le domaine est X R D pour D fixé. Nous disposons d un ensemble d observations X = (x 1,..., x m ) X m. Nous rappelons que le but de l extraction est de déterminer une fonction de transformation φ : X H. C est cette fonction qui permet de déterminer la nouvelle représentation des données dans l espace H. En sortie, l algorithme d extraction peut renvoyer soit la fonction φ, soit un ensemble de vecteurs {φ(x 1 ),..., φ(x m )} H m, où la fonction φ n est pas explicitée. En l absence d information de classe, les seules données initiales ne nous fournissent aucun moyen de savoir si une représentation est adaptée à un problème d appentissage donné. En choisissant telle représentation plutôt qu une autre, comment savoir si nous n avons pas perdu une information importante sur les données initiales? Ainsi dans le cadre non supervisé, une stratégie d extraction naturelle consiste à déterminer une nouvelle représentation qui soit similaire à la représentation initiale. Autrement dit nous voulons éviter de déformer le problème initial, dans l espoir que la nouvelle représentation conserve une information importante contenue dans la représentation initiale. Cette notion de similarité reste elle-même à définir, et cette définition est au cœur de tout algorithme d extraction de caractéristiques non supervisée. En pratique de nombreux algorithmes cherchent explicitement ou implicitement à conserver une propriété des données initiales jugée importante. Cette propriété est définie par une fonction de coût, qui est d autant plus faible que la nouvelle représentation respecte la propriété considérée. Ainsi, de nombreuses méthodes d extraction non supervisée se formulent comme des problèmes d optimisation. La fonction de coût à optimisée peut par exemple favoriser la conservation de la structure globale (section 4.2.1) ou locale (section 4.2.2) des données. Dans le cas où le changement de représentation passe par un clustering des caractéristiques (section 4.2.3), il faut définir une similarité entre les caractéristiques afin de les regrouper en clusters. Là encore l extraction se formule comme un problème d optimisation, où la fonction de coût optimisée définit implicitement une similarité entre les caractéristiques.

93 4.2 Données vectorielles Extraction de caractéristiques : propriétés globales Dans cette section, nous décrivons des méthodes d extraction de caractéristiques conservant des propriétés globales des données. Dans le cas de la factorisation matricielle, nous verrons plusieurs méthodes cherchant à minimiser l erreur carrée entre la matrice initiale des données, et sa meilleure approximation par une matrice de faible rang fixé. Dans le cas de la projection linéaire, nous verrons des méthodes cherchant à conserver les distances euclidiennes entre les paires de points. Conservation de la norme de Frobenius Rappelons qu en factorisation matricielle, nous cherchons à approximer une matrice initiale X de taille (m D) par une matrice ˆX de même taille et de rang faible. Pour savoir si ˆX est une bonne approximation de X, nous définissons une fonction de coût L : R m D R m D R +. Cette fonction de coût est faible lorsque ˆX est jugée similaire à la matrice X. Ainsi nous formulons la factorisation matricielle comme un problème d optimisation, consistant à déterminer la matrice ˆX telle que le coût L(X, ˆX) est minimal. Une fonction de coût couramment utilisée en factorisation matricielle repose sur la norme de Frobenius [Golub et Loan, 1996]. La norme de Frobenius d une matrice A est définie comme : A 2 = i,d A 2 id. Autrement dit la norme de Frobenius d une matrice est simplement la somme des carrés de ses termes. Cette norme est faible lorsque les termes de la matrice sont tous proches de 0, et élevée lorsque des termes sont grands en valeur absolue. Revenons au choix d une fonction de coût pour la factorisation matricielle. La fonction de coût L que nous considérons est : L(X, ˆX) = X ˆX 2 = m D (X id ˆX id ) 2 i=1 d=1 Autrement dit c est simplement la norme de Frobenius de la matrice X ˆX. Le coût est nul lorsque ˆX = X, et élevé lorsque les termes X id ˆX id sont grands en valeur absolue. La norme de Frobenius implémente donc bien une définition de similarité entre deux matrices. Une manière simple d imposer la contrainte de rang sur ˆX est d écrire ˆX = BC, où B et C sont des matrices de tailles (m K) et (K D). Dans ce cas, la fonction de coût L s écrit : L(X, BC) = X BC 2 = m D (X id (BC) id ) 2 = i=1 d=1 m D (X id B T i. C.d) 2 i=1 d=1 où B i. R k est le vecteur correspondant à la i-ième ligne de B, et C.d R k est le vecteur correspondant à la d-ième colonne de C. Après résolution du problème d optimisation, nous obtenons deux matrices B, C telles que X BC. Il est aisé de voir que chaque ligne de X est approximée par une combinaison linéaire des lignes de C : X i. K B ik C k. k=1 où X i. est la i-ième ligne de X et C k. est la k-ième ligne de C. Autrement dit la factorisation matricielle permet d exprimer chaque observation x i X par une combinaison

94 94 État de l art sur l extraction de caractéristiques non supervisée linéaire de K vecteurs de R m. Les coefficients de cette combinaison, contenus dans la k-ième ligne de B, constituent la nouvelle représentation de x i dans R K. Les vecteurs de base sont les K lignes de C, et définissent le nouvel espace de représentation des données. Chaque vecteur de base C k. R d est un vecteur de l espace initial, et peut donc être interprété comme une observation imaginaire, calculée par la factorisation mais ne correspondant à aucune donnée réelle. Cette façon de considérer chaque observation comme une combinaison linéaire d un ensemble d observations imaginaires est le premier pas vers l interprétabilité de la factorisation matricielle. Nous verrons que cette interprétabilité dépend grandement de l existence éventuelle de contraintes sur les matrices B et C. Dans la suite de cette section, nous présentons deux méthodes de factorisation matricielle minimisant toutes deux la norme de Frobenius, et différant par les contraintes qu elles imposent sur les matrices de facteurs. Décomposition en valeurs singulières La décomposition en valeurs singulières (DVS) est probablement la plus connue des techniques de factorisation matricielle [Golub et Loan, 1996]. Elle cherche à exprimer la matrice X de taille (m D) en un produit UΣV T, où les matrices U, Σ et V sont respectivement de tailles (m D), (D D) et (D D). La matrice Σ est diagonale et s écrit Σ = diag(σ 1,..., σ D ) où σ i est la i-ième plus grande valeur propre de la matrice XX T. Les matrices U et V sont orthogonales. Les colonnes de U sont les vecteurs propres de la matrice XX T, et les colonnes de V sont les vecteurs propres de la matrice X T X. Les colonnes de U et de V sont ordonnées selon l ordre des valeurs propres correspondantes. La DVS permet de déterminer la matrice de rang K < D optimale pour la norme de Frobenius, c est à dire la meilleure approximation de la matrice X parmi toutes les matrices de taille (m D) et de rang K. Cette matrice s écrit U K Σ K VK T, où Σ K est la sous-matrice de taille (K K) correspondant aux K premiers éléments de la diagonale de Σ. Les matrices U K et V K sont de tailles (m K) et (D K), et s obtiennent en gardant seulement les K premières colonnes de U et V. La solution déterminée par la décomposition en valeurs singulières est optimale pour la norme de Frobenius, et minimise donc : L(X, U K Σ K VK T ) = X U KΣ K VK T 2 = (X id (U K Σ K VK T ) id) 2 Pour retrouver la formulation présentée dans la section précédente, il suffit de prendre B = U K et C = Σ K V T K. Remarquons qu il n est pas toujours aisé d interpréter le résultat d une décomposition en valeurs singulières. Prenons l exemple des données textuelles : la matrice X représente un ensemble de m documents dans un espace de D mots, où X id est le nombre d occurrences (éventuellement normalisé) du mot d indice d dans le document d indice i. Après application de la DVS, nous obtenons la matrice B = U K, dont chaque ligne contient la nouvelle représentation des documents dans R K, le nouvel espace défini par K vecteurs de base. Ces vecteurs de base sont donnés par les lignes de la matrice C = Σ K VK T. Le k-ième vecteur de base C k. R d est un vecteur dans l espace des mots : la d-ième composante correspond au mot d indice d. Or les composantes de C k. i,d

95 4.2 Données vectorielles 95 FIG. 4.1 Un visage est décomposé en une somme de parties (nez, oreilles, bouches, etc) grâce à la FMN. peuvent être positives ou négatives, et ne peuvent donc pas être interprétés comme les occurrences de mots dans un "document type" (un document imaginaire absent de la base de documents initiaux, dont nous aurions aimé nous servir pour l interprétation des résultats). La décomposition en valeurs singulières ne permet donc pas d exprimer un document comme une combinaison linéaire de documents type. Factorisation en matrices non-négatives La factorisation en matrices non négatives (FMN) est une méthode factorisation matricielle, introduite par [Lee et Seung, 1999a]. Elle permet d approximer une matrice X de taille (m D) et dont les éléments sont tous positifs, grâce à une décomposition de la forme X BC, où B et C sont des matrices (m K) et (K D). Les lignes de la matrice X décrivent m objets par autant de vecteurs de dimension D, les lignes de la matrice B contiennent les représentations des mêmes objets dans un espace de dimension K < D, et la matrice C contient les K vecteurs de base. L originalité de la FMN réside dans les contraintes de non-négativité qu elle impose à B et C. Les auteurs montrent que ces contraintes obligent aux éléments des matrices B et C à comporter beaucoup de 0. En particulier pour la matrice C, ils montrent que les vecteurs de base (contenus dans les lignes de C) se chevauchent rarement. La représentation d un objet comme une combinaison linéaire de ces vecteurs de base, correspond alors à l intuition d une décomposition par parties. Les conditions sous lesquelles la FMN permet effectivement de retrouver les parties latentes d un ensemble de données ont été étudiées par [Donoho et Stodden, 2003]. La FMN a été appliquée avec succès, notamment en reconnaissance des visages [Lee et Seung, 1999a] (voir l illustration 4.1) et en classification de documents textuels [Xu et al., 2003]. Reprenons l exemple des données textuelles de la section précédente. Les vecteurs de base C k. R D + sont maintenant à valeurs positives, et peuvent donc être interprétés de la manière suivante. Le vecteur C k. définit un document imaginaire, appelé "docu-

96 96 État de l art sur l extraction de caractéristiques non supervisée ment type", et dans lequel le mot d indice d est d autant plus important que C kd est élevé. Chaque document i est donc une combinaison linéaire de ces documents type. De plus les coefficients de la combinaison linéaire (contenus dans le vecteur B i. R K + ) sont positifs. Nous pouvons donc interpréter le coefficient B ik comme une mesure de l importance du document type k dans le document i. Plus B ik est grand, et plus le document type k "explique" le document i. Ce type d interprétation n est pas possible avec la DVS décrite précédemment à cause de la présence de coefficients négatifs. Déterminer les matrices B et C revient à minimiser une fonction de coût entre la matrice initiale X et le produit BC. Plus précisément, il faut minimiser la norme de Frobenius L(X, BC) = X BC 2 = i,d(x id (BC) id ) 2 sous les contraintes de nonnégativité. C est un problème d optimisation non convexe, que [Lee et Seung, 2000] proposent de résoudre en initialisant B et C aléatoirement, puis en alternant les mises à jour suivantes : (1) C C BT X B T BC (2) B B XCT BCC T où désigne le produit de deux matrices terme à terme (également appelé produit de Hadamard). Les auteurs montrent que ces formules de mise à jour convergent vers un minimum local de la fonction de coût L(X, BC) = X BC 2. Nous remarquons qu à chaque étape, la complexité est en O(mDKt), où t est le nombre maximal d itérations. Précisons que les auteurs ont donné une variante de leur algorithme permettant de minimiser une autre fonction de coût sous les mêmes contraintes de non-négativité. Il s agit d une fonction de coût basée sur la distance de Kullback-Leibler : L(X, BC) = X id log(bc) id (BC) id i,d Les formules de mise à jour des matrices B et C sont similaires à celles qui minimisent la norme de Frobenius (voir [Lee et Seung, 2000] ). Conservation de la variance L analyse en composantes principales (ACP) est une méthode de projection linéaire non supervisée. Le but est de déterminer la projection qui conserve un maximum d information sur les données initiales. Pour l ACP, la projection la plus informative est celle qui conserve au mieux la variance des données initiales [Hotelling, 1933]. Plus précisément le but de l analyse en composantes principales est de déterminer la base orthonormale U = [u 1,..., u K ] ( U est une matrice (D K) ) qui maximise la variance des données projetées y i = U T x i. Concentrons nous d abord sur l ACP à une dimension, autrement dit nous cherchons la base U constituée d un unique vecteur U = [u 1 ]. Le vecteur u 1 cherché est celui qui maximise : 1 m m (u T 1 x i u T 1 µ)2 = u T 1 S u 1 i=1

97 4.2 Données vectorielles 97 où µ = m i=1 x i /m est la moyenne des observations et S est la matrice de covariance définie comme S = 1 m m (x i µ)(x i µ) T i=1 Autrement dit nous cherchons u 1 qui maximise u T 1 S u 1. Pour éviter la solution non désirable correspondant à u 1 2, la maximisation se fait sous la contrainte u T 1 u 1 = 1. Les auteurs montrent que la solution u 1 cherchée est le vecteur propre de S correspondant à sa plus grande valeur propre. Dans le cas général, la base U cherchée est constituée des K vecteurs propres de S correspondant à ses K plus grandes valeurs propres [Bishop, 2006]. La projection ainsi déterminée par l ACP est celle qui maximise la variance. Il est également possible de montrer que que l ACP détermine la projection optimale pour l erreur carrée [Pearson, 1901]. Conservation des distances globales Une propriété simple que nous pouvons avoir envie de conserver d une représentation à l autre concerne les distances entre les éléments de X. Nous cherchons une nouvelle représentation telle que pour chaque paire de points (x, x ) X, la distance dans l espace de représentation initial X est égale à la distance dans le nouvel espace de représentation. Si nous considérons la distance euclidienne par exemple, nous cherchons la fonction de transformation φ : X H telle que φ(x) φ(x ) 2 = x x 2 Dans la suite de cette section, nous présentons deux méthodes de projection linéaire permettant de conserver les distances euclidiennes entre les observations. Multidimensional scaling La méthode multidimensional scaling (MDS) détermine la projection de rang k optimale pour la conservation des distances entre les points [de Leeuw, 2005]. À la différence d une méthode telle que l ACP, l approche MDS n a pas besoin des représentations vectorielles des données, mais simplement des distances qui les séparent. Celles ci sont données par une matrice de distances inter-points D. Ainsi l algorithme MDS a pour but de calculer les points projetés Y qui conservent au mieux ces distances, et se décompose en quatre étapes principales : Calculer B = X T X = (1/2)HDH, où H = I (1/m)11 T et 1 est le vecteur composé de 1. Déterminer les valeurs propres et les vecteurs propres de B. Notons Λ la matrice diagonale (D D) contenant les valeurs propres de B dans ordre décroissant. Et, V la matrice (D D) dont les colonnes contiennent les vecteurs de propres de B, dans l ordre décroissant des valeurs propres. Calculer X = VΛ 1/2 Les points projetés s écrivent Y = V k Λ 1/2 K, où V k et Λ k sont les sous-matrices de V et Λ correspondant aux K plus grands vecteurs propres et valeurs propres. L originale principale de la méthode MDS est de prendre en entrée une matrice de distances, et non une matrice de vecteurs. Ainsi cette méthode d extraction non supervisée est adaptée lorsque les représentation vectorielles ne sont pas disponibles (ou difficiles à obtenir), mais que les distances sont faciles à calculer.

98 98 État de l art sur l extraction de caractéristiques non supervisée Projections aléatoires Une projection aléatoire est une méthode de projection linéaire non supervisée. La caractéristique la plus surprenante de cette méthode est que la matrice de projection est remplie de manière aléatoire, à partir d une distribution de probabilité donnée. Cette technique de projection repose sur des résultats théoriques montrant que sous certaines conditions sur la distribution de probabilité utilisée, une projection aléatoire conserve (à peu près) les distances euclidiennes entre les points [Johnson et Lindenstrauss, 1984]. En particulier, [Achlioptas, 2001] a montré le résultat suivant : Soit P un ensemble de m points de R D, représenté par une matrice A de taille m D. Soit ɛ, β > 0, K 0 = 4+2β ɛ 2 /2 ɛ 3 /3 log m. Pour un entier K > K 0, soit R une matrice aléatoire de taille D K avec R(i, j) = r i j, où {r i j } sont des variables aléatoires obéissant à l une des deux distributions de probabilités suivantes : r i j = r i j = 3 { +1 avec une probabilité 1/ /2 +1 avec une probabilité 1/ / /6 Soit E = 1 K AR et la fonction f : R D R K qui associe la ième ligne de A à la ième colonne de E. Avec une probabilité supérieure ou égale à 1 m β, pour tout u, v P nous avons alors : (1 ɛ) u v 2 f (u) f (v) 2 (1 + ɛ) u v 2 Le paramètre ɛ étant faible, l inégalité précédente signifie que la distance entre u et v est approximativement égale à la distance entre f (u) et f (v), et donc que la projection modifie peu les distances entre les points. Ce résultat fournit une implémentation très simple des projections aléatoires (il suffit en pratique de générer des matrices de 1 et de +1), ainsi qu une borne inférieure K 0 de la dimension de projection K. Expérimentalement, [Bingham et Mannila, 2001] ont appliqué les projections aléatoires sur des corpus de documents textuels et d images [Bingham et Mannila, 2001] et ont montré qu elles permettaient de préserver les similarités entre les vecteurs. [Fradkin et Madigan, 2003] les ont appliquées sur plusieurs base UCI 1, en prétraitement pour des tâches de classification. Enfin [Dasgupta, 2000] ont constaté que les projections aléatoires ont tendance à rendre les données plus gaussiennes, motivant ainsi leur modélisation à l aide de mélanges de gaussiennes Extraction de caractéristiques : propriétés locales Dans cette section, nous présentons des méthodes d extraction non supervisée conservant des propriétés locales des données. En général, ces méthodes font l hypothèse que l espace de représentation initial n est pas pertinent, et que les données sont situées sur une variété non linéaire de faible dimension. Lorsque c est le cas, les distances euclidiennes entre deux points éloignés n ont plus de sens. C est pourquoi ces méthodes se concentrent sur la préservation des structures locales des données. Plus précisément, le but général de ces méthodes est de déterminer une nouvelle représentation telle que localement, un voisinage de points dans la représentation initiale 1 http ://archive.ics.uci.edu/ml/

99 4.2 Données vectorielles 99 FIG. 4.2 Les données dans R 3 sont situées sur une variété non linéaire de dimension 2 (A). La réduction dimensionnelle non linéaire a pour but de déterminer une représentation des données dans R 2 qui préservent les distances sur la variété initiale (C). est similaire au même voisinage de points dans la nouvelle représentation. Un exemple jouet de variété est illustré dans la figure 4.2. Dans la suite de cette section, nous décrivons plusieurs méthodes d extraction non supervisée préservant les structures locales. Ce sont des méthodes de réduction dimensionnelle non linéaire, dans la mesure où la transformation ne peut pas s exprimer comme une factorisation matricielle ou une projection linéaire. Locally linear embedding La méthode locally linear embedding (LLE) est une méthode d extraction de caractéristiques non supervisée, permettant de déterminer les coordonnées d un ensemble de points lorsque ceux ci se trouvent sur une variété non linéaire [Roweis et Saul, 2000]. Le principe de LLE repose sur la préservation des configurations locales des données. Chaque observation est d abord exprimée comme une combinaison linéaire de ses voisins. La nouvelle représentation déterminée par LLE est celle qui respecte au mieux ces relations de linéarité entre points voisins dans le nouvel espace. Plus précisément, les trois étapes principale de l algorithme sont : 1. Déterminer les L plus proches voisins de chaque observation. 2. Exprimer chaque observation comme une combinaison linéaire de ses voisins. Nous voulons exprimer chaque observation x i X comme une combinaison linéaire de ses voisins, autrement dit nous voulons pouvoir écrire x i = j=1 W i j x j pour des coefficients W i j bien choisis. Les coefficients W i j cherchés sont donc solution de min W i j R m x i W i j x j i=1 sous la contrainte j W i j = 1 pour tout x i. 3. Déterminer la nouvelle représentation. Nous voulons maintenant déterminer un ensemble de vecteurs {h 1,..., h m } R k respectant au mieux les relations de voisinage déterminées dans l étape précédente. Autrement dit les vecteurs h i cherchés sont solution de min y i R k i=1 j=1 m m y i W i j y j j=1

100 100 État de l art sur l extraction de caractéristiques non supervisée Laplacian eigenmaps Dans un esprit similaire à l algorithme LLE, plusieurs travaux de réduction dimensionnelle non linéaire cherchent à conserver les configurations locales des données. C est notamment le cas des laplacian eigenmaps [Belkin et Niyogi, 2002]. Le but de cette méthode est de préserver les structures locales des données. Soit X = (x 1,..., x m ) X m l ensemble des observations initiales, et H = (h 1,..., h m ) H m la nouvelle représentation cherchée. Au cœur des laplacian eigenmaps, il y a la minimisation de la fonction de coût L(h 1,..., h m ) = 1 2 m i=1 m (h i h j ) 2 W i j où W i j est une mesure de similarité entre x i et x j. Du point de vue de l extraction de caractéristiques, la minimisation de cette fonction se comprend de la manière suivante. Rappelons que notre but est la conservation des configurations locales : si les observations initiales x i et x j sont proches, alors nous voulons que h i et h j le soient aussi. Or si x i et x j sont proches alors W i j est grand, et la minimisation de la fonction de coût favorise alors les (h i h j ) faibles, autrement dit les h i et h j proches. La minimisation du coût L permet donc effectivement de déterminer une nouvelle représentation qui conserve les configurations locales des données. Décrivons maintenant les différentes étapes de l algorithme. Soit G le graphe tel que le sommet i correspond à l observation x i. Nous décrivons d abord l algorithme dans le cas simple d une projection (non linéaire) sur l axe des réels. Autrement dit la nouvelle représentation de x i est un réel h i R. Soit le vecteur h = (h 1,..., h m ) R m. Les trois étapes principales de l algorithme sont les suivantes : 1. Construire le graphe d adjacence. Les sommets i et j sont reliés par un arc si x i et x j sont proches. Les observations x i et x j sont considérées proches si leur distance euclidienne est inférieure à un seuil fixé, ou si l un des deux points appartient aux L plus proches voisins de l autre. 2. Attribuer des poids aux arcs. Attribuer à chaque paire de sommets (i, j) le poids W i j = exp( x i x j 2 τ ) si i et j sont reliés par un arc, 0 sinon (le coefficient τ est un hyper-paramètre fixé à l avance) 3. Déterminer la nouvelle représentation. Soit D la matrice diagonale (m m) telle que D ii = m j=1 W ji, et L la matrice (m m) définie comme L = D W. Le vecteur h cherché est solution de : j=1 min h T Lh h s.c. y T Dy = 1 y T D1 = 0 Les auteurs montrent que h T Lh = 1 2 i, j(h i h j ) 2 W i j, et la fonction de coût à minimiser devient claire. Les contraintes du problème d optimisation permettent d éviter des solutions non désirables. La division d une solution h par une constante positive permet de diminuer trivialement la fonction de coût. La contrainte y T Dy = 1 permet d éviter ce problème. Quant à la contrainte y T D1 = 0, elle fait en sorte que le problème d optimisation soit invariant par translation de h.

101 4.2 Données vectorielles 101 Dans le cas général, la nouvelle représentation de x i n est plus sur l axe des réels mais un vecteur h i R k. Notons H la matrice (m K) telle que la i-ième ligne de H contient l observation x i. Seule la troisième étape de l algorithme change et les auteurs montrent que le problème d optimisation à résoudre s écrit : min trace ( HLH ) T H s.c. HDH T = I ISOMAP Lorsque les données sont sur une variété non linéaire, deux observations peuvent être proches selon la distance euclidienne et éloignées sur la variété. La distance euclidienne n est donc pas pertinente pour ce type de données. Une notion de distance plus pertinente serait la longueur du plus court chemin entre ces deux points sur la variété. Cette distance est appelée distance géodésique. Nous aimerions donc déterminer une nouvelle représentation qui conserve les distances géodésiques entre les points. C est précisément ce que l algorithme ISOMAP permet de faire [Tenenbaum et al., 2000]. Voici les trois étapes principales de l algorithme : 1. Construire un graphe des distances locales. Dans l espace de représentation initial X, calculer les distances d X (x i, x j ) telles que d X (x i, x j ) = x i x j 2 si la distance euclidienne est inférieure à un seuil fixé, sinon (autrement nous ne considérons les distances euclidiennes que lorsque les points sont proches, sinon nous les considérons infiniment éloignés). Puis construire le graphe G dans lequel le sommet i correspond à l observation x i, et où chaque paire de sommets (i, j) est reliée par un arc de valeur d X (x i, x j ). 2. Estimer les distances géodésiques. La distance géodésique d g (x i, x j ) est définie comme la longueur du plus court chemin reliant les sommets i et j dans le graphe G. Pour les points voisins, la distance euclidienne est une bonne approximation de la distance géodésique. Pour des points éloignés, la distance géodésique revient à se déplacer par petits sauts de proche de proche, ce que nous pouvons approximer avec la notion de plus court chemin dans le graphe G. 3. Déterminer la nouvelle représentation dans R k. Appliquer la méthode MDS à la matrice des distances géodésiques D de taille (m m) et telle que D i j = d g (x i, x j ). La sortie de l algorithme MDS est un ensemble de vecteurs {h 1,..., h m } R k préservant au mieux les distances géodésiques entre les points, et donc la structure de variété des données initiales. Stochastic neighbor embedding L algorithme stochastic neighbor embedding (SNE) est une méthode d extraction de caractéristiques non supervisée [Hinton et Roweis, 2003]. Comme le multidimensional scaling vu précédemment, la méthode SNE prend en entrée une matrice de distances (ou de dissimilarités) entre les points. Elle ne nécessite donc pas de connaître les représentations vectorielles des données. Le principe général de l algorithme est de déterminer une nouvelle représentation qui conserve au mieux les relations statistiques entre des points voisins. Plus précisément, l algorithme SNE procède de façon suivante. Soit p i j la probabilité que x i choisisse le voisin j : p i j = exp( d 2 i j ) k i exp( d 2 ik )

102 102 État de l art sur l extraction de caractéristiques non supervisée Soit l ensemble d observations H = {h 1,..., h m } H m avec H R k. Pour chaque paire d observations (h i, h j ), nous définissons la probabilité q i j que h i choisisse le voisin h j : q i j = exp( h i h j 2 ) k i exp( h i h k 2 ) Si q i j = p i j, l observation l évènement "i choisit j" est aussi probable avec l ancienne qu avec la nouvelle représentation. L algorithme SNE cherche donc les vecteurs {h 1,..., h m } tels que les distributions P = {p i j } i j et Q = {q i j } i j soient les plus similaires possibles. Une mesure classique d écart entre deux distributions de probabilité est la distance de Kullback-Leibler, aussi la fonction de coût optimisée par SNE est naturellement L = m i=1 m j=1 p i j log p i j q i j = m KL(P i Q i ) Les nouveaux vecteurs {h 1,..., h m } cherchés sont ceux qui minimisent la fonction de coût L, et sont déterminés à l aide d une descente de gradient. D un point de vue expérimental, SNE semble pertinente pour la réduction dimensionnelle non supervisée de collections de textes ou d images. En effet, les auteurs montrent que des textes traitant de sujets similaires (ou des images similaires) correspondent à des vecteurs proches dans le nouvel espace de représentation. À l inverse, des textes traitant de sujets différents se retrouvent éloignés dans le nouvel espace Clustering de caractéristiques Présentation Le clustering de caractéristiques est une méthode d extraction de caractéristiques non supervisée. Comme son nom l indique, cette méthode consiste à regrouper les caractéristiques en clusters, que nous appelons concepts. Dans le nouvel espace de représentation, chaque dimension correspond à un concept, et les données sont donc représentées dans cet espace de concepts. Plus précisément, supposons que chaque caractéristique d {1,..., D} appartient à un concept C k pour k {1,..., K}. La nouvelle observation φ(x) H correspondant à l observation x X est définie comme : φ(x) k = i=1 d C k x d pour k {1,..., K}. Autrement dit chaque nouvelle caractéristique est définie comme une somme d anciennes caractéristiques. Remarquons que l extraction de caractéristiques réalisée par le clustering de caractéristiques peut être formulée comme une projection linéaire. Notons P la matrice (K D) de projection telle que P kd = 1 si d C k, 0 sinon. Il est aisé de voir que φ(x) = Px. Ainsi le clustering de caractéristiques peut être considéré comme une méthode d extraction de caractéristiques linéaire.

103 4.2 Données vectorielles 103 Abstraction de la représentation initiale Lorsqu il est possible d interpréter une somme de caractéristiques initiales comme l expression d une nouvelle caractéristique plus générale, alors le clustering de caractéristiques trouve une interprétation naturelle en terme d abstraction de la représentation des données. En reprenant les notations précédentes, supposons que le concept C k correspond à une caractéristique générale des données, dont les différents aspects sont mesurés séparément par les caractéristiques initiales d C k. Alors pour une observation x X, la somme d C k x d s interprète naturellement comme une mesure de l importance de la caractéristique générale d indice k pour l observation x. Et la nouvelle représentation correspondante φ(x) H s interprète alors comme une représentation plus abstraite et plus générale de l objet initialement décrit par x i. Prenons l exemple des données textuelles, où chaque document est représenté par un vecteur x R D dans l espace de mots. Si nous sommes capables de déterminer des clusters de mots tels que des mots sémantiquement proches sont regroupés dans un même cluster, alors chaque cluster définit naturellement une thématique générale. Par exemple si le cluster C k contient des mots tels que "football", "championnat" et "joueurs", alors la thématique capturée par le cluster est relative au sport. Dans la nouvelle représentation du document φ(x) H, la composante φ(x) k mesure l importance de cette thématique par rapport aux autres thématiques définies par les autres clusters de mots. Ainsi l utilisation du clustering de caractéristiques pour le texte peut nous permettre d abstraire la représentation des documents. Nous passons d une représentation dans un espace de mots, où chaque caractéristique mesure la présence d un mot dans le document, à une représentation dans un espace de thématiques, où chaque caractéristique mesure la présence d une thématique dans le document. Clustering de caractéristiques et clustering d observations Nous venons de voir que le clustering de caractéristiques peut permettre de déterminer une nouvelle représentation plus abstraite et plus générale des données. Pour cela les caractéristiques doivent être regroupées en concepts, de telle sorte que deux caractéristiques similaires doivent appartenir au même concept. Ici deux caractéristiques sont jugées similaires si elles peuvent être considérées comme deux aspects particuliers d une nouvelle caractéristique plus générale. Mais comment déterminer une similarité entre deux caractéristiques? A la différence des observations qui par définition sont des vecteurs dans un espace de caractéristiques X R D, les caractéristiques de X ne sont identifiées que par un indice entier d {1,..., D}. Il parait difficile d extraire une quelconque information sur les caractéristiques à partir de ce seul indice, et encore moins de les regrouper en clusters. Nous voulons déterminer des représentations vectorielles pour les différentes caractéristiques, afin de pouvoir appliquer ensuite les méthodes de clustering classique. Soit l ensemble d observations X = (x 1,..., x m ) X m avec X R D pour D fixé. Notons X la matrice (m D) telle que la i-ième ligne de X contient l observation x i. Une stratégie simple consiste à représenter chaque caractéristique comme un vecteur dans un espace défini par les observations. Plus précisément, nous représentons la caracté-

104 104 État de l art sur l extraction de caractéristiques non supervisée ristique d {1,..., D} par le vecteur X.d R m, qui correspond à la d-ième colonne de X. Remarquons que cela revient à considérer la matrice transposée X T comme une nouvelle matrice de données. Cette fois les données décrites sont les caractéristiques (et non plus les observations). La d-ième ligne de X T contient la représentation vectorielle en dimension m de la caractéristique d {1,..., D}. Ainsi ce choix de représentation pour les caractéristiques revient à considérer chaque caractéristique initiale d comme une nouvelle observation, et chaque observation initiale i comme une nouvelle caractéristique. Quelle similarité entre caractéristiques? Ainsi, nous disposons maintenant d une représentation vectorielle de nos caractéristiques. Nous pouvons donc appliquer tous les algorithmes standard de la littérature pour les regrouper en clusters. En revanche, la question qui reste en suspens concerne la façon dont nous allons déterminer si deux caractéristiques sont similaires ou pas. Comme nous l avons déjà souligné dans le chapitre 2 (section 2.4.3), le choix d un algorithme de clustering définit explicitement ou implicitement le choix d une distance, qui définit elle-même une notion de similarité entre les vecteurs à regrouper. Dans le cadre non supervisé il n y a pas d information pour nous guider, et le choix de la distance repose donc sur une connaissance a priori du problème. Illustrons cette difficulté en reprenant l exemple des données textuelles. Nous voulons déterminer des clusters de mots, appelés concepts, tels que deux mots sémantiquement proches appartiennent au même concept. Pour cela nous représentons les mots par des vecteurs dans l espace des documents. Quelle distance choisir? La réponse à cette question est difficile. Dans le cas supervisé, nous pouvons utiliser l information de classe pour guider la recherche d une distance. Dans le cas non supervisé, il faut savoir a priori à quoi ressemble une bonne distance, c est à dire une distance qui prend des valeurs faibles pour deux mots sémantiquement proches et élevées sinon. Cette connaissance a priori peut par exemple prendre la forme d une hypothèse faite sur le lien entre la représentation des mots et leur similarité sémantique. Nous utiliserons ce type d hypothèse pour le clustering de mots dans le chapitre Données textuelles Dans cette section nous nous intéressons au cas particulier de l extraction de caractéristiques pour les données textuelles. Nous présentons deux méthodes standard pour la modélisation des collections de documents : le modèle PLSA dans la section et le modèle LDA dans la section Probabilistic latent semantic analysis Nous présentons le modèle probabilistic latent semantic analysis (PLSA) pour la modélisation des collections de documents textuels. Ce modèle s appuie sur la notion de données de co-occurrence.

105 4.3 Données textuelles 105 Données de co-occurrence Jusqu ici nous avons considéré des données représentées de manière vectorielle. Nous avons d abord défini un espace de caractéristiques pour représenter les objets du monde, puis nous avons représenté chaque objet par un vecteur dans cet espace. L extraction de caractéristiques a alors pour but de prendre ces vecteurs en entrée, et de renvoyer en sortie une représentation des objets dans un nouvel espace de caractéristiques. La représentation vectorielle est simple et intuitive, et les méthodes d extraction de caractéristiques prenant des vecteurs en entrée sont les plus étudiées de la littérature. Pourtant, ce type de représentation n est pas forcément adapté à tous les problèmes (d apprentissage, d extraction). Reprenons l exemple des données textuelles. En représentant chaque document par un vecteur dans un espace de mots, nous centrons implicitement la modélisation des données textuelles autour du concept de document. Mais si nous voulons par exemple modéliser des phénomènes intérieurs aux documents (comme par exemple le fait que chaque mot d un document peut avoir été généré de plusieurs manières différentes), alors la représentation vectorielle montre ces limites. Dans cette section, nous présentons les données de co-occurrence. Comme leur nom l indique, les données de co-occurrence permettent de représenter des observations d occurrence jointe entre deux variables. Plus précisément, considérons deux variables discrètes d {1,..., D} et w {1,..., W}. Avec les données de co-occurrence, ce que nous observons du monde est une paire (d, w), c est à dire l occurrence jointe des deux évènement d et w. Remarquons que cela contraste fortement avec la représentation vectorielle, où ce que nous entendons par "observation" est l observation d un vecteur. En centrant ainsi la représentation des données sur la notion de co-occurrence plutôt que sur celle de vecteur, les données de co-occurrence permettent de modéliser de nouveaux phénomènes. Reprenons l exemple des données textuelles, que nous allons maintenant modéliser comme des données de co-occurrence. Les deux variables discrètes considérées sont un indice d identifiant chaque document de la collection ( d {1,..., D} ) et un indice w identifiant chaque mot de la collection ( w {1,..., W}). La collection de documents est modélisée non plus comme un ensemble de vecteurs (où chaque vecteur représente un document), mais comme un ensemble de paires (d, w), où chaque paire est l observation de la réalisation de l indice de mot w et de l indice de document d. Autrement dit ce n est plus le document n est plus au centre de la modélisation des données textuelles, mais la paire de co-occurrence entre un mot et un document. Probabilistic latent semantic analysis Le modèle probabilistic latent semantic analysis (PLSA) [Hofmann, 1999b] est un modèle standard de la littérature pour modéliser des données textuelles. C est une extension probabiliste du modèle LSI [Deerwester et al., 1990]. Avec le modèle PLSA, une collection de documents est modélisée comme un ensemble de paires (d, w) où d {1,..., D} est un indice de document et w {1,..., W} est un indice de mot. Chaque document est représenté par une distribution de probabilité sur les K valeurs de la variable thématique latente α, et chaque valeur de α correspond à une distribution de probabilité sur l ensemble des mots de la collection. Le processus génératif correspondant est le suivant : un document d est tiré suivant la probabilité P(d),

106 106 État de l art sur l extraction de caractéristiques non supervisée FIG. 4.3 Modèle graphique de PLSA. une thématique α est tirée suivant la probabilité P(α d), un mot w est tiré suivant la probabilité P(w α). Le modèle graphique de PLSA est illustré dans la figure 4.3. Apprentissage du modèle Les paramètres du modèle P(d), P(α d), et P(w α) sont estimés suivant le principe du maximum de vraisemblance. La fonction de logvraisemblance à maximiser est : L = D d=1 w=1 W n(d, w)log P(d, w) (4.1) La variable thématique α n étant pas observée, les paramètres du modèle sont estimés suivant la procédure Espérance Maximisation (EM) [Dempster et al., 1977a]. L étape E consiste à estimer les probabilités a posteriori de la variable latente α. La formule de mise à jour est : P(d)P(α d)p(w α) P(α d, w) = α A P(d)P(α d)p(w α ) L étape M consiste à ré-estimer les paramètres du modèle, afin qu ils maximisent l espérance de la log-vraisemblance. Les formules de mise à jour correspondantes sont : w W n(d, w) P(d) = d D w W n(d, w) w W n(d, w)p(α d, w) P(α d) = α A w W n(d, w)p(α d, w) d D n(d, w)p(α d, w) P(w α) = w W d D n(d, w )P(α d, w ) Limites du modèle Comme nous l avons souligné, le modèle PLSA représente chaque document comme une distribution de probabilité {p(α = 1 d),..., p(α = A d)} sur les thématiques. Les probabilités p(α d) sont autant de paramètres appris par l algorithme EM décrit précédemment, et en particulier il n y a pas de processus génératif pour modéliser ces probabilités. Cela a deux conséquences principales. Premièrement, le nombre de paramètres du modèle augmente linéairement avec le nombre de documents dans la collection, ce qui peut causer des problèmes de surapprentissage. Deuxièmement, les paramètres p(α d) ne peuvent être estimés que pour des documents présents dans la base d apprentissage. Il faut donc trouver un moyen de traiter de nouveaux documents, c est à dire de déterminer les paramètres p(α d ) pour un document

107 4.3 Données textuelles 107 d qui n était pas dans la base d apprentissage. Remarquons également que le modèle PLSA n est capable d extraire qu une liste "plate" de thématiques. Or en pratique, il existe souvent des relations hiérarchiques entre les différentes thématiques présentes dans un corpus de documents. Une thématique générale sur le sport peut par exemple inclure plusieurs sous-thématiques relatives à des sports différents. Plusieurs travaux proposent de modéliser cet aspect hiérarchique entre les thématiques. Citons notamment [Gaussier et al., ] qui proposent une extension de PLSA, dans le cadre du clustering et de la classification de documents. Dans le chapitre 6 nous proposerons une contribution d inspiration similaire, où nous étendrons le modèle PLSA afin de pouvoir capturer les thématiques sur deux niveaux de généralité différents. Formulation matricielle Nous allons maintenant voir que PLSA peut être vu comme une méthode factorisation matricielle. Nous avons expliqué précédemment que PLSA cherche à maximiser la vraisemblance des paires de co-occurrence observées. Pour cela la probabilité jointe p(d, w) est décomposée de manière suivante p(d, w) = A p(d, w, α) = α=1 A p(d)p(α d)p(w α) = α=1 A p(d, α)p(w α) Notons B la matrice (D A) telle que B dα = p(d, α), et C la matrice (A W) telle que C αw = p(w α). Il est aisé de voir que p(d, w) = A B dα C αw = p(w α) α=1 Et le problème d optimisation de la vraisemblance 4.1 peut maintenant être réécrit de manière suivante max B,C s.c. α {1,..., A}, D d=1 w=1 D d=1 α=1 α=1 W n(d, w) log(bc) dw A B dα = 1 W C αw = 1 w=1 Ainsi le modèle PLSA peut être vu comme un problème de factorisation matricielle de la matrice des co-occurrences [n(d, w)] dw, pour une fonction de coût et des contraintes particulières. Ces observations rejoignent les travaux de [Gaussier et Goutte, 2005] qui ont étudié les liens unissant PLSA et la factorisation en matrices non négatives, présentée dans la section Latent dirichlet allocation Le modèle latent dirichlet allocation (LDA) [Blei et al., 2003] détermine un ensemble de thématiques latentes dans un ensemble de documents, chaque thématique

108 108 État de l art sur l extraction de caractéristiques non supervisée FIG. 4.4 Modèle graphique de LDA. Les boites correspondent à des tirages répétés des variables aléatoires qu elles contiennent. La boite extérieure représente les documents, la boite intérieure représente la répétition du choix des thématiques et des mots à l intérieur d un document. étant représentée par une distribution de probabilité sur les mots. Chaque document est alors représenté par comme une distribution de probabilité sur les thématiques, c est à dire par le vecteur de probabilités p(α d). En revanche à la différence de PLSA, le modèle LDA suppose que ces vecteurs de probabilité ne sont plus des paramètres du modèle, mais des vecteurs tirés d une distribution de probabilité de Dirichlet. Le modèle LDA définit ainsi un modèle génératif au niveau des documents, ce qui n était pas le cas de PLSA. Avec le modèle LDA, un document est généré de la manière suivante. D abord un vecteur θ R K est tiré de la distribution de Dirichlet. Ce vecteur est une distribution de probabilité sur les thématiques (et vérifie donc k θ k = 1 ), et définit donc le poids de chaque thématique dans le document. Plus la composante θ k est grande, et plus la thématique a de chances d apparaître dans le document. Puis pour générer chaque mot du document, une thématique est tirée selon la distribution multinomiale définie par θ, et un mot est tiré selon la distribution de probabilité associée à la thématique choisie. Notons α le paramètre de la distribution de Dirichlet et β l ensemble des paramètres des distributions multinomiales associées aux thématiques. Le modèle graphique défini par LDA apparaît dans la figure 4.4. La détermination des paramètres α, β maximisant la fonction de log-vraisemblance est un problème difficile. Les auteurs choisissent plutôt de maximiser une borne inférieure de la log-vraisemblance à l aide de méthodes d inférence variationnelle. Les auteurs montrent expérimentalement que LDA obtient de meilleurs résultats sur la tâche de modélisation de documents. De plus, ils avancent que leur modèle est plus flexible et facilement extensible. Ainsi LDA a été utilisé pour d autres tâches que la modélisation de corpus textuels, et notamment en traitement d images et en filtrage collaboratif [Marlin, 2004b]. Plusieurs variantes de LDA ont été proposées dans la littérature. [Blei et La, 2006] propose une variante de LDA qui permet de modéliser un corpus de documents en pre-

109 4.4 Cas particuliers d extraction non supervisée 109 nant en compte les corrélations entre les thématiques latentes. [Blei et McAuliffe, 2008] ont proposé une variante supervisée de LDA, permettant d associer une classe à chaque document. 4.4 Cas particuliers d extraction non supervisée Extraction ou apprentissage? En général, les méthodes d extraction non supervisée présentées dans ce chapitre sont utilisées comme pré-traitement à l entrée d un algorithme d apprentissage (supervisé ou non supervisé). Ainsi, au lieu d apprendre directement sur les données initiales, nous utilisons l extraction pour déterminer une nouvelle représentation des données, et c est sur cette nouvelle représentation que nous appliquons notre algorithme d apprentissage favori. Dans cette section, nous présentons des cas particuliers dans lesquels l algorithme d extraction n est pas utilisé en pré-traitement d un algorithme d apprentissage, mais est directement utilisé comme un algorithme d apprentissage. Les deux étapes d extraction et d apprentissage se confondent alors en une seule étape La tâche du clustering Intéressons-nous à la tâche du clustering. Soit un ensemble d observations X = (x 1,..., x m ) X m avec X R D pour D fixé. Le but du clustering est de regrouper les observations dans K clusters distincts. Nous pouvons reformuler le problème du clustering de façon suivante. Nous cherchons une fonction f : X {0, 1} K, qui associe à chaque observation x X le vecteur f (x) {0, 1} K tel que < f (x) > k = 1 si x appartient au cluster k, 0 sinon. Autrement dit la fonction f est simplement une fonction indicatrice de cluster. Nous utilisons implicitement cette formulation lorsque nous utilisons un mélange de gaussiennes pour faire du clustering par exemple. Après avoir appris les paramètres d un mélange de K gaussiennes avec l algorithme EM, nous pouvons calculer les probabilités a posteriori p(k x i ), où p(k x i ) est la probabilité d observer la composante k sachant l observation x i. En associant chaque composante à un cluster, cette probabilité s interprète naturellement comme la probabilité que x i appartienne au cluster k. Nous choisissons alors d attribuer à x i le cluster qui maximise la probabilité a posteriori : Exemples cluster(x i ) = arg max p(k x i) k {1,...,K} Le fait de pouvoir directement utiliser une méthode d extraction non supervisée comme un algorithme de clustering vient de la possibilité d interpréter la nouvelle représentation extraite comme un vecteur de coefficients d appartenance aux différents clusters. Ces méthodes peuvent alors être utilisées pour faire du clustering en associant à chaque observation le cluster maximisant le coefficient d appartenance. Parmi les méthodes d extraction non supervisée présentées précédemment, plusieurs permettent une telle interprétation. En notant K le nombre de clusters désiré, voici comment ces méthodes peuvent être utilisées pour faire du clustering :

110 110 État de l art sur l extraction de caractéristiques non supervisée Les modèles de mélanges probabilistes (tels que les mélanges de gaussiennes pour les données réelles, les mélanges de multinomiales pour les données entières positives,...). Considérons un mélange de K composantes, où chaque composante est associée à un cluster. L apprentissage des paramètres du modèle avec l algorithme EM permet de calculer les probabilités a posteriori p(k x i ). Celles ci s interprètent naturellement comme la probabilité d appartenance de l observation x i au cluster k. A l observation x i est donc attribué le cluster k vérifiant cluster(x i ) = arg max p(k x i) k {1,...,K} Probabilistic latent semantic analysis. Le modèle PLSA présenté dans la section permet d identifier un certain nombre de thématiques dans une collection de documents. Fixons K thématiques, chaque thématique étant associée à un cluster. Après apprentissage du modèle, nous connaissons les probabilités p(k d), où p(k d) s interprète naturellement comme la probabilité d appartenance du document d au cluster k. Au document d est donc attribué le cluster k vérifiant cluster(d) = arg max p(k d) k {1,...,K} La factorisation en matrices non-négatives. La méthode FMN permet d exprimer des vecteurs de réels positifs x i comme des combinaisons linéaires de vecteurs de base. Fixons K vecteurs de base, où chaque vecteur de base correspond à un cluster. Nous avons déjà expliqué comment les contraintes de positivité de la FMN permettent d interpréter les vecteurs de base C k. R D + comme des observations type, et B ik comme une mesure de l importance de l observation type C k. pour l observation x i. La quantité B ik s interprète donc naturellement comme un coefficient d appartenance de l observation x i au cluster k. A l observation x i est donc attribuée le cluster k vérifiant cluster(x i ) = arg max k {1,...,K} B ik Le clustering de caractéristiques. Le clustering de caractéristiques permet d abstraire la représentation des données, en regroupant les caractéristiques en clusters appelés concepts. Fixons K concepts, où chaque concept correspond à un cluster (d observations). Si les caractéristiques appartenant à un même concept mesurent les différents aspects d une nouvelle caractéristique plus générale, alors la quantité d C k x d s interprète naturellement comme l importance de cette caractéristique générale pour l observation x. A l observation x est donc attribuée le cluster k vérifiant cluster(x i ) = arg max Choix de l algorithme d extraction x d k {1,...,K} d C k Nous avons expliqué comment certains algorithmes d extraction non supervisée peuvent être directement utilisés pour faire du clustering. En revanche nous ne prétendons pas que l utilisation de ces algorithmes est particulièrement pertinente pour la tâche du clustering. Comme nous l avons expliqué précédemment, le choix d un algorithme de clustering (donc ici, le choix de la méthode d extraction) définit une distance

111 4.5 Conclusion 111 entre les observations. Insistons encore une fois sur le fait que dans le cadre non supervisé, le choix de cette distance (et donc le choix de la méthode d extraction) repose sur une connaissance a priori du problème. En l absence de connaissance sur le problème de clustering, il n y a donc pas de raison pour que telle méthode d extraction soit plus pertinente qu une autre. 4.5 Conclusion Dans ce chapitre, nous avons présenté un état de l art de l extraction de caractéristiques non supervisée. Dans un premier temps, nous avons présenté des méthodes pour les données vectorielles. En l absence d information de classe, nous avons vu que chaque méthode détermine une nouvelle représentation préservant une propriété jugée importante, plus ou moins explicitement définie par l algorithme d extraction. Cette propriété peut être par exemple liée à la structure globale de l algorithme, ou bien à sa structure locale. Puis nous nous sommes intéressés aux données de co-occurrence, particulièrement adaptées pour modéliser des données textuelles. Enfin nous avons précisé que dans certains problèmes particuliers de clustering, l algorithme d extraction peut ne pas être utilisé pour pré-traiter les données, mais directement comme un algorithme de clustering. La littérature sur l extraction de caractéristiques non supervisée est très vaste, et nous n en avons couvert qu une petite partie. Mais au delà des détails techniques et algorithmiques, insistons sur le fait que l extraction non supervisée est un problème fondamentale difficile, car nécessitant une connaissance a priori du problème. En l absence de cette connaissance, rien ne justifie le choix d une méthode d extraction plutôt qu une autre, un choix arbitraire ne peut avoir que des conséquences fâcheuses du point de vue des performances en apprentissage. Dans le chapitre 6, nous nous attaquerons au problème de l extraction non supervisée dans le cas particulier des données textuelles. Pour extraire une nouvelle représentation pertinente des données, notre connaissance a priori sera implémentée par une hypothèse sur les relations sémantiques entre les mots et leurs occurrences dans les documents.

112 112 État de l art sur l extraction de caractéristiques non supervisée

113 5 État de l art sur l extraction de caractéristiques multi-tâches Sommaire 5.1 Introduction Extraction de caractéristiques pour la régression multi-tâches Présentation Décomposition en valeurs singulières pondérée Factorisation en matrices non-négatives généralisée Extraction de caractéristiques pour la classification multi-tâches Classification binaire Régression ordinale Extraction de caractéristiques pour l ordonnancement d instances multi-tâches Conclusion Introduction Dans le chapitre 2, nous avons présenté le cadre de l extraction multi-tâches, dans lequel nous nous intéressons à une matrice Y dont certains éléments ne sont pas observés. Chaque ligne de Y représente une tâche d apprentissage, et l apprentissage de toutes ces tâches simultanément peut se formuler comme un problème de factorisation de matrices à "trous". Autrement dit notre objectif est de factoriser une matrice Y dont certaines entrées ne sont pas observées. Comme nous le verrons dans ce chapitre, la forme exacte de ces problèmes de factorisation matricielle dépend essentiellement de la nature des tâches d apprentissage associées à la matrice Y. La plupart des méthodes de factorisation classique cherchent à approximer une matrice Y par une matrice de plus faible rang Ŷ. Autrement dit, chaque élément de la matrice Ŷ est une approximation de l élément associé dans Y. Ainsi, ces méthodes de factorisation peuvent se formuler comme des problèmes de régression multi-tâches. Chaque ligne de la matrice Y correspond à une tâche de régression, et chaque entrée de Ŷ est une prédiction de l élément correspondant dans Y. Mais les méthodes de factorisation matricielle classique ne peuvent factoriser que des matrices pleines, ce qui

114 114 État de l art sur l extraction de caractéristiques multi-tâches correspond à des poids tous égaux à 1. Les méthodes présentées dans la section 5.2 sont basées sur des méthodes de factorisation classique, et adaptées au cas de poids réels. Dans la section 5.2.2, nous présentons la décomposition en valeurs singulières pondérée (DVSP), qui est une adaptation de la DVS classique. Dans la section 5.2.3, nous présentons la factorisation en matrices non négatives généralisée (FMNG), qui est une adaptation de la FMN classique. À côté d adaptations de méthodes classiques au cas multi-tâches, il existe également des méthodes factorisation matricielle pondérée d inspirations nouvelles. C est le cas notamment de la factorisation matricielle maximisant la marge FMMM, qui s inscrit dans le cadre de la classification multi-tâches. Autrement dit chaque ligne de la matrice à factoriser correspond à un problème de classification donné. Les entrées observées de Y sont les étiquettes de classe d apprentissage, et les entrées non observées sont les étiquettes à prédire en test. Dans la section 5.3.1, nous présentons la FMMM dans le cas de la classification binaire. Dans la section 5.3.2, nous présentons son extension au cas de la régression ordinale. Un autre type de factorisation matricielle complètement nouveau s inscrit cette fois dans le cadre de l ordonnancement d instances multi-tâches. Chaque ligne de la matrice Y représente un problème d ordonnancement d instances. Les entrées observées de Y sont les scores d apprentissage, et les entrées non observées sont les étiquettes à prédire. Dans la section 5.4 nous présentons l algorithme COFIRANK, qui a pour particularité de concentrer l apprentissage sur les observations les mieux ordonnées (en "haut de la liste"). 5.2 Extraction de caractéristiques pour la régression multi-tâches Dans cette section nous présentons les méthodes existantes en factorisation matricielle étendues au cas multi-tâches Présentation Dans la suite nous désignons par Y une matrice de réels (n m) où K est un entier positif tel que K < nm, et W est une matrice (n m) de réels positifs où W li est un coefficient positif associé à Y li. La norme de Frobenius de Y vaut : Y 2 = li Y 2 li. Dans sa formulation classique, le but de la factorisation matricielle est de trouver l approximation de Y optimale pour la norme de Frobenius sous la contrainte de rang K, c est à dire de trouver la matrice Ŷ de rang K minimisant Y Ŷ 2. Dans le chapitre 4, nous avons vu que la Décomposition en Valeurs Singulières (DVS) est la méthode la plus connue pour y parvenir [Wall et al., 2003]. Dans le cas particulier où la matrice à factoriser et les matrices résultantes ne doivent contenir que des réels positifs, nous décomposons Y en utilisant la Factorisation en Matrices Non-Négatives (FMN) proposée par [Lee et Seung, 1999a]. La plupart des méthodes de factorisation matricielle étant incapables de prendre en compte des éléments manquants dans Y, de récents travaux proposent d optimiser la norme de Frobenius pondérée plutôt que la norme de Frobenius classique. Autrement dit la fonction de coût à minimiser n est plus : Y Ŷ 2 mais : W (Y Ŷ) 2,

115 5.2 Extraction de caractéristiques pour la régression multi-tâches 115 où est le produit élément par élément. Les éléments manquants Y li sont simplement pris en compte en fixant les coefficients W li correspondants à 0. Ainsi, des variantes pondérées de la DVS et de la FMN ont récemment été proposées. Dans la section 5.2.2, nous présentons la décomposition en valeurs singulières pondérée de [Srebro et Jaakkola, 2003]. Dans la section 5.2.3, nous présentons la factorisation en matrices non négatives généralisée de [Dhillon et Sra, 2006] Décomposition en valeurs singulières pondérée Dans cette section nous présentons la décomposition en valeurs singulières pondérée dans le cadre de l extraction multi-tâches. Comme nous l avons souligné dans le chapitre 2, il existe deux scénarios en extraction multi-tâches. Le premier concerne l apprentissage hors ligne d un ensemble de tâches initiales. Le second scénario concerne l apprentissage en ligne d une nouvelle tâche, alors qu un modèle a déjà été appris hors ligne. DVSP hors ligne Dans le chapitre 4, nous avons vu que la DVS classique permet de déterminer la meilleure approximation de rang K de la matrice Y pour la norme de Frobenius. Cette approximation s écrit U K Σ K VK T, où Σ K est la sous-matrice de taille (K K) correspondant aux K premiers éléments de la diagonale de la matrice Σ, issue de la DVS. Les matrices U K et V K sont de tailles (m K) et (m K), et s obtiennent en gardant seulement les K premières colonnes des matrices U et V, issues de la DVS. La solution déterminée par la décomposition en valeurs singulières est optimale pour la norme de Frobenius, et minimise donc : L(X, U K Σ K VK T ) = X U KΣ K VK T 2 = (X li (U K Σ K VK T ) li) 2 Comme nous l avons souligné précédemment, la DVS ne permet pas de factoriser des matrices dont certaines entrées manquantes. De manière plus générale, nous voulons optimiser la norme de Frobenius pondérée : L(W X, W (UV T )) = W X W (UV T ) 2 Dans [Srebro et Jaakkola, 2003], les auteurs proposent l algorithme EM 2 permettant de minimiser la norme de Frobenius pondérée. Cet algorithme EM est simple à implémenter dans la mesure où il existe de nombreuses bibliothèques de calculs implémentant la DVS. [Srebro et Jaakkola, 2003] avancent que leur algorithme est valable pour toute matrice de poids telle que W li [0, 1] pour tout (l, i). Les auteurs remarquent que le nombre d itérations nécessaire pour la convergence de l algorithme et la qualité de la solution trouvée dépend fortement de la proportion d entrées manquantes dans le cas de poids binaires. DVSP en ligne Dans cette section nous présentons la DVSP en ligne : la DVSP a déjà été apprise hors ligne sur un ensemble de tâches initiales, et nous voulons apprendre de nouvelles l,i

116 116 État de l art sur l extraction de caractéristiques multi-tâches Algorithm 2: EM pour la DVSP hors ligne Entrée : W, Y Initialisation: Ŷ aléatoire répéter X W Y + (1 W) Ŷ [U, Σ, V] = DVS(X) Ŷ U K Σ K VK T jusqu à convergence de W X W (U K Σ K VK T ) 2 ; Sortie : Ŷ tâches non vues initialement. Autrement dit nous avons appliqué la DVSP sur une matrice Y de taille (n m), associée à une matrice de poids W de même taille. L arrivée d un nouvel utilisateur correspond à deux nouveaux vecteurs (y, w) de taille (m). Le vecteur y correspond à une nouvelle ligne de la matrice Y, et w est un vecteur de poids associé à y. Pour prédire les entrées non observées de y, nous devons déterminer la représentation associée à y dans l espace défini par la DVS. Autrement dit, nous cherchons le vecteur u R K solution de : min u w (y us K V T K ) 2 (5.1) où S K et V K sont les sous-matrices des matrices S, V issues de la DVSP, comme nous l avons expliqué dans le chapitre 4. Dans la suite de cette section nous présentons deux méthodes pour résoudre le problème précédent. Le premier a été proposé par [Marlin, 2004a]. Le deuxième algorithme est notre propre algorithme pour la DVSP en ligne. Algorithme de Marlin Pour résoudre le problème d optimisation précédent, [Marlin, 2004a] propose l algorithme 3. Algorithm 3: Marlin pour la DVSP en ligne Entrée : w, y, S, V Initialisation: u (0) aléatoire ; répéter x (t+1) w y + (1 w) u (t) S K VK T u (t+1) (x (t+1) VS 1 ) [1:K] jusqu à convergence de w (y us K VK T ) 2 ; Sortie : ŷ où x [1:K] est le sous-vecteur composé des K premières composantes du vecteur x. Cet algorithme a été suggéré par [Marlin, 2004a], mais à notre connaissance il n a pas été justifié. Nous allons maintenant justifier leur algorithme, en montrant qu il tente effectivement de résoudre le problème d optimisation 5.1. D abord, nous avons besoin

117 5.2 Extraction de caractéristiques pour la régression multi-tâches 117 de définir la fonction de coût auxiliaire f (u, z), où u R K et z R m : f (u, z) = w y + (1 w) z us K VK T 2 = (w j y j + (1 w j )z j us K VK T )2 j = (w j y j + (1 w j )z j us K VK T )2 + (w j y j + (1 w j )z j us K VK T )2 w j =1 w j =0 = (y j us K VK T )2 + (z j us K VK T )2 w j =1 w j =0 = w (y us K V T K ) 2 + (1 w) (z us K V T K ) 2 Nous reconnaissons une somme de deux termes positifs. Le premier terme est la norme de Frobenius pondérée que nous cherchons à minimiser en optimisant sa borne supérieure f. Une stratégie simple est une nouvelle fois une minimisation alternée de la forme : u (t+1) arg min u f (u, z (t) ) z (t+1) arg min z f (u (t+1), z) Regardons la deuxième étape. À u = u (t+1) fixé, la minimisation de f a pour solution évidente : z (t+1) = arg min z f (u (t+1), z) = u (t+1) S K V T K La minimisation alternée de f peut donc se réécrire sous la forme : u (t+1) arg min u w y + (1 w) z (t) us K VK T 2 z (t+1) u (t+1) S K VK T Nous reconnaissons presque les formules de mise à jour proposées par [Marlin, 2004a]. Notons x (t+1) = w y + (1 w) u (t) S K VK T. Dans la formule de mise à jour de u, nous cherchons u tel que x (t+1) us K VK T. Les auteurs supposent font l hypothèse qu une bonne solution à ce problème est : u (t+1) (x (t+1) VS 1 ) [1:K] (5.2) Nous reconnaissons les trois formules de mise à jour de l algorithme proposé par [Marlin, 2004a], qui peuvent donc être interprétées comme la minimisation d une borne supérieure de f, sous réserve que l hypothèse 5.2 soit vraie. Montrons maintenant que cet algorithme minimise non seulement la fonction f, mais également la norme de Frobenius pondérée. Calculons la valeur de f après chaque mise à jour de z. Rappelons que pour u = u (t+1), la nouvelle valeur de z vaut z (t+1) = u (t+1) S K V T K : f (u (t+1), z (t+1) ) = f (u (t+1), u (t+1) S K V T K ) = w (y u (t+1) S K V T K ) 2 + (1 w) (u (t+1) S K V T K u(t+1) S K V T K ) 2 = w (y u (t+1) S K V T K ) 2 Étant donnée la stratégie de minimisation alternée de f, il est aisé de voir que :... f (u (t+1), z (t+1) ) f (u (t+1), z (t) ) f (u (t), z (t) )...

118 118 État de l art sur l extraction de caractéristiques multi-tâches Or nous venons de voir que f (u (t+1), z (t+1) ) = w (y u (t+1) S K V T K ) 2 et f (u (t), z (t) ) = w (y u (t) S K V T K ) 2. Nous pouvons donc conclure : w (y u (t+1) S K V T K ) 2 w (y u (t) S K V T K ) 2 Ainsi l algorithme fait diminuer la norme de Frobenius pondérée à chaque itération, sous réserve que l approximation faite dans l équation (5.2) soit vraie. Du point de vue de la complexité algorithmique, [Marlin, 2004a] montre que son algorithme est en O(KM) (rappelons que S est une matrice diagonale et le calcul de son inverse est donc trivial). Algorithme de descente de gradient Dans cette section, nous proposons une deuxième solution pour l apprentissage en ligne d une nouvelle ligne avec la DVSP. Rappelons que nous cherchons u R K solution de : Notons f la fonction à minimiser : min w (y us K V T u K ) 2 f (u) = w (y us K VK T ) 2 = w 2 j (y j u T (S K VK T ). j) 2 j Une approche simple consiste à minimiser f avec des méthodes de descente de gradient (dans nos expériences, nous utiliserons la méthode du gradient conjugué). Notons que les dérivées partielles de f pour cette résolution s écrivent : f u k = 2w 2 j (S KVK T ) k j(y j u T (S K VK T ). j) j Du point de vue de la complexité algorithmique, la fonction f s évalue en O(Km). Le produit S K VK T se calcule en O(Km). L ensemble des dérivées partielles f / u k s évaluent donc en O(Km) Factorisation en matrices non-négatives généralisée La factorisation en matrices non-négatives généralisée (FMNG) de [Dhillon et Sra, 2006] permet d approximer une matrice non-négative Y par un produit de matrices nonnégatives BC : Y BC. La qualité de l approximation BC est mesurée par des divergences de Bregman. Considérons une fonction convexe et dérivable ϕ : R R. La divergence de Bregman D ϕ associée à ϕ est définie comme D ϕ = ϕ(x) ϕ(y) (y)(x y). Pour calculer la divergence entre deux matrices, nous écrirons simplement D ϕ (X, Y) = li D ϕ (X li, Y li ). Les divergences de Bregman sont des fonctions asymétriques, et la FMNG permet de résoudre les problèmes d optimisation suivants

119 5.3 Extraction de caractéristiques pour la classification multi-tâches 119 min D ϕ(bc, Y) + g(b) + r(c) B 0,C 0 min D ϕ(y, BC) + g(b) + r(c) B 0,C 0 où g et r sont deux fonctions de pénalisation des matrices B et C, permettant de régulariser la factorisation. En général, les divergences de Bregman ne sont pas convexes en B et C simultanément, ce qui les rend difficiles à minimiser. Les auteurs [Dhillon et Sra, 2006] proposent une stratégie de minimisation de D ϕ (BC, Y) très similaire à l algorithme EM (voir chapitre 2). En effet les auteurs ne minimisent pas directement D ϕ (BC, Y), mais plutôt une borne supérieure de la divergence. Dans le cas général, l algorithme prend la forme d une minimisation alternée après une initialisation aléatoire de B et C qui sont mises à jour alternativement jusqu à ce que la fonction de coût n évolue plus. Dans le cas de la norme de Frobenius D ϕ (Y, BC) = W (Y BC) 2, les auteurs proposent l algorithme 4 pour déterminer les matrices B et C. Algorithm 4: Factorisation en matrices non négatives généralisée Entrée : W, Y Initialisation: B 0, C 0 aléatoires répéter B B (W W Y)CT C C (W W (BC))C T BT (W W Y) B T (W W (BC)) jusqu à convergence de W (Y BC) 2 ; Sortie : B, C Nous venons de présenter l algorithme pour apprendre la FMNG hors ligne, sur un ensemble de tâches initiales. En revanche à notre connaissance, aucune solution n a été proposée pour l apprentissage en ligne avec la FMNG. Nous proposerons une solution à ce problème dans le chapitre Extraction de caractéristiques pour la classification multi-tâches Dans cette section nous allons présenter de nouvelles méthodes d extraction de caractéristiques qui ont été proposées récemment dans la littérature pour la classification binaire et la régression ordinale Classification binaire Nous présentons dans cette section les travaux de [Srebro et al., ] sur la Factorisation Matricielle Maximisant la Marge (FMMM). Soit une matrice Y de taille (n m). Les entrées de la matrice sont binaires Y li { 1, 1}, et sont partiellement observées : δ li = 1 si l entrée Y li est observée, 0 sinon. Le but de la FMMM est de déterminer la

120 120 État de l art sur l extraction de caractéristiques multi-tâches matrice X de taille (n m) solution de : min X Σ + β X n l=1 m δ l,i max(0, 1 Y li X li ) i=1 où β > 0 est un coefficient à choisir par l utilisateur. Le terme X Σ est une norme définie comme la somme des valeurs propres de X. Cette norme vérifie : X Σ = min ( B 1 ( Fro C Fro ) = min B 2 X=BC X=BC 2 F + C F) 2 où B 2 F est la norme de Frobenius de B. Les dimensions des matrices B et C ne sont plus fixées : nous voulons simplement approximer X par le produit BC quelque soit le rang de cette approximation. Cela contraste fortement avec le cadre de factorisation matricielle que nous avons vue jusqu à présent. Nous cherchions alors à approximer Y avec une matrice X de rang faible, et nous avons implémenté la contrainte de rang en écrivant X comme le produit de matrices BC. Or, avec la factorisation FMMM la contrainte de rang sur X disparait. Dans ce cas, nous ne cherchons plus qu à pénaliser la norme de X. Justification Remarquons d abord l erreur de Hinge dans la fonction optimisée, qui nous suggère un lien avec la classification binaire. En effet, interprétons la l-ième ligne de la matrice Y comme un vecteur d étiquettes associée à une base d apprentissage inconnue S l, et la l-ième ligne de X comme un vecteur de prédictions associée. La quantité i δ li max(0, 1 Y li X li ) est alors l erreur empirique de Hinge associée au problème de classification binaire l. Comme X = BC, la prédiction X li peut s écrire comme le produit scalaire B T l. C.i où B T l. est le vecteur de paramètres d une fonction de prédiction linéaire, et C.i est la représentation vectorielle de l observation i. Avec un MVS à marge molle, la fonction à minimiser s écrirait : B l. 2 + β m δ li max(0, 1 Y li B l. C.i ) i=1 De manière équivalente, un MVS à marge molle devant résoudre le problème de classification binaire associé à la i-ième colonne de Y devrait minimiser : C.i 2 + β n δ li max(0, 1 Y li B l. C.i ) l=1 Si nous voulons résoudre l ensemble des problèmes de classification sur les lignes et les colonnes de Y simultanément, nous sommes sur toutes les lignes (ou toutes les colonnes) et nous retrouvons la formulation du problème d optimisation de la FMMM. La FMMM permet donc de résoudre plusieurs problèmes de classification simultanément, à partir de la seule connaissance des étiquettes. En particulier, les représentations vectorielles des observations sont inconnues, et sont apprises par le modèle. Les auteurs [Srebro et al., ] proposent également une justification théorique de leur approche, en montrant des bornes de l erreur de classification 0/1 sur les entrées non observées de Y. Cette erreur est bornée par l erreur de classification 0/1 sur les entrées observées, ainsi que par une terme mesurant la complexité de l espace de recherche de

121 5.3 Extraction de caractéristiques pour la classification multi-tâches 121 X. Ces résultats sont très similaires à ceux que nous avons présentés dans le chapitre 2, dans lesquels l erreur en généralisation est bornée par l erreur empirique et un terme mesurant la complexité de l espace de fonctions considéré. Apprentissage en ligne L apprentissage d une nouvelle tâche en ligne revient à apprendre une nouvelle ligne de U à partir d une nouvelle ligne partiellement observée de Y, pour une matrice V connue et fixée. Les auteurs montrent que ce problème est équivalent à un MVS classique Régression ordinale Les auteurs ont également proposé une adaptation de leur méthode au cas où les étiquettes entières : Y li Y = {1, 2,..., R}. En plus de la matrice de prédictions X, nous apprenons également un ensemble de seuils {θ lr l = 1... n, r = 1... R 1} qui vont nous permettre de transformer les prédictions réelles de X en prédictions dans Y. Pour chaque ligne l, les R 1 seuils définissent R intervalles. Si X l j appartient au r-ième intervalle (dans l ordre croissant), alors la prédiction entière associée est simplement r. Le nouveau problème de factorisation matricielle a maintenant pour but de minimiser : J(B, C, θ) = β R 1 2 ( B 2 F + C 2 F ) + δ l, j h ( Tl r j [θ lr B T l. C. j] ) où δ l j = 1 est la note Y l j est observée, 0 sinon. Le terme Tl r j = 1 si r Y l j, 1 sinon. La fonction h est une erreur de Hinge modifiée de telle sorte qu elle devient dérivable. Cette fonction est définie comme : h(z) = r=1 l, j) 1 2 z si z < 0 0 si z > (1 z)2 sinon Pour comprendre la fonction de coût J, regardons ce qui se passe pour la prédiction B T l. C. j. L erreur associée à cette prédiction est nulle si T r l j [θ lr B T l. C. j] > 1 pour tout r {1,..., R 1}, autrement dit si la prédiction B T l. C. j est correctement placé par rapport au seuil θ lr (au-dessus si la prédiction doit être supérieure à r, en dessous si elle est doit être inférieure) et avec une marge supérieure à 1. Quand une prédiction appartient à un mauvais intervalle, la fonction de coût augmente. Quand une prédiction appartient au bon intervalle mais avec une marge insuffisante, la fonction de coût augmente. Complexité algorithmique et performances En pratique [Srebro et al., ] calculent les différentes dérivées partielles de J et la minimisent à l aide de la méthode du gradient conjugué. Lorsque K R, la complexité algorithmique de la FMMM est dominée par un terme en Km, où m est le nombre d éléments observés dans la matrice Y. Du point de vue de la prédiction la FMMM obtient de très bons résultats, notamment en prédiction de notes pour le filtrage collaboratif. [DeCoste, 2006] ont proposé une implémentation différente de la FMMM, basée sur des méthodes d ensembles comme le boosting et le bagging, améliorant non seulement l erreur de prédiction mais également les temps de calculs.

122 122 État de l art sur l extraction de caractéristiques multi-tâches 5.4 Extraction de caractéristiques pour l ordonnancement d instances multi-tâches Dans cette section nous présentons les travaux de [Weimer et al., 2007] en extraction de caractéristiques dans le cadre de l ordonnancement d instances multi-tâches. Autrement dit le but n est plus de prédire les étiquettes associées aux observations, mais de les ordonner les unes par rapport aux autres. La principale caractéristique de leur algorithme, appelé COFIRANK, est de ne pas accorder une importance égale à toutes les observations, mais de chercher en priorité à ordonner correctement les observations en haut de la liste. Cette propriété est désirable notamment en filtrage collaboratif, où pour un utilisateur donné il est important qu un article favori se retrouve en haut de la liste (donc parmi les articles recommandés). En revanche si un article en bas de la liste est mal ordonné, cela n a pas d importance. Pour atteindre ce but, les auteurs s intéressent au critère DCG ( Discounted Cumulative Gains, voir [Järvelin et Kekäläinen, 2000]) et de sa variante normalisée NDCG. Concentrons nous sur le critère DCG. Soit y {1,..., r} m un vecteur de notes et π une permutation de y. Notons π i la position de l article i dans la permutation. Soit k N un seuil, et π s la permutation de y dans l ordre décroissant de ses éléments. Le score DCG@k associé à la permutation π vaut : DCG@k(y, π) = k i=1 2 y π i 1 log(i + 2) Ce score est maximal pour π = π s. Le seuil k représente le nombre d articles qu un utilisateur est prêt à considérer. Remarquons que le score DCG repose sur les permutations du vecteur de notes y, et ne dépend pas des valeurs des notes. De plus les auteurs montrent que les positions en haut de la liste ont plus d influence sur le score que les positions en bas de la liste. Autrement dit l optimisation de ce critère permet de déterminer une permutation des éléments respectant l ordre défini par y, et favorisant les éléments en haut de la liste. Dans le cadre de l ordonnancement multi-tâches, nous ne prédisons pas des permutations mais des scores qui induisent un ordre entre les observations. Ainsi les auteurs définissent une matrice F de taille (n m), dont les éléments F li vont permettre d ordonner l article i pour l utilisateur l. Pour mesurer la qualité de l ordonnancement induit par F, les auteurs définissent l erreur : R(F, Y) = n DCG@k(Π l., Y l. ) l=1 où Π l. est la permutation de F l. dans l ordre décroissant de ses éléments. Autrement dit en optimisant cette fonction, nous cherchons la matrice de scores F permettant d ordonner les articles pour chaque utilisateur en favorisant les articles en haut de la liste. L objectif de COFIRANK est donc de maximiser R(F, Y test ) en ne connaissant que la quantité R(F, Y app ). En pratique la fonction R(F, Y) est difficile à optimiser, et les auteurs déterminent d abord une borne inférieure de R, qu ils optimisent à l aide des bundle methods

123 5.5 Conclusion 123 [Teo et al., 2007]. Après optimisation, la matrice F permet d ordonner les articles pour chaque utilisateur. Les auteurs montrent que leur algorithme peut également être utilisé dans le cadre de la régression multi-tâches. Autrement dit COFIRANK est également capable de prédire des notes, comme les méthodes présentées dans la section 5.2. Expérimentalement, les auteurs valident leur algorithme sur plusieurs bases standard de filtrage collaboratif. Les performances obtenues par COFIRANK en prédiction de notes semblent être actuellement les meilleures de la littérature. 5.5 Conclusion Dans cette section, nous avons présenté plusieurs méthodes de factorisation matricielle qui rentrent dans notre cadre d extraction multi-tâches décrit dans le chapitre 2. Dans tous les cas, chaque ligne de la matrice Y à factoriser représente un problème d apprentissage. Les entrées observées correspondent aux étiquettes disponibles pour l apprentissage, et les entrées non observées correspondent aux exemples de test à prédire. Dans tous les cas, la factorisation matricielle a pour but de déterminer une matrice de prédictions F, où l élément F li est la prédiction associée à l étiquette Y li. La décomposition en valeurs singulières pondérée (DVSP) et la factorisation en matrices non négatives généralisée (FMNG) rentrent dans le cadre de la régression multi-tâches : chaque ligne de Y contient des étiquettes réelles, qui correspondent à une tâche de régression. La factorisation matricielle maximisant la marge (FMMM) rentre dans le cadre de la classification multi-tâches : chaque ligne de Y contient des étiquettes entières, qui correspondent à une tâche de classification. Comme nous l avons vu dans le chapitre 2, les problèmes de classification et de régression sont les plus anciens et les plus étudiés dans la littérature, il est normal que les premiers travaux en factorisation matricielle pondérée se situent dans ces deux cadres. Dans le chapitre 7, nous proposerons notre contribution en régression multi-tâches, qui s appuie sur l algorithme FMNG présenté dans ce chapitre. En ordonnancement d instances multi-tâches, chaque ligne de la matrice Y contient des étiquettes correspondant à un problème d ordonnancement d instances. La factorisation matricielle a pour but de déterminer une matrice de scores permettant de prédire ces ordres cherchés. Ce type de méthodes est intéressant dans les situations où il est plus pertinent d ordonner les observations que de prédire leurs étiquettes. Le cadre de l ordonnancement d instances multi-tâches est très récent, puisqu à notre connaissance la première contribution du domaine est celle que nous proposons dans le chapitre 8 de cette thèse. Dans ce chapitre, nous avons présenté l algorithme COFIRANK qui rentre également dans ce cadre, en favorisant les observations en haut de la liste.

124 124 État de l art sur l extraction de caractéristiques multi-tâches

125 6 Extraction de caractéristiques non supervisée pour les données textuelles Sommaire 6.1 Introduction Représentation vectorielle des documents Représentation basée sur les paires de co-occurrence Plan du chapitre Modèle pour le clustering de mots Présentation Apprentissage de concepts de mots Modèle PLSA étendu Probabilistic Latent Semantic Analysis (PLSA) Extension de PLSA Application au clustering de documents Présentation de la tâche Résultats Expérimentaux Conclusion Application au résumé automatique de texte Présentation de la tâche Compétitions DUC Caractéristiques pour le résumé automatique Algorithme d alignement de Marcu Mesures de similarité Résultats obtenus à la compétition DUC Conclusion Conclusion Introduction D ans ce chapitre, nous nous intéressons à l extraction de caractéristiques non supervisée pour des données textuelles. Les méthodes d extraction diffèrent notamment selon la manière dont nous choisissons de représenter ces données. Les approches que nous avons développées ici travaillent sur les deux types de représentations des documents : vectorielle et à base de paires de co-occurrence.

126 126 Extraction de caractéristiques non supervisée pour les données textuelles Représentation vectorielle des documents Pour représenter des documents textuels, la plupart des méthodes reposent sur la représentation vectorielle sac de mots [Van Rijsbergen, 1979]. En utilisant chaque mot comme une caractéristique, chaque document est représenté comme un vecteur de fréquences de mots (éventuellement normalisées). Avec cette approche, les documents sont représentés par des vecteurs de dimension égale à la taille du vocabulaire, qui est en général assez grand. En effet, même des collections de documents de taille moyenne peuvent contenir de nombreux mots différents, et des vocabulaires de plusieurs dizaines de milliers de mots sont désormais communs. Or la grande dimension de ces données rend la plupart des algorithmes de clustering difficiles à utiliser. À cette difficulté algorithmique vient s ajouter le fait que les représentations des données textuelles sont typiquement creuses [Dhillon et Modha, 2001]. En effet, la plupart des documents contiennent très peu de mots par rapport à la taille du vocabulaire de la collection (typiquement moins de 5%). Il y a également le problème du bruit : les textes issus de pages web, de forums de discussion ou d s contiennent souvent des fautes d orthographe et des abbréviations qui peuvent être considérées comme du bruit par rapport au texte initial. Or la plupart des algorithmes de clustering ne sont pas adaptés pour traiter de telles données. Enfin, les approches de type sac de mots ne peuvent extraire que des caractéristiques de bas niveau, sémantiquement pauvres. Il y a un fossé sémantique important avec des caractéristiques de haut niveau comme les thématiques que nous souhaitons identifier dans la collection. Ces inconvénients sont inhérents au choix de la représentation des documents dans l espace des mots, et ils ont motivé l utilisation de la réduction dimensionnelle pour déterminer une nouvelle représentation plus compacte et pertinente des documents. Dans le cadre supervisé, il existe plusieurs approches pour réduire la dimension des données textuelles. Par exemple, la sélection de caractéristiques permet de réduire considérablement la dimension sans dégrader l erreur de classification, voire même en l améliorant dans certains cas [Yang et Pedersen, 1997]. Dans le cadre non supervisé en revanche, l information de classe n est pas disponible et la réduction dimensionnelle doit alors s appuyer sur une connaissance a priori du problème. Par exemple, la nouvelle représentation extraite par l algorithme Indexation Sémantique Latente (LSI) correspond aux axes principaux déterminés par l analyse en composantes principales [Deerwester et al., 1990]. Il existe également des heuristiques simples qui permettent d éliminer des mots jugés non informatifs, reposant notamment sur leurs fréquences dans les documents [Salton et McGill, 1986b]. Ces méthodes restent moins efficaces que des approches supervisées comme la sélection de variables, mais peuvent néanmoins réduire le bruit associé à la représentation dans l espace des mots Représentation basée sur les paires de co-occurrence Dans le chapitre 4 nous avons décrit une deuxième manière de représenter les données textuelles, qui est basée sur la notion de paire de co-occurrence. Dans le cas des données textuelles, il s agit de paires de co-occurrence entre une variable identifiant les documents et une variable identifiant les mots. Ce type de représentation a l avantage

127 6.2 Modèle pour le clustering de mots 127 de centrer la modélisation sur les paires de co-occurrence plutôt que sur les vecteurs représentant les documents. Nous avons vu que des méthodes comme PLSA ou LDA tirent profit de cette modélisation pour capturer des phénomènes internes aux documents tels que les thématiques latentes. De tels modèles sont capables de modéliser des collections de documents, en représentant chaque document de la collection dans l espace de ces thématiques Plan du chapitre Dans ce chapitre, nous présentons d abord deux modèles d extraction de caractéristiques non supervisée pour des données textuelles. Dans la section 6.2, nous présentons notre premier modèle qui repose sur une modélisation vectorielle des données textuelles. Notre algorithme, appelé C-CEM, permet regrouper ensemble des mots sémantiquement proches afin de déterminer une nouvelle représentation des documents. Dans la section 6.3, nous présentons notre deuxième modèle qui repose sur la modélisation basée sur les paires de co-occurrence. Notre algorithme est une extension de l algorithme PLSA qui est capable de représenter les documents dans l espace des thématiques latentes de la collection. Après la présentation de nos deux modèles, nous les validons expérimentalement pour deux tâches relatives à la Recherche d Information (RI) : le clustering de documents (section 6.4) et le résumé automatique de texte (section 6.5). 6.2 Modèle pour le clustering de mots Présentation Dans cette section, nous nous intéressons à la réduction dimensionnelle du texte basé sur le clustering de mots. Plus précisément, nous cherchons à regrouper les mots en clusters de mots sémantiquement proches. Ainsi, chaque cluster de mots définit implicitement un concept sémantique qui généralise l ensemble des mots qu il contient. Par exemple, si un cluster contient des mots tels que "football", "natation" et "marathon", alors le cluster définit naturellement un concept sémantique général associé au sport. Dans la suite, nous appelons concepts ces clusters de mots sémantiquement proches. Avec ces concepts de mots, notre but est de déterminer un nouvel espace de représentation des documents. Dans ce nouvel espace, chaque document sera représenté par un vecteur dans l espace des concepts. Chaque nouvelle caractéristique correspond à un concept, et mesure la présence du concept dans le document. En représentant ainsi les documents dans l espace des concepts plutôt que dans l espace des mots, nous voulons abstraire la représentation des documents. Prenons par exemple des mots comme "football", "natation" et "marathon", "député", "assemblée" et "élections". Si nous sommes capables de déterminer un premier concept de mots relatif au sport, et un deuxième relatif à la politique, alors nous pouvons représenter les documents dans un espace plus général que celui des mots initiaux.

128 128 Extraction de caractéristiques non supervisée pour les données textuelles Une telle représentation des documents dans un espace de concepts possède plusieurs avantages. D abord, nous avons déjà souligné que la représentation dans l espace des mots est creuse et bruitée. Ces problèmes sont atténués avec la nouvelle représentation dans l espace de concepts. En effet, chaque concept regroupe plusieurs mots, et il suffit qu un seul de ces mots apparaisse dans le document pour signifier la présence du concept dans le document, ce qui amoindrit le problème des représentations creuses. De plus, si le concept de mots est capable de regrouper le même mot orthographié ou abrégé de plusieurs manières différentes, alors cela atténue le problème du bruit. Ensuite, les concepts de mots sont interprétables par construction. Chaque concept de mots s interprète par la thématique générale définie par les mots qu il contient. Enfin, le nombre de concepts de mots est en général beaucoup plus faible que le nombre de mots initial. La représentation des documents dans l espace de concepts permet donc de réduire la dimension du problème, ce qui offre des avantages en terme de complexité algorithmique et en terme d espace mémoire. Afin de pouvoir traiter le problème du clustering de mots comme un problème de clustering classique, nous avons d abord besoin de déterminer une représentation vectorielle des mots. Une stratégie simple consiste à représenter chaque mot par un vecteur dans l espace des documents, où la d-ième composante du vecteur correspond au nombre d occurrences du mot dans le document d. Autrement dit cela revient à transposer la matrice (documents mots). Les anciennes caractéristiques (les mots) deviennent les nouvelles observations et les anciennes observations (les documents) deviennent les nouvelles caractéristiques. Maintenant que nous avons leur représentation vectorielle, il ne nous reste plus qu à définir sur quel critère nous allons déterminer les mots sémantiquement proches, afin de pouvoir les regrouper ensemble. Dans le chapitre 4, nous avons souligné que dans un cadre non supervisé et sans information supplémentaire sur les mots, il s agit d un problème difficile nécessitant une connaissance a priori. Dans cette section, nous considérons une approche générale de réduction dimensionnelle non supervisée pour les données textuelles, qui transforme l espace des mots initial en un espace de concepts [Caillet et al., 2004]. L information a priori permettant cette transformation repose sur l hypothèse H que des mots qui co-occurrent avec les mêmes fréquences dans les mêmes documents sont sémantiquement proches. Sur la base de cette hypothèse, les mots sont d abord regroupés en clusters, appelés concepts. Puis les documents sont représentés dan s le nouvel espace induit par ces concepts, où chaque nouvelle caractéristique correspond à un cluster de mots et représente le nombre total d occurrences des mots du cluster présents dans le document. La contribution principale de ce travail est la validation empirique de notre hypothèse pour trouver des concepts de mots pertinents via la tâche du clustering. Nous utilisons le cadre du clustering de documents pour évaluer l espace de concepts induit par notre hypothèse, et nous comparons ses performances avec l espace de concepts induit par PLSA [Hofmann, 1999a] ainsi que l espace des sac de mots initial. Les résultats obtenus sur deux collections standard WebKB, 20Newsgroups et Reuters montrent la capacité de notre approche à déterminer des concepts de mots pertinents pour la tâche, et à améliorer les performances en clustering de documents. Nous proposons ensuite une extension du modèle de PLSA pour tenir compte parallèlement des clusters de documents et de mots.

129 6.2 Modèle pour le clustering de mots Apprentissage de concepts de mots Nous proposons de trouver les concepts de mots grâce à l hypothèse H qui suppose que deux mots sont sémantiquement proches s ils co-occurrent avec les mêmes fréquences dans les mêmes documents. Nous regroupons ainsi les mots d une collection en différents groupes ou concepts et représentons les documents dans l espace de ces concepts. Dans cette section nous présentons l algorithme qui nous sert à trouver les concepts de mots et ensuite proposons une manière simple de représenter les documents dans l espace des concepts ainsi trouvés. Notations et rappel Soit D une collection de documents textuels. Le vocabulaire V est l ensemble des mots apparaîssant dans cette collection. La collection est représentée par un ensemble de paires (d, w) où d D = {d 1,..., d D } et w V = {w 1,..., w V }. La paire (d, w) modélise l occurrence du mot d indice w dans le document d indice d. Nous notons n(d, w) le nombre d occurrences du mot w dans le document d. Nous désignons finalement par Ω = {ρ 1,..., ρ K } l ensemble des clusters (ou concepts) de mots. Il y a au total K = Ω concepts de mots, où K est choisi et fixé à l avance. Algorithme CEM Pour trouver les concepts de mots nous utilisons l algorithme Classification- Espérance-Maximisation (CEM) [Celeux et Govaert, 1992], qui est une version classifiante de l algorithme EM [Dempster et al., 1977b]. Le nombre de clusters de mots K étant choisi et fixé, le partitionnement des mots w du vocabulaire se base sur un modèle probabiliste génératif des mots p(w Θ) et l hypothèse simplificatrice que deux mots différents w et w sont générés indépendamment par ce modèle génératif. Plus formellement, nous supposons que chaque terme w est généré par le modèle de mélanges K p(w Θ) = π k p(w ρ = k, θ k ) (6.1) k=1 où θ k est l ensemble de paramètres (appris par l algorithme) associé au cluster k, Θ est l ensemble de tous les paramètres du modèle et π k = p(ρ = k Θ), la probabilité qu un mot généré aléatoirement appartienne au cluster k. La deuxième hypothèse est que chaque terme appartient à un seul et unique cluster. Formellement, nous associons à chaque terme w i V un vecteur d indicateurs de cluster t i = {t hi } h tel que : Les concepts de mots w i V, k, ρ i = k t ki = 1 et h k, t hi = 0 (6.2) L algorithme CEM détermine les clusters de mots Ω en déterminant les paramètres Θ qui maximisent la log-vraisemblance des données complètes : L CML (Ω, Θ) = w j V k=1 K t k j log p(w j, ρ = k, Θ)

130 130 Extraction de caractéristiques non supervisée pour les données textuelles Algorithm 5: CEM Entrée : Une collection de documents D Initialisation: Une partition initiale C (0) est initialisée aléatoirement et les probabilités conditionnelles de cluster p(w ρ = k, θ (0) k ) sont estimées sur les clusters correspondants. l 0 répéter Étape E : Estimer des probabilités a posteriori d appartenance du terme w j au cluster ρ (l) k : w j V, k {1,..., K}, E[t (l) k j w j; Θ (l) ] = π(l) k p(w j ρ (l) p(w j, Θ (l) ) Étape C : Attribuer à chaque w j V le cluster ρ (l+1) k de probabilité a posteriori maximale suivant E[t w]. Notons Ω (l+1) la nouvelle partition. Étape M : Estimer les nouveaux paramètres Θ (l+1) qui maximisent : l l + 1 jusqu à convergence de L CML ; Sortie : Concepts de mots Ω L CML (Ω (l+1), Θ (l) ) Ici, les vecteurs indicateurs de clusters t font partie des paramètres du modèle et sont donc appris avec Θ. Dans nos expériences, nous avons supposé que les termes étaient générés indépendamment par le mélange de densité (6.1) où chaque composante du mélange p(w ρ) obéit à un modèle Naïve Bayes. Les paramètres Θ du modèle sont l ensemble des probabilités a priori des clusters π k = p(ρ = k) et les probabilités des documents d i sachant les clusters {p ik } i {1,..., D },k {1,...,K}. Avec ces hypothèses, la D probabilité d un mot w est p(w ρ = k) i=1 p n(d i,w) ik Pour estimer les paramètres π k and p ik qui maximisent la log-vraisemblance, nous dérivons L CML et utilisons les multiplicateurs de Lagrange pour préserver les contraintes k π k = 1 et k, n i=1 p ik = 1. Les formules de mise à jour sont : V V t k j n(d i, w j ) d i D, ρ k Ω, π k = j=1 t k j j=1 V, p ik = V D t k j n(d i, w j ) j=1 i=1 Une fois les concepts de mots trouvés, les documents sont alors représentés dans l espace induit par ces concepts, où chaque nouvelle caractéristique correspond à un cluster de mots et représente le nombre total d occurrences des mots du cluster présents dans le document. k )

131 6.3 Modèle PLSA étendu Modèle PLSA étendu Dans le chapitre 4, nous avons présenté le modèle PLSA [Hofmann, 1999c] qui permet de modéliser une collection de documents textuels, en identifiant les thématiques générales latentes dans la collection. Dans cette section, nous allons voir comment l utiliser pour faire du clustering de documents. Dans ce cas, PLSA associe chaque thématique à un cluster de documents. Le nombre de clusters désirés doit donc être égal au nombre de thématiques latentes dans la collection, ce qui n est pas toujours vrai en pratique. Ce constat nous motivera pour développer une extension de PLSA, dans laquelle le nombre de clusters désirés et le nombre de thématiques latentes dans la collection peuvent être paramétrés indépendamment. Dans la suite de cette section, nous faisons d abord un bref rappel du modèle PLSA, et montrons comment l appliquer au clustering de documents (section 6.3.1). Puis nous présentons notre extension de PLSA, et proposons un algorithme pour apprendre notre modèle étendu (section 6.3.2) Probabilistic Latent Semantic Analysis (PLSA) Dans le chapitre 4, nous avons vu que le modèle PLSA permet de modéliser une collection de documents textuels. Plus précisément, PLSA détermine un ensemble de thématiques latentes dans la collection, où chaque thématique est identifiée par un indice α A = {1,..., A}. Les paramètres du modèle sont : p(d) la probabilité d observer le document d, p(α d) la probabilité d observer la thématique α sachant le document d, et p(w α) la probabilité d observer le mot w sachant la thématique α. Ces paramètres sont appris avec un algorithme type EM (voir chapitre 2). Avec le modèle PLSA, il est également possible de partitionner les documents d une collection D donnée. En effet, la quantité p(α d) est la probabilité d observer la thématique α sachant le document d, et s interprète naturellement comme la probabilité pour le document d d appartenir à la thématique α. Ainsi, l algorithme PLSA peut être utilisé comme un algorithme de clustering de documents, où chaque cluster correspond à une thématique. Pour partitionner les documents en clusters, il suffit alors d attribuer à chaque document la thématique la plus probable : cluster(d) = arg max p(α d) (6.3) α A où les p(α d) sont connues puisqu elles sont apprises par le modèle. De la même manière, il est possible d utiliser PLSA pour le clustering de mots. Pour cela, il suffit d interpréter p(α w) comme la probabilité d appartenance du mot w à la thématique α. Les probabilités p(α w) ne sont pas disponibles directement, mais peuvent être exprimées en fonction des paramètres du modèle. Après calculs, nous obtenons : cluster(w) = arg max p(α w) = arg max p(w α) p(d)p(α d) (6.4) α A α A Nous remarquons que les variables latentes A servent dans le modèle PLSA aussi bien à partitionner les documents qu à trouver les concepts de mots. Autrement dit il faut que le nombre de clusters désirés soit égal au nombre de thématiques latentes dans la collection, ce qui n est pas toujours vrai en pratique. d

132 132 Extraction de caractéristiques non supervisée pour les données textuelles FIG. 6.1 (a) Le modèle PLSA (b) Notre modèle étendu Extension de PLSA Dans cette section nous présentons notre extension du modèle PLSA décrit précédemment. Alors qu avec PLSA les mots ne sont générés que par les thématiques, nous supposons que les mots du vocabulaire V sont générés conjointement par les clusters de documents et les concepts de mots. Cette supposition peut s interpréter de la manière suivante : dans une collection il existe des thématiques de documents correspondant aux différents discours présents dans la collection. À l intérieur de ces thématiques, les documents contiennent des sujets différents. Par exemple une thématique peut être Sport et les différents sujets de cette thématique sont les sujets sportifs parlant de domaines différents. Avec le modèle PLSA, on suppose que tous les documents appartenant à une thématique génèrent de la même façon les mots de cette thématique. Nous supposons que ces mots sont à la fois générés par le discours latent représenté par la thématique et les différents sujets traités dans cette thématique. Ainsi la différence principale entre notre modèle et PLSA est l utilisation d une variable latente supplémentaire ρ, qui représente les concepts de mots. Le processus génératif correspondant à notre modèle est le suivant : Choisir un document d suivant une probabilité p(d), Générer une thématique α d après p(α d), Choisir un concept de mots ρ suivant la probabilité p(ρ), Générer un mot w d après p(w α, ρ). La figure 6.1 montre la représentation graphique de notre modèle. L utilisation de la variable ρ pour modéliser les concepts de mots présente deux avantages majeurs par rapport à PLSA. Tout d abord, grâce aux deux variables latentes α et ρ, le nouveau mo-

133 6.3 Modèle PLSA étendu 133 dèle est capable de capturer les thématiques sur deux niveaux sémantiques différents : α capture les thématiques générales de la collection, tandis que ρ capture des concepts de mots correspondant à des sous-thématiques. Ensuite, lorsque notre modèle est utilisé pour le clustering de documents, le nombre de clusters de documents (cardinalité de α ) peut être choisi indépendamment du nombre de concepts de mots (cardinalité de ρ ) présents dans la collection. Avec notre modèle, la probabilité jointe d observer le document d, le mot w, la thématique α et le concept de mots ρ est donnée par p(d, w, α, ρ) = p(d)p(α d)p(ρ d, α)p(w d, α, ρ) Les hypothèses d indépendance conditonnelle nous permettent ensuite d écrire p(ρ d, w) = p(ρ) et p(w d, α, ρ) = p(w α, ρ). Finalement la probabilité jointe se simplifie en : p(d, w, α, ρ) = p(d)p(α d)p(ρ)p(w α, ρ) Ainsi la probabilité jointe d observer le document d et le mot w est p(d, w) = p(d)p(α d)p(ρ)p(w α, ρ) α A ρ Ω Où, Ω est l ensemble des concepts de mots. Apprentissage du modèle Notons θ = {p(d), p(α d), p(ρ), p(w α, ρ)} l ensemble des paramètres de notre modèle. Nous allons déterminer θ suivant le principe du maximum de vraisemblance. La fonction de log-vraisemblance à maximiser est : L(θ) = n(d, w) log p(d, w) d D w V Nous allons maximiser la log-vraisemblance avec l algorithme EM (voir chapitre 2). Pour cela, nous allons déterminer une borne inférieure de L. Considérons un ensemble de distributions de probabilités Q = {q(α, ρ d, w)}, autrement dit α,ρ q(α, ρ d, w) = 1 pour tout (d, w). Nous pouvons écrire : L(θ) = n(d, w) log p(d, w, α, ρ) d D w V α,ρ = n(d, w) log d D w V α,ρ n(d, w)q(α, ρ d, w) log d D w V α,ρ q(α, ρ d, w) p(d, w, α, ρ) q(α, ρ d, w) p(d, w, α, ρ) q(α, ρ d, w) } {{ } f (θ,q) La dernière ligne est obtenue par l inégalité de Jensen. Notons f (θ, Q) cette borne inférieure. Nous pouvons la ré-écrire : f (θ, Q) = n(d, w)q(α, ρ d, w) ( log p(d, w, α, ρ) log q(α, ρ d, w) ) = d D w V α,ρ n(d, w)q(α, ρ d, w) ( log [ p(d)p(α d)p(ρ)p(w α, ρ) ] log q(α, ρ d, w) ) d,w,α,ρ

134 134 Extraction de caractéristiques non supervisée pour les données textuelles Nous allons maintenant considérer un des deux ensembles de paramètres θ ou Q fixé, et maximiser f par rapport à l autre. Dans l étape E, nous maximisons f à θ fixé. C est un ensemble de problèmes de maximisation sous contraintes classiques, à résoudre en utilisant les lagrangiens. Après calculs, nous obtenons : q(α, ρ d, w) = = p(d, w, α, ρ) p(d, w) p(d)p(α d)p(ρ)p(w α, ρ) α ρ p(d, w, α, ρ ) Dans l étape M, nous maximisons f à Q fixé. Après résolution, nous obtenons : w V n(d, w) p(d) = d D w V n(d, w) w V ρ Ω n(d, w)q(α, ρ d, w) p(α d) = α A w V ρ Ω n(d, w)q(α, ρ d, w) d D w V α A n(d, w)q(α, ρ d, w) p(ρ) = ρ Ω d D w V α A n(d, w)q(α, ρ d, w) d D n(d, w)q(α, ρ d, w) p(w α, ρ) = w V d D n(d, w )q(α, ρ d, w ) La minimisation alternée de la borne inférieure f permet de minimiser la fonction de vraisemblance L, comme nous l avons expliqué dans le chapitre 2. Complexité algorithmique Calculons la complexité algorithmique de notre extension de PLSA. Intéressons nous d abord à l étape E. Nous remarquons que dans le calcul des p(α, ρ d, w) pour α A et ρ Ω, le dénominateur reste constant. En pratique il est inutile de le calculer. Il suffit de calculer les numérateurs des p(α, ρ d, w), puis de les normaliser afin qu ils vérifient : α ρ p(α, ρ d, w) = 1. Finalement l étape E se calcule en O( D W A Ω ). Similairement, nous n avons pas besoin de calculer les dénominateurs dans l étape M. Il suffit de calculer tous les numérateurs des p(d), p(α d), p(ρ) et p(w α, ρ), puis de les normaliser afin qu ils vérifient : p(d) = 1 d d, p(α d) = 1 α p(ρ) = 1 (α, ρ), p(w α, ρ) = 1 w Finalement l étape M se calcule en O( D W A Ω ). La complextié totale de notre algorithme PLSA étendu est donc en O( D W A Ω T), où T est le nombre maximal d itérations. ρ

135 6.4 Application au clustering de documents 135 Classification non supervisée de documents Nous pouvons utiliser notre modèle pour le clustering de documents. Comme avec PLSA, nous interprétons la quantité p(α d) comme la probabilité que le document d appartienne à la thématique α. À chaque document est donc attribué le cluster vérifiant : cluster(d) = arg max p(α d) (6.5) α A Remarquons que la variable α nous sert à la fois à identifier les thématiques générales latentes dans la collection, et également les clusters de documents. Lorsque nous fixons A au nombre de clusters de documents désiré, nous pouvons toujours modéliser les thématiques grâce à la variable ρ qui identifie les concepts de mots. 6.4 Application au clustering de documents Dans cette section, nous nous intéressons à la tâche du clustering thématique de documents, qui consiste à regrouper des documents thématiquement proches. Comme nous l avons souligné dans le chapitre 2, pour un algorithme de clustering donné, le choix de la représentation des données (ici, des documents) influence de manière cruciale le résultat du clustering. Pour les raisons évoquées dans la section 6.1.1, nous soupçonnons que la représentation dans l espace des mots n est pas la plus adaptée pour faire du clustering thématique. Nous allons donc utiliser nos deux méthodes d extraction non supervisée C-CEM et PLSA étendu pour déterminer une nouvelle représentation des données, dans l espoir d améliorer les performances en clustering thématique de documents. Nous présentons d abord les enjeux du clustering thématique de documents dans la section Dans la section 6.4.2, nous définissons notre protocole expérimental pour évaluer les performances de nos deux méthodes en clustering de documents, ainsi que les mesures d erreur utilisées. Nous présentons les résultats détaillés de nos deux méthodes C-CEM et PLSA étendu, que nous confrontons à plusieurs autres choix de représentation des documents. Enfin nous concluons sur le clustering de documents dans la section Présentation de la tâche Avec l augmentation de l information disponible en ligne, il devient de plus en plus fréquent d avoir à traiter de grandes quantités de données textuelles. N importe quel internaute peut accéder à des millions de pages, d articles ou de brèves d information, motivant le développement d outils efficaces permettant aux utilisateurs de trouver l information cherchée. Dans ce contexte, le clustering de documents a été particulièrement étudiée par la communauté de la recherche d information. En effet, un bon système de clustering de documents est capable d organiser une collection de documents en clusters, où chaque cluster contient des documents thématiquement proches. Ces clusters peuvent par exemple aider les utilisateurs à juger rapidement la pertinence des résultats d un moteur de recherche classique [Cutting et al., 1992], ou encore faciliter la navigation dans de grandes collections de documents [Van Rijsbergen, 1979]. Le résumé automatique de texte est un autre exemple de tâche qui peut profiter du clustering de documents [Kummamuru et al., 2004].

136 136 Extraction de caractéristiques non supervisée pour les données textuelles Afin d extraire les phrases ou les paragraphes les plus pertinents, de nombreux systèmes de résumé doivent d abord identifier les thématiques latentes dans un document. Or les thématiques latentes sont plus faciles à trouver si des clusters de documents thématiquement proches sont disponibles. Enfin, le clustering de documents est également utilisé dans le cadre de la recherche d information distribuée [Xu et Croft, 1999] Résultats Expérimentaux Nos objectifs ici sont (a) de vérifier l efficacité de l espace de concepts induit par l algorithme CEM et, (b) de montrer que la prise en compte de la variable latente associée aux clusters de mots dans la version étendue de PLSA est valide. À noter que si nos algorithmes fonctionnent de manière non supervisée, notre évaluation expérimentale est réalisée à partir de corpus de documents étiquetés. En effet, nous évaluons la pertinence de l hypothèse H et celle de nos algorithmes par leur capacité à retrouver les thématiques latentes dans un corpus de documents. Nous avons donc besoin de corpus dans lesquels les documents sont déjà regroupés par thématique. Dans la suite de cette section, nous examinons d abord les performances du clustering de documents obtenues dans l espace de concepts induit par l hypothèse H, par le modèle PLSA avec le résultat du clustering de documents dans l espace sac-de-mots. Nous avons utilisé l algorithme CEM comme technique de clustering de documents. Nous avons aussi comparé les performances de l algortihme PLSA avec son extension introduite dans la section Le corpus Pour l évaluation, nous avons construit nos bases à partir de deux collections de documents standard. La première est la collection Reuters 1. Nous nous sommes intéressés aux 7 classes les plus représentées (acq, crude, earn garin, interest, money, trade) dans cette collection avec un nombre total de 4335 documents. La deuxième collection est la collection 20Newsgroups 2, qui regroupe des messages postés sur 20 forums de discussion sur Usenet. Nous avons supprimé les doublons, et nous avons fusionné plusieurs classes entre elles. Finalement la base ainsi pré-traitée contient cinq classes ( alt., comp., sci., rec. et talk) et messages. Nous avons ignoré l en-tête et le sujet de chaque message. La troisième collection est le corpus WebKB 3 (4 universities). Nous avons choisi de travailler sur les 4 classes les plus larges avec un nombre comprenant 4196 articles. Notre prétraitement consiste à filtrer le texte en enlevant les balises html, à convertir les majuscules en minuscules et à enlever les caractères non alpha-numériques. Nous filtrons également les mots suivant un anti-dictionnaire anglais 4 ainsi que les mots qui apparaissent dans moins de 3 documents. Le vocabulaire obtenu après ce filtrage est constitué de 6990 mots pour Reuters, mots pour 20Newsgroups et mots pour le corpus WebKB. Le tableau 1 récapitule les caractéristiques des deux collections. Dans nos expériences, nous avons divisé chaque collection en 10 sous-ensembles en préservant dans chacun d eux les proportions entre les différentes classes. Cette division est nécessaire pour éviter des biais causés par la structure de chaque collection 1 http :// 2 http ://kdd.ics.uci.edu/databases/20newsgroups/ 3 http :// 4 http ://ir.dcs.gla.ac.uk/resources/test_collections/cacm/

137 6.4 Application au clustering de documents 137 et pour baisser les effets des initialisations aléatoires utilisées dans les algorithmes. Pour les résultats expérimentaux, les performances sont ainsi une moyenne de 10 performances obtenus sur chacun des sous-ensembles. Le maintien de la proportion dans chaque sous-base est important parce que nous voulons savoir si la nouvelle représentation des documents permet de mieux retrouver les petites classes que la représentation initiale dans l espace des mots. TAB. 6.1 Caractéristiques des collections Reuters, 20Newsgroups et WebKB. Reuters Classe pr. % earn 46.2 acq 24.9 money 8.4 crude 7 grain 6.5 trade 4.8 interest Newsgroups Classe pr. % comp sci rec talk alt. 5.0 WebKB Classe perc. % student 39.1 faculty 26.8 course 22.1 project 12.0 Mesure d évaluation Afin d évaluer la pertinence des partitions obtenues, nous devons savoir à quelle classe initiale correspond chaque cluster appris. Pour cela, nous suivons l approche de [Slonim et Tishby, 2002] et nous attribuons à chaque cluster sa classe majoritaire, c est à dire la classe originale la plus représentée parmi les documents du cluster. Et en calculant des mesures d évaluation sur les clusters obtenus, nous pouvons comparer les performances des differentes méthodes. Afin d évaluer les résultats, nous utilisons trois mesures d évaluation, la micro-moyenne de précision, le rappel, et l Information Mutuelle Normalisée (IMN). λ(c l ) λ(c l ) λ(c l )+β(c l ) Précision et Rappel Pour chaque classe C l, nous avons estimé les quantités suivantes : λ(c l ) : Le nombre de documents correctement affectés à C l β(c l ) : Le nombre de documents incorrectement affectés à C l γ(c l ) : Le nombre de documents incorrectement non affectés à C l La précision pour une classe est définie comme Precision(C l ) =. Le rappel pour une classe est défini comme Rappel(C l ) = λ(c l )+γ(c l ). Les micro-moyennes des précisions (MMP) et des rappels (MMR) sont définies comme suit : C MMP = l λ(c l ) C l λ(c l ) + β(c l ), MMR = C l λ(c l ) C l λ(c l ) + γ(c l ) Nous remarquons que comme C l λ(c l ) + β(c l ) et C l λ(c l ) + γ(c l ) correspondent tout deux au nombre de documents total dans la collection, les micro-moyennes des précisions et des rappels sont égales.

138 138 Extraction de caractéristiques non supervisée pour les données textuelles Information Mutuelle Normalisée L IMN est une méthode largement utilisée pour l évaluation du clustering. Comme [Strehl et Ghosh, 2002] nous calculons et normalisons l information mutuelle entre deux partitions, l une correspondant à l ensemble des vraies classes, et l autre au partitionnement à évaluer. Comme la précision, la valeur de IMN est comprise entre 0 et 1 et elle est égale à 1 quand les deux partitions sont identiques. Pour toutes les classes, IMN est estimée en utilisant l équation suivante : IMN = c h=1 c l=1 n h,l log ( D n h,l n h n l ) ( c h=1 n ) ( h log n h c D l=1 n ) l log n l D Où n h est le nombre de documents dans le cluster C h, n l est le nombre de documents appartenant à la classe l, n h,l est l intersection des documents dans le cluster C h et dans la classe l. Nous rappelons que le nombre de classes, c dans la collection est aussi le nombre de clusters recherché. Résultats Les expériences avec des nombres variés de concepts de mots sont nécessaires pour trouver le nombre de concepts qui donne le meilleur résultat, et pour vérifier l influence sur les résulats du nombre de concepts. Pour trouver l espace de concepts par CEM nous avons utilisé 10, 20, 30, 40, 50, 60, 70 concepts pour les deux collections ; nous avons également utilisé 80, 90, 100, et 150 concepts pour WebKB. Pour des valeurs plus grandes du nombre de concepts de mots, les partitions obtenues avec l algorithme CEM comportaient des clusters vides. Nous avons donc considéré avoir atteint les nombres de concepts maximaux pour les deux collections. Pour PLSA, nous avons utilisé le même nombre de concepts que CEM. Pour le nouveau modèle, nous avons fait varier le nombre de concepts associé à ρ empiriquement, en considérant la taille des documents et le nombre des classes. Le tableau 2 montre les performances en clustering de l algorithme CEM lorsque les documents sont représentés dans l espace sac-de-mots (algorithme CEM) et dans l espace de concepts (algorithme C-CEM) sur les deux bases Reuters, 20Newsgroups et WebKB. Sur les trois collections et dans la majorité des cas, les précisions, rappels et micro-moyennes de précision de l algorithme C-CEM sont supérieures à l algorithme CEM. De plus, le clustering dans l espace des concepts permet mieux d identifier les classes de tailles moyennes dans la collection qui disparaissent totalement en partitionnant les documents dans l espace sac-de-mots. Ainsi sur la collection Reuters, les rappels de chacune des classes se sont tous améliorés sauf pour la plus grande classe earn. Alors que cette dernière a tendance à absorber les documents des autres classes lorsque nous faisons le clustering dans l espace des mots, nous constatons que ce phénomène est atténué lorsque le clustering est effectué dans l espace des concepts. Par exemple, la classe trade, qui n a jamais été trouvée avant la réduction dimensionnelle, devient visible dans l espace des concepts. Nous constatons des résultats similaires sur la collection WebKB. Après la réduction dimensionnelle en utilisant les concepts, les

139 6.4 Application au clustering de documents 139 TAB. 6.2 Mesures de précisions et de rappels (moyennées sur 10 sous-bases), micro-moyenne de précision et micro-moyenne de rappel obtenues dans l espace de sac-de-mots et dans l espace de concepts par l algorithme CEM Reuters Précision Rappel CEM C-CEM CEM C-CEM acq crude earn grain interest money trade Moyenne WebKB Précision Rappel CEM C-CEM CEM C-CEM course faculty project student Moyenne Newsgroups Précision Rappel CEM C-CEM CEM C-CEM comp sci rec talk alt Moyenne trois classes course, faculty et project sont mieux extraites et dans ce cas l amélioration est plus grande que dans le cas de Reuters. Les figures 6.2 et 6.3 présentent les résultats du clustering de documents sur les bases Reuters, 20Newsgroups et WebKB avec l algorithme CEM dans l espace sacde-mots (CEM) et les espaces de concepts induits avec l hypothèse H (C-CEM) et l algorithme PLSA (P-CEM) pour différents nombres de concepts de mots. Nous remarquons que les performances de l algorithme dans l espace induit avec l hypothèse H sont généralement bien supérieures à celles obtenues dans l espace de concepts induits par PLSA. Bien que l espace de concepts induit par PLSA obtienne de meilleurs résultats que l espace original, il est toujours moins bon que l espace de concepts induit par notre hypothèse. Ces résultats montrent que la prise en compte des dépendances locales de termes via ici l hypothèse H permet de trouver d une manière pertinente les

140 140 Extraction de caractéristiques non supervisée pour les données textuelles thématiques présentes dans une collection. Nous remarquons aussi que le clustering de documents dans l espace de concepts induit par PLSA est moins bon que le clustering de documents avec l algorithme PLSA dans l espace des mots. Ceci nous amène à penser que si PLSA était capable de modéliser les concepts de mots d une manière indépendante de sa modélisation des clusters de documents, ses performances en clustering de documents dans l espace des mots pourraient être améliorées. Ces résultats rejoignent les remarques formulées à la section La figure 6.4 montre les courbes de performances des modèles PLSA et sa variante (section 6.3.2). Nous rappelons que l algorithme PLSA n utilise pas de concepts de mots, et ses résultats sont donc représentés par une ligne horizontale sur les figures. Nous remarquons de plus que sur la base Reuters, le modèle PLSA étendu a de meilleures performances que PLSA, ceci quel que soit le nombre de concepts choisis. Si on prend le meilleur résultat du modèle PLSA étendu, l écart des performances entre ce modèle et le modèle PLSA est approximativement de 6%. Pour la base WebKB, les performances du modèle PLSA étendu sont presque toujours meilleures que celles de PLSA (sauf pour un nombre de concepts égal à 10). Ces résultats suggèrent que la réduction de dimension est dépendante de la dimension de départ : 20 concepts de mots sont nécessaires pour obtenir de bonnes performances sur la base WebKB (pour un vocabulaire initial de mots), alors que 5 concepts suffisent sur Reuters (pour un vocabulaire de 6990 mots). Cette constatation empirique coïncide avec l intuition que dans un texte le nombre de mots a tendance à augmenter avec le nombre de thématiques qui sont abordées. Nous présentons finalement au tableau 6.3, une comparaison entre les différentes méthodes de clustering. Les résultats présentés dans le premier tableau sont les précisions moyennes sur les 10 sous-ensembles des collections Reuters, 20Newsgroups et WebKB. Nous avons calculé les précisions moyennes pour différentes valeurs de nombre de concepts de mots. La meilleure précision moyenne est la meilleure de ces moyennes. Le deuxième tableau répresente les valeurs IMN moyennes ; celles ci sont calculées pour le nombre de concepts de mots qui correspond à la meilleure précision moyenne. Comme le modèle PLSA n utilise pas de concepts de mots, nous prenons seulement la précision moyenne et l IMN moyen sur 10 sous-ensembles pour ce modèle. Pour les meilleures précisions moyennes, les approches C-CEM et PLSA étendu ont obtenu des performances similaires, elles-mêmes étant supérieures aux autres méthodes dans les deux collections. Les améliorations des deux meilleures méthodes par rapport aux autres dans la collection WebKB sont plus grandes que celles dans la collection Reuters. Pour les IMNs, les deux méthodes C-CEM et PLSA étendu obtiennent toujours de meilleures performances. Plus précisément la méthode C-CEM est légèrement meilleure que le PLSA étendu pour la collection Reuters, et inversement pour la collection WebKB. En résumé, sur les deux collections de documents et pour les deux mesures de performances, nous trouvons que les approches C-CEM et PLSA étendu ont des performances équivalentes, et sont toutes les deux meilleures que les deux algorithmes P-CEM et PLSA.

141 6.4 Application au clustering de documents 141 FIG. 6.2 Précisions moyennes de l algorithme CEM obtenu dans l espace sac-de-mot (CEM) et les espaces de concepts induits par l hypothèse H (C-CEM) et par PLSA (P-CEM).

142 142 Extraction de caractéristiques non supervisée pour les données textuelles FIG. 6.3 Erreurs IMN moyennes de l algorithme CEM obtenu dans l espace sac-de-mot (CEM) et les espaces de concepts induits par l hypothèse H (C-CEM) et par PLSA (P-CEM).

143 6.4 Application au clustering de documents 143 FIG. 6.4 Performances du clustering de documents avec PLSA et PLSA étendu

144 144 Extraction de caractéristiques non supervisée pour les données textuelles Meilleure Précision moyenne Collection CEM PLSA P-CEM CEM PLSA étendu Reuters Newsgroups WebKB NMI moyen correspondant à la meilleure précision moyenne Collection CEM PLSA P-CEM C-CEM PLSA étendu Reuters Newsgroups WebKB TAB. 6.3 Meilleure Précision moyenne et le NMI moyen correspondant aux différents algorithmes de clustering Conclusion Dans cette section, nous avons appliqué nos deux méthodes d extraction non supervisée C-CEM et PLSA étendu au clustering de documents. Notre première contribution s incrit dans le cadre de la réduction dimensionnelle des documents, via l utilisation des concepts de mots. Nous avons validé expérimentalement l hypothèse selon laquelle deux mots qui co-occurrent avec les mêmes fréquences dans les mêmes documents sont sémantiquement liés, et devraient appartenir au même concept. Les expériences menées montrent que les concepts de mots obtenus permettent de déterminer une nouvelle représentation plus pertinente des documents, et d améliorer les performances en clustering de documents. Notre seconde contribution est une extension de l algorithme PLSA. Contrairement à l algorithme PLSA initial, notre approche est capable de dissocier les thématiques des clusters de documents grâce à l incorporation d une variable modélisant les concepts de mots. Là aussi, nous avons observé une amélioration des performances en clustering de documents. Nos deux contributions confirment l intérêt d utiliser des concepts de mots pertinents pour traiter des données textuelles. Une direction de recherche future serait étudier plus précisément les limites de notre hypothèse H. Le fait par exemple, que deux mots synonymes ayant des occurrences différentes ne seront pas forcément regroupés dans le même concept. Une piste à explorer concerne l utilisation de ressources linguistiques externes (comme par exemple des dictionnaires de synonymes), et plus précisément l incorporation de ces ressources à nos algorithmes pour aider à déterminer des concepts de mots plus pertinents. 6.5 Application au résumé automatique de texte Nous nous intéressons maintenant au problème du résumé automatique d un texte par rapport à une requête donnée. Cette requête peut être par exemple une question dont la réponse est contenue dans le texte. Le résumé produit doit alors répondre à cette question. De plus, nous nous plaçons dans le cadre du résumé extractif : le résumé produit est constitué d un sous-ensemble des phrases du texte initial. Dans cette section, nous proposons un système général de résumé automatique qui repose notam-

145 6.5 Application au résumé automatique de texte 145 ment sur notre algorithme C-CEM présenté dans la section 6.2. Notre système de résumé automatique est une machinerie complexe composé de plusieurs modules. L un de ces modules a pour but d associer un score à chaque phrase. Ce module est très important, puisque le résumé final est constitué des phrases qui obtiennnent les meilleurs scores. Le score final d une phrase dépend de sa représentation vectorielle. Ici, nous choisissons de représenter chaque phrase par un vecteur de similarités entre la phrase considérée et différentes requêtes (la requête initiale associée au document, son titre, le titre de la thématique du document, etc...). En général, ces requêtes comportent très peu de mots, ce qui rend les calculs de similarités difficiles. Dans cette section, nous montrons comment utiliser notre algorithme C-CEM pour faire de l extension de requête. L idée intuitive est que si nous sommes capables de déterminer des clusters de mots sémantiquement proches, alors nous pouvons ajouter des mots pertinents à la requête et faciliter ainsi le calcul des similarités avec les phrases. Ainsi notre algorithme C-CEM permet de rendre la représentation de chaque phrase plus pertinente, et donc d améliorer la qualité globale du résumé produit. Dans la section 6.5.1, nous présentons les enjeux de la tâche du résumé automatique. Dans la section 6.5.2, nous présentons la compétition de résumé automatique DUC 2007, à laquelle nous avons participé. Dans la section 6.5.3, nous présentons la technique d extension de requêtes à base de relation de co-occurrence que nous avons développée. Les sections et décrivent la technique de filtrage d information non-pertinente et le scoring des phrases. Les résultats obtenus à la compétition sont donnés à la section Présentation de la tâche Le résumé est l art de comprimer l information. En RI, cette tâche avait initialement comme ambition de générer rapidement des résumés synthétiques à de nombreux documents. Cependant, les traitements linguistiques nécessaires pour trouver de tels résumés sont trop coûteux pour être appliqués à de grands corpus de documents [Sparck-Jones, 1993]. Une simplification de la tâche largement étudiée consiste à extraire d un document les passages (phrases ou paragraphes) les plus représentatifs de son contenu. L extraction de ces passages est effectuée grâce à des heuristiques spécifiques, dont sept grandes classes ont été identifiées et énumérées dans [Paice et Jones, 1993]. Par exemple, une classe d heuristiques consiste à comparer les mots d un passage avec les mots du titre d un document, une deuxième est de vérifier si le passage contient des marqueurs linguistiques (ou cue-words), comme en conclusion, en résumé, etc. Ces heuristiques allouent des scores réels aux passages, et les passages obtenant les meilleurs scores constituent le résumé automatique. Cette réduction (de l abstraction à l extraction) peut être vue comme la première étape vers la constitution d un résumé synthétique ; pour résumer un texte les humains ont en effet tendance à surligner ses passages pertinents avant de le synthétiser. Nous nous sommes placés dans le cadre du résumé extractif. L état de l art consiste dans ce cas à combiner les heuristiques d un passage manuellement [Goldstein et al., 1999] ou avec des méthodes génériques [Kupiec et al., 1995]. La solution adoptée par ces dernières est d effectuer une combinaison numérique des heuristiques de façon automa-

146 146 Extraction de caractéristiques non supervisée pour les données textuelles tique grâce à l apprentissage statistique, en utilisant des bases de documents étiquetés : pour chaque document, les phrases 5 possèdent une étiquette 1 ou 1 correspondant respectivement au fait qu elles font partie ou non d un résumé de référence du document. Ces étiquettes sont déterminées soit manuellement soit, pour des cas particuliers et à des fins d expérimentation, par des méthodes automatiques [Marcu, 1999] qui utilisent une information supplémentaire non disponible à l algorithme d apprentissage. Dans ces systèmes [Kupiec et al., 1995, Amini, 2001], un algorithme de classification est alors utilisé pour déterminer la combinaison des scores des heuristiques qui a pour but d associer à chaque phrase son étiquette 1 ou 1. [Marcu, 1999] propose en effet un algorithme d alignement qui sur des articles scientifiques apparie l abstract de ces articles aux phrases des articles et en extrait celles qui sont les plus ressemblant à l abstract. Il montre ensuite sur différentes expériences que son approche est valide et que les phrases ainsi extraites sont très ressemblants (au sens d un expert humain) aux vrais résumés extractifs des articles. Pour un nouveau document, le résumé est constitué des k phrases de ce document qui, d après la fonction apprise, sont les plus susceptibles d avoir pour étiquette 1, où k est un taux de compression et est généralement fixé à 10 ou 20% du nombre de phrases du document. Nous avons proposé un algorithme général d ordonnancement dont l objectif est d apprendre un meilleur tri des phrases appartenant aux résumés de chaque document et nous avons montré que cet algorithme est plus performant que les algorithmes de classification proposés dans l état de l art [Amini et al., 2007]. Dans cet article nous allons présenter une technique pour trouver des heuristiques pertinentes à base de clustering de mots. Le système de résumé que nous avons développé à base de ce concept s est classé 1 er, 2 eme et 3 eme parmi 32 participants sur les trois mesures officielles à la compétition DUC 2007 (Document Understanding Conference). La combinaison d heuristiques dans ce cas s est faite manuellement car comme nous allons l aborder à la section suivante, les résumés dans cette compétition étaient à base de questions et nous ne disposions pas de résumés de références dédiées pour apprendre automatiquement cette combinaison Compétitions DUC Les compétitions DUC ont été créées en Mars 2000 à l initiative des agences DARPA (Defense Advanced Research Projects Agency), ARDA (Advanced Research and Development Activity) et NIST (National Institute of Standards and Technology). Ces agences travaillaient en parallèle sur des programmes proches de la thématique d extraction de passages comme le programme TIDES (Translingual Information Detection Extraction and Summarization) de DARPA, Advanced Question & Answering de ARDA et Text Retrieval Conferences de NIST. Les compétitions DUC ont alors été mises en place dans le but de réunir les efforts consentis par ses différentes agences autour de la problématique du résumé de texte. Ces compétitions sont maintenant financées par ARDA et sont tenues annuellement par NIST. Les premières compétitions étaient focalisées sur le résumé du contenu, des documents d une collection donnée (appelé résumé générique mono-document). De- 5 Dans la suite nous choisirons les phrases comme unités d extraction de base.

147 6.5 Application au résumé automatique de texte 147 puis 2005, ces compétitions se sont intéressées au résumé d un ensemble de documents par rapport à une question donnée (résumé multi-documents par rapport à une requête). Le but ici est de trouver la réponse à une question parmi un ensemble fixe de documents traitant du sujet de la question. Cette réponse ne doit pas comporter plus de 250 mots. Une des difficultés à laquelle étaient confrontés les organisateurs de ces compétitions était l évaluation des systèmes qui au début était basée sur le jugement humain pour déterminer de la cohérence, la consistence, la lisibilité, le contenu et la grammaire des résumés produits [Mani, 2001]. Ainsi un effort humain de plus de 3000 heures était nécessaire pour évaluer chacun des systèmes participants à DUC 2003 [Over et Yen, 2003]. Beaucoup de travaux se sont alors intéressés à trouver des méthodes d évaluation automatiques. Une étude pionnière dans ce sens a été réalisée par [Lin et Hovy, 2003] qui ont montré que des méthodes similaires à celles utilisées en traduction automatique, comme les mesures ROUGE (Recall-Oriented Understudy for Gisting Evaluation) basées sur des comptages de n-grammes communs entre les résumés humains et machines, pouvaient être appliquées pour évaluer les résumés produits. Ainsi pour les deux dernières compétitions DUC, 3 évaluateurs humains fournissaient chacun un résumé synthétique à partir de 25 documents contenant une (ou des) réponse(s) à une question donnée. Pour chaque question, la sortie d un système, d une taille maximale de 250 mots, était alors alignée sur les 3 résumés humains et les performances ROUGE associées à chaque système étaient calculées en moyennant ces mesures sur l ensemble des questions annotées. Les mesures ROUGE sont des mesures de rappel et de précision sur des n-grammes présents dans les résumés produits. Avec le score manuel sur le contenu des résumés, les autres mesures officielles des compétitions DUC sont les performances ROUGE-2 et ROUGE-SU4. Pour un résumé R, la mesure rappel ROUGE-2 est calculée comme : δ(gramm 2, R)Nb(gramm 2 ) R re f {Rr} gramm 2 R re f Rappel ROUGE-2(R) = Nb(gramm 2 ) R re f {Rr} gramm 2 R re f Où, Rr est l ensemble des résumés de références, R re f Rr est un résumé de référence contenant la réponse à la question posée, Nb(gramm 2 ) est le nombre total de bigrammes présents dans le résumé de référence et δ(gramm 2, R) est le symbole de Kronecker prenant la valeur 1 si gramm 2 est présent dans le résumé produit R et 0 sinon. La mesure précision ROUGE-2 est égale, quant à elle, à : δ(gramm 2, R)Nb(gramm 2 ) R re f {Rr} gramm 2 R re f Precision ROUGE-2(R) = Nb(gramm 2 ) R {Résumés produits} gramm 2 R

148 148 Extraction de caractéristiques non supervisée pour les données textuelles Sur la base de ces mesures, la F-mesure ROUGE-2 est calculée comme : Mesure-F ROUGE-2(R) = 2 Precision ROUGE-2(R) Rappel ROUGE-2(R) Precision ROUGE-2(R) + Rappel ROUGE-2(R) Selon le même principe, d autres mesures ROUGE-n peuvent être calculées. La mesure ROUGE-S qui estime quant à elle le nombre moyen de paires de mots dans le résumé produit qui sont dans le même ordre que celles apparaissant dans les résumés de références. Par exemple si on considère les résumés produit et de référence suivants : R re f : Le vélib a eu un franc succès. R : Le vélib a beaucoup de succès. Les paires de mots apparaissant dans le même ordre dans R re f et R sont : ( Le vélib, Le succès, vélib succès ) et la mesure ROUGE-S de R vaut. 3 C R 2 re f Cette mesure ignore toutefois les résumés qui contiennent des mots du résumé de référence mais pas de paires de mots communs. Par exemple la phrase : Les organisateurs rencontrent leur premier succès franc avec vélib a un score de ROUGE-S nul. Ainsi la mesure ROUGE-SU4 qui comptabilise des paires de mots communs et les mots apparaissant dans le résumé de référence, a été proposée pour pallier à ce problème Caractéristiques pour le résumé automatique Dans cette section, nous décrivons les heuristiques de sélection des phrases. Chacune de ces heuristiques identifie des caractères particuliers des phrases qui tendent à apparaître dans celles qui doivent être extraites pour former un bon résumé, et, pour une phrase donnée, une heuristique renvoie un score réel, qui est d autant plus grand que le caractère recherché a été identifié. Chaque phrase est alors décrite par un vecteur de scores fournis par les différentes heuristiques, où la valeur à une dimension donnée est le score renvoyé par l heuristique correspondant à cette dimension. Le but de l apprentissage est alors d apprendre une combinaison linéaire de ces scores. L étape préliminaire de la recherche d heuristiques est donc primordiale pour la phase d apprentissage. L objectif est en effet d avoir des caractéristiques indépendantes, chacune tenant compte d un critère particulier de pertinence des phrases, puis de les combiner, afin d obtenir une combinaison plus performante que la meilleure caractéristique. [Paice et Jones, 1993] regroupent les caractéristiques à prendre en compte pour le résumé automatique en sept catégories : 1) les marqueurs linguistiques (aussi appelés cue-words), 2) les acronymes, 3) les mots fréquents d un document, 4) les mots-clefs du titre du document, 5) la position de la phrase dans le document, 6) la longueur de la phrase, et 7) les liens sémantiques entre les phrases. Ces caractéristiques ont été utilisées partiellement ou dans leur totalité dans [Kupiec et al., 1995, Goldstein et al., 1999]. [Kupiec et al., 1995] ont utilisé les marqueurs linguistiques, les acronymes, la similarité des phrases par rapport à une requête, la longueur des phrases ainsi que leur position dans le document. Les caractéristiques qui permettent de trouver les phrases pertinentes par rapport au contenu du texte (ou l information souhaitée) sont issues de deux requêtes types. La première constituée des mots les plus fréquents de la collection de documents considérée, notée MFT (Most Frequent Terms) dans la suite, et la seconde est constituée des mots du titre du document considérée, notée title keywords dans la suite. Pour la compétition DUC, à la place des mots du titre, nous

149 6.5 Application au résumé automatique de texte 149 avons considéré les mots clés des questions. Dans les deux cas, mots du titre ou mots de la question il s agit de trouver l information pertinente par rapport à une source fixe ou une requête ouverte. Extension de requêtes par lien sémantique ou local Il a été montré que des enrichissements de la requête ouverte pouvaient améliorer les performances de façon très significative [Goldstein et al., 1999]. En effet, le titre du document ou une question donnée, ainsi que les phrases, contiennent peu de mots et sont donc sensibles aux variations linguistiques. Autrement dit, il faut pouvoir détecter dans les phrases d un document les mots sémantiquement proches de ceux de l information recherchée. Il est commun d utiliser des techniques d extension de requête [Goldstein et al., 1999], soit en s appuyant sur le thesaurus WordNet [Fellbaum, 1998] (lien sémantique), soit des techniques d enrichissement de requêtes à base de Local Context Analysis (LCA) [Xu et Croft, 1996]. Extension de requêtes par relation de co-occurrences Nous avons proposé une nouvelle approche d extension de requêtes à partir de groupement de mots qui, contrairement aux techniques locales comme le LCA qui ne considère que des co-occurrences locales au document considéré, permettent de prendre en compte les co-occurrences de mots dans le corpus de document tout entier. La création des groupements de mots est basée sur l hypothèse H c que deux mots co-occurrants dans le même contexte sont sémantiquement similaires. Cette hypothèse s interprète de la manière suivante : Les mots qui sont souvent utilisés ensemble dans un contexte (i.e. paragraphe) ont une forte probabilité de synonymie : pour décrire un phénomène on utilise souvent, dans un contexte local des synonymes relatifs au phénomène. Les clusters de mots sont déterminés grâce à l algorithme C-CEM décrit dans la section 6.2. Ce procédé permet donc de trouver des groupements de mots qui tendent à apparaître dans les mêmes documents. Le nombre de groupes à trouver est un hyperparamètre de l algorithme. Nous l avons fixé à V 15 qui a conduit à de bonnes performances empiriques sur la base DUC Nous avons trouvé que les mots des groupes étaient aussi différents que ceux trouvés par les techniques utilisant les co-occurrences locales comme le LCA, et fournissent donc une information supplémentaire et indépendante de celle que nous avons déjà. À partir de ces groupements de mots nous avons enrichi les mots clés de la question et de son sujet en y ajoutant les mots contenus dans les mêmes clusters que ces mots clés. Pour les deux dernières compétitions DUC, les 25 documents correspondant à chacun des sujets étaient tous pertinents par rapport à la question associée au sujet. Comme ces documents sont des dépêches d agence de presse de taille assez courte, les mots faisant partie de la réponse co-occurrent souvent avec les mots clés de la question ou du sujet.

150 150 Extraction de caractéristiques non supervisée pour les données textuelles D Quebec independence Cluster contenant quebec : majority minister future prime chretien canadians federalist believe stay poll confederation unity center legislature uncertainty quebec province national face canada Cluster contenant independence : separatists united independence leaders need states public votes despite lucien create clear negotiations officials bouchard opposition france opinion independent D Basque separatism Cluster contenant basque and separatism : basque separatist armed bilbao killed spain eta separatism independence police france batasuna nationalists herri TAB. 6.4 Deux clusters de termes trouvés avec l algorithme CEM à DUC 2006 et DUC L hypothèse H c selon laquelle nous avons construit les groupements de mots nous a ainsi permis de trouver partiellement les mots de la réponse. Le tableau 6.4 montre les clusters de mots contenant les mots clés des sujets D0614 et D0705 des compétitions DUC 2006 et DUC 2007 trouvés par l algorithme CEM. La question associée au sujet D0705 était : Question(D0705) : Describe developments in the Basque separatist movement Il s agissait de relater les faits sur les négociations entre les séparatistes ETA dirigés par Hari Batasuna et le gouvernement espagnol pour l indépendance du pays Basque et la libération de leurs compagnons détenus en prison. Pendant la période des négociations, l ETA et le gouvernement s étaient mis d accord sur une trêve qui s est achevée après l arrestation de Hari Batasuna en France. Un des résumés synthétiques fourni par les organisateurs pour cette question est montré dans le tableau 6.5. Sur cet exemple, 10 des 16 mots du cluster contenant les mots clés du sujet apparaissent 27 fois au total dans le résumé synthétique, alors que sur les deux mots clés du sujet il n y a que basque qui est présent dans le résumé. Nous remarquons aussi que l entité nommée Hari Batasuna qui demande une analyse linguistique poussée pour être identifiée comme étant liée au sujet est simplement détectée par notre algorithme en tant que termes co-occurr ent avec Basque et separatism. D une manière générale, en examinant la mesure rappel ROUGE-1 des requêtes titre, titre étendu, question et question étendue sur les deux compétitions DUC 2006 et DUC 2007, c est à dire la masse que représente ces requêtes par rapport aux résumés humains, nous avons remarqué que les mots des requêtes étendues étaient proportionnellement plus présentes dans ces résumés que les requêtes non-étendues. Par exemple si on considère la requête titre pour la compétition DUC 2006, la valeur rappel ROUGE-1 maximale que peut atteindre une requête de taille moyenne égale à la taille moyenne de cette requête (3.46 mots) est de La mesure rappel ROUGE-1 de la requête titre vaut quant à elle ce qui représente 80% de la valeur théorique. Ce pourcentage passe à 85% si on considère la requête titre étendu. En effet, la taille moyenne et la mesure ROUGE-1 de la requête titre étendu sont respectivement de 21.8

151 6.5 Application au résumé automatique de texte 151 The Basque separatist group ETA conducted a weeklong unilateral ceasefire in Spain in June The truce ended in July with a series of bomb attacks on tourist resorts. In October 1997, ETA was preparing for another ceasefire when all 23 leaders of its political wing were jailed for distributing a pro-eta video. In the first half of 1998 six slayings were attributed to ETA. Thousands demonstrated against the violence in the Basque region. The Socialist Party withdrew from the three-party Basque regional government. In August ETA said for the first time that it was opposed to street violence as a means of furthering the Basque cause. Basque nationalists joined with other political groups to urge ETA to seek a permanent end to the violence and in September ETA announced an open-ended ceasefire. The Spanish government agreed to hold peace talks, but said that there would be no discussion of Basque independence. ETA s Chief Hari Batasuna was arrested in France in August. TAB. 6.5 Un résumé synthétique pour la question Question(D0705). # moy. mots Rouge-1 DUC 2006 DUC 2007 Résumés synthétiques Titre Titre étendu Question Question étendue Titre (80%) (85%) Titre étendu (85%) (91%) Question (65%) (68%) Question étendue (72%) (76%) TAB. 6.6 Statistiques sur l effet de l extension des requêtes et pour cette compétition avec une valeur rappel ROUGE-1 maximale de Ces résultats sont récapitulés pour les deux compétitions dans le tableau 6.6. À l aide de ces résultats nous en déduisons que, comme les requêtes étendues contiennent proportionnellement plus de mots des résumés cibles et que leur taille est 6 à 7 fois celles des requêtes de base, la similarité de ces requêtes avec les phrases des documents cibles devant faire parties des résumés a plus de chance d être plus grande que la similarité de ces phrases avec les requêtes de base. Nous remarquons aussi que le gain de cette extension est plus accentué pour la compétition DUC Ainsi de la compétition DUC 2006 à DUC 2007, le gain en rappel ROUGE-1 de l extension passe de +5% à +6% pour la requête titre et de +7% à +8% pour la requête question. Avant le calcul des scores de phrases nous avons filtré les documents en enlevant les phrases les moins informatives par rapport aux questions posées. Pour cela nous avons appliqué l algorithme d alignement de [Marcu, 1999] qui extrait pour chaque document l ensemble de ses phrases qui est le plus similaire à la question associée avec l hypothèse sous-jacente que dans chaque document, le plus petit sous-ensemble des phrases qui contient la réponse à la question du sujet est aussi celui qui a la plus grande similarité sémantique avec la réponse. Cette algorithme est décrit à la section suivante.

152 152 Extraction de caractéristiques non supervisée pour les données textuelles Algorithme d alignement de Marcu L algorihme de Marcu [Marcu, 1999] calcule la similarité entre un ensemble de phrases S et la question associée au sujet des documents contenant ces phrases, Q en utilisant la représentation sac-de-mots entre elles : w S Q c(w, S)c(w, Q) S im(s, Q) = w S c 2 (w, S) (6.6) w Q c 2 (w, Q) Où w Z (avec Z = S ou Z = Q) signifie la présence du terme w dans Z et c(w, Z) est le poids associé à w dans Z. La pondération que nous avons choisie ici est : c(w, Z) = t f (w, Z) log(d f (w)) Où t f (w, Z) est la fréquence de w dans Z et d f (w) est le nombre de documents contenant w. Le choix de log(d f ) à la place de log(id f ) 6 qui est classiquement choisi en Recherche d Information, s explique par la construction des collections de DUC. Pour chaque sujet, les documents réunis pour le thème sont en effet tous pertinents par rapport au sujet et la question posée et les mots qui apparaissent fréquemment dans les documents de la collection relative à ce sujet sont ceux qui décrivent le mieux le thème. FIG. 6.5 Évolution de la mesure de similarité en fonction du nombre de phrases supprimées avec l algorithme d alignement de Marcu pour quelques documents de la collection D0601 de DUC2006. L algorithme de Marcu cherche itérativement à enlever la phrase dont la suppression augmente le plus, la similarité entre la question et l ensemble restant des phrases (au sens de (6.6)). Cet algorithme s arrête une fois que la suppression de n importe quelle autre phrase de l ensemble restant fait diminuer la similarité entre cet ensemble et la question. La figure montre le comportement de cet algorithme sur quelques documents de la collection D601 de la compétition DUC La figure 6.6 montre la distribution des mots dans les phrases avant et après l application de l algorithme de Marcu. Cette technique d alignement ne change pas la 6 id f est l inverse de d f et il joue le rôle d un terme de pénalisation pour les mots apparaissant fréquemment dans les documents d une collection donnée.

153 6.5 Application au résumé automatique de texte 153 # moyen de Avant align t Après align t phrases par sujet mots par phrase Rappel ROUGE Précision ROUGE Rappel Rouge Précision Rouge TAB. 6.7 Mesures ROUGE-1 et ROUGE-2 de l ensemble des phrases présentes dans tous les documents pour chaque sujet avant et après la technique d alignement de Marcu pour DUC distribution des mots dans les phrases i.e. ce ne sont pas des phrases longues qui restent après l alignement, ainsi pour la compétition DUC 2006 la longueur des phrases avant et après filtrage est normalement distribuée autour de 10 à 12 mots (figure 6.6). FIG. 6.6 La distribution de mots filtrés dans les phrases En estimant les mesures ROUGE-1 et ROUGE-2 de toutes les phrases des documents avant et après alignement pour la compétition DUC 2006, 6.7, nous avons remarqué que la précision de ces mesures sur la totalité des phrases après alignement a notablement augmenté alors qu on ne note pas de grosse perte en rappel. Ces résultats montrent que proportionnellement il y a plus de phrases ne contenant pas l information recherchée qui sont supprimées par l algorithme de Marcu que de phrases pertinentes Mesures de similarité Notre génération de caractéristiques est basée sur le calcul de similarité entre chaque phrase dans l ensemble final des phrases et les requêtes à base du titre et de la question des sujets. Nous avons ainsi considéré trois requêtes : q 1 représentant l ensemble des mots clés de la question, q 2 et q 3 correspondant respectivement aux mots

154 154 Extraction de caractéristiques non supervisée pour les données textuelles clés du titre et de la question ainsi que les mots des clusters contenant les mots des requêtes. Chaque caractéristique est alors décrite par f : {requetes} {phrases} R. Où le score f d une requête q avec une phrase p vaut f (q, s) = score(q, s). Nous avons testé différentes fonctions de scores et avons trouvé sur la base DUC 2006 que les caractéristiques suivantes étaient les plus performantes : Caractéristique Requête Score F 1 q 1 termes_communs(q 1, s) F 2 q 1 cosine(q 1, s) F 3 q 2 ld f (q 2, s) F 4 q 3 ld f (q 3, s) Où termes_communs(q, s) est le nombre de mots communs entre la requête q et w q s c(w,q)c(w,s) la phrase s, cosine(q, s) = w q c 2 (w,q) où c(w, Z) est la même pondération de w s c 2 (w,s) termes que celle utilisée avec l algorithme de Marcu et ld f (q, Z) = w q Z log(d f (w)). Caractéristiques F 1 F 2 F 3 F 4 F F F TAB. 6.8 Corrélation de Spearman entre différentes listes ordonnées obtenues avec les différentes caractéristiques. Le tableau 6.8 montre la corrélation de spearman des caractéristiques que nous avons considérées. La corrélation de Spearman prend juste en compte l ordre des phrases induites par ces mesures et non pas la valeur des rangs, les variations extrêmes dans ces valeurs n interviennent donc pas dans le calcul de la corrélation. Des valeurs de corrélations basses suggèrent ici qu il y a une faible relation linéaire entre les différentes listes ordonnées obtenues avec ces caractéristiques. La combinaison de ces scores permet ainsi de trouver plus de phrases pertinentes que chacune des caractéristiques séparément Résultats obtenus à la compétition DUC 2007 Comme nous ne disposions pas de phrases de résumés extraites à partir des documents cibles nous n étions pas en mesure d apprendre les poids de la combinaison. Nous avons montré dans [Amini et al., 2007] que si une telle information est disponible il est possible d apprendre à combiner ces caractéristiques en optimisant le rang moyen des phrases pertinentes au-dessus des phrases non pertinentes. Pour la compétition DUC 2007 nous avons déterminé manuellement les poids de la combinaison pour lesquelles la mesure-f ROUGE-2 était optimale. Pour chaque question, les phrases de tous les documents cibles associés étaient triées dans l ordre décroissant des scores des phrases calculés après combinaison. Pour

155 6.5 Application au résumé automatique de texte 155 DUC 2007 Id Moyenne Borne inf. de l int. de conf. à 95% Borne sup. de l int. de conf. à 95% D C J G E B F A I H TAB. 6.9 Mesure-F ROUGE-2 diminuer la redondance, sur les 10 phrases dans la tête de la liste, nous avons suivi [Conroy et al., 2006] en éliminant celles qui avaient plus de 8 mots en communs avec les phrases mieux scorées qu elles. Les résumés finaux étaient alors constitués en prenant les phrases restantes du début de la liste avec un nombre total de mots n excédant pas 250. Chacun des 45 résumés produits par les systèmes étaient évalués 3 fois par 3 juges humains différents (avec des identifiants allant de A à J), les scores ROUGE-2 et ROUGE-SU4 de chaque système étaient alors moyennés sur l ensemble des scores donnés. Les tableaux 6.9 et 6.10 donnent les résultats des mesures-f ROUGE-2 et ROUGE- SU4 des résumés produits par les humains et les trois premiers systèmes participants à la compétition. L identifiant associé au système de résumé de LIP6 était 4. Notre système s est classé 2 ème et 3 eme respectivement suivant les mesures-f ROUGE-2 et ROUGE-SU4 à cette compétition. Notre système a en outre réalisé le meilleur score linguistique parmi les systèmes participants à cette compétition (tableau 6.11). Ces scores étaient donnés par trois juges notant le contenu des résumés de 0 à 5. Le contenu des résumés était jugé par rapport aux réponses aux questions qu ils contenaient. Ces résultats vont dans le sens de l analyse donnée en section 6.5.3, ils renfoncent l idée que les mots des réponses co-occurrants avec les mots clés des questions et des titres. La figure 6.7 montre les scores moyens de contenu des systèmes participants en fonction de leur mesure Rappel ROUGE-2. Les deux groupements de points correspondent aux scores obtenus par les résumés humains (en haut à droite) et les scores des systèmes participants à la compétition (en bas à gauche). Sur cette figure, les scores de contenu (axe des ordonnés) séparent mieux, les résumés humains aux résumés produits par les systèmes, que la mesure Rappel ROUGE-2. Sur ce graphique,

156 156 Extraction de caractéristiques non supervisée pour les données textuelles DUC 2007 Id Moyenne Borne inf. de l int. de conf. à 95% Borne sup. de l int. de conf. à 95% D C J E F A G B H I TAB Mesure-F ROUGE-SU4 Id DUC 2007 Score Moyen du contenu D 4.94 G 4.89 I 4.89 F 4.72 C 4.67 E 4.67 H 4.67 A 4.61 B 4.56 J TAB Scores linguistiques les scores de notre système sont montrés avec un triangle Conclusion Nous avons présenté dans cette section une technique d extension de requêtes à base d une relation de co-occurrences de mots. Cette technique nous a permis d avoir de bons résultats à la compétition de DUC2007 où il fallait trouver les réponses à 45 questions sur un ensemble de 25 documents cibles fournis avec une limitation de 250 mots pour les résumés produits. Ces documents étaient des dépêches de journaux et ils étaient tous pertinents par rapport à la question posée. Cette particularité a impliqué que les mots clés des questions co-occurrants avec une forte probabilité avec les mots de la

157 6.6 Conclusion 157 FIG. 6.7 Les scores moyens du contenu des systèmes participants à DUC2007 en fonction de la mesure Rappel ROUGE-2 réponse et l hypothèse H c selon laquelle les mots co-occurrants dans le même contexte et avec la même fréquence sont thématiquement proches, nous a permis de trouver des groupements de mots dont ceux qui contenaient les mots de la question contenaient aussi certains mots de la réponse. Les scores entre les phrases et les requêtes étendues étaient alors d autant plus grands si ces phrases contenaient les mots de la réponse. Une perspective à ce travail consistera à la recherche d une combinaison automatique des caractéristiques avec des modèles d apprentissage [Usunier et al., 2004]. 6.6 Conclusion Dans ce chapitre nous avons présenté nos contributions en extraction de caractéristiques non supervisée pour les données textuelles. L extraction non supervisée est un problème général difficile, qui nécessite une connaissance a priori du problème. Dans le cas particulier des données textuelles, nous avons proposé de baser l extraction sur l hypothèse que des mots apparaissant dans les mêmes documents avec les mêmes fréquences sont sémantiquement proches. Sur la base de cette hypothèse, nous avons proposé le modèle C-CEM qui permet de regrouper les mots sémantiquement proches en clusters, appelés concepts de mots. Les documents sont alors représentés dans ce nouvel espace de concepts. Nous avons également proposé une extension du modèle PLSA pour modéliser des corpus de documents. Lorsque le modèle PLSA est utilisé pour faire du clustering de documents, le nombre de clusters de documents doit être égal au nombre de thématiques, ce qui n est pas toujours vrai en pratique. Notre modèle PLSA étendu est capable de capturer les thématiques sur deux niveaux de généralité différents : les thématiques générales du corpus, ainsi que des sous-thématiques. Ainsi notre modèle permet une modélisation plus fine du corpus de documents. De plus lorsqu il est utilisé pour faire du clustering de documents, notre modèle PLSA étendu permet de dissocier

158 158 Extraction de caractéristiques non supervisée pour les données textuelles le nombre de clusters du nombre de thématiques. Nous avons validé nos modèles expérimentalement sur deux tâches de recherche d information. La première tâche est le clustering thématique de documents, où le but est de regrouper les documents qui traitent de sujets similaires. Nous avons utilisé nos modèles C-CEM et PLSA étendu pour déterminer une nouvelle représentation des documents dans l espace des concepts, et nous avons comparé les performances à celles obtenues avec la représentation initiale dans l espace des mots. Les expériences ont été menées sur les bases de textes Reuters, 20Newsgroups et WebKB, et la qualité des clusters obtenus a été évaluée avec les mesures de micro-précision, de micro-rappel et d information mutuelle. Nous avons ainsi montré que nos modèles permettent d améliorer la qualité des clusters obtenus par rapport à la représentation initiale des documents. La deuxième tâche qui nous a intéressé est le résumé automatique de texte. Dans cette thèse nous avons proposé un système de résumé automatique qui attribue un score à chaque phrase d un document donné, et le résumé final est constitué des phrases possédant les scores les plus élevés. Une des étapes cruciales de notre système est le choix de la représentation vectorielle des phrases. Nous avons utilisé notre modèle C-CEM pour déterminer des clusters de mots sémantiquement proches, que nous avons utilisés pour améliorer la représentation des phrases. Nous avons validé notre approche en participant à la compétition de résumé automatique TREC Parmi les 32 équipes participant à la compétition, notre système s est classé premier, deuxième et troisième pour les trois mesures d évaluation officielles de la compétition.

159 7 Extraction de caractéristiques multi-tâches Sommaire 7.1 Introduction Apprentissage multi-tâches transductif linéaire Apprentissage multi-tâches transductif Apprentissage hors ligne et en ligne Une instance non-négative de la régression multi-tâches Présentation Algorithmes hors ligne Algorithme en ligne Une instance de l ordonnancement d instances multi-tâches Présentation Algorithme hors ligne Algorithme en ligne Conclusion Introduction Dans ce chapitre nous présentons un cadre unifié d apprentissage multi-tâches pour la classification, la régression et l ordonnancement d instances. Dans les trois cas, nous nous intéressons à un choix particulier de fonctions de prédiction, nous permettant d apprendre sans connaître les représentations vectorielles des observations à l avance. Cette propriété est particulièrement intéressante lorsque les représentations vectorielles comportent des valeurs manquantes ou sont difficiles à obtenir. C est le cas par exemple en filtrage collaboratif, comme nous le verrons dans le chapitre 8. Ce chapitre est organisé de manière suivante. Dans la section 7.2, nous reprenons le cadre d apprentissage multi-tâches transductif linéaire présenté dans le chapitre 2. Nous adaptons ce cadre, initialement prévu pour apprendre des problèmes de classification et de régression, à l ordonnancement d instances. Ce cadre général nous permet une formulation unifiée des problèmes de classification, de régression et d ordonnancement d instances multi-tâches. Dans la section 7.3, nous nous intéressons à une instance

160 160 Extraction de caractéristiques multi-tâches particulière de la régression multi-tâches, dont l originalité principale réside dans des contraintes de non-négativité sur le modèle. Ces contraintes de non-négativité rendent le modèle interprétable, et nous permettent de formuler des algorithmes d apprentissage rapides et simples à implémenter. Dans la section 7.4, nous nous intéressons à une instance particulière de l ordonnancement d instances multi-tâches. Une difficulté majeure de l ordonnancement d instances multi-tâches est d ordre algorithmique, puisque l apprentissage nécessite de considérer toutes les paires d observations possibles. Nous proposons des algorithmes d apprentissage de complexité linéaire dans un cas particulier important, permettant ainsi de traiter de plus grandes quantités de données. Nous conclurons dans la section Apprentissage multi-tâches transductif linéaire Dans cette section nous reprenons le cadre d apprentissage multi-tâches transductif présenté dans le chapitre 2. Ce cadre est initialement prévu pour apprendre des problèmes de classification et de régression multi-tâches. Dans la section 7.2.1, nous l adaptons au cas de l ordonnancement d instances, puis nous nous intéressons à un cas particulier de fonctions de prédiction linéaires que nous utiliserons dans la suite de ce chapitre. Dans la section 7.2.2, nous présentons les deux scénarios d apprentissage que nous voulons résoudre : l apprentissage hors ligne d un ensemble de tâches initiales, et l apprentissage en ligne de nouvelles tâches Apprentissage multi-tâches transductif Soit un ensemble d observations X = (x 1,..., x m ) X, et considérons un ensemble de tâches d apprentissage T = {T 1,..., T n } de X dans Y. Pour chaque tâche T l, considérons l ensemble d exemples S l = {(x l 1, yl 1 ),..., (xl m, y l m)} tirés indépendamment de la distribution inconnue P l. C est le même ensemble d observations X qui est utilisé dans tous les ensembles S l. Pour chaque base S l, les exemples se divisent en un ensemble d apprentissage et un ensemble de test : S l = S app l S test l. La même observation x X pourra faire partie des exemples d apprentissage dans certaines tâches, et faire partie des observations de test dans d autres. Erreur empirique jointe et erreur de test jointe En apprentissage multi-tâches, nous minimisons l erreur empirique jointe (l erreur empirique moyenne sur toutes les tâches) dans le but de minimiser l erreur de test jointe (l erreur de test moyenne sur toutes les tâches). L erreur empirique jointe et l erreur de test jointe prennent des formes différentes, selon que nous voulons apprendre des problèmes de classification, de régression, ou d ordonnancement d instances. Classification multi-tâches et régression multi-tâches Considérons que les tâches de T sont des problèmes de classification ou de régression. L erreur empirique sur

161 7.2 Apprentissage multi-tâches transductif linéaire 161 chaque tâche T l est l erreur moyenne sur les exemples d apprentissage de S l app, et l erreur empirique jointe est la somme des erreurs empiriques sur toutes les tâches : E emp ({ f 1,..., f n }) = n 1 S l l=1 app (xi l,yl i ) S app l Notre but est alors de minimiser l erreur de test jointe : E test ({ f 1,..., f n }) = n l=1 1 S test l (x l i,yl i ) S l test L(y l i, f l(xi l )) (7.1) L(y l i, f l(xi l )) (7.2) 1 1 Nous remarquons que dans les erreurs empiriques (7.1) et (7.2) les termes et S app l S test l ne se factorisent pas en général pour les problèmes où les tâches comportent un nombre variable d exemples. Ordonnancement d instances multi-tâches Considérons que les tâches de T sont des problèmes d ordonnancement d instances. L erreur empirique sur chaque tâche T l est l erreur de classification sur les paires cruciales de S app, l et l erreur empirique jointe est la somme des erreurs empiriques sur toutes les tâches : E emp ({ f 1,..., f n }) = n l=1 (z i,z j ) S l app 1 [[y l i > y l j ]] (z i,z j ) S l app y l i >yl j [[ f l (x i ) f l (x j ) ]] où [[π]] vaut 1 si le prédicat π est vrai et 0 sinon. (z i,z j ) S app l [[yl i > y l j ]] est ainsi le nombre de paires cruciales de la base S app. Notre but est de minimiser l erreur de test jointe : E test ({ f 1,..., f n }) = n l=1 (z i,z j ) S l test 1 [[y l i > y l j ]][[ f l(x i ) f l (x j ) ]] Fonctions de prédiction linéaires Reprenons la famille de fonctions de prédiction linéaires présentée dans le chapitre 2. À chaque observation x i X, nous associons deux vecteurs Φ(x i ) et Ψ(x i ), où Φ : X R p et Ψ : X R q pour p, q > 0. Notons également C une matrice de projection (k q) avec k N assez petit par rapport à la dimension de départ. Pour chaque tâche l, nous considérons la fonction de prédiction : f l (x i ) = a T l Φ(x i) + b T l CΨ(x i) où a l R p, b l R K et C sont les trois paramètres de la fonction f l, et i {1,..., m}. Encore une fois, soulignons que nous ne nous intéressons qu à un ensemble X fixé d observations. Nous ne nous intéressons pas aux autres observations de l espace X. Rappelons également que les fonctions Φ(x) et Ψ(x) correspondent à des représentations vectorielles de l objet décrit par x. Ces deux fonctions peuvent être considérées comme des informations de description supplémentaires que nous voulons exploiter pour l apprentissage.

162 162 Extraction de caractéristiques multi-tâches Cas particulier Dans la suite de cette thèse, nous nous intéressons au cas particulier où Φ(x i ) = 0 pour i {1,..., m}. Le vecteur Ψ(x i ) est tel que Ψ(x i ) d = 1 si i = d, 0 sinon. Nous voyons que ces deux fonctions ne contiennent que peu d information concernant les observations {x 1,..., x m }. En effet la fonction Φ ne contient aucune information sur les observations puisqu elle est toujours nulle. Quant à la fonction Ψ, la seule information qu elle contient sur l observation x i ne dépend que de l indice i {1,..., m}. Avec ce choix des fonctions Φ et Ψ, la prédiction associée à l observation x i pour la tâche l s écrit simplement où C.i est la i-ième colonne de C. f l (x i ) = b T l CΨ(x i) = b T l C.i (7.3) Le choix des fonctions Φ et Ψ définies précédemment peut paraître très arbitraire et limitant. En effet, la question suivante se pose naturellement : pourquoi s intéresser à un tel cas particulier en apprentissage multi-tâches transductif? La réponse est que les représentations vectorielles x i n interviennent à aucun moment dans le problème de minimisation précédent. Nous n avons besoin de connaître d une observation que son indice i {1,..., m}. Ainsi, nous sommes capables d apprendre un problème multi-tâches sur un ensemble d observations sans avoir besoin de connaître leurs représentations vectorielles. C est particulièrement utile lorsque les représentations vectorielles des données sont difficiles à obtenir, ou tout simplement inconnues. Dans le chapitre 8, nous verrons que c est le cas par exemple en filtrage collaboratif, où une application répandue consiste à faire des prédictions sur des articles culturels comme des livres, des films ou de la musique. En général les représentations vectorielles de ces articles ne sont pas disponibles, ou bien ne comportent que très peu d informations (auteur, genre, etc...) Apprentissage hors ligne et en ligne Il existe deux scénarios d apprentissage différents dans le cadre multi-tâches. L apprentissage multi-tâches hors ligne permet d apprendre simultanément un ensemble de tâches initiales. Une fois les différentes fonctions de prédiction apprises, nous pouvons faire des prédictions sur ce même ensemble de tâches. En revanche lorsqu une nouvelle tâche non vue en apprentissage arrive, nous voulons pouvoir l apprendre en utilisant le modèle appris de manière hors ligne. Nous parlons alors de l apprentissage en ligne d une nouvelle tâche. Ces deux problèmes trouvent plusieurs applications pratiques, notamment en filtrage collaboratif où nous considérons un ensemble d utilisateurs et un ensemble de films. Chaque utilisateur a noté quelques films. L apprentissage hors ligne permet de faire des prédictions de notes pour chaque utilisateur et pour chaque film initialement présent dans la base. Considérons maintenant un nouvel utilisateur, non rencontré pendant la phase d apprentissage et qui arrive a posteriori dans la base et note quelques articles. C est l apprentissage en ligne qui permet d apprendre ce nouvel utilisateur, et de faire des prédictions de notes pour les films qu il n a pas notés. Dans la suite de cette section, nous présentons les problèmes d apprentissage hors ligne et en ligne dans le cas de la classification multi-tâches, de la régression multi-

163 7.2 Apprentissage multi-tâches transductif linéaire 163 tâches et de l ordonnancement d instances multi-tâches. Apprentissage hors ligne L apprentissage hors ligne permet d apprendre un ensemble de tâches initiales. Que ce soit en classification, en régression ou en ordonnancement d instances, l apprentissage hors ligne peut s illustrer schématiquement dans la figure 7.1. Y B 1.. C.1... C.m B n. FIG. 7.1 Apprentissage hors ligne. Le but est d apprendre B et C à partir des éléments partiellement observés de Y. En revanche, le problème d optimisation à résoudre prend des formes différentes, selon que nous voulons apprendre des problèmes de classification et de régression, ou des problèmes d ordonnancement d instances. Dans la suite de cette section, nous présentons les différents cas d apprentissage multi-tâches hors ligne avec des notations matricielles. Soit F la matrice de taille n m telle que F li représente la prédiction pour la tâche T l et l observation x i. Avec les fonctions 7.3, nous avons donc : F li = f l (x i ) = b T l C.i. Notons B la matrice de taille (n K) telle que la l-ème ligne de B représente le vecteur b l. Il est aisé de voir que : F = BC Classification et régression multi-tâches En reprenant la famille de fonctions linéaires 7.3, l apprentissage d un problème de classification ou de régression multitâches par minimisation du risque empirique joint s écrit : n min {b l } l,c r(c) + g(b l) + 1 L(y l S app l i, bt l C.i) l=1 l=1 (x i,y l i ) S l app Dans la suite, il nous sera plus pratique de réécrire ce problème d optimisation sous la forme matricielle : n min r(c) + g(b l.) + 1 m δ B,C S app l li L(Y li, (BC) li ) (7.4) où δ li = 1 si (x i, y l i ) S l app, 0 sinon. Ainsi, nous voyons que le cas particulier d apprentissage multi-tâches qui nous intéresse se formule comme un problème de factorisation matricielle pondérée (et régularisée), que nous avons présenté dans le chapitre 5. Une fois le modèle (B, C) appris, la matrice de prédictions est BC, et la prédiction pour la tâche l et l exemple de test (x i, y i ) S test l s écrit simplement i=1 f l (x i ) = (BC) li

164 164 Extraction de caractéristiques multi-tâches Ordonnancement d instances multi-tâches En reprenant la famille de fonctions linéaires 7.3, l apprentissage d un problème d ordonnancement d instances multi-tâches par minimisation du risque empirique joint s écrit : min {b l } l,c r(c) + n l=1 g(b l ) + (z i,z j ) S l app 1 [[y l i > y l j ]] (z i,z j ) S l app y l i >yl j [[ b T l C.i b T l C. j ]] Avec les notations matricielles précédentes, et lorsqu il n y aura pas d ambiguïté entre les paires cruciales d apprentissage et les paires cruciales de test, nous écrirons simplement : min B,C r(c) + n l=1 g(b l. ) + 1 [[y l i > y l j ]] [[ (BC) li (BC) l j ]] y l i >yl j y l i >yl j (7.5) Une fois le modèle (B, C) appris, la prédiction pour la tâche l et la paire de test (x i, x j ) X 2 est simplement f l ((x i, x j )) = (BC) li (BC) l j Remarque Dans les formulations d apprentissage multi-tâches 7.4 et 7.5, nous remarquons que le problème d optimisation obtenu peut être vu comme un problème de factorisation matricielle de la matrice Y par un produit de facteurs BC. La principale différence entre les deux formulations est qu en classification et en régression, le produit de facteurs BC permet de prédire les entrées de chaque ligne de la matrice Y, alors qu en ordonnancement d instances il permet de les ordonner les unes par rapport aux autres. Apprentissage en ligne Dans cette section nous considérons qu un modèle a déjà été appris hors ligne. Le problème qui nous intéresse est celui de l apprentissage en ligne d une nouvelle tâche, non vue pendant l apprentissage hors ligne. Que ce soit en classification, en régression ou en ordonnancement d instances, l apprentissage en ligne s illustre schématiquement dans la figure 7.2. En revanche, le problème d optimisation à résoudre prend des formes différentes, selon que nous voulons apprendre des problèmes de classification et de régression, ou des problèmes d ordonnancement d instances. Dans la suite de cette section, nous supposons qu un modèle (B, C) a déjà été appris de manière hors ligne. Nous considérons l arrivée d une nouvelle tâche T, non vue pendant l apprentissage. Elle est associée à un ensemble d exemples S = {(x 1, y 1 ),..., (x m, y m)} tirés indépendamment d une distribution inconnue P. Les exemples de S se divisent en un ensemble d exemples d apprentissage S app et un ensemble d exemples de test S test : S = S app S test

165 7.2 Apprentissage multi-tâches transductif linéaire 165 ( Y ) y B 1.. B n. ( b ) C.1... C.m FIG. 7.2 Apprentissage en ligne d une nouvelle tâche. Les matrices B, C ont déjà été apprises par apprentissage hors ligne sur Y. Le but est d apprendre b à partir de C et des éléments partiellement observés de y. Classification et régression multi-tâches La matrice commune C étant connue et fixée, l apprentissage de T est un problème de classification ou de régression classique. Le principe de minimisation du risque empirique s écrit : min b g(b) + 1 i δ i où δ i = 1 si (x i, y i ) S app, 0 sinon. m δ i L(bT C.i, y i ) La résolution du problème d optimisation précédent dépend de la forme particulière de la fonction de coût L, de la fonction de régularisation g et de l espace de recherche du vecteur b. Dans les cas les plus simples sans contrainte, où la fonction de coût et la fonction de régularisation sont dérivables, de simples descentes de gradient suffiront à apprendre le vecteur de paramètres b. Une fois le vecteur de paramètres b appris, les prédictions sur les exemples de test (x i, y i ) S test s écrivent simplement : i=1 f (x i ) = b T C.i Ordonnancement d instances multi-tâches La matrice commune C étant connue et fixée, l apprentissage de T est un problème d ordonnancement d instances classique. Le principe de minimisation du risque empirique s écrit : min b g(b) + (z i,z j ) S app 1 [[y i > y j ]] [[ b T C.i b T C. j ]] y i >y j Comme en apprentissage en ligne, la résolution de ce problème d optimisation est rendu difficile par l erreur de classification 0/1, qui n est pas dérivable. Une fois le vecteur de paramètres b appris, la prédiction pour la paire de test (x i, x j ) X2 s écrit simplement : f ((x i, x j )) = sgn(b T C.i b T C. j )

166 166 Extraction de caractéristiques multi-tâches 7.3 Une instance non-négative de la régression multitâches Dans cette section nous présentons une instance particulière du problème de régression multi-tâches présenté dans la section L originalité de cette instance tient principalement dans les contraintes de non-négativité que nous imposons à notre modèle (section 7.3.1). Nous verrons que de telles contraintes rendent le modèle interprétable, et permettent des implémentations algorithmiques simples et efficaces pour l apprentissage hors ligne (section 7.3.2) et en ligne (section 7.3.3) Présentation Choix des fonctions de coût et de régularisation Reprenons la forme générale de régression multi-tâches présentée dans la section Le principe de minimisation du risque empirique joint s écrit : n min {b l } l r(c) + g(b l) + 1 m δ,c S app l li L(b T l C.i, y l i ) l=1 où δ li = 1 si (x i, y i ) S l app, 0 sinon. C est une formulation très générale pour la régression multi-tâches, et en particulier nous n avons spécifié ni la fonction de coût L ni les fonctions de régularisation r et g. Dans cette section, nous présentons une instance particulière de ce problème général. La fonction de coût que nous choisissons est l erreur carrée, qui est une fonction de coût classique en régression : i=1 L(y, f (x)) = (y f (x)) 2 Nous allons régulariser les paramètres b l de deux manières différentes. Notons L K l espace de fonctions correspondant, c est à dire l ensemble des fonctions linéaires f (x) = b T x pour b R K. D abord, nous reprenons le cadre de la régression linéaire régularisée en apprentissage supervisé (voir chapitre 2). Nous pénalisons donc la norme euclidienne des vecteurs de paramètres, et la fonction de régularisation g est : g(b l ) = β b l 2 = β pour l {1,..., n}. Le coefficient β 0 est un coefficient de régularisation à fixer par l utilisateur. Plus la valeur de β est grande, et plus l apprentissage favorise les vecteurs de faible norme. À l inverse si β = 0, alors l apprentissage n est pas régularisé. L utilisation de la norme euclidienne permet de pénaliser les vecteurs de norme élevée. Plus la pénalisation est importante, et plus nous considérons implicitement des espaces de fonctions simples. Ainsi ce type de régularisation est une manière indirecte de limiter la complexité de la classe de fonctions. En plus de la régularisation par la norme euclidienne, nous imposons également les contraintes de non-négativité sur les vecteurs de paramètres : b lk 0 pour l {1,..., n} et k {1,..., K}. La contrainte de non-négativité précédente doit également être comprise comme une manière de limiter la complexité de l espace de fonctions L K. Plus K k=1 b 2 lk

167 7.3 Une instance non-négative de la régression multi-tâches 167 précisément, nous ne considérons que les fonctions paramétrées par un vecteur b positif. En excluant toutes les fonctions linéaires paramétrées par des vecteurs comportant des termes négatifs, les contraintes de non-négativité sont une manière directe de limiter cette complexité. Finalement nous voyons que nous limitons la complexité de l espace L K de deux manières différentes : une régularisation directe via les contraintes de non-négativité, et une régularisation indirecte via la norme euclidienne. Concernant la régularisation de la matrice commune C, nous utilisons la norme de Frobenius : r(c) = γ C 2 = γ K m k=1 i=1 Là aussi le coefficient γ 0 est un coefficient de régularisation à fixer par l utilisateur. Plus sa valeur est grande, et plus l apprentissage de C est régularisé. Comme avec les paramètres b l, nous imposons des contraintes de non-négativité sur la matrice C : C ki 0 pour k {1,..., K} et i {1,..., m}. Là aussi nous régularisons l espace des matrices C de deux manières différentes : une régularisation directe via la contrainte de non-négativité, et une régularisation indirecte via la fonction r. C 2 ki Justification Le choix de la fonction de coût L et de la fonction de régularisation g découle directement de la régression linéaire régularisée présentée dans le chapitre 2. Le choix de la fonction de régularisation r se justifie par le souhait de n avoir que des termes carrés dans l expression du risque empirique moyen. Cela rend son expression simple à calculer et facilement dérivable, ce qui sera une propriété agréable lorsque nous aurons besoin d écrire des algorithmes permettant sa minimisation. D autre part nous souhaitons que notre modèle soit interprétable, à la manière de la factorisation en matrices non négatives (voir chapitre 4 et 5). Nous voulons être capables d exprimer chaque observation comme une combinaison linéaire d observations type. Nous voulons également que chaque coefficient de la combinaison représente l importance de l observation type correspondante pour "expliquer" l observation. Nous choisissons donc d imposer à notre modèle les mêmes contraintes de nonnégativité que celles de la factorisation en matrices non négatives Algorithmes hors ligne Formulation Dans cette section nous nous intéressons à l apprentissage hors ligne d un ensemble de tâches de régression. Avec les choix précédents pour la fonction de coût L, les fonctions de régularisation r et g et les contraintes de non-négativité, le principe de minimisation du risque empirique joint s écrit : n min {b l 0} l γ,c 0 C 2 + β b l m δ S app l li (b T l C.i y l i )2 l=1 Avec les notations matricielles de la section 7.2.2, le problème d optimisation précédent devient : i=1

168 168 Extraction de caractéristiques multi-tâches min B 0,C 0 γ C 2 + β B 2 + n l=1 1 S l app m δ li ((BC) li Y li ) 2 i=1 avec δ li = 1 si (x i, y i ) S l app, 0 sinon. Montrons que cette formulation de l apprentissage multi-tâches peut être vue comme un problème de factorisation matricielle. Concentrons sur l erreur empirique moyenne, en oubliant pour le moment les fonctions de régularisation des matrices B et C : f (BC, Y) = = = = n 1 S l l=1 app i=1 n m l=1 i=1 n l=1 i=1 n l=1 i=1 m δ li ((BC) li Y li ) 2 δ li S l app ((BC) li Y li ) 2 m (W li (BC) li W li Y li ) 2 m ((W (BC Y) li ) 2 = W BC W Y 2 où W est une matrice (n m) telle que W li = δli. Finalement le problème d opti- S app l misation que nous voulons résoudre s écrit : min W (BC B 0,C 0 Y) 2 + β B 2 + γ C 2 (7.6) Rappelons que dans une de ses formulations les plus répandues, la factorisation matricielle a pour but de minimiser la norme de Frobenius BC Y 2 avec des contraintes éventuelles sur les matrices B et C. Il est aisé de voir que la norme de Frobenius est un cas particulier de la fonction de coût f, où W est simplement une matrice remplie de 1. Cela correspond à la factorisation d une matrice dont toutes les entrées sont connues. Dans le cas général, la matrice W permet d associer un poids à chaque entrée de la matrice. Nous avons alors affaire à un problème de factorisation matricielle pondérée. Ces poids permettent d accorder plus ou moins d importance à certaines entrées de la matrice, voire d ignorer certaines entrées en leur associant un poids nul. Dans notre cadre d apprentissage multi-tâches transductif, ces entrées de poids nuls correspondent aux étiquettes des exemples de test, inconnues au moment de l apprentissage. Algorithmes Dans cette section, nous proposons deux algorithmes pour résoudre le problème de factorisation matricielle pondérée 7.6, où les deux matrices Y 0 et W 0 sont

169 7.3 Une instance non-négative de la régression multi-tâches 169 connues et fixées, et β 0 et γ 0 sont les deux coefficients de régularisation à fixer par l utilisateur. La difficulté principale de ce problème d optimisation vient de la présence des poids W li. En effet, la plupart des méthodes de factorisation matricielle classique ne sont pas capables d associer des poids aux éléments de la matrice. Nous proposons deux approches pour résoudre ce problème. Dans la première nous allons considérer un cas particulier du problème d optimisation précédent, qui nous permettra de ramener le problème de factorisation pondérée à un problème de factorisation classique. Le deuxième méthode est une extension d une méthode de factorisation en matrices non négatives classique, permettant de minimiser directement la norme de Frobenius pondérée. Algorithme wrapper FMN Dans cette section nous proposons une solution pour résoudre le problème de factorisation matricielle pondérée précédent dans le cas particulier où les coefficients W li sont binaires : W li {0, 1}. Autrement dit nous nous intéressons à des matrices à "trous" : si l élément Y li est observé W li = 0, s il n est pas observé W li = 1. Nous supposons également que les coefficients de régularisation sont nuls : β = γ = 0. Finalement, la fonction de coût que nous voulons minimiser est : L(BC) = W (BC Y) 2 La factorisation d une matrice à "trous" est difficile à cause de la matrice de poids W qui rend le problème non convexe. L idée de l algorithme wrapper FMN est de se ramener à une matrice pleine, afin de pouvoir appliquer la factorisation en matrices non négatives classique. L algorithme est appelé wrapper FMN car il relance la méthode FMN à chaque itération. Plus précisément, supposons qu à l itération t de l algorithme nous avons une estimation de toutes les entrées (observées et non observées) de la matrice. Notons BC cette estimation. Nous pouvons alors utiliser ces entrées pour reconstruire une matrice pleine : les entrées initialement observées ne changent pas, et les entrées non observées sont prédites avec BC. La nouvelle matrice pleine s écrit W Y + (1 W) BC, où est le produit de deux matrices terme à terme. Sur cette nouvelle matrice pleine, nous pouvons ré-appliquer la FMN de [Lee et Seung, 2000]. Le pseudo-code résultant de l algorithme général est donné dans la figure 6. Algorithm 6: Wrapper FMN Entrée : W {0, 1} n m Initialisation: B 0, C 0 aléatoires répéter B, C FMN k (W Y + (1 W) BC) jusqu à convergence de W (Y BC) 2 ; Sortie : B, C Maintenant que nous avons décrit l algorithme wrapper, nous allons expliquer en quoi il permet de minimiser la fonction de coût L. Pour cela, nous avons d abord besoin

170 170 Extraction de caractéristiques multi-tâches de définir la fonction auxiliaire suivante : f (X, Z) = W Y + (1 W) Z X 2 ( ) 2 = Wi j Y i j + (1 W i j )Z i j X i j i j ( ) 2 ( ) 2 = Wi j Y i j + (1 W i j )Z i j X i j + Wi j Y i j + (1 W i j )Z i j X i j W i j =1 W i j =0 ( ) 2 ( ) 2 = Yi j X i j + Zi j X i j W i j =1 W i j =0 = W (Y X) 2 + (1 W) (Z X) 2 La fonction f se décompose en une somme de deux termes positifs. Le premier terme est la norme de Frobenius pondérée, que nous cherchons à minimiser. La fonction f est donc une borne supérieure de cette fonction. Nous avons déjà souligné qu il est difficile de minimiser la norme de Frobenius pondérée. Nous allons donc chercher à minimiser la borne supérieure f. Pour la minimiser, une stratégie simple est une minimisation alternée de la forme : X (t+1) = arg min X X f (X, Z (t) ) Z (t+1) = arg min Z Z f (X (t+1), Z) Regardons plus précisément la deuxième étape. À X = X (t+1) fixé, la minimisation de f a pour solution évidente : Z (t+1) = arg min Z f (X (t+1), Z) = X (t+1) Nous pouvons donc réécrire les deux étapes de minimisation alternée sous la forme : X (t+1) arg min X X W Y + (1 W) Z (t) X 2 Z (t+1) X (t+1) Ou plus simplement : X (t+1) arg min X W Y + (1 W) X (t) X 2 En remplaçant X = BC nous reconnaissons un problème de factorisation de la matrice (W Y + (1 W) B (t) C (t) ) en matrices non négatives. Ainsi, notre algorithme peut être vu comme un algorithme de minimisation de la borne supérieure f de la norme de Frobenius pondérée. Mais nous pouvons faire mieux. Montrons maintenant que l algorithme wrapper FMN minimise non seulement la borne supérieure f, mais aussi la norme de Frobenius pondérée. Pour cela, calculons la valeur de f après chaque mise à jour de Z. Rappelons que pour X = X (t+1), la nouvelle valeur de Z vaut Z (t+1) = X (t+1) : f (X (t+1), Z (t+1) ) = f (X (t+1), X (t+1) ) = W (Y X (t+1) ) 2 + (1 W) (X (t+1) X (t+1) ) 2 = W (Y X (t+1) ) 2

171 7.3 Une instance non-négative de la régression multi-tâches 171 Or grâce aux étapes de minimisation alternée, il est évident que :... f (X (t+1), Z (t+1) ) f (X (t+1), Z (t) ) f (X (t), Z (t) )... Et en particulier : f (X (t+1), Z (t+1) ) f (X (t), Z (t) ) Comme f (X (t+1), Z (t+1) ) = W (Y X (t+1) ) 2 et f (X (t), Z (t) ) = W (Y X (t) ) 2, nous pouvons conclure : W (Y X (t+1) ) 2 W (Y X (t) ) 2 Finalement, la norme de Frobenius pondérée diminue à chaque itération t de l algorithme wrapper FMN. Calculons la complexité de l algorithme wrapper FMN. Notons n le nombre de tâches, K la dimension le rang de la factorisation et m le nombre d observations. Nous avons déjà vu que la complexité de la factorisation en matrices non-négatives est en O(nKmT 1 ), où T 1 est le nombre d itérations de l algorithme (voir chapitre 4). Notre algorithme comporte T 2 itérations, où chaque itération comporte une factorisation en matrices non-négatives. Ainsi, la complexité globale de notre algorithme est O(nKmT 1 T 2 ). Factorisation en matrices non-négatives généralisée. Dans le chapitre 5, nous avons présenté la factorisation en matrices non-négative généralisée (FMNG) de [Dhillon et Sra, 2006]. Cet algorithme permet de résoudre le problème de factorisation matricielle pondérée 7.6 dans le cas non régularisé, c est à dire β = γ = 0. Pour toute matrice Y 0 et pour toute matrice de poids W 0, la FMNG permet de résoudre min W (Y BC) 2 B 0,C 0 Dans cette section, nous adaptons cet algorithme en incorporant les termes de régularisation. Le pseudo-code correspondant est donné dans l algorithme 7. Algorithm 7: Factorisation en matrices non-négative généralisée Entrée : Y 0, W 0 Initialisation: B 0, C 0 aléatoires répéter B B (W W Y)CT (W W BC)C T +βb C C BT (W W Y) B T (W W BC)+γC jusqu à convergence de W (Y BC) 2 ; Sortie : B, C Pour démontrer que cet algorithme permet effectivement de résoudre le problème d optimisation 7.6, nous reprenons la démonstration de [Dhillon et Sra, 2006] en incluant les termes de régularisation. Considérons d abord l optimisation de la norme de Frobenius pondérée à C fixé. La fonction que nous voulons minimiser s écrit :

172 172 Extraction de caractéristiques multi-tâches f (B, C) = W Y W BC 2 + β B 2 + γ C 2 n m n K K m = (W li Y li W li (BC) li ) 2 + β B 2 lk + γ = l=1 i=1 n l=1 k=1 m K (W li Y li W li B lk C ki )2 + β l=1 i=1 k=1 l=1 k=1 k=1 i=1 C 2 ki n K K m B 2 lk + γ k=1 i=1 C 2 ki Nous calculons la dérivée de f par rapport à la variable B lk et nous obtenons : f B lk = m 2Wli 2 ((BC) lic ki Y li C ki ) + 2βB lk i=1 = 2[(W W (BC))C T ] lk 2[(W W Y)C T ] lk + 2βB lk L utilisation de simples descentes de gradient sur l ensemble des paramètres B lk ne tiendrait pas compte des contraintes B lk 0 et n est donc pas possible. Nous allons considérer un problème plus facile. Au lieu de considérer que la dérivée doit être nulle, nous allons simplement considérer que lorsque la variable B lk a convergé nous avons : ( 2[(W W (BC))C T ] lk 2[(W W Y)C T ] lk + 2βB lk ) Blk = 0 Autrement dit à la convergence de B lk, soit la dérivée est nulle, soit B lk = 0. L égalité précédente suggère la mise à jour suivante : [(W W Y)C T ] lk B lk B lk [(W W BC)C T ] lk + βb lk Cette mise à jour s interprète de la manière suivante. Si un algorithme effectuant la mise à jour précédente converge, alors nous avons l égalité : [(W W Y)C T ] lk B lk = B lk [(W W BC)C T ] lk + βb lk Autrement dit à la convergence de l algorithme il y a deux possibilités pour B lk. Soit B lk = 0. Soit B lk > 0, et dans ce cas [(W W Y)C T ] lk = [(W W BC)C T ] lk + βb lk. f L égalité entraîne l annulation de la dérivée : B lk = 0, et nous avons donc atteint un optimum local de la fonction. La mise à jour de l ensemble des paramètres B lk s écrit de manière plus concise et élégante avec les notations matricielles : B B (W W Y)C T (W W BC)C T + βb (7.7) Avec des arguments très similaires, nous minimisons la norme de Frobenius pondérée à B fixée avec la mise à jour suivante : [B T (W W Y)] ki C ki C ki [B T (W W BC)] ki + γc ki

173 7.3 Une instance non-négative de la régression multi-tâches 173 Avec les notations matricielles : C C B T (W W Y) B T (W W BC) + γc (7.8) Outre leur simplicité, l intérêt principal de ces formules de mise à jour réside dans le maintien implicite des contraintes de non-négativité. En effet, il est aisé de voir que si les matrices B, C, W et Y sont non-négatives, alors les nouvelles matrices B, C mises à jour par les formules 7.7 et 7.8 le sont aussi. Calculons maintenant la complexité de l algorithme FMNG. Considérons la mise à jour 7.7 de la matrice B. Le calcul de BC est en O(nKm), celui de W W BC en O(nm) et celui de (W W BC)C T en O(nKm). Au total, le calcul du dénominateur est en O(nKm). Le calcul du numérateur est également en O(nKm). Le calcul de la fraction est en nk, de même que le produit entre B et la fraction. Au total, la complexité de la mise à jour 7.7 est en O(nKm). La mise à jour 7.8 est également en O(nKm). Finalement, la complexité totale de l algorithme est en O(nKmT) où T est le nombre d itérations de l algorithme. Comparaison des deux algorithmes Dans cette section, nous avons présenté deux algorithmes pour résoudre le problème de factorisation matricielle pondérée 7.6. Le premier algorithme est l algorithme wrapper FMN. Cet algorithme présente deux avantages principaux. Son premier avantage est sa simplicité, puisqu il se contente d appeler itérativement l algorithme FMN. Deuxièmement, cet algorithme peut être facilement adapté pour étendre d autres techniques de factorisation matricielle au cas de matrices à "trous", comme cela a été fait par exemple pour la décomposition en valeurs singulières par [Srebro et Jaakkola, 2003]. Mais par rapport à la FMNG, l algorithme wrapper FMN présente deux inconvénients. D abord il ne permet de prendre en compte que des poids binaires : W li {0, 1}. Autrement dit il n est pas possible de normaliser l erreur de chaque utilisateur par le nombre de ses notes. La FMNG peut traiter toute matrice de poids W 0. Ensuite le wrapper FMN consiste à relancer itérativement plusieurs factorisations FMN, et sa complexité est en O(nKmT 1 T 2 ) contre O(nKmT) pour la FMNG. Finalement le wrapper FMN a un intérêt général, qui est de montrer qu il est parfois très facile d adapter une méthode de factorisation de matrices pleines au cas de matrices à "trous". En revanche cette approche est d un intérêt limité dans le cas spécifique de la factorisation en matrices non négatives, puisqu il existe déjà des algorithmes permettant de minimiser directement la norme de Frobenius pondérée. De plus le wrapper FMN ne permet de prendre en compte ni des poids réels, ni des coefficients de régularisation. Dans nos expériences, nous utiliserons donc plutôt la FMNG pour résoudre le problème d optimisation Algorithme en ligne Dans cette section nous considérons qu un modèle a déjà été appris hors ligne selon le principe de minimisation du risque empirique joint. Le problème qui nous intéresse est celui de l apprentissage d une nouvelle tâche, non vue en apprentissage.

174 174 Extraction de caractéristiques multi-tâches Formulation Nous supposons qu une matrice C de taille (K m) a déjà été apprise hors ligne sur un ensemble d observations fixé. L arrivée d une nouvelle tâche correspond à un ensemble d exemples S = {(x 1, y 1 ),..., (x m, y m)} tirés indépendamment d une distribution inconnue P. Une partie des exemples est disponible pour l apprentissage, les exemples restants constituent la nouvelle tâche de prédiction : S = S app S test. La matrice C ayant été apprise, nous retrouvons un problème de régression classique. La minimisation du risque empirique s écrit : min b 0 β b S app m δ i (bt C.i y i ) 2 où m app est le nombre d exemples d apprentissage, et δ i = 1 si (x i, y i ) S app, 0 sinon. Algorithme Proposons maintenant un algorithme d optimisation pour le problème précédent. Notons f la fonction à optimiser et calculons ses dérivées partielles : f (b) = β b S app f b k = 2βb k + 1 S app i=1 m δ i (b T C.i y i ) 2 i=1 m 2C ki δ i (b T C.i y i ) Et nous voulons résoudre le problème d optimisation sous contraintes : i=1 min b 0 f (b) D abord, remarquons qu une simple descente de gradient sur f ne tiendrait pas compte de la contrainte b 0. Une solution simple consiste à faire le changement de variable b k = e x k pour k {1,..., K}. L exponentielle nous offre un moyen simple de garantir la positivité de b k. Nous noterons e(x) R K le vecteur défini comme < e(x) > k = e x k. Avec le changement de variable, le problème devient un problème d optimisation sans contrainte : min( f e)(x) x Nous avons maintenant besoin de calculer les dérivées partielles de f e par rapport à x k. En utilisant la dérivée de la fonction composée f e, nous obtenons : f e x k = f (e x k )e x k b k 1 m = 2C ki δ i (e(x)t C.i y i ) + 2βe x k S app i=1 ex k

175 7.4 Une instance de l ordonnancement d instances multi-tâches 175 Complexité algorithmique Le produit b T C se calcule en O(Km). L évaluation de f se calcule donc en O(Km). L ensemble des dérivées partielles se calculent également en O(Km). 7.4 Une instance de l ordonnancement d instances multitâches Dans cette section nous présentons une instance particulière de l ordonnancement d instances multi-tâches présenté dans la section Dans la section 7.4.1, nous verrons que l erreur de classification 0/1 sur les paires cruciales est difficile à optimiser. Nous proposerons plutôt d optimiser une borne supérieure de cette erreur. Dans les sections et 7.4.3, nous formulerons les problème d apprentissage hors ligne et en ligne associés à cette borne supérieure, et nous proposerons des algorithmes pour les résoudre Présentation Choix des fonctions de coût et de régularisation Reprenons la forme générale d ordonnancement d instances multi-tâches présentée dans la section Avec les notations précédentes, le principe de minimisation jointe du risque empirique s écrit : min r(c) + {b l } l,c n l=1 g(b l ) + 1 [[y l i > y l j ]] [[ b T l C.i b T l C. j ]] y l i >yl j y l i >yl j L erreur de classification 0/1 est difficile à optimiser car elle n est pas dérivable. Nous avons déjà vu que les machines à vecteurs de support choisissent d optimiser l erreur de Hinge, qui est une borne supérieure de l erreur 0/1. C est également ce que nous allons faire dans un premier temps. Dans le chapitre 2, nous avons présenté l utilisation des machines à vecteurs de support pour l ordonnancement d instances. À matrice C fixée, la formulation d un MVS à marge molle pour le problème d ordonnancement d instances l s écrit : min β b l 2 + b l y l i >yl j max ( 0, 1 (b T l C.i b T l C. j) ) Nous choisissons dans ce cas de résoudre chaque tâche d ordonnancement d instances avec un MVS à marge molle. Le nouveau problème d optimisation devient : min r(c) + {b l } l,c n l=1 β b l [[y l i > y l j ]] max(0, 1 (b T l C.i b T l C. j)) y l i >yl j y l i >yl j

176 176 Extraction de caractéristiques multi-tâches Le coefficient β 0 est un coefficient de régularisation à fixer par l utilisateur. Plus sa valeur est grande, et plus l apprentissage favorise les vecteurs de faible norme. À l inverse si β = 0, alors l apprentissage n est pas régularisé. Concernant la régularisation de la matrice commune C, nous utilisons la norme de Frobenius : r(c) = γ C 2 = γ K m k=1 i=1 Là aussi le coefficient γ 0 est un coefficient de régularisation à fixer par l utilisateur. Plus sa valeur est grande, et plus l apprentissage est régularisé. Finalement le principe de minimisation du risque empirique joint s écrit : min γ C 2 + {b l } l,c n l=1 β b l 2 + C 2 ki 1 [[y l i > y l j ]] max(0, 1 (b T l C.i b T l C. j)) y l i >yl j y l i >yl j Borne supérieure exponentielle Comme nous l avons remarqué, à matrice C fixée le problème d optimisation précédent se décompose en n problèmes de de classification binaire indépendants, qui peuvent être résolus avec des MVS à marge molle. En revanche à vecteurs {b l } l fixés le problème d optimisation en C est difficile à résoudre. En remarquant que l erreur de Hinge peut être bornée par l erreur exponentielle (voir chapitre 2, figure 2.5 ) : max(0, 1 x) exp( x) Nous allons plutôt considérer une borne supérieure de l erreur de Hinge. Finalement, le problème d optimisation que nous allons résoudre s écrit : min γ C 2 + {b l } l,c n l=1 β b l [[y l i > y l j ]] exp(b T l C. j b T l C.i) y l i >yl j y l i >yl j Soulignons que c est l erreur de classification 0/1 des paires cruciales que nous voulons minimiser en généralisation. Le problème d optimisation correspondant étant difficile à résoudre, nous considérons une borne supérieure exponentielle, plus facile à minimiser. Notre espoir est que cette borne soit suffisamment étroite pour que sa minimisation permette de minimiser efficacement l erreur de classification 0/ Algorithme hors ligne Formulation matricielle Avec les notations matricielles de la section 7.2.2, le problème d optimisation précédent devient : min B,C γ C 2 + β B 2 + n 1 exp((bc) l j (BC) li ) α l l=1 y l i >yl j (7.9)

177 7.4 Une instance de l ordonnancement d instances multi-tâches 177 Les coefficients de normalisation α l > 0 sont à fixer par l utilisateur. Lorsque α l = (z i,z j ) S App l [[yl i > y l j ]], nous retrouvons l erreur empirique jointe normalisée par le nombre de paires cruciales de chaque utilisateur, mais nous pourrons également tester d autres stratégies de normalisation. Algorithme Dans cette section nous proposons un algorithme pour résoudre le problème d optimisation 7.9. Notons R la fonction à minimiser : n R(B, C) = γ C 2 + β B exp((bc) l j (BC) li ) α l=1 l y l i >yl j n = γ C 2 + β B 2 1 m m + δ l i j exp((bc) l j (BC) li ) l=1 α l où δ l i j = 1 si y l i > y l j, 0 sinon. La fonction R n est pas convexe en B et C simultanément, en revanche elle est convexe en B et C séparément. Nous adoptons donc une stratégie de minimisation alternée, qui consiste à fixer alternativement une des deux matrices et à minimiser R par rapport à l autre. La forme générale de notre algorithme, que nous appelons ordonnancement multi-tâches (OMT) est donnée dans la figure 8. i=1 j=1 Algorithm 8: Ordonnancement multi-tâches Entrée : L ensemble des paires cruciales {(y l i > y l j ) (i, j) {1,..., m}, l {1,..., n}} Initialiser: Initialiser B (1) et C (1) aléatoirement t 1 répéter B (t+1) arg min B R(B, C (t) ) C (t+1) arg min C R(B (t+1), C) t t + 1 jusqu à convergence de R(B, C) ; Sortie : B, C Il existe plusieurs méthodes d optimisation d une fonction connaissant son gradient. Dans tous les cas, nous avons besoin de calculer les gradients de R par rapport aux deux matrices de paramètres B, C. Après quelques calculs, nous obtenons : R = 2βB lk + 1 (C k j C ki ) e (BC) l j (BC) li B lk α l R C kt = 2γC kt + n y l i >yl j 1 α l=1 l i=1 pour k {1,..., K}, t {1,..., m} et l {1,..., m}. m [ ] B lk δ l it e (BC) lt (BC) li δ l ti e(bc) li (BC) lt

178 178 Extraction de caractéristiques multi-tâches Complexité algorithmique Calculons d abord la complexité algorithmique de l évaluation de la fonction R. Notons x la proportion moyenne d exemples disponible pour l apprentissage. Autrement dit le nombre moyen d exemples d apprentissage par tâche est xm. Dans le cas général où l espace de sortie Y = R, chaque tâche a en moyenne O((xm) 2 ) paires cruciales d apprentissage. Le calcul du produit BC est en O(nKm). Pour chaque tâche, le calcul de la somme sur les paires cruciales est en O((xm) 2 ). Le calcul de la somme sur toutes les tâches est en O(n(xm) 2 ). Le calcul des termes de régularisation est en O(nK + Km). Finalement, la complexité du calcul de R(B, C) est en O(nKm + n(xm) 2 ). La complexité du calcul de R/ B lk est en O((xm) 2 ). Le calcul de toutes les dérivées par rapport à la matrice de paramètres B est donc en O(nK(xm) 2 ). La complexité du calcul de R/ C kt en O(nxm). Le calcul de toutes les dérivées par rapport à la matrice de paramètres C est donc en O(nKxm 2 ). Il existe plusieurs méthodes de minimisation de fonction à partir de son gradient. Dans tous les cas, ce sont des méthodes itératives qui nécessitent à chaque itération de calculer une ou plusieurs fois la fonction minimisée R et les dérivées partielles par rapport aux matrices de paramètres B et C. Ce qu il est important de remarquer c est que la complexité globale est dominée par les termes en m 2, où m est le nombre total d observations. Lorsque m est grand la complexité algorithmique devient prohibitive, et notre algorithme OMT n est pas applicable. Heureusement, nous allons voir qu il est possible de linéariser le temps de calcul dans un cas particulier important. Cas particulier Dans la section précédente, nous avons calculé la complexité pour le cas général où l espace de sortie Y = R. Dans cette section, nous allons nous intéresser au cas particulier où Y = {1,..., V} pour V fixé. C est le cas par exemple en filtrage collaboratif, où nous considérons un ensemble d utilisateurs et un ensemble d articles. Les utilisateurs ont attribué des notes de 1 à 5 aux articles pour exprimer leurs goûts. Dans ce cas nous avons donc Y = {1, 2, 3, 4, 5}. Nous allons voir comment de réduire la complexité algorithmique de l algorithme OMT dans ce genre de cas particulier. n R(B, C) = γ C 2 + β B α l=1 l n = γ C 2 + β B α l=1 l n = γ C 2 + β B α l=1 l n = γ C 2 + β B α l=1 l n = γ C 2 + β B α l=1 l m m δ l i j exp((bc) l j (BC) li ) i=1 m j=1 i=1 j=1 m [[y l i > y l j ]] exp((bc) l j (BC) li ) V v=1 y l i =v exp((bc) l j (BC) li ) y l j <v V v=1 V m v=1 i=1 y l i =v e (BC)li χ l iv e (BC) li y l j <v e (BC)l j m j=1 ɛ l jv e(bc) l j

179 7.4 Une instance de l ordonnancement d instances multi-tâches 179 où χ l iv = 1 si yl i = v, 0 sinon et ɛ l jv = 1 si yl j < v, 0 sinon. Nous pouvons maintenant réécrire les dérivées partielles : R = 2βB lk + 1 V m m B lk α [ χ l iv C kie (BC) li l ɛ l jv e(bc) l j v=1 i=1 j=1 m m ] + χ l iv e (BC) li ɛ l jv C k je (BC) l j i=1 R C kt = 2γC kt + m + i=1 n 1 j=1 α l=1 l v=1 χ l iv e (BC) li V [ ( χ l tvb lk e lt) m (BC) ( ) ] ɛ l tv B lk e (BC) lt j=1 ɛ l jv e(bc) l j pour k {1,..., K}, t {1,..., m} et l {1,..., n}. Complexité algorithmique Calculons la complexité algorithmique d évaluation de la fonction R. Notons x la proportion moyenne d exemples disponible pour l apprentissage. Autrement dit le nombre moyen d exemples d apprentissage par tâche est xm. Le produit BC se calcule en O(nKm). Le calcul de chacune des deux sommes mi=1 χ l iv e (BC) li et m j=1 ɛ l jv e(bc) l j est en O(xm) pour la tâche l. La double somme sur l et v se calcule donc en O(nV xm). Les termes de régularisation se calculent en O(nK+Km). Finalement, R(B, C) se calcule en O(nm(K + V x)). Calculons maintenant la complexité algorithmique de la dérivée partielle R/ B lk. Le produit BC se calcule en O(nKm). A l intérieur de la somme sur v, chacune des quatre sommes se calcule en O(xm). La dérivée partielle se calcule donc en O(V xm). Le calcul de toutes les dérivées partielles par rapport à la matrice de paramètres B est donc en O(nKV xm). Nous allons procéder différemment pour le calcul des dérivées partielles R/ C kt. Nous allons partir d une matrice de nombres dérivés [ R/ C kt ] de taille (K m) initialement nulle, que nous allons mettre à jour en considérant les contributions de chaque tâche. Le produit BC se calcule en O(nKm). Pour chaque tâche l, le calcul de chacune des deux sommes m i=1 χ l iv e (BC) li et m j=1 ɛ l jv e(bc) l j est en O(xm). Nous pouvons alors calculer les termes : ( ) χ l tv B lk e (BC) lt m i=1 χ l iv e (BC) li m j=1 ɛ l jv e(bc) l j ( ) ɛ l tv B lk e (BC) lt pour k {1,..., K} et v {1,..., V}, avec une complexité en O(KV xm). Une fois calculés, nous pouvons mettre à jour la matrice des nombres dérivés [ R/ C kt ]. Nous devons répéter ces mises à jour pour toutes les tâches. Finalement, la matrice des

180 180 Extraction de caractéristiques multi-tâches nombres dérivés se calcule en O(nKV xm). Comme précédemment, la complexité finale de l algorithme de minimisation alternée de R dépend de la technique d optimisation utilisée pour minimiser R à matrice B ou C fixée. Dans tous les cas, ce sont des méthodes itératives qui nécessitent à chaque itération de calculer une ou plusieurs fois la fonction minimisée R et les dérivées partielles par rapport aux matrices de paramètres B et C. Contrairement au cas précédent Y = R, les termes de complexité en m 2 ont maintenant disparu. Ainsi dans le cas particulier où les étiquettes sont des éléments de Y = {1,..., V}, notre algorithme d apprentissage devient linéaire en chacune des dimensions du problème ( n, m, K, V ), et peut ainsi traiter de plus grandes quantités de données Algorithme en ligne Dans cette section nous considérons qu un modèle a déjà été appris selon le principe de minimisation jointe du risque empirique. Le problème qui nous intéresse est celui de l apprentissage d une nouvelle tâche. Formulation Nous supposons qu une matrice C de taille K m a déjà été apprise hors ligne sur un ensemble d observations X fixé. L arrivée d une nouvelle tâche correspond à un ensemble d exemples S = {(x 1, y 1 ),..., (x m, y m)} tirés indépendamment d une distribution inconnue P. Une partie des exemples est disponible pour l apprentissage, les exemples restants constituent la nouvelle tâche de prédiction : S = S app S test. La matrice C ayant été apprise, nous retrouvons un problème d ordonnancement d instances classique. La minimisation du risque empirique s écrit : min b β b z i,z [[y j i > y j ]] y i >y j e (bt C. j b T C.i ) où b R K est le nombre de paires cruciales d apprentissage de la nouvelle tâche. Algorithme Dans cette section nous proposons un algorithme simple pour résoudre le problème d optimisation précédent. Notons f la fonction à minimiser, et calculons ses dérivées partielles : f (b) = β b α f b k = 2βb k + 1 α m i=1 m i=1 m i= j δ i j e(bt C. j b T C.i ) m δ i j (C k j C ki )e (bt C. j b T C.i ) i= j où δ i j = 1 lorsque y i > y j, 0 sinon. Le coefficient α est un coefficient de normalisation à préciser. Lorsque α = z i,z [[y j i > y j ]] nous retrouvons la formule du risque

181 7.5 Conclusion 181 empirique normalisée par tâche. Mais nous pourrons également tester d autres stratégies de normalisation. Calculons la complexité algorithmique de l évaluation de f et de ses dérivées partielles. Le produit b T C se calcule en O(Km). Notons x la proportion d exemples disponible pour l apprentissage. Autrement dit le nombre d exemples d apprentissage pour la nouvelle tâche est xm. Dans le cas général Y = R il y a O((xm) 2 ) paires cruciales d apprentissage. La fonction f (b) se calcule en O(m(K + mx 2 )). La dérivée partielle f / b k se calcule également en O(m(K + mx 2 )). L ensemble des dérivées partielles se calcule en O(K(mx) 2 ). Comme en apprentissage hors, les complexités sont dominées par les termes en m 2, ce qui rend l utilisation de ces méthodes difficile lorsque m est grand. Cas particulier Comme en apprentissage hors ligne, nous pouvons linéariser la complexité en m dans le cas Y = {1,..., V}. Plus précisément, nous pouvons réécrire f et ses dérivées partielles : f (b) = β b V m m α χ C.i iv e bt ɛ C. j jv ebt v=1 i=1 f = 2βb k + 1 V m m b k α [ χ iv C kie bt C.i ɛ C. j jv ebt v=1 i=1 j=1 m m ] + χ C.i iv e bt ɛ jv C k je bt C. j i=1 où χ iv = 1 si y i = v, 0 sinon et ɛ jv = 1 si y j < v, 0 sinon. j=1 Calculons la nouvelle complexité algorithmique de f. Le produit b T C se calcule en O(Km). Notons x la proportion d exemples disponible pour l apprentissage. Autrement dit le nombre d exemples d apprentissage pour la nouvelle tâche est xm. La somme sur v se calcule en O(V xm). Finalement la fonction f se calcule en O(m(K + V x)). Dans la dérivée partielle f / b k, la somme sur v se calcule en O(). La dérivée partielle se calcule donc en O(m(K + V x)), et l ensemble des dérivées partielles en O(KV xm). Les termes de complexité deviennent donc tous linéaires en m. j=1 7.5 Conclusion Dans ce chapitre nous avons formulé un cadre général pour l apprentissage multitâches transductif pour la classification, la régression et l ordonnancement d instances. Nous avons vu que pour un choix particulier de fonctions linéaires, les trois problèmes peuvent se formuler comme des cas particuliers de factorisation matricielle, où certaines entrées de la matrice à factoriser ne sont pas observées. Puis nous nous sommes intéressés à deux instances particulières de ce cadre général d apprentissage multitâches. Dans un premier temps nous nous sommes intéressés à la régression multi-tâches. Du point de vue matriciel, ce problème revient à factoriser une matrice à "trous" dans

182 182 Extraction de caractéristiques multi-tâches le but de prédire ses entrées non observées. Nous avons étudié une instance particulière du problème général, dont l originalité principale réside dans les contraintes de nonnégativité que nous imposons à notre modèle. Ces contraintes rendent le modèle interprétable, et nous ont permis de formuler des algorithmes d apprentissage hors ligne et en ligne rapides et simples à implémenter. Dans un deuxième temps nous nous sommes intéressés à l ordonnancement d instances multi-tâches, dont nous avons étudié une instance particulière. Du point de vue matriciel, ce problème revient à factoriser une matrice à "trous" dans le but d ordonner les éléments non observés sur chaque ligne de la matrice. À notre connaissance, nous sommes les premiers à avoir formulé le problème général d ordonnancement multitâches, et à avoir proposé des algorithmes d apprentissage hors ligne et en ligne pour en résoudre une instance particulière. Dans le cas particulier où l ordre entre les observations est induit par des notes entières, nous avons vu comment linéariser la complexité de nos algorithmes, afin de pouvoir traiter de plus grandes quantités de données. Dans le chapitre 8, nous verrons que le cadre général d apprentissage multi-tâches décrit dans ce chapitre s applique naturellement à la prédiction dans des matrices à "trous". C est le cas notamment en filtrage collaboratif, où nous considérons une matrice de notes (utilisateurs articles). Chaque utilisateur a noté quelques articles, laissant une majorité de trous dans la matrice. La régression multi-tâches (section 7.3) nous permettra de prédire les notes non renseignées par les utilisateurs, alors que l ordonnancement multi-tâches (section 7.4) nous permettra d ordonner les articles les uns par rapport aux autres.

183 8 Application au filtrage collaboratif Sommaire 8.1 Introduction Présentation du filtrage collaboratif Enjeux du filtrage collaboratif Caractéristiques et spécifications des systèmes de filtrage collaboratif Prédiction pour le filtrage collaboratif Protocole expérimental Description et pré-traitements de la base initiale Génération des bases pour l apprentissage hors ligne et en ligne Mesures d erreurs Performances en généralisation faible Factorisation matricielle pour le filtrage collaboratif Décomposition en valeurs singulières pondérée Factorisation en matrices non-négatives généralisée Synthèse Performances en généralisation forte Interprétation et visualisation Description Discussion Conclusion Introduction D ans ce chapitre nous appliquons les modèles d extraction multi-tâches que nous avons développés dans le chapitre 7 au problème du filtrage collaboratif. En filtrage collaboratif, les données disponibles pour l apprentissage prennent la forme d une matrice de notes partiellement observée, correspondant aux notes que les utilisateurs ont bien voulu renseigner. L application de notre modèle FMNG de régression multitâches (section 7.3) permet de prédire les notes non renseignées par les utilisateurs. L application de notre modèle OMT d ordonnancement d instances multi-tâches (section 7.4) permet d ordonner les articles non notés. Dans ce chapitre nous évaluons les

184 184 Application au filtrage collaboratif performances en prédiction de notes et en prédiction d ordre de nos deux modèles. Pour cela nous comparons nos résultats à d autres méthodes de prédiction sur la base standard MovieLens. Ce chapitre est organisé de la manière suivante. Dans la section 8.2, nous présentons le problème du filtrage collaboratif. Nous montrons que le problème peut être formulé comme un problème de prédiction de notes, ou bien comme un problème de prédiction d ordre. Dans la section 8.3, nous présentons le protocole expérimental utilisé pour évaluer les méthodes de prédiction de notes et de prédiction d ordre, dans les deux scénarios d apprentissage qui nous intéressent : l apprentissage hors ligne d un ensemble d utilisateurs initiaux, et l apprentissage en ligne de nouveaux utilisateurs. Puis nous présentons les résultats expérimentaux de nos deux méthodes en apprentissage hors ligne (section 8.4) et en ligne (section 8.5). Enfin dans la section 8.6, nous explorons les capacités d interprétabilité du modèle FMNG, notamment en terme de détection de communautés d utilisateurs. 8.2 Présentation du filtrage collaboratif Dans cette section nous présentons le problème général du filtrage collaboratif. Nous décrivons ses enjeux et ses applications dans la section Dans la section 8.2.2, nous présentons les différentes formulations existantes du problème, en insistant sur celle que nous étudions dans cette thèse. Dans la section 8.2.3, nous formulons le filtrage collaboratif comme un problème de prédiction de notes, puis comme un problème de prédiction d ordre. Nous verrons que ces deux formulations sont similaires mais ne sont pas équivalentes, et que la prédiction d ordre offre une nouvelle direction de recherche dans la conception de systèmes de recommandation Enjeux du filtrage collaboratif Avec le développement du commerce électronique, les internautes se voient proposer un choix grandissant de produits et de services en ligne. Pour les guider, la plupart des sites utilisent des systèmes de recommandation. Leur but est de générer des recommandations personnalisées, c est à dire de déterminer pour chaque utilisateur les produits ou articles les plus susceptibles de l intéresser. Pour y parvenir, les implémentations les plus efficaces à ce jour utilisent les préférences des autres utilisateurs pour générer ces recommandations : c est le principe du filtrage collaboratif. Le filtrage collaboratif est particulièrement adapté pour recommander des produits culturels comme des films, des livres ou de la musique, et est utilisé avec succès par des systèmes de recommandation commerciaux en ligne comme Amazon.com ou CDnow.com. Les techniques de filtrage collaboratif ont en particulier donné naissance à un grand nombre de systèmes de recommandation sur Internet, par exemple pour les films ( MovieLens 1, ymdb.com,...), ou pour les pages Web (Del.icio.us 2 ) grâce à la mise en commun des signets. Elles sont aussi à la base des propositions personnalisées d articles à acheter qui sont faites sur les sites commerciaux comme Amazon.com ou CD- Now.com. Le développement de systèmes de filtrage collaboratif performants présente 1 http :// 2 http ://del.icio.us/

185 8.2 Présentation du filtrage collaboratif 185 donc des enjeux économiques importants Caractéristiques et spécifications des systèmes de filtrage collaboratif Il existe plusieurs cadres de filtrage collaboratif. Le plus connu et le plus étudié est le filtrage collaboratif pur, non séquentiel et à base de notes, que nous utilisons dans ce chapitre. Dans cette section nous décrivons ce cadre particulier, puis nous présentons les principales caractéristiques attendues d un algorithme de filtrage collaboratif dans ce cadre. Différents cadres de filtrage collaboratif Les différents cadres développés pour le filtrage collaboratif comprennent des approches pures ou hybrides, et elles peuvent être séquentielles ou non-séquentielles. Le terme pur indique que l on n utilise que les jugements des autres utilisateurs pour effectuer les recommandations, sans prendre en compte de descriptions des articles ; cela revient à prédire les jugements dans des cas où la seule information disponible sur chaque article est son identifiant. Ce cadre a été largement étudié (voir [Marlin, 2004a] pour un état de l art complet), parce qu il montre la capacité d un algorithme à combiner uniquement les jugements utilisateurs. Il peut aussi être utilisé dans des applications plus générales, par exemple dans le cas de la recherche d un film par genre ou par réalisateur, où une présélection des articles est faite à partir de leur description, et la recommandation est faite en sélectionnant parmi ces articles. Des approches utilisant en même temps les jugements utilisateurs et des descripteurs des articles sont appelées approches de filtrage collaboratif hybrides car elles mélangent les filtrages d information collaboratif et basé sur le contenu. Elles ont aussi été étudiées et peuvent améliorer les prédictions dans des applications [Basilico et Hofmann, 2004]. L aspect non-séquentiel des systèmes de filtrage collaboratif correspond à l hypothèse que l ordre dans lequel les jugements sont collectés n influe pas sur la recommandation. C est le cadre le plus largement étudié, mais des applications particulières peuvent introduire l ordre chronologique des jugements, par exemple si l on souhaite utiliser l historique des pages visitées durant la navigation d un utilisateur sur un site pour guider la recommandation [Shani et al., 2005]. Dans cette thèse, nous nous plaçons dans un cadre de filtrage collaboratif pur, nonséquentiel, et où les jugements sont des notes. Nous nous concentrons sur le filtrage collaboratif pur car nous pensons qu une nouvelle méthode de prédiction des notes doit dans un premier temps être évaluée pour ses performances intrinsèques en terme de combinaison de jugements d utilisateurs. De plus nous ne considérons pas l aspect séquentiel qui rajouterait la difficulté supplémentaire du traitement de l ordre chronologique des jugements. Finalement, nous considérons le cas où les jugements sont exprimés sous forme de notes. Cela correspond par exemple au cas où le système de filtrage collaboratif

186 186 Application au filtrage collaboratif demande à chaque utilisateur de fournir des jugements sur des articles de son choix, exprimés sous la forme d une note, un réel positif borné. C est le cas de la majorité des systèmes, par exemple pour la recommandation de films, où les utilisateurs peuvent donner des notes de 1 à 5. Stocké en machine sous la forme d une matrice de notes, ce type de jugements présente le double avantage d être facile à collecter et à traiter du point de vue du système. En effet, il est facile d implanter sur un site Web une interface permettant ce type de notation, et fournir une note pour un article n est pas très contraignant pour un utilisateur. Du point de vue du système, étant donné un utilisateur, l ensemble des notes associées aux articles est simplement représenté par un vecteur contenant d autant de composantes que d articles considérés sur le site, et où la valeur à une dimension donnée est la note qu a donné l utilisateur à l article correspondant à cette dimension. Il est alors facile de comparer les utilisateurs représentés par ce vecteur de notes, et la mise à jour d un vecteur, par exemple rajouter le jugement d un nouvel article, est aisée. L évaluation des systèmes de filtrage collaboratif pur, non-séquentiel avec des jugements sous forme de notes est un problème complexe. En effet, il serait naturel d évaluer la qualité des recommandations en simulant une situation de recommandation où seuls quelques articles seraient sélectionnés, le jugement de l utilisateur étant ensuite comparé à ces articles. Cependant, ce type d évaluation n est pas possible hors-ligne, car la majorité des jugements des articles ne sont pas disponibles. Il est donc très probable que les jugements pour les quelques articles sélectionnés soient inconnus. Bien que certaines méthodes aient été proposées pour effectuer ce type de simulations, elles sont réputées pour être peu fiables [Herlocker et al., 2004]. Les auteurs ont alors proposé d évaluer simplement la qualité des notes prédites, c est-à-dire, étant donné des articles dont les jugements sont connus mais qui n ont pas été considérés durant l apprentissage, comparer les notes prédites avec les notes réelles [Herlocker et al., 2004, Marlin, 2004a]. Bien que cette évaluation en terme de prédiction de notes ne corresponde pas avec l utilisation réelle d un système de filtrage collaboratif, elle permet néanmoins d avoir une mesure stable et fiable pour comparer les systèmes. C est donc en terme de prédiction de notes que nous allons évaluer notre algorithme FMNG. De même, c est en terme de prédiction d ordre que nous allons évaluer notre algorithme OMT. Les erreurs utilisées pour évaluer la prédiction de notes et la prédiction d ordre seront détaillées dans la section Caractéristiques des algorithmes La qualité de prédiction des notes est un critère important des systèmes de filtrage collaboratif, mais ce n est pas la seule ; plus précisément, [Marlin, 2004a] propose d étudier les caractéristiques suivantes : Performances en généralisation. Afin de mesurer la qualité de prédiction d un système de filtrage collaboratif, [Marlin, 2004a] propose deux définitions de la notion de généralisation : la généralisation dite faible mesure la qualité de prédiction des notes pour des utilisateurs qui étaient présents dans la base d apprentissage ; les systèmes de

187 8.2 Présentation du filtrage collaboratif 187 filtrage collaboratif ayant pour but de considérer des communautés d utilisateurs relativement restreintes, ce critère est le plus important et le plus étudié [Marlin, 2004a]. Cependant, les sites Web utilisant un système de filtrage collaboratif devant pouvoir faire des recommandations à des utilisateurs immédiatement après leur inscription (i.e. sans attendre la mise à jour du site), les systèmes de filtrage collaboratif doivent aussi permettre d effectuer des recommandations pour des utilisateurs non présents dans la base d apprentissage ; c est ce que mesure la généralisation dite forte. Les erreurs de généralisable faible et forte seront détaillées dans la section Complexité de l apprentissage. Cette complexité se traduit en terme du temps de réponse des systèmes filtrage collaboratif. Bien que la plupart des algorithmes considèrent un entraînement hors-ligne (par exemple une fois par jour ou par semaine), il est important que les mises à jour des notes prédites par rapport aux mises à jour des jugements utilisateurs puissent se faire dans des temps raisonnables, sous peine d être inapplicables en pratique. Complexité de la prédiction. Cette complexité se traduit en terme du temps de calcul nécessaire à effectuer pour une recommandation. D une façon générale, les systèmes de filtrage collaboratif ont pour but d être implantés sur des sites Internet et d être utilisés pour faire des recommandations spécifiques à un utilisateur et à une visite. Autrement dit, il est nécessaire que cette complexité soit faible pour effectuer les recommandations en temps réel. À ces caractéristiques, [Hofmann, 2004] rajoute la possibilité pour un algorithme de filtrage collaboratif d être utilisé comme outil de fouille de données. De façon équivalente, il s agit de savoir si un algorithme permet de fournir des explications à ces prédictions. [Polcicová, 2004] montrent que certains modèles de filtrage collaboratif possèdent des interprétations et des visualisations naturelles permettant d identifier des communautés d utilisateurs ou d améliorer les systèmes ou les interfaces utilisateurs. La notion d interprétabilité des modèles est donc une caractéristique importante d un algorithme de filtrage collaboratif. Finalement, nous pensons que la facilité d implantation est un critère déterminant dans la conception d un algorithme de filtrage collaboratif. En effet, il apparaît de plus en plus de sites de mise en partage d information réalisés à des fins non commerciales. L implantation d interfaces Web permettant de demander des jugements utilisateurs, ainsi que des bases de données les enregistrant est aujourd hui à la portée de tous les développeurs Web. La création d algorithmes de filtrage collaboratif accessibles aux non spécialistes pourrait donc permettre la généralisation de cette technologie sur des sites maintenus par des particuliers comme des blogs, des forums, et plus généralement des sites de partage d information Prédiction pour le filtrage collaboratif Prédiction de notes Comme nous l avons déjà souligné précédemment, une manière simple et naturelle de modéliser les préférences d un utilisateur est d associer à chaque article un score numérique mesurant à quel point il apprécie cet article. Tous les articles sont ensuite

188 188 Application au filtrage collaboratif ordonnés selon ces scores, de ses articles favoris à ceux qui l intéressent le moins. Dans la formulation standard du filtrage collaboratif, les scores sont des notes entières de 1 à 5 [Herlocker et al., 2004]. Chaque utilisateur a noté quelques articles, les autres notes étant donc inconnues. La plupart des méthodes de filtrage collaboratif basent leur approche sur la prédiction de notes : elles prennent toutes les notes disponibles en entrée, leur but étant de prédire les notes inconnues en sortie [Marlin, 2004a]. La recommandation se fait simplement en présentant à chaque utilisateur les articles non notés dont les prédictions sont les plus élevées. Ce cadre de prédiction de notes a fait l objet de nombreux travaux dans la littérature, répondant à des spécifications différentes. Les premières approches, appelées à base d instances (ou memory-based), prédisent les notes inconnues pour un utilisateur donné en combinant les notes des utilisateurs ayant les goûts les plus similaires. Elles sont très simples à implanter, mais le temps nécessaire à présenter une recommandation dépend du nombre d utilisateurs de la base. Pour pouvoir effectuer des recommandations en temps réel, un premier type d approches est de calculer toutes les notes inconnues durant l apprentissage. Ces systèmes utilisent des adaptations de méthodes de réduction dimensionnelle linéaire à la matrice utilisateurs, articles [Sarwar et al., 2000]. Ils sont faciles à implanter, mais ont une complexité d apprentissage qui ne leur permet pas à brasser des bases contenant des millions de jugements. Des approches de plus faible complexité, utilisant des modèles probabilistes pour prédire les notes des utilisateurs, ont alors été proposés [Hofmann, 2004, Marlin, 2004b]. Elles sont beaucoup plus sophistiquées, et certaines [Marlin, 2004b] nécessitent une connaissance approfondie du domaine de l apprentissage pour être mises en oeuvre. Elles sont néanmoins reconnues comme les plus performantes [Marlin, 2004a], et présentent l intérêt majeur que les modèles peuvent être interprétés comme expliquant le comportement des utilisateurs [Hofmann, 2004, Polcicová, 2004]. La compréhension des comportements permet alors d améliorer le développement du système, de l interface utilisateur ou d identifier des communautés d utilisateurs ou des ensembles d articles similaires [Polcicová, 2004]. Citons également les approches basées sur la théorie de la décision, comme par exemple [Perny et Zucker, 2001]. Chaque méthode réalise donc un compromis différent entre complexité, performances, facilité d implantation et explication des prédictions. Le concepteur d un système doit donc choisir un algorithme selon ses spécifications. Du point de vue de la recommandation tous ces travaux ont une approche commune, dans laquelle le processus de la recommandation est décomposé en deux étapes : la prédiction de notes et la recommandation elle-même. Bien sûr, une fois que les notes sont prédites, la recommandation se fait simplement en ordonnant les articles selon leurs prédictions et en suggérant à chaque utilisateur les articles dont les prédictions sont les plus élevées. En ramenant ainsi le problème de la recommandation à une tâche de prédiction de notes, toutes ces méthodes partagent un objectif commun : prédire les notes aussi précisément que possible. Un tel but parait naturel pour faire de la recommandation, et il a été le sujet de nombreux travaux de recherche en filtrage collaboratif [Marlin, 2004a]. La formulation du problème en terme de prédiction de notes est simple et facilite les comparaisons de performances au niveau de l évaluation.

189 8.3 Protocole expérimental B 4 4 Item B A A B Item A FIG. 8.1 Soient [2, 3] les notes de deux articles A et B, r 1 = [2.5, 3.6] et r 2 = [2.5, 2.4] deux vecteurs de prédictions obtenus par deux méthodes différentes. Bien que r 1 et r 2 soient équivalents en terme d erreur carrée (les deux sont égales à ), seule r 1 prédit l ordre correctement, puisque le score qu elle attribue à B est supérieur à celui de A. Prédiction d ordre Dans la section précédente, nous avons formulé le filtrage collaboratif comme un problème de prédiction de notes. Cette formulation est la plus répandue et la plus étudiée dans la littérature. Cependant, il est important de noter que la prédiction de notes n est qu une étape intermédiaire vers la recommandation, et que d autres voies sont envisageables. En particulier, compte tenu de l utilisation typique des systèmes de recommandation où le système présente à chaque utilisateur les N meilleurs articles sans montrer les notes associées, nous pensons qu ordonner correctement les articles est plus important que prédire correctement leurs notes. Bien que ces deux objectifs soient proches, ils ne sont pas équivalents du point du vue de la recommandation. En effet, n importe quelle méthode prédisant correctement toutes les notes ordonnera aussi correctement tous les articles. En revanche, à performances égales en terme de prédiction de notes, deux méthodes peuvent avoir des performances différentes en terme de prédiction d ordres. Ce phénomène est illustré dans la figure 8.1. Une alternative à l approche traditionnelle basée sur la prédiction de notes repose donc la prédiction d ordre. En ordonnant correctement les articles plutôt qu en prédisant correctement leurs notes, nous espérons améliorer la qualité de la recommandation. 8.3 Protocole expérimental Dans cette section nous décrivons le protocole expérimental utilisé pour évaluer les différentes méthodes de prédiction en filtrage collaboratif. Dans la section 8.3.1,

190 190 Application au filtrage collaboratif nous présentons la base de notes MovieLens que nous avons utilisée dans nos expériences, ainsi que les pré-traitements que nous avons appliqués. Dans la section 8.3.2, nous présentons les protocoles de génération de base pour l apprentissage hors ligne et pour l apprentissage en ligne. Dans la section nous décrivons les deux mesures d erreur utilisées pour évaluer les méthodes prédictions : l erreur NMAE pour évaluer la prédiction de notes et l erreur MRE pour évaluer la prédiction d ordre Description et pré-traitements de la base initiale Nous utilisons la base de films MovieLens qui est une des plus utilisées dans la littérature. Elle contient les notes de 6, 040 utilisateurs sur un ensemble de 3, 883 films, pour un total de 1, 000, 209 notes. Cela représente donc 95.7% de notes manquantes. Les films sont notés sur une échelle de 1 à 5. La base est livrée avec des informations supplémentaires, qui nous renseignent notamment sur les genres des films ou encore sur les utilisateurs qui les ont notés. Nous avons pré-traité la base initiale en éliminant les utilisateurs ayant noté moins de 20 films et les films ayant été notés par moins de 20 utilisateurs. En effet, un utilisateur ayant noté moins de 20 films en a noté moins de 0.5%, ce que nous considérons (empiriquement) comme un seuil en dessous duquel il est difficile d apprendre quoi que ce soit. De même un film ayant été noté par moins de 20 utilisateurs a été noté par moins de 0.3% du nombre total d utilisateurs. Finalement la base pré-traitée que nous utilisons dans nos expériences contient 6, 022 utilisateurs et 3, 043 films, pour un total de 995, 154 notes. Dans cette base pré-traitée, 94.6% des notes sont manquantes. Le tableau 8.1 montre la distribution des notes dans la base pré-traitée % 10.7 % 26.1 % 34.9 % 22.7 % TAB. 8.1 Distribution des notes dans la base pré-traitée Génération des bases pour l apprentissage hors ligne et en ligne Apprentissage hors ligne et généralisation faible Considérons la base de notes pré-traitée précédente. Pour chaque utilisateur, nous choisissons aléatoirement 2 notes pour la validation et 2 notes pour le test. Les notes restantes servent à l apprentissage du modèle. Ainsi nous obtenons une base d apprentissage contenant 971, 066 notes. Dans cette base d apprentissage, chaque utilisateur a noté en moyenne 161 films (avec un minimum et un maximum de 16 et 2, 146 notes) et chaque film a été noté en moyenne par 319 utilisateurs (avec un minimum et un maximum de 18 et 3, 249 notes). La base de validation et la base de test contiennent chacune 12, 044 notes. Les notes de validation nous permettront de faire de la sélection de modèle (c est à dire de régler les hyper-paramètres tels que le rang de la factorisation et les coefficients de régularisation), et les notes de test nous permettront d estimer l erreur en généralisation faible. L erreur en généralisation faible est l erreur moyenne entre les

191 8.3 Protocole expérimental 191 vraies notes et les prédictions correspondantes pour les utilisateurs initiaux. En répétant ce processus de génération de bases trois fois, nous générons finalement trois bases d apprentissage, trois bases de validation et trois bases de test. Dans la suite, toutes les erreurs en généralisation faible sont moyennées sur les trois jeux de bases. Apprentissage en ligne et généralisation forte Considérons à nouveau la base pré-traitée précédente. Sur les 6, 022 utilisateurs initiaux, nous choisissons aléatoirement 1, 022 utilisateurs de test. Les 5, 000 utilisateurs restants serviront à apprendre un modèle hors ligne. Pour chaque utilisateur de test, nous choisissons aléatoirement 2 notes de test, et gardons le reste pour l apprentissage en ligne de l utilisateur. Autrement dit les notes de chaque utilisateur de test sont divisées en deux ensembles : des notes d apprentissage pour apprendre le nouvel utilisateur, et deux notes de test pour estimer l erreur en généralisation forte. L erreur en généralisation forte est l erreur moyenne entre les vraies notes et les prédictions correspondantes, pour de nouveaux utilisateurs non vus en apprentissage. En répétant ce processus de génération de bases trois fois, nous générons trois ensembles de 5, 000 utilisateurs d apprentissage et trois ensembles de 1, 022 utilisateurs de test. Chaque ensemble d utilisateurs de test est divisé en un ensemble de notes d apprentissage et un ensemble de notes de test. En moyenne, la base d utilisateurs d apprentissage contient 822, 587 notes et la base d utilisateurs de test 172, 567 notes. Dans la suite, toutes les erreurs en généralisation forte sont moyennées sur les trois jeux de bases. Dans la littérature, l erreur en généralisation forte est souvent calculée pour un nombre fixé de notes de test. Autrement dit pour chaque utilisateur de test, nous séparons les notes en deux groupes : m test notes pour le test, et les notes restantes pour l apprentissage de l utilisateur. Dans nos expériences, nous réserverons m test = 2 notes de test pour chaque utilisateur. L erreur en généralisation forte précédente est calculée pour un nombre fixé de notes de test. Pourtant du point de vue de l utilisation réelle d un système de recommandation en ligne, il peut être plus intéressant de répondre aux questions suivantes : combien de notes un utilisateur doit-il fournir pour atteindre un niveau d erreur donné? Quel niveau d erreur obtiendra t il en moyenne pour un nombre de notes d apprentissage donné? Pour répondre à ces questions, nous allons fixer le nombre de notes d apprentissage m app pour chaque utilisateur. Nous utilisons les notes restantes pour le test. En faisant varier m app, nous pourrons analyser l évolution de l erreur en généralisation forte en prédiction en fonction du nombre de notes d apprentissage pour chaque utilisateur. Soulignons que dans le cas de l utilisation réelle d un système de recommandation en ligne, les performances en généralisation forte sont plus importantes que les performances en généralisation faible. Considérons un ensemble d utilisateurs et d articles, où chaque utilisateur a noté quelques articles. Il s agit clairement d un problème d apprentissage hors ligne, et l erreur en généralisation faible est un bon indicateur de la qualité des prédictions pour chaque utilisateur. En revanche cette erreur n est plus valable si un utilisateur initial décide de modifier son profil de notes (mise à jour, ajout

192 192 Application au filtrage collaboratif ou suppression de notes), ou si un nouvel utilisateur arrive dans la base. Pour obtenir une erreur représentative de la nouvelle base, il faudrait alors relancer l apprentissage hors ligne sur la nouvelle base de notes, ce qui serait bien trop coûteux d un point de vue algorithmique. Considérons un utilisateur initial qui modifie son profil de notes, ou un nouvel utilisateur qui arrive dans la base. Les deux situations correspondent clairement à des problèmes d apprentissage en ligne, et l erreur en généralisation forte est un bon indicateur de la qualité des prédictions qui seront faites à ces nouveaux utilisateurs(ou plus précisément, à ces nouveaux profils d utilisateurs). L erreur en généralisation forte est donc plus particulièrement intéressante pour évaluer les performances de l utilisation réelle d un système de recommandation en ligne Mesures d erreurs Erreur pour la prédiction de notes Pour mesurer les performances d une méthode de prédiction, nous avons besoin de définir un coût entre une note y et sa prédiction ŷ. Pour évaluer la prédiction de notes, une erreur couramment utilisée est l erreur absolue y ŷ. Remarquons que du point de vue de l apprentissage, il parait plus naturel de considérer l erreur carrée (y ŷ) 2, puisque c est l erreur optimisée par notre approche de factorisation en matrices nonnégatives. Mais l erreur absolue possède l avantage d être directement interprétable en terme d écart de note, et son utilisation très répandue facilite les comparaisons entre les différentes méthodes de la littérature. Afin de pouvoir évaluer les performances d une méthode de prédiction dans les cadres d apprentissage hors ligne et en ligne, nous avons maintenant besoin de définir une erreur moyennée sur plusieurs utilisateurs et sur plusieurs notes. Considérons un ensemble d utilisateurs de test sur lesquels nous évaluons les performances en prédiction de notre modèle. Pour chaque utilisateur de test l, nous avons réservé deux notes pour la validation, et deux notes pour le test. Notons S l val et S test l ces deux ensembles. Pour mesurer les performances de notre approche, nous calculons l erreur absolue moyenne : MAE = 1 n test 1 ŷ l n test S l i yl i l=1 (x i,y l i ) S l Autrement dit l erreur MAE est normalisée par le nombre de notes de test pour chaque utilisateur, et l erreur finale est normalisée par le nombre d utilisateurs de test. En apprentissage hors ligne, utilisateurs de test et utilisateurs d apprentissage sont les mêmes et n test = 6, 022. En apprentissage en ligne, 1, 022 utilisateurs de test ont été choisis aléatoirement parmi les 6, 022 utilisateurs initiaux et n test = 1, 022. Lorsque S l = S l val, nous calculons l erreur MAE de validation. Cette erreur nous permet de faire de la sélection de modèle : nous calculons l erreur de validation pour plusieurs choix de paramètres du modèle (par exemple pour plusieurs valeurs de rang dans le cas de la factorisation matricielle), et le modèle sélectionné est celui qui atteint l erreur de validation minimale. Comme nous l avons utilisée pour faire de la sélection

193 8.3 Protocole expérimental 193 de modèle, l erreur de validation n est plus un estimateur de l erreur en test et nous prenons alors S l = S test l pour estimer l erreur en test du modèle sélectionné. Comme le suggère [Marlin, 2004a], nous n allons pas utiliser directement l erreur MAE mais plutôt l erreur normalisée NMAE : NMAE = MAE E[MAE] où E[MAE] est l erreur associée à une prédiction de notes aléatoire, dans laquelle nous supposons que les notes observées et les notes prédites sont distribuées uniformément. Cette erreur aléatoire ne dépend que de l échelle de notes utilisée. Calculons par exemple l erreur aléatoire pour une échelle de notes de 1 à 5 : E[MAE] = 5 a=1 = 40/25 = b=1 1 5 a=1 b=1 5 a b Autrement dit sur une base comme MovieLens, une fonction de prédiction aléatoire obtiendrait une erreur MAE de 1.6. Pour évaluer les performances d une méthode de prédiction sur la base MovieLens (ou toute autre base dont les notes vont de 1 à 5), nous calculons l erreur NMAE = MAE/1.6. Une telle normalisation présente deux avantages principaux. D abord, elle permet de comparer les performances de la méthode utilisée à celles de la prédiction aléatoire. Si un algorithme de prédiction obtient une erreur NMAE = 1, alors ses performances sont équivalentes à celle de la prédiction aléatoire, ce qui est évidemment peu satisfaisant. La normalisation permet également de comparer les performances d un même algorithme de prédiction sur différentes bases de filtrage collaboratif, utilisant des échelles de notes différentes. Erreur pour la prédiction d ordre Pour mesurer les performances d une méthode de prédiction d ordre, nous définissons un coût entre une paire cruciale (x i, x j ) (autrement dit x i est préféré à x j ) et les scores prédits ŷ 1 et ŷ 2. Nous utilisons naturellement l erreur de classification de paire cruciale : [[ y 1 y 2 ]]. Afin de pouvoir évaluer les performances d une méthode de prédiction dans les cadres d apprentissage hors ligne et en ligne, nous avons besoin de moyenner cette erreur sur plusieurs utilisateurs et sur plusieurs paires cruciales. Considérons un ensemble d utilisateurs de test sur lesquels nous évaluons les performances en prédiction de notre modèle. Pour chaque utilisateur de test l, nous avons réservé deux notes pour la validation, et deux notes pour le test. Notons S l val et S test l ces deux ensembles. Pour mesurer les performances de notre approche, nous calculons l erreur d ordonnancement moyenne : MRE = 1 n test 1 n test T(S l ) l=1 (x i,x j ) T(S l ) [[ ŷ l i y l j ]]

194 194 Application au filtrage collaboratif où T(S l ) est l ensemble des paires cruciales de S l. Autrement dit l erreur MRE de chaque utilisateur est normalisée par le nombre de paires cruciales de test de l utilisateur, et l erreur finale est normalisée par le nombre d utilisateurs de test. En apprentissage hors ligne, utilisateurs de test et utilisateurs d apprentissage sont les mêmes et n test = 6, 022. En apprentissage en ligne, 1, 022 utilisateurs de test ont été choisis aléatoirement parmi les 6, 022 utilisateurs initiaux et n test = 1, 022. Lorsque S l = S l val, nous calculons l erreur MRE de validation. Cette erreur nous permet de faire de la sélection de modèle : nous calculons l erreur de validation pour plusieurs choix de paramètres du modèle (par exemple pour plusieurs valeurs de rang dans le cas de la factorisation matricielle), et le modèle sélectionné est celui qui atteint l erreur de validation minimale. Comme nous l avons utilisée pour faire de la sélection de modèle, l erreur de validation n est plus un estimateur de l erreur en test et nous prenons alors S l = S test l pour estimer l erreur en test du modèle sélectionné. Enfin, il est aisé de voir qu une fonction de prédiction aléatoire obtiendrait une erreur MRE de 0.5. Une méthode de prédiction obtenant une erreur MRE proche de 0.5 peut donc être considérée comme mauvaise. 8.4 Performances en généralisation faible Dans cette section, nous présentons les performances en apprentissage hors ligne de plusieurs méthodes de factorisation matricielle. D abord, nous expliquons comment appliquer les méthodes de factorisation matricielle au problème du filtrage collaboratif (section 8.4.1). Puis nous présentons les performances de trois méthodes de factorisation matricielle : la décomposition en valeurs singulières pondérée (section 8.4.2), la factorisation en matrices non négatives généralisée (section 8.4.3) et l ordonnancement multi-tâches (section 8.4.4) Factorisation matricielle pour le filtrage collaboratif En extraction multi-tâches, les techniques que nous avons présentées dans l état de l art (chapitre 5) ainsi que nos contributions (chapitre 7) peuvent être vues comme des cas particuliers de factorisation matricielle. Dans cette section nous expliquons comment appliquer ces méthodes au problème du filtrage collaboratif. Notons Y 0 une matrice (n m) où K est un entier positif tel que K < nm, et W 0 est une matrice (n m) où W li est un coefficient associé à Y li. Comme nous l avons vu dans le chapitre 5, les techniques de régression multi-tâches (comme la DVSP et la FMNG) permettent de déterminer une matrice Ŷ de taille (n m) et de rang K, minimisant la norme de Frobenius pondérée W (Y Ŷ) 2. La matrice Ŷ permet alors de prédire les entrées non observées de Y : la prédiction pour l entrée Y li est simplement Ŷ li. Dans le cas de l ordonnancement d instances multi-tâches (comme notre algorithme OMT), la factorisation utilise les éléments observés de Y (qui correspondent aux poids non nuls dans W ) pour déterminer une matrice Ŷ de rang K minimisant l erreur de classification sur les paires cruciales d apprentissage. La matrice Ŷ permet

195 8.4 Performances en généralisation faible 195 alors de prédire l ordre entre les entrées non observées de Y : pour ordonner Y li et Y l j, il suffit de comparer les prédictions Ŷ li et Ŷ l j. L application de ces méthodes de factorisation matricielle au filtrage collaboratif est immédiate. La matrice à factoriser est la matrice de notes Y de taille (n m) où n est le nombre d utilisateurs et m le nombre d articles. Les coefficients W li sont fixés à 0 si la note Y li est inconnue (lorsque Y li est connue, nous proposerons deux stratégies de poids différentes pour le choix des poids W li ). Après factorisation, les notes ou les scores d ordonnancement sont prédits par la matrice Ŷ issue de la factorisation. Remarquons que les méthodes de régression multi-tâches (c est à dire permettant de prédire les notes manquantes) comme la DVSP et la FMNG peuvent être utilisées pour prédire des ordres. En effet il suffit de considérer les notes prédites comme des scores d ordonnancement, et d ordonner les articles en fonction de ces prédictions. En revanche, l inverse n est pas vrai, et les méthodes d ordonnancement multi-tâches (comme notre algorithme OMT) ne permettent pas de prédire correctement des notes. Ainsi dans la suite de cette section, nous évaluerons les performances de la DVSP et de la FMNG pour la prédiction de notes et pour la prédiction d ordre. L algorithme OMT en revanche ne sera évalué que sur la prédiction d ordre Décomposition en valeurs singulières pondérée Nous présentons les performances de la décomposition en valeurs singulières pondérée (DVSP) en généralisation faible. Le seul paramètre du modèle est le rang K de la factorisation. Nous avons testé la DVSP pour plusieurs valeurs de K. Pour chaque valeur de K, nous avons calculé la moyenne et l écart type de l erreur NMAE en prédiction de notes et de l erreur MRE en prédiction d ordre sur les 3 bases de validation. Les résultats détaillés sont dans les tableaux 8.2 et 8.3. Nous constatons que les évolutions des erreurs NMAE et MRE en fonction du rang sont très similaires. Ce n est pas surprenant dans la mesure ou une méthode qui prédit correctement les notes est également capable de prédire correctement l ordre entre les observations. L erreur NMAE et l erreur MRE sont minimales pour un rang K = 10, et valent NMAE = et MRE = Lorsque le rang est faible, le modèle est trop simple et obtient des erreurs élevées. Les erreurs NMAE et MRE diminuent au fur et à mesure que nous augmentons la complexité (le rang) du modèle, jusqu au modèle optimal de rang K = 10. Si nous augmentons le rang après K > 10, les erreurs augmentent car le modèle devient trop complexe : il y a surapprentissage. Remarquons que le modèle DVSP parait relativement robuste au paramétrage du rang : les erreurs NMAE et MRE restent relativement stables autour du rang optimal ( 6 K 14 ). En pratique, il n est pas utile de choisir la valeur du rang à l unité près Factorisation en matrices non-négatives généralisée Nous présentons maintenant les performances de la factorisation en matrices nonnégatives généralisée (FMNG) en généralisation faible. La FMNG possède 3 paramètres : le rang K de la factorisation et les coefficients de régularisation β et γ. Pour réduire l espace des paramètres, nous avons fixé β = γ dans toutes nos expériences.

196 196 Application au filtrage collaboratif K NMAE ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± FIG. 8.2 Erreur NMAE de validation en généralisation faible pour la DVSP, en fonction du rang K. K MRE ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± FIG. 8.3 Erreur MRE de validation en généralisation faible pour la DVSP, en fonction du rang K.

197 8.4 Performances en généralisation faible 197 K/β ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± TAB. 8.2 Erreur NMAE de validation en généralisation faible pour la FMNG-norm, en fonction du rang K et du coefficient de régularisation β. Rappelons que la FMNG minimise la norme de Frobenius pondérée, et qu il faut donc choisir une stratégie de poids. Pour le choix des poids de la matrice W, nous avons testé les deux stratégies de poids suivantes : W li = δli m l W li = δ li où m l est le nombre de notes fourni par l utilisateur l, et δ li = 1 si l utilisateur l a noté l article i, 0 sinon. La première stratégie permet de normaliser l erreur d apprentissage de chaque utilisateur par le nombre de ses notes d apprentissage. Cela correspond à la minimisation du risque empirique joint : n 1 m i=1 l m δ li ( f l (x i ) y i ) 2 i=1 Dans laquelle l erreur empirique de chaque utilisateur est normalisée par le nombre de ses notes. Dans la suite, nous appelons FMNG-norm la factorisation FMNG utilisant cette stratégie de poids. La deuxième stratégie est une stratégie de poids uniformes, où l erreur d apprentissage de chaque utilisateur n est pas normalisée. Cela correspond à la minimisation d une erreur empirique jointe de la forme : n i=1 m δ li ( f l (x i ) y i ) 2 i=1 Autrement dit l erreur empirique de chaque utilisateur n est plus normalisée. Dans la suite, nous appelons FMNG-uno la factorisation FMNG utilisant cette stratégie de poids. Pour chaque stratégie de poids et pour plusieurs valeurs des paramètres K et β, nous avons calculé la moyenne et l écart type des erreurs NMAE et MRE sur les 3 bases de validation. Les résultats détaillés sont dans les tableaux 8.2 et 8.3 pour la prédiction de notes, et dans les tableaux 8.4 et 8.5 pour la prédiction d ordre. Comme avec la DVSP, les performances les évolutions des erreurs NMAE et MRE sont très similaires pour la FMNG-norm et la FMNG-uno. En revanche nous remarquons un résultat surprenant : en prédiction de notes comme en prédiction d ordre, la minimisation de l erreur empirique non normalisée (FMNG-uno) obtient globalement de meilleures performances que la minimisation de l erreur empirique normalisée (FMNG-norm). L erreur NMAE minimale vaut pour la FMNG-norm, et 0.414

198 198 Application au filtrage collaboratif K/β ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± TAB. 8.3 Erreur NMAE de validation en généralisation faible pour la FMNG-uno, en fonction du rang K et du coefficient de régularisation β. K/β ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± TAB. 8.4 Erreur MRE de validation en généralisation faible pour la FMNG-norm, en fonction du rang K et du coefficient de régularisation β.

199 8.4 Performances en généralisation faible 199 K/β ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± TAB. 8.5 Erreur MRE de validation en généralisation faible pour la FMNG-uno, en fonction du rang K et du coefficient de régularisation β. pour la FMNG-uno. L erreur MRE minimale vaut pour la FMNG-norm, et pour la FMNG-uno. Nous aurions pu légitimement nous attendre au résultat inverse. En effet, avec des poids uniformes l erreur empirique d un utilisateur ayant fourni beaucoup de notes sera probablement plus élevée que celle d un utilisateur qui a peu de notes. Ainsi avec des poids uniformes l apprentissage a tendance à se concentrer sur les utilisateurs ayant fourni beaucoup de notes, et à ignorer les autres. Du point de vue de l erreur de test que nous voulons minimiser, il paraissait donc plus naturel de normaliser les poids. Pourtant les expériences montrent que la stratégie des poids uniformes donnent de meilleurs résultats. Concentrons nous maintenant sur l analyse des résultats de la FMNG-uno. Lorsque les deux coefficients de régularisation β, γ sont fixés, l évolution de l erreur est assez semblable à celle observée pour la DVSP. Regardons ce qui se passe pour β = γ = 1 : les erreurs NMAE et MRE sont élevées pour un modèle de complexité (de rang) trop faible. Les erreurs diminuent lorsque le rang augmente, jusqu à atteindre leurs valeurs minimales pour K = 9. Puis les erreurs NMAE et MRE augmentent si nous continuons d augmenter le rang : il y a surapprentissage. Nous avons vu qu à coefficients de régularisation fixés, la complexité de notre modèle augmente avec le rang (c est logique puisque le nombre de paramètres à apprendre augmente linéairement avec le rang). En revanche à rang fixé, la complexité de notre modèle diminue au fur et à mesure que les coefficients de régularisation augmentent (par définition des coefficients de régularisation). Analysons maintenant les résultats de la FMNG-uno à rang fixé, et regardons ce qui se passe pour K = 9. Les erreurs NMAE et MRE sont élevées pour un modèle de complexité trop faible (c est à dire

200 200 Application au filtrage collaboratif K/β ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± TAB. 8.6 Erreur MRE de validation en généralisation faible pour l OMT-norm, en fonction du rang K et du coefficient de régularisation β. pour β 10). La complexité optimale du modèle est atteinte pour β = 1. Puis lorsque le coefficient de régularisation diminue encore ( β 0.1 ), le modèle devient trop complexe et les erreurs NMAE et MRE augmentent : il y a surapprentissage. Enfin comme avec la DVSP, la FMNG paraît relativement robuste au paramétrage du rang. À coefficients de régularisation fixés, les erreurs NMAE et MRE restent relativement stables autour du rang optimal ( 5 K 13 ). En pratique, il n est pas utile de choisir la valeur du rang à l unité près. Ordonnancement d instances multi-tâches Présentons maintenant les performances de notre méthode d ordonnancement d instances multi-tâches (OMT) en généralisation faible. Notre modèle possède trois paramètres : le rang de la factorisation K, et les coefficients de régularisation β, γ. Pour réduire l espace des paramètres, nous avons fixé β = γ dans toutes nos expériences. Rappelons que notre algorithme OMT permet de résoudre le problème d optimisation : n min B,C γ C 2 + β B exp((bc) l j (BC) li ) α l l=1 Pour le choix des poids {α l } l, nous avons testé les deux stratégies suivantes : α l = [[y i > y j ]] α l = 1 (z i,z j ) S l App où (z i,z j ) S l App [[y i > y j ]] est le nombre de paires cruciales d apprentissage de l utilisateur l. Autrement dit la première stratégie permet de normaliser l erreur d apprentissage de chaque utilisateur par le nombre de ses paires cruciales d apprentissage. Dans la suite, nous appelons OMT-norm l algorithme OMT utilisant cette stratégie de poids. La deuxième stratégie est une stratégie de poids uniformes, où l erreur d apprentissage de chaque utilisateur n est pas normalisée. Dans la suite, nous appelons OMT-uno l algorithme OMT utilisant cette stratégie de poids. Pour chaque stratégie de poids et pour plusieurs valeurs des paramètres K et β, nous avons calculé la moyenne et l écart type de l erreur MRE sur les 3 bases de validation. Les résultats détaillés sont dans les tableaux 8.6 et 8.7. y l i >yl j

201 8.4 Performances en généralisation faible 201 K/β ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± ± TAB. 8.7 Erreur MRE de validation en généralisation faible pour l OMT-uno, en fonction du rang K et du coefficient de régularisation β. Ces résultats présentent une grande similarité avec ceux de la FMNG. La minimisation de l erreur empirique non normalisée (OMT-uno) obtient globalement de meilleures performances que la minimisation de l erreur empirique normalisée (OMTnorm). L erreur MRE minimale vaut pour la FMNG-norm, et pour la FMNG-uno. L influence sur l erreur MRE du rang K et des coefficients de régularisation β, γ est également très similaire à ce que nous avons observé pour la FMNG. Concentrons nous sur l analyse des résultats de l algorithme OMT-uno, et regardons ce qui se passe par exemple pour β = γ = 100 : l erreur MRE est élevée pour un modèle de complexité (de rang) trop faible. L erreur diminue lorsque le rang augmente, jusqu à atteindre une valeur minimale (pour K = 11). Puis l erreur MRE augmente si nous continuons d augmenter le rang : il y a surapprentissage. Regardons maintenant ce qui se passe pour K = 1. L erreur MRE est élevée pour un modèle de complexité trop faible (c est à dire pour β 10, 000). La complexité optimale du modèle est atteinte pour 100 β Puis lorsque le coefficient de régularisation diminue encore ( β 10 ), le modèle devient trop complexe et l erreur MRE augmente : il y a surapprentissage. Enfin à coefficients de régularisation fixés, l erreur MRE reste relativement stable autour du rang optimal. En pratique, il n est pas utile de choisir la valeur du rang à l unité près. Dans la suite de ce chapitre, nous choisirons K = 10 et β = γ = 1000 comme paramétrage optimale pour l algorithme OMT-uno. En effet, pour des erreurs MRE quasiment identiques, nous préférons un modèle de complexité (de rang) faible, et dont l erreur est stable Synthèse Dans les sections précédentes toutes les erreurs NMAE et MRE présentées sont des erreurs calculées sur des bases de validation. Nous les avons utilisées pour faire de la sélection de modèle, c est à dire pour choisir les paramètres optimaux de chaque méthode (rang et coefficients de régularisation). Ces erreurs ne sont donc pas forcément de bonnes estimations des erreurs en généralisation qui nous intéressent. Dans

202 202 Application au filtrage collaboratif méthode K β NMAE aléatoire naïf ± naïf ± DVSP ± FMNG-norm ± FMNG-uno ± TAB. 8.8 Erreur NMAE de test en généralisation faible méthode rang β MRE aléatoire naïf ± DVSP ± FMNG-norm ± FMNG-uno ± OMT-norm ± OMT-uno ± TAB. 8.9 Erreur MRE de test en généralisation faible. cette section nous gardons les paramètres optimaux déterminés en validation, et nous présentons les erreurs NMAE et MRE calculées sur des bases de test. Le tableau 8.8 montre les erreurs NMAE de test pour les méthodes DVSP, FMNGnorm et FMNG-uno. Nous montrons les performances d un prédicteur aléatoire, dont l erreur NMAE est par définition égale à 1. Nous montrons également les performances de deux méthodes de prédiction naïves. La méthode naïf 1 consiste à simplement déterminer la moyenne de chaque film à partir des notes d apprentissage. Cette note moyenne est ensuite utilisée pour prédire la note du film lorsqu il apparaît en test. Soulignons que pour un film donné, la prédiction sera la même quelque soit l utilisateur considéré. Autrement dit la méthode naïf 1 n offre pas de prédiction personnalisée. La méthode naïf 2 consiste à déterminer la note moyenne de chaque utilisateur. Cette note moyenne sera ensuite systématiquement prédite pour tout film de test présenté à cet utilisateur. Le tableau 8.9 montre les erreurs MRE de test pour les méthodes DVSP, FMNGnorm, FMNG-uno, OMT-norm et OMT-uno. Nous montrons également les performances de la prédiction aléatoire, dont l erreur MRE est par définition égale à 0.5, et de la méthode naïf 1 précédente. La méthode naïf 2 ne permet pas de prédire des ordres, puisque pour un utilisateur donné elle prédit la même note à tous les articles non notés. Pour la prédiction de notes comme pour la prédiction d ordre, les rangs optimaux pour la DVSP et la FMNG-uno sont très proches : K = 10 pour la DVSP et K = 9 pour la FMNG-uno. Ce sont des méthodes de factorisation matricielle très similaires, qui optimisent la même fonction de coût (la norme de Frobenius pondérée) et diffèrent seulement par les contraintes imposées sur la factorisation. Il n est donc pas étonnant de

203 8.4 Performances en généralisation faible 203 trouver des valeurs de rang proches. En revanche soulignons qu avec la DVSP, un coefficient positif dans une matrice peut en compenser un autre négatif. Ce degré de liberté disparait avec les contraintes de non-négativité de la FMNG-uno, rendant plus difficile l approximation pour un même rang K. Pour atteindre une qualité d approximation égale, nous pouvions donc nous attendre à ce que le rang optimal de la FMNG-uno soit supérieur à celui de la DVSP. En choisissant un rang adéquat, les méthodes DVSP et FMNG-uno obtiennent des performances très proches en prédiction de notes, et les méthodes DVSP, FMNG-uno OMT-uno obtiennent des performances très proches en prédiction d ordre. Si la DVSP obtient de bonnes performances en prédiction de notes et en prédiction d ordre, elle est de loin la plus lente puisque sa complexité est dominée par des termes en m 3, où m est le nombre d articles. Elle est donc difficilement utilisables sur des bases réelles. Les méthodes FMNG-uno et OMT-uno ont des complexités linéaires en chacune des dimension du problème, et permettent de traiter de plus grandes quantités de données. Enfin la FMNG-uno offre deux avantages supplémentaires par rapport à la DVSP et à l OMT-uno. D abord, l algorithme est simple à implémenter. De plus, grâce à ses contraintes de non-négativité, la FMNG fournit des résultats interprétables et visualisables, comme nous l expliquerons dans la section 8.6. Comme nous l avons souligné précédemment, nous constatons que les meilleures performances sont obtenues par les méthodes qui minimisent une erreur empirique jointe où l erreur empirique de chaque utilisateur n est pas normalisée ( DVSP, FMNGuno et OMT-uno ). Les méthodes qui minimisent une erreur empirique normalisée par le nombre de notes ( FMN-norm ) ou par le nombre de paires cruciales ( OMT-norm ) obtiennent de moins bons résultats. C est plutôt contre-intuitif, car la stratégie des poids uniformes a tendance à favoriser les utilisateurs ayant fourni beaucoup de notes par rapport aux autres. Du point de vue de l erreur de test que nous voulons minimiser, il paraissait donc plus naturel de normaliser les poids. Pourtant les expériences montrent que la stratégie des poids uniformes donnent de meilleurs résultats. Finalement, les performances de l algorithme OMT-uno sont correctes mais peuvent paraître décevantes par rapport à celles de la DVSP et de la FMNG-uno. En effet, notre algorithme est le seul qui optimise une erreur d ordonnancement, alors que la DVSP et la FMNG-uno optimisent des erreurs de régression. Nous espérions légitimement obtenir de meilleures performances sur l erreur d ordonnancement en test. Rappelons que notre algorithme optimise une erreur exponentielle qui est une borne supérieure de l erreur de Hinge, elle-même étant une borne supérieure de l erreur de classification 0/1 sur les paires cruciales. Nous avons choisi l erreur exponentielle car le problème d optimisation associé est facile à résoudre. Mais les résultats expérimentaux suggèrent que la borne exponentielle est simplement trop large, et ne permet pas de minimiser efficacement l erreur de classification 0/1. Ainsi la minimisation d une borne supérieure plus étroite de l erreur de classification 0/1 permettrait sans doute d améliorer les performances. Discutons maintenant plus généralement de la pertinence des méthodes à base de factorisation pour le filtrage collaboratif. Rappelons que les méthodes à base de factorisation matricielle permettent d exprimer chaque utilisateur comme une combinaison linéaire de comportements type, où le nombre de comportements type est égal au rang de la factorisation. Que se passe t il lorsqu il n y a qu un seul comportement type? Il

204 204 Application au filtrage collaboratif n y a alors qu un seul vecteur de scores qui permet de prédire les notes ou d ordonner les films les uns par rapport aux autres. Chaque utilisateur est représenté par ce vecteur de scores multiplié par un scalaire. Remarquons que si la valeur de ce scalaire a une influence sur l erreur en prédiction de notes, il n en a aucune sur l erreur en prédiction d ordre (dans le cas d un scalaire positif). Autrement dit, tous les utilisateurs ordonnent les films de la même façon lorsque le rang K = 1. En prédiction d ordre, la factorisation matricielle de rang 1 est donc très proche de la méthodes naïve 1 : dans les deux cas, un seul unique vecteur de scores permet d ordonner les films de la même façon pour tous les utilisateurs. Regardons les performances des méthodes DVSP, FMNG-norm, FMNG-uno, OMT-norm et OMT-uno lorsque le rang de la factorisation vaut K = 1. Pour chaque méthode, les performances pour K = 1 sont moins bonnes que celles du rang optimal, mais sont loin d être catastrophiques. Prenons l exemple de la DVSP qui obtient les meilleures performances parmi toutes les méthodes présentées. En prédiction de notes, l erreur NMAE de validation est minimale pour K = 10 et vaut NMAE= contre pour K = 1. En prédiction d ordre, l erreur MRE= pour K = 10 contre = pour K = 1. Autrement dit l augmentation du nombre de comportements type n a permis d améliorer les erreurs NMAE et MRE que de L augmentation du nombre de comportements type permet donc de diminuer l erreur de prédiction mais pas de manière décisive. Il nous semble que nous soulignons là une des limites de nos méthodes à base de factorisation matricielle. En revanche l augmentation du nombre de comportements présente d autres intérêts, notamment en terme de détection de communautés d utilisateurs, comme nous le verrons dans la section Performances en généralisation forte Dans cette section nous présentons les performances de la DVSP, de la FMNG et de l OMT pour l apprentissage en ligne de nouveaux utilisateurs. Nous considérons donc qu un modèle a déjà appris hors ligne sur les utilisateurs d apprentissage. Pour apprendre les modèles hors ligne, nous avons repris les paramètres optimaux déterminés dans la section précédente. Nous avons donc fixé K = 10 pour la DVSP. Pour la FMNG, nous avons choisi la stratégie de poids uniformes, et nous avons fixé K = 9 et β = γ = 1. Pour l algorithme OMT-uno, nous avons choisi la stratégie de poids uniforme, et nous avons fixé K = 10 et β = γ = Les 5, 000 utilisateurs d apprentissage sont appris avec ces paramètres, et les modèles appris sont ensuite utilisés pour l apprentissage en ligne. Dans le chapitre 5 ( section ) nous avons présenté deux méthodes d apprentissage en ligne d un nouvel utilisateur pour la DVSP. La première est la méthode proposée par [Marlin, 2004a] que nous appellerons DVSP-mar, et la deuxième est notre méthode à base de descente de gradient que nous appellerons DVSP-dg. Dans le chapitre 7, nous avons présenté les algorithmes d apprentissage en ligne d un nouvel utilisateur pour la FMNG (section 7.3.3) et pour l OMT-uno (section 7.4.3). Nous appellerons ces deux algorithmes algorithme FMNG-uno-dg et OMT-uno-dg. Rappelons le protocole d évaluation des performances en ligne, décrit dans la section Le modèle ayant été appris hors ligne sur un ensemble d utilisateurs d ap-

205 8.5 Performances en généralisation forte 205 K β NMAE aléatoire naïf ± naïf ± DVSP-mar ± DVSP-dg ± FMNG-uno-dg ± TAB Erreur NMAE en généralisation forte pour m test = 2 notes de test K β MRE aléatoire naïf ± DVSP-mar ± DVSP-dg ± FMNG-uno-dg ± OMT-uno-dg ± TAB Erreur MRE en généralisation forte pour m test = 2 notes de test prentissage, nous voulons comparer les performances en prédiction sur un ensemble d utilisateurs de test. Pour chaque utilisateur de test, nous séparons les notes en deux groupes : les notes d apprentissage et les notes de test. Les notes d apprentissage servent à apprendre le nouvel utilisateur, et les notes de test servent à calculer les erreurs NMAE et MRE. Les tableaux 8.10 et 8.11 montrent les erreurs NMAE et MRE moyennes lorsque pour chaque utilisateur de test, nous réservons m test = 2 notes pour le test et utilisons toutes les autres notes pour l apprentissage. L erreur NMAE moyenne présentée dans le 8.10 est l erreur la plus utilisée dans la littérature pour évaluer les performances d une méthode de prédiction en ligne [Marlin, 2004a]. Pourtant du point de vue de l utilisation réelle d un système de recommandation en ligne, il est plus intéressant de connaître les performances en prédiction pour un nombre de notes d apprentissage fixé. Autrement dit pour chaque utilisateur, nous réservons un nombre fixé m app de notes pour l apprentissage, et utilisons les notes restantes pour le test. Les figures 8.4 et 8.5 montrent l évolution des erreurs NMAE et MRE lorsque le nombre de notes d apprentissage m app varie entre 1 et 40. Nous observons un comportement surprenant de la DVSP-dg, qui montre un pic des erreurs NMAE et MRE pour m app = 10 notes d apprentissage par utilisateur. Les erreurs correspondantes atteignent presque celles d une prédiction aléatoire ( 1 pour NMAE, 0.5 pour MRE ). Or la valeur m app = 10 coïncide avec le rang de la DVSP apprise hors ligne : K = 10. Nous pensons que les hypothèses que nous avons faites dans le chapitre 5 sur l apprentissage en ligne avec la DVSP sont d autant moins vraies que le nombre de notes d apprentissage s approche du rang de la factorisation, même si les raisons ne sont pas complètement claires. Plus généralement nous observons que les quatre méthodes de prédiction se comportent différemment lorsque le nombre de notes est faible. Dans le cas de prédiction

206 206 Application au filtrage collaboratif FIG. 8.4 Erreur NMAE en généralisation forte, pour 1 m app 40 FIG. 8.5 Erreur MRE en généralisation forte, pour 1 m app 40

207 8.5 Performances en généralisation forte 207 FIG. 8.6 Erreur NMAE en généralisation forte, pour 20 m app 500 d ordre, c est la méthode OMT-uno-dg qui montre la plus grande variation : son erreur MRE est proche de la prédiction aléatoire lorsqu il n y a qu une seule note d apprentissage. En revanche l erreur diminue rapidement pour atteindre finalement l erreur MRE la plus basse parmi les quatre méthodes de prédiction à partir de m app 22 notes d apprentissage. En prédiction de notes comme en prédiction d ordre, la méthode FMNGuno-dg est la plus stable des quatre méthodes : ses performances initiales sont bonnes dès les premières notes, et l erreur diminue peu lorsque m app augmente. La méthode DVSP-mar montre des performances intermédiaires entre celles de la FMNG-uno-dg et d OMT-uno-dg. Les quatre méthodes de prédiction DVSP-mar, DVSP-dg, FMNGuno-dg et OMT-uno-dg tendent à atteindre les mêmes performances lorsque m app tend vers 40 notes d apprentissage. Nous voulons maintenant comparer les différentes méthodes pour un nombre plus grand de notes d apprentissage. Les figures 8.6 et 8.7 montrent l évolution des erreurs NMAE et MRE moyennes lorsque le nombre de notes d apprentissage m app varie entre 20 et 500. Le tableau 8.8 montre le nombre d utilisateurs utilisés pour moyenner les erreurs NMAE et MRE. La DVSP-dg, qui obtenait de mauvaises performances autour de m app = 10 notes, obtient les meilleures performances lorsque le nombre de notes d apprentissage est compris entre 60 et 460 notes. Sur le même intervalle de notes, l OMT-uno-dg obtient des erreurs légèrement supérieures, suivie de près par la FMNG-uno-dg et la DVSPmar. Finalement, dans le cadre d une utilisation réelle d un système de recommandation en ligne, la méthode FMNG-uno-dg semble être un bon compromis parmi les quatre

208 208 Application au filtrage collaboratif FIG. 8.7 Erreur MRE en généralisation forte, pour 20 m app 500 FIG. 8.8 Nombre d utilisateurs utilisés pour calculer l erreur NMAE et l erreur MRE, pour 20 m app 500

209 8.6 Interprétation et visualisation 209 méthodes proposées. Nous avons déjà souligné que la FMNG est facile à implémenter, et que l apprentissage hors ligne est de complexité linéaire, comme l OMT. De plus, la FMNG-uno-dg offre les meilleures performances en prédiction de notes et en prédiction d ordre lorsque le nombre de notes d apprentissage est faible ( m app 40 ), et reste très compétitive après. En pratique, un utilisateur doit fournir un minimum de m app 10 notes pour avoir de bonnes performances en prédiction (et donc de bonnes recommandations), ce qui n est pas trop contraignant du point de vue de l utilisateur. Enfin, la FMNG offre des avantages en terme en terme d interprétabilité que nous explorons dans la section Interprétation et visualisation Dans cette section nous exploitons les capacités d interprétation et de visualisation de la méthode FMNG pour le filtrage collaboratif. Nous verrons notamment que les contraintes de non-négativité permettent d extraire des communautés d utilisateurs à partir d une base de notes Description La décomposition matricielle avec la FMNG nous a permis de mettre en évidence K vecteurs de bases, tous à coefficients positifs, qui peuvent être interprétés comme étant des comportements types. Bien que cette terminologie soit imparfaite, nous allons l utiliser pour plus de simplicité. En réalité, ils correspondent plutôt à des parties typiques de comportement. En effet, chaque profil utilisateur est une somme pondérée de ces comportements types, qui se focalisent chacun sur un ensemble de films différents. Un comportement type correspond donc à un ensemble de films auxquels un certain nombre d utilisateurs tendent à allouer des scores importants en même temps. Ils apportent donc une information importante sur le comportement des utilisateurs. Un comportement type ne représente toutefois pas un profil utilisateur moyen, car il ne prend en compte qu un sous-ensemble des films de la base. Une première étape dans l analyse des utilisateurs de la base est d interpréter ces comportements types, ou plus spécifiquement de comprendre à quoi ils correspondent. Dans ce but, nous proposons trois techniques de visualisations simples, cependant riches en information, de ces parties de comportement. Dans la suite, tous les exemples sont donnés pour le cas K = 10, qui obtient les meilleurs résultats sur la base test. La première visualisation, issue d une analogie avec les modèles d aspects de [Hofmann, 2004] et de [Polcicová, 2004], consiste à donner les films les plus représentatifs par comportement type (tableau 1). Bien qu elle permette d avoir un aperçu rapide de la différence entre les comportements types (en particulier le fait qu ils se focalisent sur des films différents) cette représentation est imparfaite, car c est une vision extrêmement restreinte de l ensemble des films considérés par chaque comportement. Nous proposons alors d exploiter, comme dans [Polcicová, 2004], la répartition par genre des films selon les comportements types, ainsi qu une nouvelle représentation en considérant la date de réalisation des films. Deux exemples de répartition par genres sont donnés en figure 8.9. Nous voyons que les deux comportements diffèrent sensiblement : le comportement 0 a un penchant pour les films mystérieux et pour les do-

210 210 Application au filtrage collaboratif cumentaires tandis que le comportement 3 a une préférence pour les films des genres fantastique et comédie. D une façon générale, l ensemble des comportements tend à se focaliser sur des genres différents. La répartition des films par période, dont les exemples sont donnés figure 8.10 pour les comportements 0 et 7, nous permettent de remarquer que le comportement 0 est principalement focalisé sur des films récents, alors que le 7 l est sur des films anciens. La répartition par périodes est en général moins caractéristique des comportements, mais elle fournit cependant une information non négligeable. FIG. 8.9 Visualisation des notes moyennes par genre pour les comportements types 0 (à gauche) et 3 (à droite). Les différents genres identifiés sont inconnu(unk), action (act), aventure (adv), animation (ani), enfant (chil), policier (crime), comédie (com), documentaire (doc), drame (dram), fantastique (fant), noir (noir), horreur (hor), musical (mus), mystérieux (mist), romantique (rom), science fiction (sf), thriller (thri), guerre (war) et enfin western (wes). FIG Notes moyennes par période pour les comportements types 1 (à gauche) et 7 (à droite). Les périodes considérées sont les suivantes : <1960, entre 1960 et 1970, entre 1980, entre 1980 et 1990, entre 1990 et 1995 et > Discussion En terme d application possible de l interprétation des vecteurs de base en terme de comportement type, nous pouvons citer les exemples suivants. Les visualisations, qui ont un intérêt en soi pour le créateur d un site de recommandation, peuvent être rendues publiques pour que les utilisateurs puissent avoir accès aux comportements des autres utilisateurs du même site. Les regroupements des utilisateurs en communautés peuvent être utilisés pour créer des forums de discussion, et la liste des films favoris par comportement type peut être présentée aux utilisateurs, ce qui permettrait d une part

211 8.7 Conclusion 211 CT 0 CT 1 CT 2 Sum of us Wild things The Joy Luck Club Fresh Paradise Lost : the Child Murders Men with Guns at Robin Hood Hills Hotel of Love Lost in Space To live (Huozhe) Now and then the Big Bang Theory Widow s Peak I can t sleep Night Watch The big Blue CT 3 CT 4 CT 5 Schizopolis les boys Santa with Muscles They Made Me The lady who a Criminal walked in the sea Underground Marlene Dietrich : Shadows and Light A Strong Clear Vision American Dream Crossfire You So Crasy the Butcher Boy Aparajito The Quiet Room Microcosmos : le peuple de l herbe CT 6 CT 7 CT 8 Far From Home : The Adventure of New York Cop Safe Passage Yellow Dog Angel Baby Golden Earrings Stripes Love Serenade The Thin Blue Line Killer : A Journal of Murder Mondo The Little Princess The Show Highlander III : The Sorcerer The Innoncent He Walked By Night CT 9 Shiloh The Shooter Pie in the Sky Total Eclipse Zeus and Roxanne TAB Les 5 films les mieux notés par comportement type (CT) de collecter plus de jugements pour ces films (permettant ainsi d affiner les comportements types), mais aussi pour permettre aux utilisateurs d avoir des listes de films "à voir absolument", selon la communauté de laquelle est issue la liste, fournissant ainsi des recommandations à des niveau plus élevé que le niveau individuel. D une façon générale, les utilisations possibles d un tel outil de fouille de données sont immenses, et l intérêt principal de la méthode FMN proposée ici est d être accessible à tout créateur de site Web, et applicable à toutes les échelles, même si le nombre d utilisateurs ou d articles considérés dans le site sont très importants. 8.7 Conclusion Dans ce chapitre nous avons appliqué nos modèles de régression multi-tâches et d ordonnancement d instances multi-tâches au problème du filtrage collaboratif. Ces deux applications correspondent à deux formulations différentes du filtrage collaboratif. Dans la première, nous cherchons à prédire les notes manquantes le mieux possible. Dans la seconde, nous cherchons à ordonner les articles non notés le mieux possible. Dans les deux cas nous avons besoin de définir un protocole expérimental permettant d évaluer les performances en apprentissage hors ligne et en ligne. Pour évaluer la prédiction des notes, nous avons repris le protocole expérimental proposé par [Marlin, 2004a]. Puis nous avons repris et adapté ce protocole pour évaluer la prédiction d ordre.

212 212 Application au filtrage collaboratif De manière surprenante, nous avons observé qu en prédiction de notes comme en prédiction d ordre, il semble préférable ne pas normaliser l erreur empirique de chaque utilisateur. En témoignent les performances des algorithmes FMNG-uno et OMT-uno par rapport à leurs variantes normalisées FMNG-norm et OMT-norm. De même, la DVSP qui ne contient aucune normalisation obtient de bonnes performances en prédiction de notes et en prédiction d ordre. La non-normalisation de l erreur implique que l apprentissage a tendance à se concentrer sur les utilisateurs ayant noté beaucoup d articles et à ignorer les autres, mais cela ne semble pas gênant du point de vue des performances. Finalement, les trois méthodes DVSP, FMNG-uno et OMT-uno obtiennent des performances très comparables à la fois en prédiction de notes et en prédiction d ordre. Mais les performances en prédiction ne sont pas le seul critère à prendre en compte dans le cas de l implémentation d un système de recommandation réel. Dans cette optique, la FMNG semble être un bon choix pour plusieurs raisons. D abord, cette méthode possède de bonnes performances en apprentissage en ligne (ce qui correspond à l utilisation réelle d un système de recommandation). De plus elle est rapide, très simple à implémenter, et elle permet de détecter des communautés d utilisateurs et de les visualiser. Enfin, bien que les performances de notre algorithme OMT n obtienne pas les performances que nous attendions en prédiction d ordre, il nous semble que l ordonnancement d instances multi-tâches est une nouvelle direction de recherche particulièrement intéressante. Nous pensons qu il est parfois plus pertinent d ordonner les articles plutôt que de prédire leurs notes, particulièrement dans une optique de recommandation comme c est le cas en filtrage collaboratif. Les résultats expérimentaux présentés dans ce chapitre nous amènent à penser que l erreur exponentielle que nous minimisons est une borne supérieure trop large de l erreur de classification de paires cruciales, et une perspective de recherche concerne l étude d autres fonctions d erreur en ordonnancement.

213 9 Conclusion et perspectives Sommaire 9.1 Résumé de la thèse et des contributions Perspectives Extraction non supervisée pour les données textuelles Extraction multi-tâches pour l ordonnancement d instances Interprétabilité et choix de la représentation des données Résumé de la thèse et des contributions Dans cette thèse nous nous sommes intéressés à la problématique de la représentation des données en apprentissage statistique. Le cadre de travail que nous avons choisi est celui de l extraction de caractéristiques. Nos contributions appartiennent principalement à trois catégories : Notre première contribution est la distinction de trois différents cadres d extraction de caractéristiques. Pour cela nous avons d abord défini les propriétés attendues d une représentation des données : bonnes performances en apprentissage, faible dimension de l espace de représentation et interprétabilité de la représentation. Du point de vue de l apprentissage, la plus importante concerne les performances en prédiction. Ce critère nous a conduit à définir trois cadres d extraction de caractéristiques : l extraction non supervisée, l extraction supervisée et l extraction multi-tâches. Les cadres d extraction non supervisée et supervisée regroupe un grand nombre de méthodes de la littérature. En revanche ces différents travaux précisent rarement l impact de l extraction sur les performances en apprentissage. Le cadre d extraction multi-tâches est plus récent, puisqu il regroupe les méthodes d extraction de caractéristiques dans le cadre de l apprentissage multi-tâches. Nous avons vu que c est le seul le cadre d extraction offrant des garanties théoriques sur les performances en apprentissage. Notre contribution clarifie les propriétés attendues d une "bonne" représentation des données, ainsi que les liens entre représentation et performances en appren-

214 214 Conclusion et perspectives tissage. Elle permet de mieux comprendre la pertinence des nombreuses méthodes existantes en extraction non supervisée et supervisée. Elle souligne également l intérêt de développer de nouvelles méthodes en extraction multi-tâches. En extraction de caractéristiques non supervisée, nous avons étudié le cas particulier des données textuelles. Grâce à la définition des trois cadres d extraction de caractéristiques, nous savons que l extraction non supervisée repose sur une connaissance a priori du problème. Dans le cas des données textuelles, nous avons implémenté cette connaissance en proposant l hypothèse que des mots apparaissant dans les mêmes documents avec les mêmes fréquences sont sémantiquement proches. Nous avons utilisé cette hypothèse pour proposer deux modèles d extraction non supervisée (C-CEM et PLSA étendu) permettant de représenter les documents dans un espace de concepts de mots. D un point de vue applicatif, nous avons appliqué nos modèles à deux tâches de recherche d information : clustering thématique de documents et résumé automatique de texte. Pour chaque tâche, nous avons validé notre hypothèse initiale en comparant nos deux modèles à choix de représentation, sur plusieurs bases de textes standards. Nous avons également souligné l interprétabilité de nos deux modèles, qui permettent d identifier les thématiques latentes dans une collection de documents. En extraction de caractéristiques multi-tâches, nous avons proposé une cadre unifié pour traiter les problèmes de classification multi-tâches, de régression multi-tâches et d ordonnancement d instances multi-tâches. Ce cadre nous permet de voir plus clairement les liens qui existent entre ces différents problèmes, en apparence assez différents. Nous avons vu par exemple que dans tous les cas, l apprentissage se formule comme un cas particulier de factorisation matricielle. Ainsi, bien que les algorithmes d apprentissage multi-tâches dépendent des fonctions de coût et des fonctions de régularisation choisies, ils gardent une forme générale commune. Puis nous avons étudié le cas où le problème multi-tâches est constitué de plusieurs problèmes de régression. Il existe quelques travaux dans la littérature, qui se présentent comme des méthodes de factorisation matricielle pondérée. Nous avons proposé un modèle d extraction multi-tâches dont l originalité principale réside dans les contraintes de non-négativité. Ces contraintes rendent la nouvelle représentation interprétable, et permettent d écrire un algorithme d optimisation rapide et particulièrement simple à implémenter. Un algorithme basé sur la FMNG a été proposé pour résoudre le problème d optimisation non régularisé, et nous l avons étendu pour inclure des termes de régularisation dans le modèle. Puis nous avons étudié le cas où le problème multi-tâches est constitué de plusieurs problèmes d ordonnancement d instances. Une des difficultés principales en ordonnancement d instances concerne la complexité algorithmique. Nous avons proposé un modèle d extraction multi-tâches simple pour l extraction multi-tâches, ainsi qu un algorithme OMT pour le résoudre. Dans le cas particulier où les paires cruciales sont induites par des scores entiers, la complexité algorithmique de notre algorithme est linéaire en chacune des dimensions du problème. À notre connaissance notre contribution est la première dans le domaine de l extraction multi-tâches pour l ordonnancement d instances.

215 9.2 Perspectives 215 D un point de vue applicatif, nous avons appliqué nos modèles FMNG et OMT au filtrage collaboratif, que nous avons d abord vu comme un problème de prédiction de notes, puis comme un problème de prédiction d ordre. Dans le cas de la prédiction d ordre, la littérature était inexistante et nous avons défini un nouveau protocole d évaluation permettant de comparer différentes méthodes de prédiction d ordre. Dans les deux cas, nous avons validé nos approches en apprentissage hors ligne et en apprentissage en ligne, en les comparant à d autres méthodes de la littérature sur la base de notes MovieLens. Dans le cas particulier FMNG, nous avons montré les capacités d interprétation de notre modèle, et son utilité notamment dans une optique de fouille de données. 9.2 Perspectives En nous basant sur les travaux réalisés dans cette thèse, nous distinguons trois directions de recherche principales Extraction non supervisée pour les données textuelles Nous avons déjà souligné que l extraction non supervisée est intrinsèquement difficile, puisqu en l absence d information de classe elle repose sur une connaissance a priori du problème. Dans notre premier modèle C-CEM (voir chapitre 6), nous avons cherché à regrouper les mots en concepts, tels que deux mots appartenant à un même concept sont sémantiquement proches. Nous avons ensuite représenté les documents dans l espace des concepts. La connaissance a priori utilisée est une hypothèse basée sur la co-occurrence des mots : deux mots apparaissant dans les mêmes documents avec mes mêmes fréquences sont sémantiquement proches. Si cette hypothèse peut paraître simpliste, elle a montré de bons résultats expérimentaux pour plusieurs tâches de recherche d information et c est un bon choix en l absence d information supplémentaire sur le problème. En revanche si nous disposons d informations supplémentaires sur l espace de représentation initial (ici, l espace des mots), il peut être intéressant de les utiliser pour déterminer une nouvelle représentation des données. Dans le cas des données textuelles, ces informations supplémentaires peuvent prendre la forme de ressources linguistiques, permettant de connaître les relations sémantiques entre les mots. Par exemple, une base linguistique comme Wordnet 1 contient des mots (noms, verbes, adjectifs et adverbes ) et leurs définitions, mais aussi les relations sémantiques entre les différents mots (synonymie, hypernymie, hyponymie, etc...). De telles ressources linguistiques pourraient donc être utilisées pour déterminer des concepts de mots sémantiquement proches, et permettre potentiellement d améliorer la pertinence du nouvel espace de représentation des documents. Une première perspective de recherche intéressante serait donc d adapter nos modèles d extraction non supervisée afin qu ils puissent exploiter ce type de ressources linguistiques. Nous pourrions par exemple utiliser ces ressources pour définir des scores de similarité entre les mots. Dans notre algorithme C-CEM, ces scores pourraient être utilisés pour guider la recherche des concepts de mots. En ce qui concerne 1 http ://wordnet.princeton.edu

216 216 Conclusion et perspectives l algorithme PLSA étendu, rappelons qu il apprend entre autres les représentations vectorielles des mots du vocabulaire. Nous pourrions par exemple rajouter des contraintes supplémentaires au modèle, telles que deux mots ayant un score de similarité élevé doivent avoir des représentations vectorielles proches. Dans les deux cas nous voulons utiliser des sources d informations supplémentaires dans le but d améliorer la représentation des documents Extraction multi-tâches pour l ordonnancement d instances Dans le chapitre 7, nous avons formulé le cadre de l extraction multi-tâches dans le cas de l ordonnancement d instances, proposé un premier modèle dans ce cadre ainsi que l algorithme d ordonnancement d instances multi-tâches (OMT) correspondant. Nous pensons que cette direction est particulièrement prometteuse, dans la mesure il est parfois plus pertinent d ordonner les données que de prédire leurs étiquettes. Pourtant d un point de vue expérimental, les performances de notre algorithme OMT ne sont pas complètement satisfaisantes puisque des modèles de prédiction de notes comme FMNG obtiennent des performances très similaires en prédiction d ordre. Notre modèle étant le seul à optimiser une erreur d ordonnancement, il était légitime d en attendre de meilleurs résultats que les méthodes de prédiction de notes. Rappelons que notre algorithme OMT n optimise pas directement l erreur de classification sur les paires cruciales, mais une borne supérieure exponentielle de cette erreur. Il est possible que cette borne supérieure soit tout simplement trop large, et ne permette pas de minimiser efficacement l erreur de classification sur les paires cruciales. Une première perspective de recherche passe donc par l exploration d autres bornes supérieures de l erreur de classification des paires cruciales, ou d autres fonctions d erreur générales en ordonnancement d instances. De plus, remarquons que l erreur d ordonnancement optimisée est une erreur sur toutes les paires cruciales de chaque tâche. Lorsque les paires cruciales sont induites par des scores réels ou entiers, cela revient à considérer une liste ordonnée d éléments et à donner autant d importance à tous les éléments de la liste. Nous voulons que tous les éléments soient correctement ordonnés les uns par rapport aux autres, peu importe leur position dans la liste. Pourtant en pratique, la position d un élément dans la liste est importante. Pour un système de recommandation par exemple, une erreur de prédiction d ordre entre un élément en haut de la liste et un élément en bas de la liste est plus grave qu une erreur de prédiction entre deux éléments en bas de la liste. Ainsi, une deuxième direction de recherche intéressante concerne l étude des erreurs d ordonnancement privilégiant les éléments en haut de la liste Interprétabilité et choix de la représentation des données Dans cette thèse, nous avons vu que l interprétabilité est une propriété désirable d une représentation, et nous nous sommes efforcés de proposer des modèles interprétables. En extraction non supervisée, nous avons proposé le modèle C-CEM pour regrouper les concepts de mots, où chaque concept s interprète naturellement comme la thématique définie par les mots qu il contient. Similairement, nous avons montré comment notre modèle PLSA étendu permet d identifier les thématiques générales dans

217 9.2 Perspectives 217 une collection de documents, ainsi que les sous-thématiques particulières définies par les concepts de mots. En extraction multi-tâches, nous avons proposé le modèle FMNG dans le cadre de la régression. Nous avons montré comment comment les contraintes de non-négativité rendent notre modèle interprétable. Ainsi lorsqu il est appliqué au filtrage collaboratif par exemple, notre modèle permet de détecter des communautés d utilisateurs, ce qui peut être très pratique dans une optique de fouille de données. Lorsque la représentation des données n est pas interprétable, l algorithme d apprentissage est une boite noire dont les prédictions sont des oracles inexplicables pour l utilisateur moyen. Dans cette thèse comme dans la littérature en général, l intérêt de l interprétabilité réside dans le souhait de rendre cette boite noire transparente. En effet, l interprétabilité permet à l utilisateur de comprendre les décisions d un algorithme d apprentissage et d expliquer les données apprises. Nous comprenons par exemple comment C-CEM et PLSA étendu ont modélisé une collection de documents donnée, car nous pouvons deviner les thématiques apprises en lisant les mots associées à chaque thématique. Nous comprenons comment l algorithme FMNG a modélisé les utilisateurs, car ils sont exprimés comme des combinaisons de comportements type, où chaque comportement type est un vecteur de notes sur les articles. Pourtant, nous pensons que l interprétabilité peut trouver des applications plus pratiques, notamment dans le choix de la représentation des données. Nous avons déjà insisté sur l importance cruciale du choix de la représentation en apprentissage. Or lorsque les différentes caractéristiques de la représentation initiale des données sont interprétables, l utilisateur est parfois capable de juger lui-même si une nouvelle représentation est pertinente ou pas pour une tâche d apprentissage donnée. Prenons l exemple de la classification de courriels en deux classes : les courriels normaux et les courriels non désirés. Il est clair qu un utilisateur est capable de juger si certains sont discriminants pour la tâche ( "free", "millions", "offer", etc... ). Plus généralement, nous pensons que grâce à l interprétabilité, l utilisateur est parfois capable de juger lui-même si une nouvelle représentation est pertinente pour une tâche d apprentissage donnée. Ainsi, une direction de recherche consisterait à explorer ce que nous pourrions appeler de la sélection de modèle active, où le système apprenant demande à l utilisateur si telle caractéristique ou telle représentation est pertinente pour la tâche.

218 218 Conclusion et perspectives

219 Bibliographie [Achlioptas, 2001] Dimitris Achlioptas. Database-friendly random projections. In Symposium on Principles of Database Systems, [Amini et al., 2007] M.-R. Amini, A. Tombros, N. Usunier, et M. Lalmas. Learning based summarization of xml documents. Journal of Information Retrieval, 10(3) : , [Amini, 2001] M.-R. Amini. Apprentissage Automatique et Recherche d Information : application à l Extraction d Information de surface et au Résumé de Texte. Thèse de doctorat, Université Pierre et Marie Curie, LIP6, Juillet [Ando et Zhang, 2005a] Rie K. Ando et Tong Zhang. A framework for learning predictive structures from multiple tasks and unlabeled data. Journal of Machine Learning Research, [Ando et Zhang, 2005b] Rie Kubota Ando et Tong Zhang. A framework for learning predictive structures from multiple tasks and unlabeled data. J. Mach. Learn. Res., 6 : , [Baker et McCallum, 1998] L. Douglas Baker et Andrew K. McCallum. Distributional clustering of words for text classification. In W. Bruce Croft, Alistair Moffat, Cornelis J. van Rijsbergen, Ross Wilkinson, et Justin Zobel, editors, Proceedings of SIGIR-98, 21st ACM International Conference on Research and Development in Information Retrieval, pages , Melbourne, AU, ACM Press, New York, US. [Basilico et Hofmann, 2004] Justin Basilico et Thomas Hofmann. A joint framework for collaborative and content filtering. In SIGIR 04, pages , New York, NY, USA, ACM Press. [Belkin et Niyogi, 2002] M. Belkin et P. Niyogi. Laplacian eigenmaps and spectral techniques for embedding and clustering, [Berkhin, 2002] Pavel Berkhin. Survey of clustering data mining techniques. Technical report, Accrue Software, San Jose, CA, [Bingham et Mannila, 2001] Ella Bingham et Heikki Mannila. Random projection in dimensionality reduction : applications to image and text data. In Knowledge Discovery and Data Mining, pages , [Bishop, 2006] Christopher M. Bishop. Pattern Recognition and Machine Learning (Information Science and Statistics). Springer-Verlag New York, Inc., Secaucus, NJ, USA, [Blei et al., 2003] David M. Blei, Andrew Y. Ng, et Michael I. Jordan. Latent dirichlet allocation. J. Mach. Learn. Res., 3 : , [Blei et La, 2006] D. Blei et J. La. Correlated topic models, 2006.

220 220 Bibliographie [Blei et McAuliffe, 2008] David Blei et Jon McAuliffe. Supervised topic models. In J.C. Platt, D. Koller, Y. Singer, et S. Roweis, editors, Advances in Neural Information Processing Systems 20, pages MIT Press, Cambridge, MA, [Burges, 1998] Christopher J. C. Burges. A tutorial on support vector machines for pattern recognition. Data Min. Knowl. Discov., 2(2) : , [Caillet et al., 2004] Marc Caillet, Jean-François Pessiot, Massih Amini, et Patrick Gallinari. Unsupervised learning with term clustering for thematic segmentation of texts. In Proceedings of Rercherche d Information Assistée par Ordinateur, [Caruana, 1997] Rich Caruana. Multitask learning. Machine Learning, 28(1) :41 75, [Celeux et Govaert, 1992] G. Celeux et G. Govaert. A classification em algorithm for clustering and two stochastic versions. Computational Statistics and Data Analysis, 14(3) : , [Cohen et al., 1998] William W. Cohen, Robert E. Schapire, et Yoram Singer. Learning to order things. In Michael I. Jordan, Michael J. Kearns, et Sara A. Solla, editors, Advances in Neural Information Processing Systems, volume 10. The MIT Press, [Conroy et al., 2006] John M. Conroy, Judith D. Schlesinger, Dianne P. O leary, et Jade Goldstein. Back to basics : Classy In Document Understanding Conference, Support-vector net- [Cortes et Vapnik, 1995] Corinna Cortes et Vladimir Vapnik. works. Machine Learning, 20(3) : , [Cutting et al., 1992] D.R. Cutting, D.R. Karger, J.O. Pederson, et J.W. Tukey. Scatter/gatter : A cluster approach to browsing large document collections. In ACM SIGIR 92, pages , [Dasgupta, 2000] Sanjoy Dasgupta. Experiments with random projection. In UAI 00 : Proceedings of the 16th Conference on Uncertainty in Artificial Intelligence, pages , San Francisco, CA, USA, Morgan Kaufmann Publishers Inc. [de Leeuw, 2005] Jan de Leeuw. Modern multidimensional scaling : Theory and applications (second edition). Journal of Statistical Software, Book Reviews, 14(4) :1 2, [DeCoste, 2006] Dennis DeCoste. Collaborative prediction using ensembles of maximum margin matrix factorizations. In ICML 06 : Proceedings of the 23rd international conference on Machine learning, pages , New York, NY, USA, ACM. [Deerwester et al., 1990] Scott C. Deerwester, Susan T. Dumais, Thomas K. Landauer, George W. Furnas, et Richard A. Harshman. Indexing by latent semantic analysis. Journal of the American Society of Information Science, 41(6) : , [Dempster et al., 1977a] A. P. Dempster, N. M. Laird, et D. B. Rubin. Maximum likelihood from incomplete data via the em algorithm. Journal of the Royal Statistical Society. Series B (Methodological), 39(1) :1 38, [Dempster et al., 1977b] A. P. Dempster, N. M. Laird, et D. B. Rubin. Maximum likelihood from incomplete data via the em algorithm. Journal of the Royal Statistical Society. Series B (Methodological), 39(1) :1 38, [Dhillon et al., 2003] I. Dhillon, S. Mallela, et R. Kumar. A divisive informationtheoretic feature clustering algorithm for text classication, 2003.

221 Bibliographie 221 [Dhillon et Modha, 2001] Inderjit S. Dhillon et Dharmendra S. Modha. Concept decompositions for large sparse text data using clustering. Machine Learning, 42(1/2) : , [Dhillon et Sra, 2006] Inderjit S. Dhillon et Suvrit Sra. Generalized nonnegative matrix approximations with bregman divergences. NIPS, [Donoho et Stodden, 2003] D. Donoho et V. Stodden. When does non-negative matrix factorization give a correct decomposition into parts, [Donoho, 2000] D. Donoho. High-dimensional data analysis : The curses and blessings of dimensionality. Lecture delivered at the conference "Math Challenges of the 21st Century" held by the American Math. Society organised in Los Angeles, August 6-11, August [Duda et al., 2000] Richard O. Duda, Peter E. Hart, et David G. Stork. Pattern Classification (2nd Edition). Wiley-Interscience, November [Fellbaum, 1998] Fellbaum. WordNet : An Electronic Lexical Database (Language, Speech, and Communication). The MIT Press, May [Fodor, 2002] Imola Fodor. A survey of dimension reduction techniques, [Forman, 2003] George Forman. An extensive empirical study of feature selection metrics for text classification. J. Mach. Learn. Res., 3 : , [Fradkin et Madigan, 2003] Dmitriy Fradkin et David Madigan. Experiments with random projections for machine learning. In KDD 03 : Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, pages , New York, NY, USA, ACM. [Furey et al., 2000] T. S. Furey, N. Christianini, N. Duffy, D. W. Bednarski, M. Schummer, et D. Hauessler. Support vector machine classification and validation of cancer tissue samples using microarray expression data. Bioinformatics, 16(10) : , [Gaussier et al.] Eric Gaussier, C. Goutte, K. Popat, et Francine Chen. A hierarchical model for clustering and categorising documents. [Gaussier et Goutte, 2005] Eric Gaussier et Cyril Goutte. Relation between plsa and nmf and implications. In SIGIR 05 : Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval, pages , New York, NY, USA, ACM. [Globerson et Roweis, 2006] Amir Globerson et Sam Roweis. Metric learning by collapsing classes. In Y. Weiss, B. Schölkopf, et J. Platt, editors, Advances in Neural Information Processing Systems 18, pages MIT Press, Cambridge, MA, [Goldberger et al., 2005] Jacob Goldberger, Sam Roweis, Geoffrey Hinton, et Ruslan Salakhutdinov. Neighbourhood components analysis. In Lawrence K. Saul, Yair Weiss, et Léon Bottou, editors, Advances in Neural Information Processing Systems 17, pages MIT Press, Cambridge, MA, [Goldstein et al., 1999] Jade Goldstein, Mark Kantrowitz, Vibhu O. Mittal, et Jaime G. Carbonell. Summarizing text documents : Sentence selection and evaluation metrics. In SIGIR, pages , [Golub et Loan, 1996] Gene H. Golub et Charles F. Van Loan. Matrix computations (3rd ed.). Johns Hopkins University Press, Baltimore, MD, USA, 1996.

222 222 Bibliographie [Guyon et al., 2006] Isabelle Guyon, Steve Gunn, Masoud Nikravesh, et Lotfi A. Zadeh. Feature Extraction : Foundations and Applications (Studies in Fuzziness and Soft Computing). Springer-Verlag New York, Inc., Secaucus, NJ, USA, [Guyon et Elisseeff, 2003] Isabelle Guyon et André Elisseeff. An introduction to variable and feature selection. J. Mach. Learn. Res., 3 : , [Hardoon et al., 2003] David R. Hardoon, Sandor Szedmak, et John Shawe-Taylor. Canonical correlation analysis an overview with application to learning methods. Technical Report CSD-TR-03-02, Royal Holloway University of London, [Herlocker et al., 2004] Jonathan L. Herlocker, Joseph A. Konstan, Loren G. Terveen, et John T. Riedl. Evaluating collaborative filtering recommender systems. ACM Trans. Inf. Syst., 22, [Hinton et Roweis, 2003] G. Hinton et S. Roweis Stochastic neighbor embedding, [Hofmann, 1999a] T. Hofmann. Probabilistic latent semantic indexing. In ACM SIGIR 99, pages , [Hofmann, 1999b] Thomas Hofmann. Probabilistic latent semantic analysis. Uncertainty in Artificial Intelligence, [Hofmann, 1999c] Thomas Hofmann. Probabilistic latent semantic indexing. In SI- GIR 99 : Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, pages 50 57, New York, NY, USA, ACM Press. [Hofmann, 2004] Thomas Hofmann. Latent semantic models for collaborative filtering. ACM Trans. Inf. Syst., 22(1) :89 115, [Hotelling, 1933] H. Hotelling. Analysis of a Complex of Statistical Variables with Principal Components [Jain et al., 1999] A. K. Jain, M. N. Murty, et P. J. Flynn. Data clustering : a review. ACM Computing Surveys, 31(3) : , [Järvelin et Kekäläinen, 2000] Kalervo Järvelin et Jaana Kekäläinen. Ir evaluation methods for retrieving highly relevant documents. In SIGIR 00 : Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval, pages 41 48, New York, NY, USA, ACM. [Johnson et Lindenstrauss, 1984] William B. Johnson et Joram Lindenstrauss. Extensions of lipschitz mappings into a hilbert space. Conference in modern analysis and probability, [Jolliffe, 1986] I. T. Jolliffe. Principal Component Analysis. Springer-Verlag, Berlin ; New York, [Kohonen et al., 2001] T. Kohonen, M. R. Schroeder, et T. S. Huang, editors. Self- Organizing Maps. Springer-Verlag New York, Inc., Secaucus, NJ, USA, [Kummamuru et al., 2004] K. Kummamuru, R. Lotlikar, AS. Roy, K. Signal, et R. Krishnapuram. Monothetic document clustering algorithm for summarization and browsing search results. In In ACM WWW s04, [Kupiec et al., 1995] Julian Kupiec, Jan Pedersen, et Francine Chen. A trainable document summarizer. In Proceedings of the 18 th ACM SIGIR Conference, pages 68 73, [Lee et Seung, 1999a] D. D. Lee et H. S. Seung. Learning the parts of objects by non-negative matrix factorization. Nature, 401(6755) : , October 1999.

223 Bibliographie 223 [Lee et Seung, 1999b] Daniel D. Lee et H. S. Seung. Learning the parts of objects by non-negative matrix factorization. Nature, 401 : , [Lee et Seung, 2000] Daniel D. Lee et H. Sebastian Seung. Algorithms for nonnegative matrix factorization. In NIPS, pages , [Lin et Hovy, 2003] Chin-Yew Lin et Eduard Hovy. Automatic evaluation of summaries using n-gram co-occurrence statistics. In NAACL 03, pages 71 78, [Liu et al., 2003] Tao Liu, Shengping Liu, Zheng Chen, et Wei-Ying Ma. An evaluation on feature selection for text clustering. In ICML, pages , [Mani, 2001] Inderjeet Mani. Automatic Summarization. John Benjamins Publishing Company, [Marcu, 1999] Daniel Marcu. The automatic construction of large-scale corpora for summarization research. In Proceedings of the 22 nd ACM SIGIR Conference, pages , [Marlin, 2004a] B. Marlin. Collaborative filtering : A machine learning perspective, [Marlin, 2004b] B. Marlin. Modeling user rating profiles for collaborative filtering, [Merler et Jurman, 2006] Stefano Merler et Giuseppe Jurman. Terminated rampsupport vector machines : A nonparametric data dependent kernel. Neural Netw., 19(10) : , [Neal et Hinton, 1998] R. M. Neal et G. E. Hinton. A new view of the EM algorithm that justifies incremental, sparse and other variants. In M. I. Jordan, editor, Learning in Graphical Models, pages Kluwer Academic Publishers, [Ng et Han, 1994] R. T. Ng et J. Han. Efficient and effective clustering methods for spatial data mining. In Jorgeesh Bocca, Matthias Jarke, et Carlo Zaniolo, editors, 20th International Conference on Very Large Data Bases, September 12 15, 1994, Santiago, Chile proceedings, pages , Los Altos, CA 94022, USA, Morgan Kaufmann Publishers. [Over et Yen, 2003] P. Over et J. Yen. An introduction to duc 2003 : Intrinsic evaluation of generic news text summarization systems. In Document Understanding Conference, [Paice et Jones, 1993] C.D. Paice et P.A. Jones. concepts in highly structured technical papers. SIGIR Conference, pages 69 78, The identification of important In Proceedings of the 16 th ACM [Pearson, 1901] K. Pearson. On lines and planes of closest fit to systems of points in space. Philosophical Magazine, 2(6) : , [Perny et Zucker, 2001] P. Perny et J.-D. Zucker. Preference-based search and machine learning for collaborative filtering : the film-conseil recommender system. Information, Interaction, Intelligence, 1 :9 48, [Polcicová, 2004] Gabriela Polcicová. Topographic Organization of User Preference Patterns in Collaborative Filtering. PhD thesis, Slovak University of Technology in Brastilava, [Roweis et Saul, 2000] Sam T. Roweis et Lawrence K. Saul. Nonlinear dimensionality reduction by locally linear embedding. Science, 290(5500) : , December 2000.

224 224 Bibliographie [Salton et McGill, 1986a] Gerard Salton et Michael J. McGill. Introduction to Modern Information Retrieval. McGraw-Hill, Inc., New York, NY, USA, [Salton et McGill, 1986b] Gerard Salton et Michael J. McGill. Introduction to Modern Information Retrieval. McGraw-Hill, Inc., New York, NY, USA, [Sarwar et al., 2000] B. Sarwar, G. Karypis, J. Konstan, et J. Riedl. Application of dimensionality reduction in recommender systems a case study, [Schultz et Joachims, 2004] Matthew Schultz et Thorsten Joachims. Learning a distance metric from relative comparisons. In Sebastian Thrun, Lawrence Saul, et Bernhard Schölkopf, editors, Advances in Neural Information Processing Systems 16. MIT Press, Cambridge, MA, [Shani et al., 2005] Guy Shani, David Heckerman, et Ronen I. Brafman. An mdpbased recommender system. Journal of Machine Learning Research, 6, [Slonim et al., 2002] N. Slonim, N. Friedman, et N. Tishby. Unsupervised document classification using sequential information maximization. In Proceedings of the 25 th ACM SIGIR Conference, pages , [Slonim et Tishby, 2000] Noam Slonim et Naftali Tishby. Document clustering using word clusters via the information bottleneck method. In Research and Development in Information Retrieval, pages , [Slonim et Tishby, 2002] Noam Slonim et Naftali Tishby. Unsupervised document classification using sequential information maximization. In ACM SIGIR, pages , [Sparck-Jones, 1993] K. Sparck-Jones. Discourse modeling for automatic summarizing. Technical report, Computer laboratory, university of Cambridge, [Srebro et al.] Nathan Srebro, Jason D. M. Rennie, et Tommi S. Jaakola. Maximummargin matrix factorization. [Srebro et Jaakkola, 2003] N. Srebro et T. Jaakkola. Weighted low rank approximation, [Strehl et Ghosh, 2002] Alexander Strehl et Joydeep Ghosh. Cluster ensembles a knowledge reuse framework for combining multiple partitions. Journal on Machine Learning Research (JMLR), 3 : , [Tenenbaum et al., 2000] J. B. Tenenbaum, V. de Silva, et J. C. Langford. A global geometric framework for nonlinear dimensionality reduction. Science, 290(5500) : , December [Teo et al., 2007] C.H. Teo, A.J. Smola Q. Le, et S.V.N. Vishwanathan. A scalable modular convex solver for regularized risk minimization. Conference on Knowledge Discovery and Data Mining, [Usunier et al., 2004] N. Usunier, M.-R. Amini, et P. Gallinari. Boosting weak ranking functions to enhance passage retrieval for question answering. In IR4QAworkshop, SIGIR, [Usunier, 2006] Nicolas Usunier. Apprentissage de fonctions d ordonnancement : une étude théorique de la réduction à la classification et deux applications à la Recherche d Information. PhD thesis, Université Pierre et Marie Curie, [Van Rijsbergen, 1979] K. Van Rijsbergen. Information Retrieval. Butterworths, London, [Vapnik, 1995] Vladimir N. Vapnik. The nature of statistical learning theory. Springer-Verlag New York, Inc., New York, NY, USA, 1995.

225 Bibliographie 225 [Wall et al., 2003] Michael E. Wall, Andreas Rechtsteiner, et Luis M. Rocha. Singular Value Decomposition and Principal Component Analysis, chapter 5, pages Kluwel, Norwell, MA, Mar [Weimer et al., 2007] M. Weimer, A. Karatzoglou, Q.V. Le, et A. Smola. Cofirank : Maximum margin matrix factorization for collaborative ranking. In Neural Information Processing Systems, [Weinberger et al., 2006] Kilian Weinberger, John Blitzer, et Lawrence Saul. Distance metric learning for large margin nearest neighbor classification. In Y. Weiss, B. Schölkopf, et J. Platt, editors, Advances in Neural Information Processing Systems 18, pages MIT Press, Cambridge, MA, [Xu et al., 2003] Wei Xu, Xin Liu, et Yihong Gong. Document clustering based on non-negative matrix factorization. In SIGIR 03 : Proceedings of the 26th annual international ACM SIGIR conference on Research and development in informaion retrieval, pages , New York, NY, USA, ACM Press. [Xu et Croft, 1996] Jinxi Xu et W. Bruce Croft. Query expansion using local and global document analysis. In Proceedings of the 19 th ACM SIGIR Conference, pages 4 11, [Xu et Croft, 1999] J. Xu et W.B. Croft. Cluster-based language models for distributed retrieval. In ACM SIGIR 99, pages , [Yang et Pedersen, 1997] Yiming Yang et Jan O. Pedersen. A comparative study on feature selection in text categorization. In Douglas H. Fisher, editor, Proceedings of ICML-97, 14th International Conference on Machine Learning, pages , Nashville, US, Morgan Kaufmann Publishers, San Francisco, US.

Montrer encore