Conservatoire National des Arts et Métiers Centre régional de Montpellier. Examen probatoire

Transcription

1 Cnam Conservatoire National des Arts et Métiers Centre régional de Montpellier Examen probatoire L apport de la fouille de données dans l analyse de texte. Sujet proposé par : Mme Maguelonne Teisseire Présenté par Jean-Michel Delorme le 24 avril 2002 Président du jury M. Jean Ranchin Professeur correspondant du centre M. Marc Nanard 1

2 L apport de la fouille de données dans l analyse de texte Table des matières 2 Introduction : 3 - Définition de la fouille de donnée. 3 - Les enjeux économiques 3 - Les moyens techniques et technologiques 4 - Problématique de l analyse de texte. 4 Techniques de fouille : 5 - Objectifs 5 - Les méthodes utilisées 6 Typologie 6 Description de méthodes 7 - Synthèses 16 Techniques de l analyse de texte 18 - Comment obtenir les mesures de similarité 18 Pré-traitements 19 Représentation et mesures de similarité 20 - Les traitements sur les textes 23 Regroupements 23 Règles d association 24 Classification 24 - Synthèses 24 Conclusion : 26 - Les apports de la fouille de données dans l analyse de texte 26 - Une adaptation possible des pré-traitements 26 Annexes : 27 - Glossaire 27 - Bibliographie 31 2

3 Introduction : - Définition de la fouille de données 3 - Les enjeux économiques 3 - Les moyens techniques et technologiques 4 - Problématique de l analyse de texte 4 Définition de la fouille de donnée La fouille de donnée (souvent appelée «data mining») est l exploration et l analyse de grandes quantités de données afin d y découvrir de l information implicite. Cette information peut être de différente nature, par exemple on recherchera des règles d association, une classification ou une segmentation de population. On pourra en faire des représentations différentes pour en faciliter l usage et mettre en œuvre nombre de techniques souvent complémentaires sans qu aucune ne surpasse l autre. On retrouve notamment dans ce domaine les arbres de décision ou les réseaux de neurones parmi les techniques les plus sophistiquées. Il existe également une branche spécialisée de la fouille de données qui prend part à l analyse de textes libres : la fouille de données textuelles ou «text mining». Les enjeux économiques Les domaines d utilisations du «data mining» sont nombreux : médecine, génétique, astronomie, processus industriels, agriculture ou encore la gestion de la relation client (G.R.C.). Les entreprises ont mis en œuvre ces outils pour améliorer leur connaissance des clients et ainsi augmenter leur rentabilité. Elles entendent exploiter les grandes quantités d information qu elles détiennent et les tourner en avantages compétitifs. Les principaux secteurs économiques utilisant ces techniques sont le secteur financier (banques et assurance), les télécommunications ainsi que les entreprises de la grande distribution. Dans ces secteurs, massivement informatisés depuis longtemps, les données sont disponibles au sein d entrepôts de données. Par exemple : Chaque banque conserve l historique des relevés de comptes de ses clients donc de toutes leurs dépenses ou revenus et peut donc calculer une «note» en fonction des risques financiers encourus, Les entreprises de télécommunication connaissent l ensemble les appels ainsi que leurs dates, heures, destination et durées. Ils peuvent donc prévoir, grâce à ces informations, si un client est susceptible de passer à la concurrence, Les entreprises de la grande distribution utilisent les lecteurs de code barre et les caisses enregistreuses pour centraliser les achats conservées sous forme de tickets de caisse électroniques. Il leur est donc facile de cibler leurs actions commerciales sur les propensions de la clientèle à acheter tel ou tel produit. Toutes ces informations sont généralement enrichies par les données socio-démographiques (professions, âge, statut marital, nombre d enfants) et géographiques (adresse personnelle, lieu de travail, etc ), qui permettent d améliorer la connaissance des clients. Pour la grande distribution, l éloignement géographique du magasin par rapport au domicile est souvent un critère important. Dans le cadre de concurrence exacerbée que connaissent ces entreprises, la maîtrise de l analyse et de la compréhension des comportements des clients et des prospects est devenue une arme commerciale. Les directions commerciales et mercatiques de ces entreprises espèrent ainsi prévoir l évolution de comportements d achat et ainsi personnaliser la relation entre l entreprise et le consommateur. La fouille fait donc partie de la gamme de techniques utilisées pour améliorer leur G.R.C.. 3

4 Les moyens techniques et technologiques Régulièrement, la puissance des ordinateurs augmente fortement pendant que leur prix diminue. Les bases de données sont capables de gérer des volumes très importants avec une grande efficacité. De nombreux logiciels de fouille de données sont également disponibles sur le marché. Ils intègrent efficacement les algorithmes et les méthodes d analyse numérique les plus sophistiqués. Les sciences mathématiques et statistiques sont en perpétuelle évolution, par conséquent les outils de fouille le sont aussi. Cette évolution a été continue :. Dans les années 50, les techniques de régression multi-variées apparaissent et connaissent toujours un succès important,. Dans les années 60, c est la théorie de l Analyse en Composantes Principales qui émerge,. Puis, dans les années 70 les Arbres de Décision, toujours très utilisés,. Les années 1980 voient l apparition des Réseaux de Neurones, puis des Algorithmes Génétiques. Toutes ces techniques visent le même but : construire un modèle descriptif ou prédictif. On recherche donc les relations entre les données d entrées dont on dispose et les constats d un phénomène que l on veut étudier. Par exemple : Quelles sont les personnes qui achètent un produit «P»? Quelles sont leurs caractéristiques? Ce modèle sera ensuite appliqué sur de nouvelles données pour prédire des catégories ou des valeurs, et segmenter une population. Par exemple : Quelle est la probabilité que telle personne achète le produit «P»? Problématique de l analyse de texte Si les trente dernières années ont produit une masse colossale de données structurées issues de bases de données relationnelles, les dix dernières années ont engendré une surabondance d informations textuelles, notamment publiées et facilement accessibles sur le réseau mondial. La fouille de données textuelles est l extraction d information utile à partir de formes non manifestes dans de grand corpus de textes (Feldman et al. 1998). Certaines techniques de la fouille de donnée sont appliquées dans cet objectif, mais d autres branches de l intelligence artificielle ou des mathématiques y trouvent une place importante. Ce sont par exemple les domaines du traitement automatisé des langages naturels, des statistiques ou encore la gestion de connaissance. Évaluer des similarités entre entités textuelles est un des problèmes centraux dans plusieurs disciplines traitant de documents, comme l'analyse de données textuelles, la recherche documentaire ou l'extraction de connaissances à partir de données textuelles. Dans chacun de ces domaines, des notions de similarités sont en effet utilisées pour une large variété de traitements : - En analyse de données textuelles (ADT), les similarités sont utilisées pour la description et l'exploration de données, pour l'identification de structures cachées et pour la prédiction, - En recherche documentaire (RD), l'évaluation des similarités entre documents et requêtes est utilisée pour identifier les documents pertinents par rapport à des besoins d'information exprimés par les utilisateurs, - En «text mining» (TM), les similarités sont utilisées pour produire des représentations synthétiques de vastes collections de documents, dans le cadre de procédures d'extraction d'information à partir de données textuelles. 4

5 Techniques de fouille : - Objectifs 5 Classification 5 Estimation 5 Prédiction 5 Associations 6 Segmentation 6 - Les méthodes utilisées 6 Typologie 6 Méthodes classiques 6 Méthodes sophistiquées 6 Description de quelques méthodes 7 Algorithmes de segmentation 7 Règles d association 9 Algorithmes de classification, estimation et prédiction 11 - Synthèses 17 Objectifs On se situe dans un environnement d'aide à la décision à partir de données. On dispose de données structurées. Les objets sont représentés par des enregistrements (ou descriptions) qui sont constitués d'un ensemble de champs (ou attributs) prenant leurs valeurs dans un domaine. On peut mettre en évidence différentes problématiques auxquelles nous associons une ou plusieurs tâches. La classification Elle consiste à examiner les caractéristiques d'un individu et lui attribuer une classe, la classe est un champ particulier à valeurs discrètes. Des exemples de tâche de classification sont :. Attribuer ou non un prêt à un client,. Établir un diagnostic,. Accepter ou refuser un retrait dans un distributeur,. Attribuer un sujet principal à un article de presse. L'estimation Elle consiste à estimer la valeur d'un champ à valeurs continues à partir des caractéristiques d'un objet. L'estimation peut être utilisée dans un but de classification. Il suffit d'attribuer une classe particulière pour un intervalle de valeurs du champ estimé. Des exemples de tâche d'estimation sont :. Noter un candidat à un prêt ; cette estimation pourra trouvera une application pour attribuer un prêt (classification), par exemple, en fixant un seuil d'attribution,. Estimer les revenus d'un client. La prédiction Cela consiste à estimer une valeur future. En général, les valeurs connues sont classées chronologiquement. On cherche à prédire la valeur future d'un champ. Cette tâche est proche des précédentes. Les méthodes de classification et d'estimation peuvent être utilisées en prédiction. Des exemples de tâche de prédiction sont :. Prédire les valeurs futures d'actions,. Prédire au vu de leurs actions passées les départs de clients. 5

6 Les règles d'association Cette tâche, plus connue comme l analyse du panier de la ménagère, consiste à déterminer les variables qui sont associées. L'exemple type est la détermination des articles (le poisson et le vin blanc ; la baguette et le camembert et le vin rouge,...) qui se retrouvent ensemble sur un même ticket de supermarché. Cette tâche peut être effectuée pour identifier des opportunités de vente croisée et concevoir des groupements attractifs de produit. La segmentation Il s'agit de créer des groupes homogènes dans la population (l'ensemble des enregistrements). Il appartient ensuite à un expert du domaine de déterminer l'intérêt et la signification des groupes ainsi constitués. Cette tâche est souvent effectuée avant les précédentes pour construire des groupes sur lesquels on applique des tâches de classification ou d'estimation. Les méthodes utilisées Typologie des méthodes Pour tout jeu de données et un problème spécifique, il existe plusieurs méthodes que l on choisira en fonction de :. La tâche à résoudre,. La nature la nature et de la disponibilité des données,. L ensemble des connaissances et des compétences disponibles,. La finalité du modèle construit,. L environnement social, technique, philosophique de l entreprise. On peut dégager deux grandes catégories de méthodes d analyse consacrées à la fouille de données. La frontière entre les deux peut être définie par la spécificité des techniques, et marque l aire proprement dite du «Data Mining». On distingue donc : Les méthodes classiques On y retrouve des outils généralistes de l informatique ou des mathématiques :. Les requêtes dans les bases de données, simples ou multi-critères, dont la représentation est une vue,. Les requêtes d analyse croisée, représentées par des tableaux croisés,. Les différents graphes, graphiques et représentations,. Les statistiques descriptives,. L analyse de données : analyse en composantes principales. Les méthodes sophistiquées Elles ont été élaborées pour résoudre des tâches bien définies. Ce sont :. Les algorithmes de segmentation,. Les règles d association,. Les algorithmes de recherche du plus proche voisin,. Les arbres de décision,. Les réseaux de neurones,. Les algorithmes génétiques. 6

7 Description de quelques méthodes Cette section n est pas une présentation exhaustive de l ensemble des techniques de la fouille de données, mais une présentation de quelques méthodes pour fournir un aperçu du domaine. Parmi les méthodes dite classique, on a cité entre autres l analyse en composante principale, qui constitue encore une technique très utilisée. En ce qui concerne les méthodes plus spécifique une présentation d algorithmes de segmentation, de définition de règles d association et des arbres de décision et réseaux de neurones va être faite. Algorithmes de segmentation Rappelons que l objectif est de réaliser une partition (division en groupes disjoints) d une population afin d effectuer plus facilement des tâches ou des expertises. Les algorithmes qui suivent ne fourniront pas forcément le même résultat, ils correspondent à des heuristiques différentes. Méthode des k-moyennes On doit choisir a priori le nombre «k» de groupes à déterminer, que l on introduit par un sousensemble de k éléments de la population «P» appelés centres. Soit : P={P1,..,Pn}, on définit une distance D dans l espace de représentation de P et une moyenne moy de P n vers l espace de représentation de P. On choisi : C={C1,..,Ck} inclus dans P. Initialisation : Pour tout entier naturel i de{1..k}, on fixe les groupes : (Ci) 0 ={} (Ci) 1 =Ci de moyenne Ci = Ci. On pose : j=1 entier naturel (le nombre d itérations effectuées plus un) Tant que : (Ci) j est différent de (Ci) j-1, pour tout i de {1..k} Faire : pour tout i de {1..k} Fin de tant que (Ci) j=1 ={Pq de P : D(Pq, Ci) D(Pq, Ci ), pour tout q et i de {1..k} } Ci =moy (Ci) j=1 j=j+1 Méthode d agglomération : méthode ascendante Ici, on ne choisi pas de d éléments a priori, tous les individus de la population sont potentiellement candidats à la génération d un groupe. Soit : P={P1,..,Pn}, on définit une distance D dans l espace de représentation de P. Initialisation : Pour tout entier naturel i de Card(P)=n, on fixe les groupes : Gi={Pi} et la partition P o (P)={ Gi } On pose : j=1 ( rang de l itération plus un) Tant que : j n Faire : Gn+j = Gp U Gq : D(Gp,Gq) D(Gt,Gu), pour tout Gp, Gq, Gt et Gu de (P j-1 (P))} Pour tout Gi de P j-1 (P)-{Gp,Gq} : D(Gn+j,Gi)=min(D(Gp,Gi), D(Gq,Gi)) Extension de la notion de distance effectivement basé sur la distance entre points de l espace. P j (P) = P j-1 (P) {Gp} {Gq} + { Gn+j} j=j+1 Fin de tant que 7

8 Méthode dichotomique : méthode descendante ou arbres de décision Soit : P={P1,..,Pn}, on définit une distance D dans l espace de représentation de P. Initialisation : Go =P et jo :=0 n=card(p) Pour tout : jo < j Abs(n+1/2) On définit une partition P j (P) = {Gj,k ; 1 k 2 j : Div (P j-1 (P))} Où Div est une fonction de diversité définie par : Div (P j-1 (P))={ div (Gj,k) }tel que pour tout j, k : div (Gj,k) = {G j+1, 2k-1 ; G j+1, 2k : Gj,k = G j+1, 2k-1 G j+1, 2k } et vérifiant pour tout Gj,k : i) La dispersion dans chaque Gj,k (distance intra groupe) est minimisée : Disp (Gj,k) = 1 / q(q-1) D(g, g ) est minimum, où q = Card(Gj,k). g, g (Gj,k) ii) La distance entre les sous ensembles Gj,2 j et Gj,2 j-1 est maximisée : Dx (Gj,2 j, Gj,2 j-1 ) est maximum. On peut définir Dx d au moins trois manières :. D1 : le rattachement simple où la distance entre deux groupes est la plus petite distance entre les éléments les plus proches,. D2 : le rattachement complet où la distance entre deux groupes est donnée par la distance entre les membres les plus éloignés,. D3 : le rattachement moyen où la distance entre deux groupes est donnée par la distance entre les centres. Finalisation de la segmentation : Choisir la segmentation «optimale», dans chacune des méthodes, équivaut à déterminer le nombre de sous parties de l ensemble initial P. Dans la première méthode, on itère l algorithme avec différentes valeurs de k comprises entre 1 et n. On choira la solution qui minimise les distances intra groupe et maximise les distances inter groupes calculées à chaque itération. Dans les deux dernières méthodes présentées, on ne choisi pas a priori le nombre de segments souhaité. On sélectionnera le rang qui discrimine le mieux les sous-parties grâce aux propriétés d une fonction de diversité. Critiques de la méthode Les atouts : + Apprentissage non supervisé : la méthode des k-moyennes et ses variantes résolvent une tâche dite non supervisée, c'est-à-dire qu'elle ne nécessite aucune information sur les données. La segmentation peut être utile pour découvrir une structure cachée qui permettra d'améliorer les résultats de méthodes d'apprentissage supervisé (classification, estimation, prédiction). + Applicable à tous type de données : en choisissant une bonne notion de distance, la méthode peut s'appliquer à tout type de données (mêmes textuelles). + Facile à implanter : la méthode ne nécessite que peu de transformations sur les données (excepté les normalisations de valeurs numériques), il n'y a pas de champ particulier à identifier, les algorithmes sont faciles à implanter et sont, en règle générale, disponibles dans les environnements de «data mining». 8

9 Les désavantages : - Problème du choix de la distance : les performances de la méthode (la qualité des groupes constitués) sont dépendantes du choix d'une bonne mesure de similarité ce qui est une tâche délicate surtout lorsque les données sont de types différents. - Le choix des bons paramètres : la méthode est sensible au choix des bons paramètres, en particulier, le choix du nombre k de groupes à constituer. Un mauvais choix de k produit de mauvais résultats. Ce choix peut être fait en combinant différentes méthodes, mais la complexité de l'algorithme augmente. - L'interprétation des résultats : il est difficile d'interpréter les résultats produits, en d autres termes, d'attribuer une signification aux groupes constitués. Ceci est général pour les méthodes de segmentation. Règles d association Rappelons que l application principale est «l analyse du panier de la ménagère», c est à dire la recherche d associations entre produits sur les tickets de caisse. Les domaines applicables sont tous les secteurs pour lesquels il est intéressant de rechercher des groupements potentiels de produits. Par exemple en médecine, pour rechercher des complications dues à des associations de médicaments. Méthode Première étape : Etablissement de la matrice «Achats /Produits» Cette Matrice représentée sous forme de tableau, stigmatise l apparition d un produit lors d un achat. Soit A={Ai,..,An} la liste des achats et P={P1,..,Pq} la liste des produits considérés. Alors la matrice de dimension (n,q) : M=[Mij] tel que pour tout i {1,..,n}et pour tout j {1,..,q} : Mij=1 si le produit Pj appartient à l achat Ai Mij=0 sinon est la matrice booléenne d apparition d un produit dans les achats. Généralisation : Etablissement de la matrice «Achats / k-produits» Soit : M(k)= [Mij 1,..,j k ] tel que pour tout i {1,..,n}et pour tout j 1,..,j k Mij 1,..,j k =1 si les produits Pj 1,..,Pj k appartienent à l achat Ai Mij 1,..,j k =0 sinon la matrice booléenne d apparition de k produits dans les achats. {1,..,q} Deuxième étape : Etablissement de la matrice des co-occurrence pour k éléménts, représentant l effectif d apparition simultané de k produits de P lors des achats. Si on construit la matrice de co-occurrence à 2 éléments, le résultat obtenu sera un tableau avec la liste des produits en ligne et en colonne. L effectif de simultanéité, pour 2 produits lors des achats, apparaît à l intersection d une ligne et d une colonne du tableau. Les valeurs trouvées sont celles du produit matriciel des matrices «Produits /Achats» et «Achats /Produits». Soit : M (2) = t M.M où t M est la matrice transposée dem. Il s agit donc d une matrice symétrique, dont tout élément Mii de la diagonale principale donne le nombre d apparitions d un produit Pi lors des achats. 9

10 Généralisation : Si on dispose de la matrice «Achats / (k-1)-produits» notée M(k-1), alors le produit matriciel : M (k) = t M.M(k-1) est la matrice de co-occurrence de k produits de P lors des achats. Remarques : - Toutes les matrices de rang k se déduisent algorithmiquement de la matrice «Achats /Produits». - La pratique montre que l on calcule uniquement les matrices de rang inférieur ou égal à trois. Détection de règles d association Une règle est une forme d induction logique : <condition> <résultat>. On s intéresse généralement aux règles de la forme X Y et X Y Z, où X,Yet Z sont des produits et le connecteur logique de conjonction. Toute règle <condition> <résultat> se dériverait par la logiquement pure en la forme totologique : <condition> <résultat> Vrai. Dans cette étude, on ne recherchera pas forcément une vérité absolue mais une fréquence forte de réalisation appelée support. Ce ratio S se calcule grâce à l effectif d = M i représentant la règle r=<condition> <résultat> dans la matrice M (k). Précisons que est le numéro de la colonne du tableau correspondant à la condition (par exemple X Y). On a : S (r) = d(r) / n où n est le nombre d achats. Ce critère permet de pré-sélectionner des règles à support intéressant. Cependant, on observe que les règles <condition> <résultat> et< résultat > < condition > ont le même support. Laquelle sera la plus intéressante à étudier? Pour déterminer ceci, on introduit la notion de confiance d une condition pour une règle : C(<condition >, r) = S (r) / S (<condition >) = d(r) / d(<condition >) Rappelons que <cond> est considéré comme une règle représentée dans M (k-1). Si une règle <condition> <résultat> affiche une meilleure confiance que les autres règles de même support, on ignore si la fréquence de <résultat> ne serait pas meilleure (plus intéressante à étudier) avec une condition moins stricte ou différente. On étudie alors l amélioration : A (r) = C(<condition>, r) / S (<résultat>) = n. d(r) / d(<condition >) d(<résultat >) Une règle est intéressante lorsque l'amélioration est supérieure à 1. Critiques de la méthode Les atouts : + Méthode non supervisée à l exception de la classification de différents articles en produits, + Clarté des résultats : les règles faciles à interpréter, + Traite des données de taille variables : le nombre de produits dans un achat n est pas défini, + Simplicité de programmation : même avec un tableur, + Méthode adaptable : on peut faire intervenir des produits virtuels (date, jour, saison) afin de «temporaliser» les données à analyser. 10

11 Les désavantages : - Pertinence des résultats : ils peuvent être triviaux ou inutiles, - Efficacité faible dans certains cas : pour les produits rares, - Traitement préalable des données : classement les articles en produits, - Le coût calculatoire de la méthode est important : Pour n et k 2 donnés, la taille des tableaux de co-occurrence est : n! /(n-k)!. k! Amélioration : en fixant a priori un seuil minimum des supports à traiter, un effectue pour chaque k un élagage qui diminue le nombre de cas à traiter. Algorithmes de classification, estimation et prédiction Rappelons que ces trois tâches sont fonctionnellement liées. Elles s appuient sur le principe de détermination d une variable particulière d un individu connaissant le comportement d un échantillon donné. Méthode des plus proches voisins Cette méthode est dédiée à la classification et peut être étendue à des tâches d'estimation. Elle part de l'idée de prendre des décisions en recherchant un ou des cas similaires déjà résolus en mémoire. Cependant, il n'y a pas d'étape d'apprentissage consistant en la construction d'un modèle à partir d'un échantillon. C'est une fonction de distance et une fonction de choix de la classe qui constitue le modèle. On doit choisir a priori le nombre «k» de voisins d un individu. On définira préalablement des distances sur chaque champ et une distance entre enregistrements. Données : un échantillon de m éléments : E={(x i,c(x i )} ; un entier i élément de {1,..,m} On fournit en entrée un nouvel enregistrement y, dont il faut déterminer : 1) les k plus proches voisins, soit une application : {1,..,k} {1,..,m} 2) la classe de y, qui est une fonction combinée des k éléments trouvés : c(y) = [c(x (j))] pour tout j {1,..,k} Choix des distances Définition des distances sur les champs : elle s effectue en fonction du type des champs. Les type de champ numérique : on peut établir des distances basées sur la valeur absolue - d(x,y)= x-y - d(x,y)= x-y /dmax avec dmax = Max( u-v ) pour toutes les valeurs u,v de la variable. Cette forme réduite est préférable pour l homogénéité des échelles. Les types de champs discrets : ils sont subdivisés en trois catégories. Les champs binaires, ils ont une structure isomorphe à {0,1}. Si le champ prend ses valeurs dans {A,B} alors il existe une application bijective : {A,B} {0,1} t elle que : (, ) = ( )- ( Les champs énumératifs, pour lesquels on introduit une «distance relative» en considérant la fonction de distance suivante : (, ) = 0 si et 1 sinon. On remarquera la similitude avec la distance des champs booléens. Les champs énumératifs ordonnés, définis dans E={ei} i {1,..,n} isomorphe à{1,..,n}. On détermine la distance par : ( ei, ej) = 1 / i-j 11

12 Définition des distances entre enregistrements : si (di) i {1,..,n} sont les distances respectives pour chaque champ xi, on défini la distance entre enregistrements par des fonctions du type : n - Distance Euclidienne : D(x,y)= di (xi, yi) 2 i=1 Elle favorise la proximité des champs. n - Sommation : D(x,y)= di (xi, yi) i=1 Elle accepte des écarts importants sur les champs au profit d une proximité globale. Sélection de la classe L'idée de la méthode est la recherche de cas similaires au cas à résoudre et d'utiliser les classifications des cas proches pour prendre une décision. La méthode la plus simple est de rechercher le cas le plus proche et de prendre la même décision. C'est la méthode 1-PPV (1-NN) du plus proche voisin. Si cette méthode peut fournir de bons résultats sur des problèmes simples pour lesquels les points (les enregistrements) sont bien répartis en groupes denses d'enregistrements de même classe, en règle générale, il faut considérer un nombre de voisins plus important pour obtenir de bons résultats. La décision par combinaison des k classes peut se faire de deux manières en considérant différentes définitions de la fonction présentée précédemment. Soit la répartition des k voisins {Vi}, i {1,..k} i dans j classes {C1,.., Cj}, j k : 1 ) Le vote majoritaire : La classe de y est : c(y)=max(card(c )) pour variant de 1 à j 2 ) Le vote majoritaire pondéré : Pour tous les voisins Vi, on définit le pondération i = D(Vi, y ) -1 puis, pour chaque C, {1,..j}, la pondération W = i : Vi C. Soit donc (W ) {1,..,j}, l ensemble des poids de vote pour chaque classes. La classe de y est : c(y) = C telle que W =Max (W ) pour variant de 1 à j. Dans les deux cas précédents, il est possible de définir une confiance dans la classe attribuée égale au rapport entre les votes gagnants et le total des votes : Conf(c(y) )= Card(C ) / k Lorsque la technique est appliquée à une tâche d'estimation, donc à prédire la valeur d'un attribut continu, la notion de vote perd tout son sens. Une première solution pour combiner les réponses est l'interpolation, c'est-à-dire de calculer une moyenne pondérée des réponses. Un défaut de cette solution est de «lisser» les données. Une deuxième solution est de considérer les k enregistrements avec la valeur prédite correspondante et d'utiliser les techniques de régression linéaire pour estimer la valeur pour y. 12

13 Critiques de la méthode Les atouts : + Absence d'apprentissage : c'est l'échantillon qui constitue le modèle. L'introduction de nouvelles données permet d'améliorer la qualité de la méthode sans nécessiter la reconstruction d'un modèle. C'est une différence majeure avec des méthodes telles que les arbres de décision et les réseaux de neurones. + Clarté des résultats : bien que la méthode ne produise pas de règle explicite, la classe attribuée à un exemple peut être expliquée en exhibant les plus proches voisins qui ont amené à ce choix. + Données hétérogènes : la méthode peut s'appliquer dès qu'il est possible de définir une distance sur les champs. Or, il est possible de définir des distances sur des champs complexes, tels que des informations géographiques, des textes, des images ou du son. C'est parfois un critère de choix de la méthode PPV car les autres méthodes traitent difficilement les données complexes. On peut noter, également, que la méthode est robuste au bruit. + Grand nombre d'attributs : la méthode permet de traiter des problèmes avec un grand nombre d'attributs. Cependant, plus le nombre d'attributs est important, plus le nombre d'exemples doit être grand. Les désavantages : - Sélection des attributs pertinents : pour que la notion de proximité soit pertinente, il faut que les exemples couvrent bien l'espace et soient suffisamment proches les uns des autres. Si le nombre d'attributs pertinents est faible relativement au nombre total d'attributs, la méthode donnera de mauvais résultats car la proximité sur les attributs pertinents sera noyée par les distances sur les attributs non pertinents. Il est donc parfois utile de sélectionner tout d'abord les attributs pertinents. - Le temps de classification : si la méthode ne nécessite pas d'apprentissage, tous les calculs doivent être effectués lors de la classification. Ceci est la contrepartie à payer par rapport aux méthodes qui nécessite un apprentissage (éventuellement long) mais qui sont rapides en classification (le modèle est créé, il suffit de l'appliquer à l'exemple à classifier). Certaines méthodes permettent de diminuer la taille de l'échantillon en ne conservant que les exemples pertinents pour la méthode PPV, mais il faut, de toute façon, un nombre d'exemple suffisamment grand relativement au nombre d'attributs. - Stocker le modèle : le modèle est l'échantillon, il faut donc un espace de mémoire important pour le stocker ainsi que des méthodes d'accès rapides pour accélérer les calculs. - Définir les distance et nombre de voisins : les performances de la méthode dépendent du choix de la distance, du nombre de voisins et du mode de combinaison des réponses des voisins. En règle générale, les distances simples fonctionnent bien. Si les distances simples ne fonctionnent pour aucune valeur de k, il faut envisager le changement de distance, ou le changement de méthode. Les arbres de décision Il s agit de générer des représentations graphiques de classifications à partir de données. Les nœuds internes de l'arbre sont des tests sur les champs, les feuilles sont les classes. Les deux algorithmes les plus connus et utilisés sont CART (Classification And Regression Trees [BFOS84]) et C5 (version la plus récente après ID3 et C4.5 [Qui93]). Ces algorithmes sont performants et génèrent des procédures de classification exprimables sous forme de règles. Pour utiliser un arbre de décision, c est-à-dire classer un enregistrement, il suffit de descendre dans l'arbre selon les réponses aux différents tests pour l'enregistrement considéré. Les règles des systèmes construits sont exhaustives et mutuellement exclusives. Cela signifie que pour tout enregistrement une et une seule règle s'applique. 13

14 La première étape : Apprentissage des arbres de décision. Algorithme d'apprentissage Donnée : un échantillon S de m enregistrements classés (x, c(x)) Initialisation : A :=arbre vide ; nœud_courant := racine ; échantillon_courant := S Répéter Décider si le nœud courant est terminal Si ( nœud_courant est terminal ) Étiqueter le nœud courant par une feuille Sinon Sélectionner un test : Créér les fils Définir les échantillons sortants du nœud Fin de si nœud_courant := un nœud non encore étudié de A échantillon_courant : échantillon atteignant nœud_courant Jusque (nœud_courant = ) Élaguer l'arbre de décision A obtenu Sortie : l arbre A élagué Explication des différents points mis en relief de cet algorithme Décider si le nœud courant est terminal : Le nœud courant est terminal si : il n'y a plus d'attributs disponibles, c'est-à-dire que sur le chemin menant de la racine au nœud courant tous les tests disponibles ont été utilisés, tous les enregistrements de l'échantillon courant sont dans une même classe. Les critères précédents sont indiscutables, les autres critères sont spécifiques aux différents algorithmes et sont souvent paramétrables. Des exemples de critères sont : la proportion d'exemples d'une classe est supérieure à un seuil prédéfini. Par exemple, on décide de l'arrêt si une des classes contient plus de 95 % des exemples. C5 utilise le critère suivant : s il n'existe pas de test ayant au moins k éléments sur deux branches alors le nœud est terminal. L'objectif de ce critère est d'éviter une croissance trop grande de l'arbre par l'exploration de branches comprenant trop peu d'exemples. La valeur de k est, par défaut, égale à 2, elle peut être modifiée par l'utilisateur. Étiqueter le nœud courant par une feuille : On étiquette le nœud courant par la classe majoritaire. Par exemple, si le nœud courant est terminal et s il y a 5 exemples de classe Co et 20 exemples de classe C1, on étiquette par C1. Cependant, pour certains problèmes, il se peut que les erreurs de classification, d'une classe vers l'autre, aient des conséquences différentes. C'est le cas, par exemple, d un diagnostic médical pour lequel classer un individu malade comme sain ou classer un individu sain comme malade n'a pas les mêmes conséquences. Dans ce cas, il est possible de définir des coûts de mauvaise classification et la classe choisie le sera en fonction des coûts attribués. Sélectionner un test : Un test un moyen de diviser l échantillon d un nœud en fixant la valeur d un des attributs non encore testé. Il en découle une descendance (n sous-échantillons composés d exemples classés) de l échantillon courant en fonction la réponse obtenue pour le test. L objectif est de déterminer le test qui discrimine le mieux l échantillon. Pour ce faire, on suppose que le nœud courant n'est pas terminal. Soit S l'échantillon 14

15 associé au nœud courant. Pour introduire les possibles critères de sélection du test, considérons l'exemple suivant : S contient 100 exemples, 60 de classe Co et 40 de classe C1. Le nœud courant sera étiqueté par le couple (60,40). Supposons que deux tests soient disponibles, et que ces deux tests déterminent les répartitions suivantes : (60,40) A (30,10) (30,5) (0,25) et (60,40) B (40,20) (20,20) Pour choisir le test, on utilise des fonctions qui mesurent le «degré de mélange» des différentes classes. Pour les problèmes à deux classes, on peut utiliser une des fonctions suivantes : - la fonction de Gini : Gini(x) = 4x(1-x) - la fonction entropie : Entropie(x) = -x log x - (1-x) log (1-x) où x désigne la proportion d'éléments dans l'une des deux classes. Ces deux fonctions sont à valeurs dans l'intervalle réel [0,1], prennent leur minimum pour x=0 ou x=1 (tous les exemples sont dans une même classe) et leur maximum lorsque x=1/2 (les exemples sont également répartis entre les deux classes). Choisissons, par exemple, la fonction de Gini. Pour le nœud courant, x=60/100 et Gini(x)=4 x 60/100 x 40/100 = Si on choisit le test A, pour le premier fils (le plus à gauche), x=3/4 et Gini(x)=0.75, pour le second fils x=6/7 et Gini(x)=0.49, pour le troisième fils, Gini(x)=0. Pour comparer les trois tests, on estime le «degré de mélange espéré» en pondérant les degrés de mélange des fils par la proportion des exemples allant sur ce fils, on obtient : - pour A : 40/100 x /100 x /100 x 0 = pour B : 60/100 x /100 x 1 = 0.93 On choisit alors le test qui fournit de degré de mélange espéré minimum, soit le test B. Souvent, on introduit le Gain, qui est égal au degré de mélange du nœud courant diminué du degré de mélange espéré par l'introduction du test, on choisit alors le test qui apporte le gain maximal. Élaguer l'arbre de décision obtenu : Il est possible de poursuivre la croissance de l'arbre jusqu'à obtention d'un arbre d'erreur nulle (si c'est possible : s il n'existe pas d'exemples ayant la même description mais des classes différentes) ou d'un arbre d'erreur mesurée sur l'ensemble d'apprentissage la plus petite possible. Cependant, l'objectif d'une procédure de classification est de bien classer des exemples non encore rencontrés, on parle de pouvoir de généralisation. Si l'algorithme fournit en sortie un arbre très grand qui classe bien l'échantillon d'apprentissage, on se trouve confronté au problème de sur-spécialisation : on a appris << par cœur >> l'ensemble d'apprentissage, mais on n'est pas capable de généraliser. L'objectif de la phase d'élagage est d'obtenir un arbre plus petit (on élague des branches, c'est-à-dire que l'on détruit des sous-arbres) dans le but d'obtenir un arbre ayant un meilleur pouvoir de généralisation (même si on fait augmenter l'erreur sur l'ensemble d'apprentissage). Principales caractéristiques des algorithmes d'apprentissage considérés CART A l'origine, l'algorithme ne considérait que des tests binaires. La fonction qui mesure le degré de mélange et le gain est par défaut la fonction de Gini (les versions diffusées proposent d'autres choix). Pour l'élagage, on effectue un parcours ascendant de l'arbre construit. Pour décider si un sous-arbre peut être élagué, on compare l'erreur réelle estimée de l'arbre courant avec l'arbre élagué. L'estimation de l'erreur réelle est mesurée sur un ensemble test ou par validation croisée. C5 C5 est la version la plus récente d'un algorithme ID3 développé par R. Quinlan en L'algorithme peut prendre en compte des attributs d'arité quelconque. La fonction qui mesure le degré de mélange et le gain est la fonction entropie. Cette fonction a tendance à privilégier les attributs possédant un grand nombre de valeurs. Pour éviter ce biais, une fonction gain d'information est également disponible. L'élagage est effectué avec l'ensemble d'apprentissage par une évaluation pessimiste de l'erreur. Bien que cette technique puisse sembler inadaptée, elle donne de bons résultats en pratique. 15

16 Critiques de la méthode Les atouts : + Adaptabilité aux attributs de valeurs continus : par exemple, dans C5, si A est un attribut continu, pour sélectionner un test, l'algorithme fait participer à la compétition tous les tests de la forme A>a où a est une valeur prise par l'attribut A dans l'ensemble d'apprentissage. + Adaptabilité aux attributs de valeurs manquantes : les algorithmes peuvent traiter les valeurs manquantes (descriptions contenant des champs non renseignés) pour l'apprentissage, mais aussi pour la classification. + Génération de règles : C5 propose également de générer un système de règles à partir de l'arbre de décision. Le système obtenu n'est pas une simple réécriture de l'arbre car des transformations et simplifications sont effectuées. + Bonne lisibilité du résultat : un arbre de décision est facile à interpréter et est la représentation graphique d'un ensemble de règles. Si la taille de l'arbre est importante, il est difficile d'appréhender l'arbre dans sa globalité. Cependant, les outils actuels permettent une navigation aisée dans l'arbre (parcourir une branche, développer un nœud, élaguer une branche) et, le plus important, est certainement de pouvoir expliquer comment est classé un exemple par l'arbre, ce qui peut être fait en montrant le chemin de la racine à la feuille pour l'exemple courant. + Traitement de tout type de données : l'algorithme peut prendre en compte tous les types d'attributs et les valeurs manquantes. Il est robuste au bruit. + Sélectionne des variables pertinentes : l'arbre contient les attributs utiles pour la classification. L'algorithme peut donc être utilisé comme pré-traitement qui permet de sélectionner l'ensemble des variables pertinentes pour ensuite appliquer une autre méthode. + Donne une classification efficace : l'attribution d'une classe à un exemple à l'aide d'un arbre de décision est un processus très efficace (parcours d'un chemin dans un arbre). + Disponibilité des outils : les algorithmes de génération d'arbres de décision sont disponibles dans tous les environnements de fouille de données. + Méthode extensible et modifiable : la méthode peut être adaptée pour résoudre des tâches d'estimation et de prédiction. Des améliorations des performances des algorithmes de base sont possibles grâce des techniques qui génèrent un ensemble d'arbres votant pour attribuer la classe. Les désavantages : - Méthode sensible au nombre de classes : les performances tendent à se dégrader lorsque le nombre de classes devient trop important. - Manque d évolutivité dans le temps : l'algorithme n'est pas incrémental, c'est-à-dire, que si les données évoluent avec le temps, il est nécessaire de relancer une phase d'apprentissage sur l'échantillon complet (anciens exemples et nouveaux exemples). 16

17 Synthèses Dans le but de résumer ce qu apporte la fouille de données, le tableau suivant met en relation les tâches définies avec l utilisation possible des algorithmes que nous avons parcourus. Méthode des k-voisins (D) Arbres de décision Réseaux de neurones (A) Algorithmes spécifiques Segmentation Non Oui : méthode dichotomique descendante (D) Oui - Méthode des k-moyennes (D) - Méthode d agglomération (D) Classification Estimation Oui Oui Oui : CART, C5 (A) Oui - Oui : CART, C5 (A) Oui - Prédiction Oui Oui : CART, C5 (A) Oui - Règles d association Non Non Non - Tables de co-occurrence (D) (D) Méthodes dynamiques ou incrémentales, ne nécessitant pas d apprentissage. (A) Méthodes nécessitant une phase d apprentissage sur un échantillon exemple. 17

18 La technique de l analyse de texte - Comment obtenir les mesures de similarité 18 Pré-traitements 19 Approche classiques : analyses de surface 19 Approche sophistiquées : vecteurs conceptuels 19 Les résultats 20 Représentation et mesure mesures de similarité 20 Mesure du Chi-deux 20 Mesure à base de produits scalaires et de cosinus 21 Mesure de l entropie relative 22 Distance angulaire : vecteurs conceptuels 22 - Les traitements sur les textes 23 Regroupements 23 Règles d association 24 Classification 24 - Synthèses 23 Comment obtenir les mesures de similarité Lorsqu on dispose de données textuelles, quelles que soient les différentes utilisations que l on envisage, une des priorités est de se donner une représentation du contenu de ces textes. Bien entendu, une analyse sémantique complète des documents n est rentable que dans un cas réduit d exploitation et devient inenvisageable dans le cadre de grand corpus de textes. Des représentations plus synthétiques sont opérées grâce à une analyse dite de «surface», qui nécessite tout de même des outils d analyse morphosyntaxiques. Les techniques mises en oeuvre pour calculer les similarités varient bien évidemment selon les disciplines, mais elles s'intègrent cependant le plus souvent dans une même approche générale en deux temps :. Lors de la première phase, les entités textuelles sont tout d'abord associées à des représentations spécifiques qui vont servir de base au calcul des similarités. En ADT, on utilise souvent les profils lexicaux alors qu'en RD et TM des distributions (éventuellement pondérées) de mots-clés ou des vecteurs contextuels de co-occurrences sont mis en oeuvre. Il est important de remarquer que dans tous les cas, les structures associées sont représentées sous la forme d'éléments d'un espace vectoriel de grande dimension appelé «l'espace de représentation».. Par la suite, un modèle mathématique est choisi pour mesurer, dans l'espace de représentation, les proximités qui seront utilisées pour estimer les similarités entre entités textuelles. En ADT, la distance du chi-deux ( 2 ) est un choix fréquent. En RD, des similarités dérivées de mesures à base de cosinus sont utilisées, alors qu'en TM on préfère souvent des mesures d'entropie relative. 18

19 Pré-traitements Afin de produire les structures qui vont être utilisées pour représenter les textes lors du calcul des similarités, les données textuelles doivent tout d'abord être décomposées en unités lexicales plus simples. Plusieurs choix sont possibles et les différentes unités retenues auront des degrés de pertinence variables selon le domaine d'application particulier choisi. Approche classique Une approche classique pour définir les unités textuelles dans un corpus est d'utiliser les formes de surface («mots») pouvant être produites par des techniques simples de fragmentation automatique. On notera l existence de différents niveaux de découpages : suite de mots, phrases, paragraphes ou encore unités logiques (Lallich & Ouerfelli 98). Cependant, ces unités élémentaires peuvent également faire l'objet de traitements additionnels permettant l'intégration de connaissances linguistiques plus sophistiquées dans les représentations : L'étiquetage morphosyntaxique : affectation automatique aux mots d'étiquettes grammaticales, ou La lemmatisation : réduction automatique des formes déclinées à une représentation canonique (infinitif pour les verbes, singulier pour les noms,...). De plus, on observe que le sens des mots est fortement lié à la manière dont ils apparaissent en combinaison. Par exemple, des expressions composées comme «sécurité sociale» ou «niveau de vie» ont des significations qui ne peuvent être simplement dérivées du sens de leurs constituants. Il peut également être utile de prendre en compte des unités plus larges constituées de plusieurs mots. L'utilisation des «segments répétés» (Salem, 1987) ou des «quasi-segments»( Becue, 1993), reposent sur la détection automatique des séquences répétitives, constituant ou non des formes ou expressions composées. Parallèlement, on trouve aujourd hui des approches combinant des connaissances linguistiques et statistiques pour identifier de façon automatique les formes composées (ou termes) (Daille, 1994). D autres complexités du langage naturel viennent perturber l analyse, ce sont par exemple des problèmes de polysémie ou de synonymie. Pour obtenir des résultats pertinents lors de l analyse de textes, il devient indispensable de s appuyer sur des dictionnaires et des environnements contextuels pour définir le sens précis d un terme dans une phrase. Approche sophistiquées Lorsqu on fait le bilan de toutes les informations qu il serait nécessaire de posséder pour affiner une analyse de document, on observe que la notion d analyse de surface est rapidement insuffisante. Ainsi le TALN a étudié la possibilité d établir une représentation sémantique d unités textuelles à travers l idée de que tout terme, dans son contexte, peut être défini par un vecteurs, reposant dans espace de grande dimension (873), dont chaque composante active plus ou moins (positivement ou négativement) un concept issu de l ontologie générale basée sur le thésaurus Larousse (Lafourcade, Prince, Schwab 2001). Cette technique d analyse sémantique contextuelle est appelée représentation par vecteurs conceptuels. 19

20 Le résultat des pré-traitements L objectif de cette phase est d établir des représentations formelles de textes. Ainsi, lors d une analyse de surface, le résultat produira un tableau mettant en relation les sources avec des termes présentant les propriétés de :. Corrélation, c est-à-dire apparaissant souvent ensemble dans un texte,. Fréquence, dont les apparitions sont importantes dans un texte. À partir de ce résultat, l analyse de données textuelles se propose de fournir différents traitements. Par exemple :. le regroupement des documents présentant des similitudes dans les fréquences d apparition terminologiques,. la mise en évidences e règles d association de termes,. la définition de distances sémantiques pour des tâches spécifiques. L analyse par vecteurs conceptuels produit des distances sémantiques plus riches encore que les mesure de similarités observées dans les approches classiques. Représentation et mesure de similarité Dans les différents domaines de l analyse de texte, les tuples ou vecteurs obtenus donnent une représentation possible d un document. Ces vecteurs vont être à l origine de recherches de similarité ou dissimilarité basée sur différentes mesures, qui nes dont pas forcément des distances. Distance du Chi-deux L'analyse de données textuelles s'intéresse essentiellement à l'évaluation de similarités entre documents. Usuellement, chaque document est représenté par son profil lexical : un tuple Di qui contient les fréquences des unités textuelles dans le document. Le corpus est alors représenté par une matrice T dont la i-ème ligne est la représentation du i-ème document. La similarité entre les documents est mesurée par une distance, appelée la distance du chi-deux, très proche de la distance euclidienne (somme des carrés des différences entre les composantes des profils) mais avec une pondération (1/f.j) associée à chacun des termes de la somme. Si on refond la matrice pour intégrer les pondérations, on obtient pour chaque ligne : Di=(w i,j ) j, avec w i,,j = f i,j /( f i. x f. j ) Alors la distance s exprime par : Notons que le rapport f i,j / f i. noté p i,j est la fréquence relative du j-ème terme dans le i-ème document. L une de ses propriétés importantes est que les distances entre les lignes (resp. colonnes) restent inchangées lors de la fusion de deux colonnes (resp. lignes) de même profil. Cette propriété d'invariance induit une certaine stabilité des résultats pour les analyses textuelles : en effet, deux textes ayant le même profil lexical pourront être indifféremment considérés comme une seule entité ou deux entités distinctes sans que cela n'affecte les autres distances. 20

21 L autre propriété est que la distance du chi-deux est une mesure de proximité particulièrement sensible aux «différences hors intersection» (pour les termes n apparaissant pas dans l un des textes). La sensibilité aux différences n'a bien sûr rien de surprenant puisqu'une distance est, par définition, une dissimilarité et est de ce fait une fonction qui croît lorsque les différences entre les entités comparées augmentent. En revanche, il est notable est que les «différences hors intersection» jouent un rôle important dans le calcul de la valeur de la dissimilarité. La conséquence de cette propriété est que la distance du chi-deux est a priori peu adaptée aux situations où les tailles des entités textuelles comparées sont fortement différentes. Ceci est par exemple souvent le cas en recherche documentaire lors de l'évaluation de similarités entre courtes requêtes et longs documents. Similarités à base de cosinus En recherche documentaire, le problème principal est d'évaluer les similarités entre les éléments stockés dans une base documentaire et des requêtes représentant les besoins d'information exprimés par les utilisateurs. Dans le cadre du modèle vectoriel classique, les approches utilisant des métriques à base de cosinus sont les plus fréquentes ( Salton and Buckley, 1990). Différentes variations de cette approche ont été implémentées dans le système SMART, bien connu dans le domaine ( Salton and Buckley, 1988). On définit une matrice T dont les lignes sont : Di=(w i,j ) j, avec w i,,j = 0,5(1+ p i,j /max l (p i,j )). log ( N /n j ) si p i,j > 0 Et w i,,j = 0 sinon w i,j, est le poids du terme T j dans le document Di, p i,j, est la fréquence relative de T j dans Di, N représente le nombre total de documents dans la base documentaire et n j le nombre de documents contenant le terme T j. Les mesures utilisées dans cette application portent en réalité sur la dissimilarité. Ce sont : 1) atn (Di, Di ) = Di Di, où est le produit scalaire. 2) atc (Di, Di ) = cos (Di, O, Di ), où O est l origine de l espace de représentation. Les propriétés du produit scalaire font que sous les conditions : Max(Di \ Di ) < Max(Di / Di ) et Max(Di / Di) < Max(Di \ Di) où Di \ Di est la restriction de Di aux parties nulles de Di et Di / Di est la restriction de Di aux parties non nulles de Di la dissimilarité atn n'est sensible qu'aux parties partageant les profils lexicaux des entités textuelles comparées. Elle est de ce fait bien adaptée pour le calcul de similarités dans les cas où les similarités entre parties de documents sont suffisantes pour entraîner les similarités entre les documents pris dans leur ensemble. En simplifiant, la mesur atn est sensible au «nombre» de mots communs entre les documents comparés. Dans le domaine de la recherche documentaire, la dissimilarité atn peut être utilisée pour rechercher de l'information «à l'intérieur» des documents, par exemple : dans une partie ou une phrase de ces derniers. Pour comparer des textes de manière plus générale, la dissimilarité atc, plus sensible à la «proportion» de termes communs, est mieux adaptée. 21

Montrer encore