Fast and furious decision tree induction

Transcription

1 Institut National des Sciences Appliquées de Rennes Rapport de pré-étude Encadrants : Nikolaos Parlavantzas - Christian Raymond Fast and furious decision tree induction Andra Blaj Nicolas Desfeux Emeline Escolivet Simon Mandement Renaud Philippe Gareth Thiveux Rennes, le 6 octobre 2010

2 Table des matières Introduction 3 1 Contexte Un projet à l initiative de chercheurs de l IRISA en réponse à un besoin Les technologies L apprentissage L apprentissage automatique L apprentissage automatique supervisé Les arbres de décisions Avantages des arbres de décision Construction d un arbre de décision Inconvénients Hadoop Architecture : HDFS Lien avec MapReduce Map Reduce Parallélisme Opération Map Opération Reduce Spécification Générale Description générale du fonctionnement Les arbres de décisions dans l application Le fichier de résultats Planification initiale 19 Conclusion 20 2

3 Introduction De nos jours, prendre des décisions est la panache de tout homme. Pourtant, il est également de demander possible à une application informatique de faire des choix. Fast and Furious tree induction est un projet qui met en œuvre cette situation. Il s agit d implémenter une application capable de prendre des décisions, à partir d un ensemble d exemples. D autre part, ce sujet traite également de la parallélisation de systèmes et de processus, méthode aujourd hui indispensable à connaître et maîtriser lorsque l on souhaite devenir ingénieur informatique. Ce rapport de pré étude va vous présenter les différentes recherches que nous avons pu faire autour de notre projet. Vous y trouverez également le contexte de notre projet, pourquoi il existe, et quelles peuvent être ces applications. Il contient une première planification de notre travail. Enfin, ce premier rapport définit une première approche des objectifs de notre projet. Pour ce projet nous sommes assisté de Christiant Raymond et de Nikolaus Parlavantzas, tout deux chercheurs à l IRISA 1 et enseignants à l INSA 2 de Rennes. 1. Institut de Recherche en Informatique et Système Automatisés 2. Institut National des Sciences Appliqués 3

4 1 Contexte 1.1 Un projet... Le projet Fast and furious tree induction tire son nom de l exploitation d arbres de décision, et ce, en tant que méthode d apprentissage automatique supervisé. Ces arbres dit de décision sont capables de produire, à partir d une base de données d exemples, des règles de décision sous formes de questions binaires, ayant donc pour seules réponses possibles, oui ou non. On aboutit ainsi sur un découpage de la population d exemples en deux parties, récursivement sur chaque nœud de l arbre. On sélectionne alors les règles comme étant les meilleures au vu de leur gain en entropie par rapport à l échantillon initial d exemples. A terme, cette méthode d apprentissage automatique supervisé doit pouvoir reproduire le travail, et plus précisément les décisions, d un expert. Par analogie avec un médecin par exemple, le travail consisterait ici à établir un diagnostic à partir d une base de données de symptômes. Dans notre cas, l analyse portera sur des documents textuels. On pourra alors envisager tirer des mots clefs, classifier les textes selon différents thèmes ou catégories et éventuellement produire à terme un résumé voire une traduction à l initiative de chercheurs de l IRISA... Ce sujet est actuellement lié aux activités de recherche de deux équipes de l IRISA, l institut de recherche en informatique et systèmes aléatoires, situé sur le campus de Beaulieu, dans la ville de Rennes (35). L IRISA n est autre qu une UMR, unité mixte de recherche,fondée en 1975 et aujourd hui associée à l INRIA et partenaire des établissements tels que le CNRS, l Université de Rennes 1, l INSA de Rennes ou encore l ENS Cachan (antenne de Bretagne). Les équipes concernées et à l initiative de ce projet sont donc Texmex, équipe de laquelle fait partie M. Christian Raymond, et qui travaille sur l exploitation des documents multimédias, et l équipe Myriads, qui compte parmi ses membres M. Nikolaos Parlavantzas, et qui s intéresse au développement et à l administration de systèmes distribués à large échelle en réponse à un besoin. Bien que les arbres des décisions aient pu être maintes et maintes fois l objet de recherches, ceux que l on peut actuellement recenser ont encore chacun leurs défauts. Nous pouvons entre autre citer l arbre Quilian C4.5, 4

5 dont les sources sont librement disponibles, mais qui ne sait malheureusement pas gérer des valeurs autres que continues. Il n est pas donc adapté au traitement de textes. D un autre côté, le LIA-SCT, qui lui peut prendre en charge des données de type texte, a un problème majeur qui réside au niveau de la gestion de la mémoire ; celle-ci n est pas optimisée, empêchant ainsi tout traitement de volumes de données trop importants. Le travail porté sur ce sujet concerne donc avant tout les soucis d optimisation des arbres qui prendraient en compte un très grand nombre d exemples de départ. En effet, en découlerait alors un nombre conséquent de questions à poser, ce qui rendrait l algorithme particulièrement gourmand en temps et en mémoire, d autant que l on supposerait que les données résident toutes en mémoire vive, rendant difficile voire impossible le traitement d ensembles de données trop volumineux. L intérêt majeur serait alors de pouvoir développer un outil, générique de préférence, permettant le traitement d arbres de décision supervisés par le biais de méthodes de parallélisation et de boosting, dans le but de minimiser les temps d exécution et permettre le traitement de gros volumes de données. Un second intérêt de ce projet réside dans la personnalisation de notre outil, afin de proposer un plus large panel de paramétrages et d options que les outils déjà existants et disponibles à base d arbres de décisions. 2 Les technologies 2.1 L apprentissage L apprentissage est le fait d acquérir des connaissances, des savoir-faire ou des techniques. Apprendre peut aussi se définir comme la capacité à reproduire quelque chose que l on nous a enseigné. Il existe bien sur de multiples façons d apprendre. De l apprentissage par l erreur, à l apprentissage par imitation (c est celui utilisé naturellement par l homme dès son plus jeune âge) en passant par l apprentissage par répétition (qui est l apanage des sportifs, qui vont répétée plusieurs fois le même geste jusque arrivé au geste parfait par exemple), toutes cette méthodes ont leurs qualités et leurs défaut.. Un des objectifs de notre projet est de mettre en œuvre un processus d apprentissage pour notre programme. Il devra être capable, de lui même, d apprendre des notions. Pour cela nous allons utiliser l apprentissage automatique, reconnu aujourd hui comme discipline scientifique. 5

6 2.1.1 L apprentissage automatique L apprentissage automatique est une discipline où un outils technologique est capable d apprendre par lui-même. Cela peut s apparenter à une sorte d intelligence artificielle. Il existe plusieurs types d apprentissage automatique, qui vont du supervisé au non supervisé, c est à dire nécessitant plus ou moins d interventions d un expert au préalable. Pour l apprentissage automatique, on fournit à l outil une série d exemple, caractérisé par des attributs. L analyse par l outil ayant subit un apprentissage automatique devra permettre la création de classes. Dans chaque classe, les données seront aussi proches les unes des autres que possible. Dans le cadre de l apprentissage automatique, on utilise également la notion d expert. Un expert est une entité capable de classer les données. L apprentissage automatique est lié à la notion d étiquetage. L idée est de classer des données en leur attribuant des étiquettes. Les exemples ayant des caractéristiques qui ce ressemble auront la même étiquette. C est à partir de la que l on peut distinguer différents types d apprentissage : lorsque les étiquettes existe déjà, on parlera d apprentissage automatique supervisé. Le programme doit être capable d étiqueter les nouveaux exemples sans intervention de l utilisateur. Dans le cas où il n y a pas d étiquette, l apprenant doit en plus être capable des les définir. On parle alors d apprentissage non supervisé. Le programme doit être capable de créer des étiquettes, et ensuite d étiqueter tout les nouveaux exemples que l on pourrait lui fournir, sans intervention d un expert. 1. observations d un phénomène 2. construction d un modèle de ce phénomène 3. prévisions et analyse du phénomène grâce au modèle le tout automatiquement. La difficulté de cette méthode est de juger son efficacité. Il existe plusieurs critère qui permettent de mesurer la qualité d un apprentissage automatique : La quantité de données à disposition. Plus on a d exemples à étudier, plus la qualité de l analyse sera fine. La précision que l on a sur chaque exemple : nombre d attributs, qualité des différents attributs (plus on a d attributs numériques plus l analyse est bonne), pertinence des attributs,... La quantité d information que l on a pour chaque donnée : est-ce que tout les exemples ont tout leurs attributs de renseigné? Le nombre d erreur de mesure. Parmi les données, combien ont des 6

7 valeurs incohérentes? Il faut pour ça un indicateur pour le rangement des données. Cette indicateur est l entropie, autrement appelée mesure du désordre. Sur un ensemble de données, le meilleur apprentissage sera celui qui permettra de réduire l entropie au mieux possible. On peut également utilisé cette définition de l apprentissage automatique, appliqué à l informatique : On dit qu un programme informatique apprend, à partir d une expérience E, par rapport à une classe de tâches T et une mesure de performance P, si sa performance sur des tâches de T, mesurée par P, s améliore avec l expérience E.. Cela signifie que l apprentissage en informatique est lié à l augmentation de sa performance. L apprentissage doit permettre à l outil d étiqueter de façon plus juste et ou plus rapide. Grâce à l expérience qu il emmagasine, ces caractéristiques doivent devenir meilleur. On parle dans ce cas de réduction de l entropie. Notre projet utilise l apprentissage automatique. Dans notre étude, les données d exemple (que l on pourrait aussi dire d expérience ou d apprentissage) qui nous seront fournit serons déjà étiqueter. Il s agira d apprentissage supervisé L apprentissage automatique supervisé Le cadre de notre projet nous amène à considérer plutôt l apprentissage automatique supervisé. L idée est de créer des règles (et donc un processus d apprentissage) grâce à une base de données d apprentissage, rempli avec différents exemples. Un outil utilisant ce type d apprentissage devra être capable, à partir de cette base, de créer les règles qui permettront d évaluer ou de classer de nouvelles données lui étant fournies. Pour utiliser cette méthode, il faut au préalable avoir, soi-même ou par le biais d un expert, étiqueté correctement des exemples. C est à partir de cette base d exemple que l apprenant pourra définir la fonction ou le processus permettant d affecter cette étiquette à ces exemples. Il va créer la fonction à partir des exemples qui lui auront été fourni, et pourra ensuite se servir de cette fonction pour analyser de nouvelles données (qui pourront être à leur tour intégré à la base, pour affiner la fonction d étiquetage). L apprentissage automatique supervisé peut également être défini de manière plus mathématique : Construire un modèle pour prédire y à partir de x, en s appuyant sur un ensemble d apprentissage constitué d exemples d associations (x,y). On peut voir plusieurs buts pour un apprentissage automatique supervisé : l exactitude : on cherche à obtenir le meilleur étiquetage possible. La rapidité : L outil doit construire rapidement le processus d étiquetage 7

8 ou alors doit étiqueter le plus rapidement possible. Garantir une qualité de prévision : assurer à l utilisateur que quelque soit les données, on peut assurer que l étiquetage sera bon (à un nombre fixé à l avance près). Il existe de nombreuses manière d implémenter cette méthode d apprentissage. Parmi ces méthodes, on retrouve les arbres de décision. C est cette méthode que nous allons implémenter dans le cadre de notre projet. 2.2 Les arbres de décisions Un arbre de décision est un outil d aide à la décision et à l exploration de données. Il permet de modéliser simplement, graphiquement et rapidement un phénomène mesuré plus ou moins complexe. Un arbre de décision permet de classer un objet à l aide de questions : chaque noeud de l arbre représente une question, chaque lien est une réponse à la question, et chaque feuille est une classe Avantages des arbres de décision Facile à comprendre et à utiliser ; Nombre de tests limité par le nombre d attributs (de questions) ; Clasification et construction efficace (mais technique) à l aide d apprentissage par optimisation (pour obtenir un arbre petit et correct ) ; Interprétabilité ; Capacité de sélectionner automatiquement les variables discriminantes dans un fichier de données contenant un très grand nombre de variables potentiellement intéressantes. En ce sens, un arbre de décision constitue une technique exploratoire privilégiée pour appréhender de gros fichiers de données. Lisibilité du modèle de prédiction, l arbre de décision, fourni Construction d un arbre de décision La popularité de la méthode repose en grande partie sur sa simplicité. Il s agit de trouver un partitionnement des individus que l on représente sous la forme d un arbre de décision. L objectif est de produire des groupes d individus les plus homogènes possibles du point de vue de la variable à prédire. Il est d usage de représenter la distribution empirique de l attribut à prédire sur chaque sommet (noeud) de l arbre. 8

9 Pour mieux appréhender la démarche, nous allons reprendre et dérouler un exemple qui est présenté dans l ouvrage de Quinlan (1993). Le fichier est composé de 14 observations (voir tableau ci-dessous), il s agit d expliquer le comportement des individus par rapport à un jeu jouer, ne pas jouer à partir des prévisions météorologiques (Ensoleillement, Température, Humidité, Vent : variables prédictives). L arbre de décision correspondant est décrit ci-dessous. Le premier sommet est appelé la racine de l arbre. Il est situé sur le premier niveau. Nous y observons la distribution de fréquence de la variable à prédire Jouer. Nous constatons qu il y a bien 14 observations, dont 9 oui (ils vont jouer) et 5 non. La variable ensoleillement est la première variable utilisée ; on parle de variable de segmentation. Comme elle est composée de 3 modalités soleil, couvert, pluie, elle produit donc 3 sommets enfants. La première arête (la première branche), à gauche, sur le deuxième niveau, est produite à partir de la modalité soleil de la variable ensoleillement. Le sommet qui en résulte couvre 5 observations correspondant aux individus 1, 2, 3, 4, 5, la distribution de fréquence nous indique qu il y a 2 jouer = oui et 3 jouer = non. La seconde arête, au centre, correspond à la modalité couvert de la variable de segmentation ensoleillement ; le sommet correspondant couvre 4 observations, tos ont décidé de jouer (dans le tableau ce sont les individus n 6 à 9). Ce sommet n ayant plus de sommets enfants, ce qui est normal puisqu il est pur du point de vue de la variable à prédire, il n y a pas de contre-exemples. On dit qu il s agit d une 9

10 feuille de l arbre. Reprenons le nœud le plus à gauche sur le deuxième niveau de l arbre. Ce sommet, qui n est pas pur, est segmenté à l aide de la variable humidité. Comme le descripteur est continu, il a été nécessaire de définir un seuil dit de discrétisation qui permet de produire le meilleur partitionnement. Dans notre exemple, le seuil qui a été choisi est 77.5%. Il a permis de produire deux feuilles complètement pures. Ce processus est réitéré sur chaque sommet de l arbre jusqu à l obtention de feuilles pures. Il s agit bien d un arbre de partitionnement : un individu ne peut être situé dans deux feuilles différentes de l arbre. Le modèle de prédiction peut être lu très facilement. On peut traduire un arbre en une base de règles sans altération de l information. Le chemin menant d un sommet vers la racine de l arbre peut être traduit en une partie prémisse d une règle de prédiction de type attributvaleur. Pour classer un nouvel individu, il suffit de l injecter dans l arbre, et de lui associer la conclusion attachée à la feuille dans laquelle il aboutit. Pour construire un arbre de décision, nous devons répondre aux 4 questions suivantes : Comment choisir, parmi l ensemble des variables disponibles, la variable de segmentation d un sommet? Lorsque la variable est continue, c est le cas de la variable Humidité, comment déterminer le seuil de coupure lors de la segmentation (la valeur 77.5 dans l arbre de décision ci-dessus)? Comment déterminer la bonne taille de l arbre? Est-il souhaitable de produire absolument des feuilles pures selon la variable à prédire, même si le groupe correspondant correspond à une fraction très faible des observations? Enfin, si la prise de décision sur une feuille semble naturelle lorsqu elle 10

11 est pure, quelle est la règle de décision optimale lorsque qu une feuille contient des représentants des différentes modalités de la variable à prédire? Il existe plusieurs critères de choix de variables correspondant à différents types d arbres : CART (Classification And Regression Tree : Indice de Gini) CHAID (Chi square Automatic Interaction Detection) C5.0 (Entropie de Shannon) Déroulement de la construction : Recherche de la variable et du seuil qui sépare le mieux Application de la séparation à la population Obtention de nouveaux nœuds Arrêt de l approfondissement de l arbre lorsque les conditions d arrêt sont rencontrées Eventuel élagage de l arbre Conditions d arrêt existantes : Profondeur de l arbre atteint une limite fixée (=nombre de variables utilisées) ; Nombre de feuilles atteint un maximum fixé ; L effectif de chaque nœud est inférieur à un seuil fixé ; La qualité de l arbre est suffisante ; La qualité de l arbre n augmente plus de façon sensible Inconvénients Temps de calculs importants(recherche, des critères de division, élagage) ; Nécessité d un grand nombre d individus (pour avoir individus minimum par nœud pour que les règles aient une valeur) ; Effet papillon : On change une variable dans l arbre, tout l arbre change ; Échantillon d apprentissage de grande taille ; Sensible à de petites variations dans les données ; Non incrémental : on doit recommencer la construction de l arbre si on veut intégrer de nouvelles données. 2.3 Hadoop Le projet Hadoop est un projet libre développé en Java qui utilise une implémentation de MapReduce. C est un framework libre qui permet aux applications de travailler avec des milliers de nœuds et des pétaoctets de 11

12 données. Hadoop sert principalement au traitement de gros volumes de donnèes Architecture : HDFS Le HDFS est le système de fichier distribué d Hadoop, composé d un serveur maître, le NameNode et de serveurs détenant les données proprement dites, les Datanodes. Quand une application cliente a besoin d accéder a une information, elle interroge le NameNode qui lui indique les Datanodes sur lesquels se trouve ces informations. Une fois en possession de cette liste, l application cliente va directement interroger le(s) Datanodes. Dans une architecture HDFS, un fichier est découpé en un ou plusieurs blocs et réparti sur les datanodes du cluster. De plus, chaque bloc est répliqué suivant le facteur de réplication que vous avez spécifié dans votre configuration. L un des avantages principaux de MapReduce est qu il répartit la charge sur un grand nombre de serveurs. Le simple fait d ajouter des machines à celles déjà en place suffit à augmenter la capacité de calcul (de façon plugand-play ). Or, lorsque le nombre de données est très important, l utilisation de plusieurs machines sera nécessaire. C est pourquoi MapReduce nous permettra de traiter de manière parallèle plusieurs branches des arbres de décision. Que ce soit pendant la construction ou pendant le parcours des 12

13 arbres Lien avec MapReduce Ensuite, par dessus HDFS, nous avons la partie moteur MAP/REDUCE avec un JobTracker, genre de centralisateur de tâches, et des TaskTracker qui se chargent d executer les travaux demandés. Le Client soumet la requète de travail au JobTracker qui va les transmettre au(x) TaskTracker concerné(s) en s efforcant d être au plus proche de la donnée. Concernant MapReduce, son rôle consiste à diviser le traitement en 2 étapes :.la première phase (Map) est une étape d ingestion et de transformation des données sous la forme de paires clé/valeur.la seconde phase (Reduce) est une étape de fusion des enregistrements par clé pour former le résultat final. 2.4 Map Reduce Comme expliqué plus tôt dans ce dossier, nous allons avoir à faire, lors de ce projet, à de très grandes bases de données. Il est donc important de pouvoir traiter les données et faire cela de manière parallèle. En effet, les branches de nos arbres de décision doivent être traitées de manière parallèle. Pour cela, nous allons être amenés à utiliser le framework développé par 13

14 Google : MapReduce. D ailleurs, le projet Hadoop développé en Java utilise une implémentation de MapReduce Parallélisme L un des avantages principaux de MapReduce est qu il répartit la charge sur un grand nombre de serveurs. Le simple fait d ajouter des machines à celles déjà en place suffit à augmenter la capacité de calcul (de façon plugand-play ). Or, lorsque le nombre de données est très important, l utilisation de plusieurs machines sera nécessaire. C est pourquoi MapReduce nous permettra de traiter de manière parallèle plusieurs branches des arbres de décision. Que ce soit pendant la construction ou pendant le parcours des arbres Opération Map La fonction map itère sur une très grande liste d éléments et applique une opération sur chaque élément. La liste produite en conséquence est stockée séparément de la liste originale, sur le disque local. Chaque élément est calculé indépendamment et le fichier en entrée n est pas modifié, donc il est très facile de réaliser plusieurs opérations map en parallèle. Ce point sera particulièrement intéressant pour notre projet. En effet, avec le matériel approprié cela permet d effectuer des calculs sur des quantités très importantes de données, et ce en un temps relativement court. Pour expliquer son fonctionnement d un point de vue du code, la fonction Map prend en entrée un fichier de données et calcule une liste de couples (clef,valeur), réutilisables par la fonction Reduce par la suite Opération Reduce L opération Reduce regroupe les couples, produits par la fonction Map, ayant la même clé et créé des listes de valeurs ayant une clé commune. Il se contente donc de faire le produit cartésien de ces valeurs associées à une même clé. Pour résumer le fonctionnement de MapReduce, on peut se référer au schéma suivant, édité par deux professeurs de l ENS. 3 Spécification Générale Pour répondre aux besoins définis précédemment, nous développerons une application nommée Fast and Furious decision tree induction. Cette 14

15 Figure 1 Shéma édité par Malo Jaffré et Pablo Rauzy (ENS) application sera développée non seulement en langage Java sous l environnement Eclipse mais aussi en association avec la technologie MapReduce de Hadoop décrites ci-dessus. Afin d être le plus flexible possible, cet outil devra rester généraliste, c est-à-dire qu on veillera à ce qu il puisse être utilisé avec tout type de données. Par la suite, afin de décrire au mieux possible le fonctionnement de l application, nous imaginerons que nous utiliserons l outil sur une base de données médicale. Cette base de données contiendra des informations sur différents patients avec divers symptômes et dont le diagnostique a déjà été établi. Ainsi l objectif de Fast and Furious decision tree induction sera de proposer au médecin une fourchette de diagnostiques les plus probables pour le patient, en fonction des symptômes constatés par le médecin. 3.1 Description générale du fonctionnement L application Fast and Furious decision tree induction recevra en entrée deux fichiers qui porteront le même nom mais dont le format sera différent. Il y aura un fichier.data qui contiendra les données et l annotation associée et un fichier.names qui détiendra les annotations et une description de chaque colonne et de son type. 15

16 Le fichier.data Dans le fichier.data, chaque exemple sera contenu sur ligne. Pour chaque descripteur correspondra une colonne, un élément. Ainsi, on trouvera dans ce fichier, une ligne par exemple dont chacune de ses caractéristiques sera séparée par une virgule et on y verra également un point en fin de ligne pour signaler la fin de l exemple. Il est également à noter que la première ligne d un fichier.data liste l ensemble des noms des colonnes. Chaque nom est également séparé par des virgules et la liste finie par un point. L ordre de cette première ligne détermine l ordre des caractéristiques sur les lignes suivantes (lignes des exemples). Et enfin dans chaque fichier de ce type, la dernière colonne correspondra toujours à l annotation associée aux caractéristiques. Dans le cas de la base de données médicale, un patient représente l exemple, les symptômes sont les caractéristiques et le diagnostique (maladie) est l annotation. Nous obtiendrons donc en entrée de l application un fichier.data du type suivant : Age, Fumeur, IMC, Maladie. 52, Oui, 25, Cancer 45, Non, 24, Diabète Le fichier.names Dans le fichier.names, la première ligne correspond à la liste de l ensemble des annotations que l on peut trouver dans la base de données. Comme dans le premier fichier, chaque annotation est séparée par une virgule et la liste se finit par un point. Puis nous pourrons trouver ensuite, dans le fichier, une description des colonnes (type, caractéristique). Ainsi, pour chaque colonne, il y aura une ligne de ce type : nom colonne : type colonne options facultatives Dans les options facultatives, nous pourrons préciser : ignore : pour ignorer les informations contenues dans la colonne c est à dire qu on ne posera aucune question en rapport à cette donnée ; cutoff : n : pour ne tenir compte que des informations présentes au moins n fois dans la base de données ; Il est à savoir qu une colonne ne pourra être que de trois types, pour notre application : discrète : ce qui signifie que les données présentes dans cette colonne devront forcément faire partie d une liste prédéfinie (ex : oui, non, je ne sais pas) ; continue : c est à dire que les données de la colonne ne constituent pas une liste exhaustive mais se limite à peu de mots ou un nombre ; texte : ce qui veut dire que les informations présentes dans ces colonnes 16

17 sont des phrases, des expressions 3.2 Les arbres de décisions dans l application Comme expliquer précédemment, pour utiliser la méthode des arbres de décisions, l application doit poser différentes questions afin de réduire au maximum le nombre de possibilités de résolution du problème. Ainsi, il ne restera qu une fourchette de possibilités avec une probabilité suffisante pour être la solution. Pour chaque question posée, deux paramètres doivent être pris en compte : la taille de N : nombre de mots dans l expression à rechercher (ex : parti socialiste - 2) le type de recherche : Ngram : recherche dans un premier temps, tous les mots un par un de l expression, puis tous les couples de mots consécutifs et ainsi de suite jusqu à constituer des ensembles de N (défini précédemment) mots consécutifs ; Fgram : (Full) recherche de l expression en entière ; Sgram : recherche Ngram + recherche des expressions de trois à N mots consécutifs où il y a un mot qui est remplacé par un blanc (un mot quelconque). Quelques exemples de cas d arrêts de l application, c est à dire de la méthode des arbres de décisions sont : toutes les questions ont été posées ; plus de gain d entropie en posant des questions ; si la feuille de résultats contient moins de n lignes (n à définir). 3.3 Le fichier de résultats En fin de traitement, l application renverra en sortie un fichier xml créant ainsi un fichier lisible décrivant les résultats et les probabilités d obtenir ce résultat. Il ressemblera globalement à l exemple suivant : < q u e s t i o n =...> <l e f t T r e e> <r i g h t T r e e> <q u e s t i o n =...> <r e s u l t s =...> <r e s u l t 1=...> 17

18 <r e s u l t 2=...> Pour finir, nous proposerons notre application pour le traitement automatique des langues. Plus précisément, Fast and Furious decision tree induction aura pour objectif de déterminer le plus rapidement le genre du texte en paramètre (policier, politique, etc). 18

19 4 Planification initiale Figure 2 Diagramme de Gantt édité par Renaud PHILIPPE 19

20 Conclusion Ce projet s inscrit dans le cadre d un ensemble de projet déjà en route à l IRISA. Il va nous permettre de découvrir des aspects et des outils de l informatique que nous connaissions jusqu alors peu (parallélisation, intelligence artificielle, Hadoop,...). La rédaction de ce rapport, ainsi que les différentes réunions avec nos encadreurs, nous a permis de définir clairement ce a quoi allait ressembler notre projet, et les différentes fonctionnalités qu il devrait avoir. De plus, il existe de multiples applications pour l outil que nous allons développer. C est une motivation supplémentaire de savoir qu il pourra être utilisé par un grand nombre de personnes, et cela sans que l on n ai besoin de le modifier. La suite de notre projet va maintenant consister dans l étude de spécifications fonctionnelles de notre outil. Pour cela, il va nous falloir nous intéresser au fonctionnement externe de notre application, et réfléchir à une première ébauche de son architecture logicielle. Cela nous permettra également d écrire de façon définitive le cahier des charges de notre projet. 20

21 Références [1] Myriads research team - inria/irisa. Disponible sur Internet à l adresse http :// [2] Directeur de l Irisa François Bodin. Irisa - institut de recherche en informatique et systèmes aléatoires. Disponible sur Internet à l adresse http :// [3] Patrick Gros. Équipe de recherche texmex - irisa. Disponible sur Internet à l adresse http :// [4] Communauté Wikipedia. Apprentissage. Disponible sur Internet à l adresse http ://fr.wikipedia.org/wiki/apprentissage, [5] Communauté Wikipedia. Apprentissage automatique. Disponible sur Internet à l adresse http ://fr.wikipedia.org/wiki/apprentissage automatique, [6] Communauté Wikipedia. Apprentissage supervisé. Disponible sur Internet à l adresse http ://fr.wikipedia.org/wiki/apprentissage supervisé,

Montrer encore