Fast and furious decision tree induction

Dimension: px
Commencer à balayer dès la page:

Download "Fast and furious decision tree induction"

Transcription

1 Institut National des Sciences Appliquées de Rennes Rapport de pré-étude Encadrants : Nikolaos Parlavantzas - Christian Raymond Fast and furious decision tree induction Andra Blaj Nicolas Desfeux Emeline Escolivet Simon Mandement Renaud Philippe Gareth Thiveux Rennes, le 6 octobre 2010

2 Table des matières Introduction 3 1 Contexte Un projet à l initiative de chercheurs de l IRISA en réponse à un besoin Les technologies L apprentissage L apprentissage automatique L apprentissage automatique supervisé Les arbres de décisions Avantages des arbres de décision Construction d un arbre de décision Inconvénients Hadoop Architecture : HDFS Lien avec MapReduce Map Reduce Parallélisme Opération Map Opération Reduce Spécification Générale Description générale du fonctionnement Les arbres de décisions dans l application Le fichier de résultats Planification initiale 19 Conclusion 20 2

3 Introduction De nos jours, prendre des décisions est la panache de tout homme. Pourtant, il est également de demander possible à une application informatique de faire des choix. Fast and Furious tree induction est un projet qui met en œuvre cette situation. Il s agit d implémenter une application capable de prendre des décisions, à partir d un ensemble d exemples. D autre part, ce sujet traite également de la parallélisation de systèmes et de processus, méthode aujourd hui indispensable à connaître et maîtriser lorsque l on souhaite devenir ingénieur informatique. Ce rapport de pré étude va vous présenter les différentes recherches que nous avons pu faire autour de notre projet. Vous y trouverez également le contexte de notre projet, pourquoi il existe, et quelles peuvent être ces applications. Il contient une première planification de notre travail. Enfin, ce premier rapport définit une première approche des objectifs de notre projet. Pour ce projet nous sommes assisté de Christiant Raymond et de Nikolaus Parlavantzas, tout deux chercheurs à l IRISA 1 et enseignants à l INSA 2 de Rennes. 1. Institut de Recherche en Informatique et Système Automatisés 2. Institut National des Sciences Appliqués 3

4 1 Contexte 1.1 Un projet... Le projet Fast and furious tree induction tire son nom de l exploitation d arbres de décision, et ce, en tant que méthode d apprentissage automatique supervisé. Ces arbres dit de décision sont capables de produire, à partir d une base de données d exemples, des règles de décision sous formes de questions binaires, ayant donc pour seules réponses possibles, oui ou non. On aboutit ainsi sur un découpage de la population d exemples en deux parties, récursivement sur chaque nœud de l arbre. On sélectionne alors les règles comme étant les meilleures au vu de leur gain en entropie par rapport à l échantillon initial d exemples. A terme, cette méthode d apprentissage automatique supervisé doit pouvoir reproduire le travail, et plus précisément les décisions, d un expert. Par analogie avec un médecin par exemple, le travail consisterait ici à établir un diagnostic à partir d une base de données de symptômes. Dans notre cas, l analyse portera sur des documents textuels. On pourra alors envisager tirer des mots clefs, classifier les textes selon différents thèmes ou catégories et éventuellement produire à terme un résumé voire une traduction à l initiative de chercheurs de l IRISA... Ce sujet est actuellement lié aux activités de recherche de deux équipes de l IRISA, l institut de recherche en informatique et systèmes aléatoires, situé sur le campus de Beaulieu, dans la ville de Rennes (35). L IRISA n est autre qu une UMR, unité mixte de recherche,fondée en 1975 et aujourd hui associée à l INRIA et partenaire des établissements tels que le CNRS, l Université de Rennes 1, l INSA de Rennes ou encore l ENS Cachan (antenne de Bretagne). Les équipes concernées et à l initiative de ce projet sont donc Texmex, équipe de laquelle fait partie M. Christian Raymond, et qui travaille sur l exploitation des documents multimédias, et l équipe Myriads, qui compte parmi ses membres M. Nikolaos Parlavantzas, et qui s intéresse au développement et à l administration de systèmes distribués à large échelle en réponse à un besoin. Bien que les arbres des décisions aient pu être maintes et maintes fois l objet de recherches, ceux que l on peut actuellement recenser ont encore chacun leurs défauts. Nous pouvons entre autre citer l arbre Quilian C4.5, 4

5 dont les sources sont librement disponibles, mais qui ne sait malheureusement pas gérer des valeurs autres que continues. Il n est pas donc adapté au traitement de textes. D un autre côté, le LIA-SCT, qui lui peut prendre en charge des données de type texte, a un problème majeur qui réside au niveau de la gestion de la mémoire ; celle-ci n est pas optimisée, empêchant ainsi tout traitement de volumes de données trop importants. Le travail porté sur ce sujet concerne donc avant tout les soucis d optimisation des arbres qui prendraient en compte un très grand nombre d exemples de départ. En effet, en découlerait alors un nombre conséquent de questions à poser, ce qui rendrait l algorithme particulièrement gourmand en temps et en mémoire, d autant que l on supposerait que les données résident toutes en mémoire vive, rendant difficile voire impossible le traitement d ensembles de données trop volumineux. L intérêt majeur serait alors de pouvoir développer un outil, générique de préférence, permettant le traitement d arbres de décision supervisés par le biais de méthodes de parallélisation et de boosting, dans le but de minimiser les temps d exécution et permettre le traitement de gros volumes de données. Un second intérêt de ce projet réside dans la personnalisation de notre outil, afin de proposer un plus large panel de paramétrages et d options que les outils déjà existants et disponibles à base d arbres de décisions. 2 Les technologies 2.1 L apprentissage L apprentissage est le fait d acquérir des connaissances, des savoir-faire ou des techniques. Apprendre peut aussi se définir comme la capacité à reproduire quelque chose que l on nous a enseigné. Il existe bien sur de multiples façons d apprendre. De l apprentissage par l erreur, à l apprentissage par imitation (c est celui utilisé naturellement par l homme dès son plus jeune âge) en passant par l apprentissage par répétition (qui est l apanage des sportifs, qui vont répétée plusieurs fois le même geste jusque arrivé au geste parfait par exemple), toutes cette méthodes ont leurs qualités et leurs défaut.. Un des objectifs de notre projet est de mettre en œuvre un processus d apprentissage pour notre programme. Il devra être capable, de lui même, d apprendre des notions. Pour cela nous allons utiliser l apprentissage automatique, reconnu aujourd hui comme discipline scientifique. 5

6 2.1.1 L apprentissage automatique L apprentissage automatique est une discipline où un outils technologique est capable d apprendre par lui-même. Cela peut s apparenter à une sorte d intelligence artificielle. Il existe plusieurs types d apprentissage automatique, qui vont du supervisé au non supervisé, c est à dire nécessitant plus ou moins d interventions d un expert au préalable. Pour l apprentissage automatique, on fournit à l outil une série d exemple, caractérisé par des attributs. L analyse par l outil ayant subit un apprentissage automatique devra permettre la création de classes. Dans chaque classe, les données seront aussi proches les unes des autres que possible. Dans le cadre de l apprentissage automatique, on utilise également la notion d expert. Un expert est une entité capable de classer les données. L apprentissage automatique est lié à la notion d étiquetage. L idée est de classer des données en leur attribuant des étiquettes. Les exemples ayant des caractéristiques qui ce ressemble auront la même étiquette. C est à partir de la que l on peut distinguer différents types d apprentissage : lorsque les étiquettes existe déjà, on parlera d apprentissage automatique supervisé. Le programme doit être capable d étiqueter les nouveaux exemples sans intervention de l utilisateur. Dans le cas où il n y a pas d étiquette, l apprenant doit en plus être capable des les définir. On parle alors d apprentissage non supervisé. Le programme doit être capable de créer des étiquettes, et ensuite d étiqueter tout les nouveaux exemples que l on pourrait lui fournir, sans intervention d un expert. 1. observations d un phénomène 2. construction d un modèle de ce phénomène 3. prévisions et analyse du phénomène grâce au modèle le tout automatiquement. La difficulté de cette méthode est de juger son efficacité. Il existe plusieurs critère qui permettent de mesurer la qualité d un apprentissage automatique : La quantité de données à disposition. Plus on a d exemples à étudier, plus la qualité de l analyse sera fine. La précision que l on a sur chaque exemple : nombre d attributs, qualité des différents attributs (plus on a d attributs numériques plus l analyse est bonne), pertinence des attributs,... La quantité d information que l on a pour chaque donnée : est-ce que tout les exemples ont tout leurs attributs de renseigné? Le nombre d erreur de mesure. Parmi les données, combien ont des 6

7 valeurs incohérentes? Il faut pour ça un indicateur pour le rangement des données. Cette indicateur est l entropie, autrement appelée mesure du désordre. Sur un ensemble de données, le meilleur apprentissage sera celui qui permettra de réduire l entropie au mieux possible. On peut également utilisé cette définition de l apprentissage automatique, appliqué à l informatique : On dit qu un programme informatique apprend, à partir d une expérience E, par rapport à une classe de tâches T et une mesure de performance P, si sa performance sur des tâches de T, mesurée par P, s améliore avec l expérience E.. Cela signifie que l apprentissage en informatique est lié à l augmentation de sa performance. L apprentissage doit permettre à l outil d étiqueter de façon plus juste et ou plus rapide. Grâce à l expérience qu il emmagasine, ces caractéristiques doivent devenir meilleur. On parle dans ce cas de réduction de l entropie. Notre projet utilise l apprentissage automatique. Dans notre étude, les données d exemple (que l on pourrait aussi dire d expérience ou d apprentissage) qui nous seront fournit serons déjà étiqueter. Il s agira d apprentissage supervisé L apprentissage automatique supervisé Le cadre de notre projet nous amène à considérer plutôt l apprentissage automatique supervisé. L idée est de créer des règles (et donc un processus d apprentissage) grâce à une base de données d apprentissage, rempli avec différents exemples. Un outil utilisant ce type d apprentissage devra être capable, à partir de cette base, de créer les règles qui permettront d évaluer ou de classer de nouvelles données lui étant fournies. Pour utiliser cette méthode, il faut au préalable avoir, soi-même ou par le biais d un expert, étiqueté correctement des exemples. C est à partir de cette base d exemple que l apprenant pourra définir la fonction ou le processus permettant d affecter cette étiquette à ces exemples. Il va créer la fonction à partir des exemples qui lui auront été fourni, et pourra ensuite se servir de cette fonction pour analyser de nouvelles données (qui pourront être à leur tour intégré à la base, pour affiner la fonction d étiquetage). L apprentissage automatique supervisé peut également être défini de manière plus mathématique : Construire un modèle pour prédire y à partir de x, en s appuyant sur un ensemble d apprentissage constitué d exemples d associations (x,y). On peut voir plusieurs buts pour un apprentissage automatique supervisé : l exactitude : on cherche à obtenir le meilleur étiquetage possible. La rapidité : L outil doit construire rapidement le processus d étiquetage 7

8 ou alors doit étiqueter le plus rapidement possible. Garantir une qualité de prévision : assurer à l utilisateur que quelque soit les données, on peut assurer que l étiquetage sera bon (à un nombre fixé à l avance près). Il existe de nombreuses manière d implémenter cette méthode d apprentissage. Parmi ces méthodes, on retrouve les arbres de décision. C est cette méthode que nous allons implémenter dans le cadre de notre projet. 2.2 Les arbres de décisions Un arbre de décision est un outil d aide à la décision et à l exploration de données. Il permet de modéliser simplement, graphiquement et rapidement un phénomène mesuré plus ou moins complexe. Un arbre de décision permet de classer un objet à l aide de questions : chaque noeud de l arbre représente une question, chaque lien est une réponse à la question, et chaque feuille est une classe Avantages des arbres de décision Facile à comprendre et à utiliser ; Nombre de tests limité par le nombre d attributs (de questions) ; Clasification et construction efficace (mais technique) à l aide d apprentissage par optimisation (pour obtenir un arbre petit et correct ) ; Interprétabilité ; Capacité de sélectionner automatiquement les variables discriminantes dans un fichier de données contenant un très grand nombre de variables potentiellement intéressantes. En ce sens, un arbre de décision constitue une technique exploratoire privilégiée pour appréhender de gros fichiers de données. Lisibilité du modèle de prédiction, l arbre de décision, fourni Construction d un arbre de décision La popularité de la méthode repose en grande partie sur sa simplicité. Il s agit de trouver un partitionnement des individus que l on représente sous la forme d un arbre de décision. L objectif est de produire des groupes d individus les plus homogènes possibles du point de vue de la variable à prédire. Il est d usage de représenter la distribution empirique de l attribut à prédire sur chaque sommet (noeud) de l arbre. 8

9 Pour mieux appréhender la démarche, nous allons reprendre et dérouler un exemple qui est présenté dans l ouvrage de Quinlan (1993). Le fichier est composé de 14 observations (voir tableau ci-dessous), il s agit d expliquer le comportement des individus par rapport à un jeu jouer, ne pas jouer à partir des prévisions météorologiques (Ensoleillement, Température, Humidité, Vent : variables prédictives). L arbre de décision correspondant est décrit ci-dessous. Le premier sommet est appelé la racine de l arbre. Il est situé sur le premier niveau. Nous y observons la distribution de fréquence de la variable à prédire Jouer. Nous constatons qu il y a bien 14 observations, dont 9 oui (ils vont jouer) et 5 non. La variable ensoleillement est la première variable utilisée ; on parle de variable de segmentation. Comme elle est composée de 3 modalités soleil, couvert, pluie, elle produit donc 3 sommets enfants. La première arête (la première branche), à gauche, sur le deuxième niveau, est produite à partir de la modalité soleil de la variable ensoleillement. Le sommet qui en résulte couvre 5 observations correspondant aux individus 1, 2, 3, 4, 5, la distribution de fréquence nous indique qu il y a 2 jouer = oui et 3 jouer = non. La seconde arête, au centre, correspond à la modalité couvert de la variable de segmentation ensoleillement ; le sommet correspondant couvre 4 observations, tos ont décidé de jouer (dans le tableau ce sont les individus n 6 à 9). Ce sommet n ayant plus de sommets enfants, ce qui est normal puisqu il est pur du point de vue de la variable à prédire, il n y a pas de contre-exemples. On dit qu il s agit d une 9

10 feuille de l arbre. Reprenons le nœud le plus à gauche sur le deuxième niveau de l arbre. Ce sommet, qui n est pas pur, est segmenté à l aide de la variable humidité. Comme le descripteur est continu, il a été nécessaire de définir un seuil dit de discrétisation qui permet de produire le meilleur partitionnement. Dans notre exemple, le seuil qui a été choisi est 77.5%. Il a permis de produire deux feuilles complètement pures. Ce processus est réitéré sur chaque sommet de l arbre jusqu à l obtention de feuilles pures. Il s agit bien d un arbre de partitionnement : un individu ne peut être situé dans deux feuilles différentes de l arbre. Le modèle de prédiction peut être lu très facilement. On peut traduire un arbre en une base de règles sans altération de l information. Le chemin menant d un sommet vers la racine de l arbre peut être traduit en une partie prémisse d une règle de prédiction de type attributvaleur. Pour classer un nouvel individu, il suffit de l injecter dans l arbre, et de lui associer la conclusion attachée à la feuille dans laquelle il aboutit. Pour construire un arbre de décision, nous devons répondre aux 4 questions suivantes : Comment choisir, parmi l ensemble des variables disponibles, la variable de segmentation d un sommet? Lorsque la variable est continue, c est le cas de la variable Humidité, comment déterminer le seuil de coupure lors de la segmentation (la valeur 77.5 dans l arbre de décision ci-dessus)? Comment déterminer la bonne taille de l arbre? Est-il souhaitable de produire absolument des feuilles pures selon la variable à prédire, même si le groupe correspondant correspond à une fraction très faible des observations? Enfin, si la prise de décision sur une feuille semble naturelle lorsqu elle 10

11 est pure, quelle est la règle de décision optimale lorsque qu une feuille contient des représentants des différentes modalités de la variable à prédire? Il existe plusieurs critères de choix de variables correspondant à différents types d arbres : CART (Classification And Regression Tree : Indice de Gini) CHAID (Chi square Automatic Interaction Detection) C5.0 (Entropie de Shannon) Déroulement de la construction : Recherche de la variable et du seuil qui sépare le mieux Application de la séparation à la population Obtention de nouveaux nœuds Arrêt de l approfondissement de l arbre lorsque les conditions d arrêt sont rencontrées Eventuel élagage de l arbre Conditions d arrêt existantes : Profondeur de l arbre atteint une limite fixée (=nombre de variables utilisées) ; Nombre de feuilles atteint un maximum fixé ; L effectif de chaque nœud est inférieur à un seuil fixé ; La qualité de l arbre est suffisante ; La qualité de l arbre n augmente plus de façon sensible Inconvénients Temps de calculs importants(recherche, des critères de division, élagage) ; Nécessité d un grand nombre d individus (pour avoir individus minimum par nœud pour que les règles aient une valeur) ; Effet papillon : On change une variable dans l arbre, tout l arbre change ; Échantillon d apprentissage de grande taille ; Sensible à de petites variations dans les données ; Non incrémental : on doit recommencer la construction de l arbre si on veut intégrer de nouvelles données. 2.3 Hadoop Le projet Hadoop est un projet libre développé en Java qui utilise une implémentation de MapReduce. C est un framework libre qui permet aux applications de travailler avec des milliers de nœuds et des pétaoctets de 11

12 données. Hadoop sert principalement au traitement de gros volumes de donnèes Architecture : HDFS Le HDFS est le système de fichier distribué d Hadoop, composé d un serveur maître, le NameNode et de serveurs détenant les données proprement dites, les Datanodes. Quand une application cliente a besoin d accéder a une information, elle interroge le NameNode qui lui indique les Datanodes sur lesquels se trouve ces informations. Une fois en possession de cette liste, l application cliente va directement interroger le(s) Datanodes. Dans une architecture HDFS, un fichier est découpé en un ou plusieurs blocs et réparti sur les datanodes du cluster. De plus, chaque bloc est répliqué suivant le facteur de réplication que vous avez spécifié dans votre configuration. L un des avantages principaux de MapReduce est qu il répartit la charge sur un grand nombre de serveurs. Le simple fait d ajouter des machines à celles déjà en place suffit à augmenter la capacité de calcul (de façon plugand-play ). Or, lorsque le nombre de données est très important, l utilisation de plusieurs machines sera nécessaire. C est pourquoi MapReduce nous permettra de traiter de manière parallèle plusieurs branches des arbres de décision. Que ce soit pendant la construction ou pendant le parcours des 12

13 arbres Lien avec MapReduce Ensuite, par dessus HDFS, nous avons la partie moteur MAP/REDUCE avec un JobTracker, genre de centralisateur de tâches, et des TaskTracker qui se chargent d executer les travaux demandés. Le Client soumet la requète de travail au JobTracker qui va les transmettre au(x) TaskTracker concerné(s) en s efforcant d être au plus proche de la donnée. Concernant MapReduce, son rôle consiste à diviser le traitement en 2 étapes :.la première phase (Map) est une étape d ingestion et de transformation des données sous la forme de paires clé/valeur.la seconde phase (Reduce) est une étape de fusion des enregistrements par clé pour former le résultat final. 2.4 Map Reduce Comme expliqué plus tôt dans ce dossier, nous allons avoir à faire, lors de ce projet, à de très grandes bases de données. Il est donc important de pouvoir traiter les données et faire cela de manière parallèle. En effet, les branches de nos arbres de décision doivent être traitées de manière parallèle. Pour cela, nous allons être amenés à utiliser le framework développé par 13

14 Google : MapReduce. D ailleurs, le projet Hadoop développé en Java utilise une implémentation de MapReduce Parallélisme L un des avantages principaux de MapReduce est qu il répartit la charge sur un grand nombre de serveurs. Le simple fait d ajouter des machines à celles déjà en place suffit à augmenter la capacité de calcul (de façon plugand-play ). Or, lorsque le nombre de données est très important, l utilisation de plusieurs machines sera nécessaire. C est pourquoi MapReduce nous permettra de traiter de manière parallèle plusieurs branches des arbres de décision. Que ce soit pendant la construction ou pendant le parcours des arbres Opération Map La fonction map itère sur une très grande liste d éléments et applique une opération sur chaque élément. La liste produite en conséquence est stockée séparément de la liste originale, sur le disque local. Chaque élément est calculé indépendamment et le fichier en entrée n est pas modifié, donc il est très facile de réaliser plusieurs opérations map en parallèle. Ce point sera particulièrement intéressant pour notre projet. En effet, avec le matériel approprié cela permet d effectuer des calculs sur des quantités très importantes de données, et ce en un temps relativement court. Pour expliquer son fonctionnement d un point de vue du code, la fonction Map prend en entrée un fichier de données et calcule une liste de couples (clef,valeur), réutilisables par la fonction Reduce par la suite Opération Reduce L opération Reduce regroupe les couples, produits par la fonction Map, ayant la même clé et créé des listes de valeurs ayant une clé commune. Il se contente donc de faire le produit cartésien de ces valeurs associées à une même clé. Pour résumer le fonctionnement de MapReduce, on peut se référer au schéma suivant, édité par deux professeurs de l ENS. 3 Spécification Générale Pour répondre aux besoins définis précédemment, nous développerons une application nommée Fast and Furious decision tree induction. Cette 14

15 Figure 1 Shéma édité par Malo Jaffré et Pablo Rauzy (ENS) application sera développée non seulement en langage Java sous l environnement Eclipse mais aussi en association avec la technologie MapReduce de Hadoop décrites ci-dessus. Afin d être le plus flexible possible, cet outil devra rester généraliste, c est-à-dire qu on veillera à ce qu il puisse être utilisé avec tout type de données. Par la suite, afin de décrire au mieux possible le fonctionnement de l application, nous imaginerons que nous utiliserons l outil sur une base de données médicale. Cette base de données contiendra des informations sur différents patients avec divers symptômes et dont le diagnostique a déjà été établi. Ainsi l objectif de Fast and Furious decision tree induction sera de proposer au médecin une fourchette de diagnostiques les plus probables pour le patient, en fonction des symptômes constatés par le médecin. 3.1 Description générale du fonctionnement L application Fast and Furious decision tree induction recevra en entrée deux fichiers qui porteront le même nom mais dont le format sera différent. Il y aura un fichier.data qui contiendra les données et l annotation associée et un fichier.names qui détiendra les annotations et une description de chaque colonne et de son type. 15

16 Le fichier.data Dans le fichier.data, chaque exemple sera contenu sur ligne. Pour chaque descripteur correspondra une colonne, un élément. Ainsi, on trouvera dans ce fichier, une ligne par exemple dont chacune de ses caractéristiques sera séparée par une virgule et on y verra également un point en fin de ligne pour signaler la fin de l exemple. Il est également à noter que la première ligne d un fichier.data liste l ensemble des noms des colonnes. Chaque nom est également séparé par des virgules et la liste finie par un point. L ordre de cette première ligne détermine l ordre des caractéristiques sur les lignes suivantes (lignes des exemples). Et enfin dans chaque fichier de ce type, la dernière colonne correspondra toujours à l annotation associée aux caractéristiques. Dans le cas de la base de données médicale, un patient représente l exemple, les symptômes sont les caractéristiques et le diagnostique (maladie) est l annotation. Nous obtiendrons donc en entrée de l application un fichier.data du type suivant : Age, Fumeur, IMC, Maladie. 52, Oui, 25, Cancer 45, Non, 24, Diabète Le fichier.names Dans le fichier.names, la première ligne correspond à la liste de l ensemble des annotations que l on peut trouver dans la base de données. Comme dans le premier fichier, chaque annotation est séparée par une virgule et la liste se finit par un point. Puis nous pourrons trouver ensuite, dans le fichier, une description des colonnes (type, caractéristique). Ainsi, pour chaque colonne, il y aura une ligne de ce type : nom colonne : type colonne options facultatives Dans les options facultatives, nous pourrons préciser : ignore : pour ignorer les informations contenues dans la colonne c est à dire qu on ne posera aucune question en rapport à cette donnée ; cutoff : n : pour ne tenir compte que des informations présentes au moins n fois dans la base de données ; Il est à savoir qu une colonne ne pourra être que de trois types, pour notre application : discrète : ce qui signifie que les données présentes dans cette colonne devront forcément faire partie d une liste prédéfinie (ex : oui, non, je ne sais pas) ; continue : c est à dire que les données de la colonne ne constituent pas une liste exhaustive mais se limite à peu de mots ou un nombre ; texte : ce qui veut dire que les informations présentes dans ces colonnes 16

17 sont des phrases, des expressions 3.2 Les arbres de décisions dans l application Comme expliquer précédemment, pour utiliser la méthode des arbres de décisions, l application doit poser différentes questions afin de réduire au maximum le nombre de possibilités de résolution du problème. Ainsi, il ne restera qu une fourchette de possibilités avec une probabilité suffisante pour être la solution. Pour chaque question posée, deux paramètres doivent être pris en compte : la taille de N : nombre de mots dans l expression à rechercher (ex : parti socialiste - 2) le type de recherche : Ngram : recherche dans un premier temps, tous les mots un par un de l expression, puis tous les couples de mots consécutifs et ainsi de suite jusqu à constituer des ensembles de N (défini précédemment) mots consécutifs ; Fgram : (Full) recherche de l expression en entière ; Sgram : recherche Ngram + recherche des expressions de trois à N mots consécutifs où il y a un mot qui est remplacé par un blanc (un mot quelconque). Quelques exemples de cas d arrêts de l application, c est à dire de la méthode des arbres de décisions sont : toutes les questions ont été posées ; plus de gain d entropie en posant des questions ; si la feuille de résultats contient moins de n lignes (n à définir). 3.3 Le fichier de résultats En fin de traitement, l application renverra en sortie un fichier xml créant ainsi un fichier lisible décrivant les résultats et les probabilités d obtenir ce résultat. Il ressemblera globalement à l exemple suivant : < q u e s t i o n =...> <l e f t T r e e> <r i g h t T r e e> <q u e s t i o n =...> <r e s u l t s =...> <r e s u l t 1=...> 17

18 <r e s u l t 2=...> Pour finir, nous proposerons notre application pour le traitement automatique des langues. Plus précisément, Fast and Furious decision tree induction aura pour objectif de déterminer le plus rapidement le genre du texte en paramètre (policier, politique, etc). 18

19 4 Planification initiale Figure 2 Diagramme de Gantt édité par Renaud PHILIPPE 19

20 Conclusion Ce projet s inscrit dans le cadre d un ensemble de projet déjà en route à l IRISA. Il va nous permettre de découvrir des aspects et des outils de l informatique que nous connaissions jusqu alors peu (parallélisation, intelligence artificielle, Hadoop,...). La rédaction de ce rapport, ainsi que les différentes réunions avec nos encadreurs, nous a permis de définir clairement ce a quoi allait ressembler notre projet, et les différentes fonctionnalités qu il devrait avoir. De plus, il existe de multiples applications pour l outil que nous allons développer. C est une motivation supplémentaire de savoir qu il pourra être utilisé par un grand nombre de personnes, et cela sans que l on n ai besoin de le modifier. La suite de notre projet va maintenant consister dans l étude de spécifications fonctionnelles de notre outil. Pour cela, il va nous falloir nous intéresser au fonctionnement externe de notre application, et réfléchir à une première ébauche de son architecture logicielle. Cela nous permettra également d écrire de façon définitive le cahier des charges de notre projet. 20

Fast and Furious Decision Tree Induction

Fast and Furious Decision Tree Induction Institut National des Sciences Appliquées de Rennes Dossier de planification initiale Encadreurs : Nikolaos Parlavantzas - Christian Raymond Fast and Furious Decision Tree Induction Andra Blaj Nicolas

Plus en détail

Fast and Furious Decision Tree Induction

Fast and Furious Decision Tree Induction Institut National des Sciences Appliquées de Rennes Rapport de spécifications fonctionnelles Encadreurs : Nikolaos Parlavantzas - Christian Raymond Fast and Furious Decision Tree Induction Andra Blaj Nicolas

Plus en détail

«Fast And Furious Decision Tree Induction»

«Fast And Furious Decision Tree Induction» «Fast And Furious Decision Tree Induction» Manuel Utilisateur 4 ème année Département Informatique INSA Rennes Sommaire I. INTRODUCTION... 3 II. INSTALLATION... 3 1. Hadoop... 3 2. Fast And Furious Decision

Plus en détail

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages 1 Mehdi LOUIZI Plan Pourquoi Hadoop? Présentation et Architecture Démo Usages 2 Pourquoi Hadoop? Limites du Big Data Les entreprises n analysent que 12% des données qu elles possèdent (Enquête Forrester

Plus en détail

Apprentissage supervisé

Apprentissage supervisé Apprentissage supervisé 1 Apprendre aux ordinateurs à apprendre Objectif : appliquer la démarche de l apprentissage par l exemple à l ordinateur. Montrer des exemples à l ordinateur en lui disant de quoi

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

Méthodes d apprentissage statistique («Machine Learning»)

Méthodes d apprentissage statistique («Machine Learning») Méthodes d apprentissage statistique («Machine Learning») Journées d Etudes IARD Niort, 21 Mars 2014 Fabrice TAILLIEU Sébastien DELUCINGE Rémi BELLINA 2014 Milliman. All rights reserved Sommaire Introduction

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Apprentissage statistique:

Apprentissage statistique: Apprentissage statistique: Arbre de décision binaire et Random Forest 1 Plan 1. Introduction 2. 3. Application à l apprentissage supervisé 4. Forêt Aléatoire (Random Forest) 2 1 Plan 1. Introduction 2.

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution

Plus en détail

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Jade. Projet Intelligence Artificielle «Devine à quoi je pense» Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

V ERSION EXPERIMENTALE

V ERSION EXPERIMENTALE V ERSION EXPERIMENTALE Cette version de Sipina v 3.0 n est pas, et ne sera jamais, définitive, elle sert d outil de recherche, elle a plus une vocation d outil d expérimentation que de logiciel dédié au

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Projet : Plan Assurance Qualité

Projet : Plan Assurance Qualité Projet : Document : Plan Assurance Qualité 2UP_SPEC_DEV1 VERSION 1.00 Objet Ce document a pour objectif de définir la démarche d analyse et de conception objet ainsi les activités liées. Auteur Eric PAPET

Plus en détail

Introduction pratique au Développement orienté Modèle Pierre Parrend, Mars 2005

Introduction pratique au Développement orienté Modèle Pierre Parrend, Mars 2005 MDA : Un Tutoriel Introduction pratique au Développement orienté Modèle Pierre Parrend, Mars 2005 1 Sommaire Table des matières 1 Sommaire 1 2 Introduction 2 2.1 A qui s adresse ce tutoriel......................

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Nouvelles de l AS fouille d images. Émergence de caractéristiques sémantiques

Nouvelles de l AS fouille d images. Émergence de caractéristiques sémantiques Nouvelles de l AS fouille d images Émergence de caractéristiques sémantiques Patrick GROS Projet TEXMEX IRISA - UMR 6074, CNRS, université de Rennes 1, INSA Rennes, INRIA L AS fouille d images Qu est-ce

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

Hadoop / Big Data. Benjamin Renaut MBDS 2014-2015

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS 2014-2015 Hadoop / Big Data Benjamin Renaut MBDS 2014-2015 TP 1 - Correction Méthodologie Map/Reduce - programmation Hadoop. Rappel 1 La première partie du TP consistait à mettre en

Plus en détail

Analyse et modélisation de visages

Analyse et modélisation de visages Analyse et modélisation de visages Pascal Bourdon Laboratoire XLIM-SIC (UMR CNRS 7252) / Université de Poitiers pascal.bourdon@univ-poitiers.fr Analyse et modélisation de visages Plan Introduction Outils

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3 I Arbres binaires 2014-2015 Table des matières 1 Rappels 2 1.1 Définition................................................ 2 1.2 Dénombrements............................................ 2 1.3 Parcours.................................................

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main

TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main PSIA :Plates-formes pour les systèmes informatiques avancés TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main Jonathan Lejeune, Julien Sopena Contexte Le modèle MapReduce

Plus en détail

Concevoir des applications Web avec UML

Concevoir des applications Web avec UML Concevoir des applications Web avec UML Jim Conallen Éditions Eyrolles ISBN : 2-212-09172-9 2000 1 Introduction Objectifs du livre Le sujet de ce livre est le développement des applications web. Ce n est

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main

TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main CODEL : conception et développement d applications d entreprise à large échelle TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main Jonathan Lejeune Contexte Le modèle

Plus en détail

Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium. Comparatif Choco/Drools dans le cadre du projet JASMINe

Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium. Comparatif Choco/Drools dans le cadre du projet JASMINe Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium dans le cadre du projet JASMINe Avril 2008 Table des matières 1 Introduction 3 1.1 Rappel sur JASMINe.......................................

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 7 - Data

BI = Business Intelligence Master Data-ScienceCours 7 - Data BI = Business Intelligence Master Data-Science Cours 7 - Data Mining Ludovic DENOYER - UPMC 30 mars 2015 Ludovic DENOYER - Typologie des méthodes de Data Mining Différents types de méthodes : Méthodes

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Documents structurés Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

KARMA Le système de Revenue Management d'air France KLM avec Hadoop

KARMA Le système de Revenue Management d'air France KLM avec Hadoop KARMA Le système de Revenue Management d'air France KLM avec Hadoop Conférence BIG DATA - Master MBDS Université de Nice Sophia Antipolis 16 Décembre 2014 Martial AYAS maayas@airfrance.fr 2 Agenda 1. Présentation

Plus en détail

Partie I : Automates et langages

Partie I : Automates et langages 2 Les calculatrices sont interdites. N.B. : Le candidat attachera la plus grande importance à la clarté, à la précision et à la concision de la rédaction. Si un candidat est amené à repérer ce qui peut

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

MISE A JOUR : 04 FEVRIER 2011 PROCÉDURE D INSTALLATION. Cegid Business COMMENT INSTALLER CEGID BUSINESS V8 SOUS WINDOWS XP, VISTA ET 7

MISE A JOUR : 04 FEVRIER 2011 PROCÉDURE D INSTALLATION. Cegid Business COMMENT INSTALLER CEGID BUSINESS V8 SOUS WINDOWS XP, VISTA ET 7 PROCÉDURE D INSTALLATION Cegid Business V8 COMMENT INSTALLER CEGID BUSINESS V8 SOUS WINDOWS XP, VISTA ET 7 Sommaire 1. Introduction 2. Installation de SQL Server 2005 ou 2008 3. Installation de Cegid Business

Plus en détail

CAHIER DES SPECIFICATIONS FONCTIONNELLES

CAHIER DES SPECIFICATIONS FONCTIONNELLES 2010/2011 INSTITUT SUP GALILEE CAHIER DES SPECIFICATIONS FONCTIONNELLES IHM XML O.N.E.R.A. Institut Sup Galilée O.N.E.R.A. Page 2 Sommaire I. Description du sujet... 4 II. Outils utilisés... 4 III. Description

Plus en détail

Bouchekif Abdesselam 11 mars 2012

Bouchekif Abdesselam 11 mars 2012 Expériences sur les données du répertoire de données de UCI avec une boîte à outils Bouchekif Abdesselam 11 mars 2012 Résumé Les dix dernières années ont été témoin de grands progrès réalisés dans le domaine

Plus en détail

Cahier des charges. Jonathan HAEHNEL. Université de Strasbourg IUT Robert Schuman

Cahier des charges. Jonathan HAEHNEL. Université de Strasbourg IUT Robert Schuman Université de Strasbourg IUT Robert Schuman Maître de stage : Nicolas Lachiche Tuteur universitaire : Marie-Paule Muller Cahier des charges Jonathan HAEHNEL Strasbourg, le 6 mai 2011 Table des matières

Plus en détail

1. Vue rapide des logiciels disponibles

1. Vue rapide des logiciels disponibles Voici une revue rapide des progiciels gratuits accessibles [FREE AND SHAREWARE] dans la section SUITES du site KDNUGGETS (http://www.kdnuggets.com/software/suites.html). L étude sera approfondie pour les

Plus en détail

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation Premières classifications : apprentissage et évaluation L objectif de ce TP est double : prise en main de la bibliothèque scikit-learn de Python, dédiée à l apprentissage automatique, sensibilisation à

Plus en détail

Freestyle : Sculpting Meshes with Self-Adaptive Topology

Freestyle : Sculpting Meshes with Self-Adaptive Topology Freestyle : Sculpting Meshes with Self-Adaptive Topology Rapport Recette Étudiants : Charles Garibal, Maxime Robinot, Mathieu Dachy Tuteur : Loïc Barthe 20/02/2015 1 I) Introduction Rappel : Objectif du

Plus en détail

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant

Plus en détail

La détection de spams : un jeu d enfant?

La détection de spams : un jeu d enfant? La détection de spams : un jeu d enfant? Tristan Mary-Huard, chargé de recherche INRA à INRA-AgroParisTech Comment distinguer automatiquement un spam d un message normal? Les filtres anti-spams analysent

Plus en détail

Module ITC34 - Algorithmique et Programmation

Module ITC34 - Algorithmique et Programmation Module ITC34 - Algorithmique et Programmation TDs Algorithmique (trois séances) Benoît Darties - benoit.darties@u-bourgogne.fr Univ. Bourgogne Franche-Comté Année universitaire 2015-2016 Avant-propos :

Plus en détail

Option Informatique Arbres binaires équilibrés

Option Informatique Arbres binaires équilibrés Option Informatique Arbres binaires équilibrés Sujet novembre 2 Partie II : Algorithmique et programmation en CaML Cette partie doit être traitée par les étudiants qui ont utilisé le langage CaML dans

Plus en détail

Apprendre la stratégie de l adversaire

Apprendre la stratégie de l adversaire M1 Master d informatique 28/29 Apprentissage à Partir d Exemples janvier 29 Apprendre la stratégie de l adversaire 1 But Soit un jeu à deux joueurs quelconque. Supposons que l un des deux joueurs suive

Plus en détail

Supplément théorique Inférence dans les réseaux bayésiens. Rappel théorique. Les processus aléatoires. Les réseaux bayésiens

Supplément théorique Inférence dans les réseaux bayésiens. Rappel théorique. Les processus aléatoires. Les réseaux bayésiens DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2011 Supplément théorique Inférence dans les réseaux bayésiens Rappel théorique Les processus aléatoires La plupart des processus

Plus en détail

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data Historique de Big data Jusqu à l avènement d Internet et surtout du Web 2.0 il n y avait pas tant de données

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

Évaluation et implémentation des langages

Évaluation et implémentation des langages Évaluation et implémentation des langages Les langages de programmation et le processus de programmation Critères de conception et d évaluation des langages de programmation Les fondations de l implémentation

Plus en détail

Page 1 2 La présente invention concerne le domaine des architectures informatiques, et en particulier un procédé pour le développement d applications destiné à un fonctionnement en réseau, par exemple

Plus en détail

Les techniques d exploitation de données (Data Mining)

Les techniques d exploitation de données (Data Mining) Les techniques d exploitation de données (Data Mining) 1 Présenté par : Emer Mestiri, M.sc Finance, Data Scientist Conseiller Gestion de risque de crédit, Mouvement Desjardins Sommaire 2 I. Logiciel SAS

Plus en détail

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Mostafa Hanoune, Fouzia Benabbou To cite this version: Mostafa Hanoune, Fouzia Benabbou. Modélisation Informatique

Plus en détail

Résumé du document «Programmes des classes préparatoires aux Grandes Écoles ; Discipline : Informatique ; Première et seconde années - 2013»

Résumé du document «Programmes des classes préparatoires aux Grandes Écoles ; Discipline : Informatique ; Première et seconde années - 2013» Résumé du document «Programmes des classes préparatoires aux Grandes Écoles ; Discipline : Informatique ; Première et seconde années - 2013» I Objectifs Niveau fondamental : «on se fixe pour objectif la

Plus en détail

MÉTHODES DE CLASSIFICATION

MÉTHODES DE CLASSIFICATION MÉTHODES DE CLASSIFICATION Pierre-Louis GONZALEZ MÉTHODES DE CLASSIFICATION Objet Opérer des regroupements en classes homogènes d un ensemble d individus. Données Les données se présentent en général sous

Plus en détail

Certificat Big Data - Master MAthématiques

Certificat Big Data - Master MAthématiques 1 / 1 Certificat Big Data - Master MAthématiques Master 2 Auteur : Sylvain Lamprier UPMC Fouille de données et Medias Sociaux 2 / 1 Rich and big data: Millions d utilisateurs Millions de contenus Multimedia

Plus en détail

Unité de formation 1 : Structurer une application. Durée : 3 semaines

Unité de formation 1 : Structurer une application. Durée : 3 semaines PROGRAMME «DEVELOPPEUR LOGICIEL» Titre professionnel : «Développeur Logiciel» Inscrit au RNCP de niveau III (Bac+2) (JO du 23 Octobre 2007) (32 semaines) Unité de formation 1 : Structurer une application

Plus en détail

FORMATION GRC EOLE.COM

FORMATION GRC EOLE.COM FORMATION GRC EOLE.COM Support Technique. 04 75 45 37 96 tech@grc-eole.com -- SOMMAIRE FORMATION Eole.com -- Présentation de l Environnement 1. Portefeuille Fiche Historique Intervention Renseignements

Plus en détail

Générer du code à partir d une description de haut niveau

Générer du code à partir d une description de haut niveau Cedric Dumoulin Générer du code à partir d une description de haut niveau Ce projet vise à fournir un environnement de développement permettant de modéliser des UI Android à un haut niveau d abstraction,

Plus en détail

Introduction aux CRF via l annotation par des modèles graphiques. Isabelle Tellier. LIFO, Université d Orléans

Introduction aux CRF via l annotation par des modèles graphiques. Isabelle Tellier. LIFO, Université d Orléans Introduction aux CRF via l annotation par des modèles graphiques Isabelle Tellier LIFO, Université d Orléans Plan 1. Annoter pour quoi faire 2. Apprendre avec un modèle graphique 3. Annnoter des chaînes

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Étude de cas. UML n est pas une méthode

Étude de cas. UML n est pas une méthode Étude de cas UML n est pas une méthode UML n est pas une méthode, mais un simple langage ; l OMG ne préconise pas de processus ; il n existe pas une démarche unique qui fixe l ordre dans lequel les modèles

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

I L AS «Compilation pour les systèmes embarqués» II Méthodes d analyse et d optimisation de programmes

I L AS «Compilation pour les systèmes embarqués» II Méthodes d analyse et d optimisation de programmes I L AS «Compilation pour les systèmes embarqués»...situation et problématique II Méthodes d analyse et d optimisation de programmes...approche collaborative et exemples de techniques Philippe Clauss ICPS-LSIIT,

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Développement itératif, évolutif et agile

Développement itératif, évolutif et agile Document Développement itératif, évolutif et agile Auteur Nicoleta SERGI Version 1.0 Date de sortie 23/11/2007 1. Processus Unifié Développement itératif, évolutif et agile Contrairement au cycle de vie

Plus en détail

Structures de données non linéaires

Structures de données non linéaires Structures de données non linéaires I. Graphes Définition Un graphe (simple) orienté G est un couple (S, A), où : S est un ensemble dont les éléments sont appelés les sommets. A est un ensemble de couples

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte Projet d informatique M1BI : Compression et décompression de texte Le but de ce projet est de coder un programme réalisant de la compression et décompression de texte. On se proposera de coder deux algorithmes

Plus en détail

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle). 1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence

Plus en détail

NVU, Notepad++ (ou le bloc-note), MySQL, PhpMyAdmin. HTML, PHP, cas d utilisation, maquettage, programmation connaissances en HTML, PHP et SQL

NVU, Notepad++ (ou le bloc-note), MySQL, PhpMyAdmin. HTML, PHP, cas d utilisation, maquettage, programmation connaissances en HTML, PHP et SQL Prise en main de NVU et Notepad++ (conception d application web avec PHP et MySql) Propriétés Intitulé long Formation concernée Matière Présentation Description Conception de pages web dynamiques à l aide

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration Julien MATHEVET Alexandre BOISSY GSID 4 Rapport Load Balancing et migration Printemps 2001 SOMMAIRE INTRODUCTION... 3 SYNTHESE CONCERNANT LE LOAD BALANCING ET LA MIGRATION... 4 POURQUOI FAIRE DU LOAD BALANCING?...

Plus en détail

Système Expert pour Smartphones

Système Expert pour Smartphones INSA Rennes Département INFORMATIQUE Système Expert pour Smartphones Rapport de Planification Olivier Corridor;Romain Boillon;Quentin Decré;Vincent Le Biannic;Germain Lemasson;Nicolas Renaud;Fanny Tollec

Plus en détail

TD n o 8 - Domain Name System (DNS)

TD n o 8 - Domain Name System (DNS) IUT Montpellier - Architecture (DU) V. Poupet TD n o 8 - Domain Name System (DNS) Dans ce TD nous allons nous intéresser au fonctionnement du Domain Name System (DNS), puis pour illustrer son fonctionnement,

Plus en détail

Compte-Rendu SDL. «Reprise de l application de gestion de listes de présences des alternants»

Compte-Rendu SDL. «Reprise de l application de gestion de listes de présences des alternants» Compte-Rendu SDL Auteurs : BOUTROUILLE Alexis BAILLEUL Pierre Tuteur : Ioan Marius Bilasco «Reprise de l application de gestion de listes de présences des alternants» Master MIAGE 1 Année 2012/2013 1 Remerciements

Plus en détail

Chapitre 2 Les graphiques

Chapitre 2 Les graphiques Chapitre Les graphiques. Généralités C est la partie des statistiques la moins souvent oubliée dans l enseignement secondaire car elle mobilise la notion de proportionnalité sous ses différentes formes.

Plus en détail

PCP TP00 Été 2015. Table des matières

PCP TP00 Été 2015. Table des matières Table des matières PCP Travail pratique 00... 2 Structure du pipeline... 2 Consignes générales... 4 Si vous êtes en équipe de trois personnes... 4 Consignes techniques... 5 Quoi remettre... 5 Format de

Plus en détail

Arbres de Décision. 1 Introduction

Arbres de Décision. 1 Introduction Arbres de Décision Ricco RAKOTOMALALA Laboratoire ERIC Université Lumière Lyon 2 5, av. Mendés France 69676 BRON cedex e-mail : rakotoma@univ-lyon2.fr Résumé Après avoir détaillé les points clés de la

Plus en détail

RevGED 3 Manuel d installation

RevGED 3 Manuel d installation RevGED 3 Manuel d installation RevGED est un logiciel de gestion électronique de document. Ce présent document explique comment l installer que vous ayez eu RevGED 2 ou non. Il est complété de configurations

Plus en détail

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE Annexe MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE L enseignement des mathématiques au collège et au lycée a pour but de donner à chaque

Plus en détail

PG208, Projet n 2 : Dessin vectoriel

PG208, Projet n 2 : Dessin vectoriel PG208, Projet n 2 : Dessin vectoriel Bertrand LE GAL, Serge BOUTER et Clément VUCHENER Filière électronique 2 eme année - Année universitaire 2011-2012 1 Introduction 1.1 Objectif du projet L objectif

Plus en détail

KWISATZ MODULE PRESTASHOP

KWISATZ MODULE PRESTASHOP Table des matières -1) KWISATZ - :...2-1.1) Introduction :...2-1.2) Description :...3-1.2.1) Schéma :...3-1.3) Mise en place :...4-1.3.1) PRESTASHOP :...4-1.3.1.1) Les Web Services :...4-1.3.2) KWISATZ

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

Séance 12: Algorithmes de Support Vector Machines

Séance 12: Algorithmes de Support Vector Machines Séance 12: Algorithmes de Support Vector Machines Laboratoire de Statistique et Probabilités UMR 5583 CNRS-UPS www.lsp.ups-tlse.fr/gadat Douzième partie XII Algorithmes de Support Vector Machines Principe

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

ASSEMBLAGE ET ÉDITION DES LIENS

ASSEMBLAGE ET ÉDITION DES LIENS ASSEMBLAGE ET ÉDITION DES LIENS Mewtow 11 novembre 2015 Table des matières 1 Introduction 5 2 La chaine d assemblage 7 2.1 Résolution des symboles.............................. 7 2.2 Relocation.....................................

Plus en détail

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains

Plus en détail