Fast and furious decision tree induction

Dimension: px
Commencer à balayer dès la page:

Download "Fast and furious decision tree induction"

Transcription

1 Institut National des Sciences Appliquées de Rennes Rapport de pré-étude Encadrants : Nikolaos Parlavantzas - Christian Raymond Fast and furious decision tree induction Andra Blaj Nicolas Desfeux Emeline Escolivet Simon Mandement Renaud Philippe Gareth Thiveux Rennes, le 6 octobre 2010

2 Table des matières Introduction 3 1 Contexte Un projet à l initiative de chercheurs de l IRISA en réponse à un besoin Les technologies L apprentissage L apprentissage automatique L apprentissage automatique supervisé Les arbres de décisions Avantages des arbres de décision Construction d un arbre de décision Inconvénients Hadoop Architecture : HDFS Lien avec MapReduce Map Reduce Parallélisme Opération Map Opération Reduce Spécification Générale Description générale du fonctionnement Les arbres de décisions dans l application Le fichier de résultats Planification initiale 19 Conclusion 20 2

3 Introduction De nos jours, prendre des décisions est la panache de tout homme. Pourtant, il est également de demander possible à une application informatique de faire des choix. Fast and Furious tree induction est un projet qui met en œuvre cette situation. Il s agit d implémenter une application capable de prendre des décisions, à partir d un ensemble d exemples. D autre part, ce sujet traite également de la parallélisation de systèmes et de processus, méthode aujourd hui indispensable à connaître et maîtriser lorsque l on souhaite devenir ingénieur informatique. Ce rapport de pré étude va vous présenter les différentes recherches que nous avons pu faire autour de notre projet. Vous y trouverez également le contexte de notre projet, pourquoi il existe, et quelles peuvent être ces applications. Il contient une première planification de notre travail. Enfin, ce premier rapport définit une première approche des objectifs de notre projet. Pour ce projet nous sommes assisté de Christiant Raymond et de Nikolaus Parlavantzas, tout deux chercheurs à l IRISA 1 et enseignants à l INSA 2 de Rennes. 1. Institut de Recherche en Informatique et Système Automatisés 2. Institut National des Sciences Appliqués 3

4 1 Contexte 1.1 Un projet... Le projet Fast and furious tree induction tire son nom de l exploitation d arbres de décision, et ce, en tant que méthode d apprentissage automatique supervisé. Ces arbres dit de décision sont capables de produire, à partir d une base de données d exemples, des règles de décision sous formes de questions binaires, ayant donc pour seules réponses possibles, oui ou non. On aboutit ainsi sur un découpage de la population d exemples en deux parties, récursivement sur chaque nœud de l arbre. On sélectionne alors les règles comme étant les meilleures au vu de leur gain en entropie par rapport à l échantillon initial d exemples. A terme, cette méthode d apprentissage automatique supervisé doit pouvoir reproduire le travail, et plus précisément les décisions, d un expert. Par analogie avec un médecin par exemple, le travail consisterait ici à établir un diagnostic à partir d une base de données de symptômes. Dans notre cas, l analyse portera sur des documents textuels. On pourra alors envisager tirer des mots clefs, classifier les textes selon différents thèmes ou catégories et éventuellement produire à terme un résumé voire une traduction à l initiative de chercheurs de l IRISA... Ce sujet est actuellement lié aux activités de recherche de deux équipes de l IRISA, l institut de recherche en informatique et systèmes aléatoires, situé sur le campus de Beaulieu, dans la ville de Rennes (35). L IRISA n est autre qu une UMR, unité mixte de recherche,fondée en 1975 et aujourd hui associée à l INRIA et partenaire des établissements tels que le CNRS, l Université de Rennes 1, l INSA de Rennes ou encore l ENS Cachan (antenne de Bretagne). Les équipes concernées et à l initiative de ce projet sont donc Texmex, équipe de laquelle fait partie M. Christian Raymond, et qui travaille sur l exploitation des documents multimédias, et l équipe Myriads, qui compte parmi ses membres M. Nikolaos Parlavantzas, et qui s intéresse au développement et à l administration de systèmes distribués à large échelle en réponse à un besoin. Bien que les arbres des décisions aient pu être maintes et maintes fois l objet de recherches, ceux que l on peut actuellement recenser ont encore chacun leurs défauts. Nous pouvons entre autre citer l arbre Quilian C4.5, 4

5 dont les sources sont librement disponibles, mais qui ne sait malheureusement pas gérer des valeurs autres que continues. Il n est pas donc adapté au traitement de textes. D un autre côté, le LIA-SCT, qui lui peut prendre en charge des données de type texte, a un problème majeur qui réside au niveau de la gestion de la mémoire ; celle-ci n est pas optimisée, empêchant ainsi tout traitement de volumes de données trop importants. Le travail porté sur ce sujet concerne donc avant tout les soucis d optimisation des arbres qui prendraient en compte un très grand nombre d exemples de départ. En effet, en découlerait alors un nombre conséquent de questions à poser, ce qui rendrait l algorithme particulièrement gourmand en temps et en mémoire, d autant que l on supposerait que les données résident toutes en mémoire vive, rendant difficile voire impossible le traitement d ensembles de données trop volumineux. L intérêt majeur serait alors de pouvoir développer un outil, générique de préférence, permettant le traitement d arbres de décision supervisés par le biais de méthodes de parallélisation et de boosting, dans le but de minimiser les temps d exécution et permettre le traitement de gros volumes de données. Un second intérêt de ce projet réside dans la personnalisation de notre outil, afin de proposer un plus large panel de paramétrages et d options que les outils déjà existants et disponibles à base d arbres de décisions. 2 Les technologies 2.1 L apprentissage L apprentissage est le fait d acquérir des connaissances, des savoir-faire ou des techniques. Apprendre peut aussi se définir comme la capacité à reproduire quelque chose que l on nous a enseigné. Il existe bien sur de multiples façons d apprendre. De l apprentissage par l erreur, à l apprentissage par imitation (c est celui utilisé naturellement par l homme dès son plus jeune âge) en passant par l apprentissage par répétition (qui est l apanage des sportifs, qui vont répétée plusieurs fois le même geste jusque arrivé au geste parfait par exemple), toutes cette méthodes ont leurs qualités et leurs défaut.. Un des objectifs de notre projet est de mettre en œuvre un processus d apprentissage pour notre programme. Il devra être capable, de lui même, d apprendre des notions. Pour cela nous allons utiliser l apprentissage automatique, reconnu aujourd hui comme discipline scientifique. 5

6 2.1.1 L apprentissage automatique L apprentissage automatique est une discipline où un outils technologique est capable d apprendre par lui-même. Cela peut s apparenter à une sorte d intelligence artificielle. Il existe plusieurs types d apprentissage automatique, qui vont du supervisé au non supervisé, c est à dire nécessitant plus ou moins d interventions d un expert au préalable. Pour l apprentissage automatique, on fournit à l outil une série d exemple, caractérisé par des attributs. L analyse par l outil ayant subit un apprentissage automatique devra permettre la création de classes. Dans chaque classe, les données seront aussi proches les unes des autres que possible. Dans le cadre de l apprentissage automatique, on utilise également la notion d expert. Un expert est une entité capable de classer les données. L apprentissage automatique est lié à la notion d étiquetage. L idée est de classer des données en leur attribuant des étiquettes. Les exemples ayant des caractéristiques qui ce ressemble auront la même étiquette. C est à partir de la que l on peut distinguer différents types d apprentissage : lorsque les étiquettes existe déjà, on parlera d apprentissage automatique supervisé. Le programme doit être capable d étiqueter les nouveaux exemples sans intervention de l utilisateur. Dans le cas où il n y a pas d étiquette, l apprenant doit en plus être capable des les définir. On parle alors d apprentissage non supervisé. Le programme doit être capable de créer des étiquettes, et ensuite d étiqueter tout les nouveaux exemples que l on pourrait lui fournir, sans intervention d un expert. 1. observations d un phénomène 2. construction d un modèle de ce phénomène 3. prévisions et analyse du phénomène grâce au modèle le tout automatiquement. La difficulté de cette méthode est de juger son efficacité. Il existe plusieurs critère qui permettent de mesurer la qualité d un apprentissage automatique : La quantité de données à disposition. Plus on a d exemples à étudier, plus la qualité de l analyse sera fine. La précision que l on a sur chaque exemple : nombre d attributs, qualité des différents attributs (plus on a d attributs numériques plus l analyse est bonne), pertinence des attributs,... La quantité d information que l on a pour chaque donnée : est-ce que tout les exemples ont tout leurs attributs de renseigné? Le nombre d erreur de mesure. Parmi les données, combien ont des 6

7 valeurs incohérentes? Il faut pour ça un indicateur pour le rangement des données. Cette indicateur est l entropie, autrement appelée mesure du désordre. Sur un ensemble de données, le meilleur apprentissage sera celui qui permettra de réduire l entropie au mieux possible. On peut également utilisé cette définition de l apprentissage automatique, appliqué à l informatique : On dit qu un programme informatique apprend, à partir d une expérience E, par rapport à une classe de tâches T et une mesure de performance P, si sa performance sur des tâches de T, mesurée par P, s améliore avec l expérience E.. Cela signifie que l apprentissage en informatique est lié à l augmentation de sa performance. L apprentissage doit permettre à l outil d étiqueter de façon plus juste et ou plus rapide. Grâce à l expérience qu il emmagasine, ces caractéristiques doivent devenir meilleur. On parle dans ce cas de réduction de l entropie. Notre projet utilise l apprentissage automatique. Dans notre étude, les données d exemple (que l on pourrait aussi dire d expérience ou d apprentissage) qui nous seront fournit serons déjà étiqueter. Il s agira d apprentissage supervisé L apprentissage automatique supervisé Le cadre de notre projet nous amène à considérer plutôt l apprentissage automatique supervisé. L idée est de créer des règles (et donc un processus d apprentissage) grâce à une base de données d apprentissage, rempli avec différents exemples. Un outil utilisant ce type d apprentissage devra être capable, à partir de cette base, de créer les règles qui permettront d évaluer ou de classer de nouvelles données lui étant fournies. Pour utiliser cette méthode, il faut au préalable avoir, soi-même ou par le biais d un expert, étiqueté correctement des exemples. C est à partir de cette base d exemple que l apprenant pourra définir la fonction ou le processus permettant d affecter cette étiquette à ces exemples. Il va créer la fonction à partir des exemples qui lui auront été fourni, et pourra ensuite se servir de cette fonction pour analyser de nouvelles données (qui pourront être à leur tour intégré à la base, pour affiner la fonction d étiquetage). L apprentissage automatique supervisé peut également être défini de manière plus mathématique : Construire un modèle pour prédire y à partir de x, en s appuyant sur un ensemble d apprentissage constitué d exemples d associations (x,y). On peut voir plusieurs buts pour un apprentissage automatique supervisé : l exactitude : on cherche à obtenir le meilleur étiquetage possible. La rapidité : L outil doit construire rapidement le processus d étiquetage 7

8 ou alors doit étiqueter le plus rapidement possible. Garantir une qualité de prévision : assurer à l utilisateur que quelque soit les données, on peut assurer que l étiquetage sera bon (à un nombre fixé à l avance près). Il existe de nombreuses manière d implémenter cette méthode d apprentissage. Parmi ces méthodes, on retrouve les arbres de décision. C est cette méthode que nous allons implémenter dans le cadre de notre projet. 2.2 Les arbres de décisions Un arbre de décision est un outil d aide à la décision et à l exploration de données. Il permet de modéliser simplement, graphiquement et rapidement un phénomène mesuré plus ou moins complexe. Un arbre de décision permet de classer un objet à l aide de questions : chaque noeud de l arbre représente une question, chaque lien est une réponse à la question, et chaque feuille est une classe Avantages des arbres de décision Facile à comprendre et à utiliser ; Nombre de tests limité par le nombre d attributs (de questions) ; Clasification et construction efficace (mais technique) à l aide d apprentissage par optimisation (pour obtenir un arbre petit et correct ) ; Interprétabilité ; Capacité de sélectionner automatiquement les variables discriminantes dans un fichier de données contenant un très grand nombre de variables potentiellement intéressantes. En ce sens, un arbre de décision constitue une technique exploratoire privilégiée pour appréhender de gros fichiers de données. Lisibilité du modèle de prédiction, l arbre de décision, fourni Construction d un arbre de décision La popularité de la méthode repose en grande partie sur sa simplicité. Il s agit de trouver un partitionnement des individus que l on représente sous la forme d un arbre de décision. L objectif est de produire des groupes d individus les plus homogènes possibles du point de vue de la variable à prédire. Il est d usage de représenter la distribution empirique de l attribut à prédire sur chaque sommet (noeud) de l arbre. 8

9 Pour mieux appréhender la démarche, nous allons reprendre et dérouler un exemple qui est présenté dans l ouvrage de Quinlan (1993). Le fichier est composé de 14 observations (voir tableau ci-dessous), il s agit d expliquer le comportement des individus par rapport à un jeu jouer, ne pas jouer à partir des prévisions météorologiques (Ensoleillement, Température, Humidité, Vent : variables prédictives). L arbre de décision correspondant est décrit ci-dessous. Le premier sommet est appelé la racine de l arbre. Il est situé sur le premier niveau. Nous y observons la distribution de fréquence de la variable à prédire Jouer. Nous constatons qu il y a bien 14 observations, dont 9 oui (ils vont jouer) et 5 non. La variable ensoleillement est la première variable utilisée ; on parle de variable de segmentation. Comme elle est composée de 3 modalités soleil, couvert, pluie, elle produit donc 3 sommets enfants. La première arête (la première branche), à gauche, sur le deuxième niveau, est produite à partir de la modalité soleil de la variable ensoleillement. Le sommet qui en résulte couvre 5 observations correspondant aux individus 1, 2, 3, 4, 5, la distribution de fréquence nous indique qu il y a 2 jouer = oui et 3 jouer = non. La seconde arête, au centre, correspond à la modalité couvert de la variable de segmentation ensoleillement ; le sommet correspondant couvre 4 observations, tos ont décidé de jouer (dans le tableau ce sont les individus n 6 à 9). Ce sommet n ayant plus de sommets enfants, ce qui est normal puisqu il est pur du point de vue de la variable à prédire, il n y a pas de contre-exemples. On dit qu il s agit d une 9

10 feuille de l arbre. Reprenons le nœud le plus à gauche sur le deuxième niveau de l arbre. Ce sommet, qui n est pas pur, est segmenté à l aide de la variable humidité. Comme le descripteur est continu, il a été nécessaire de définir un seuil dit de discrétisation qui permet de produire le meilleur partitionnement. Dans notre exemple, le seuil qui a été choisi est 77.5%. Il a permis de produire deux feuilles complètement pures. Ce processus est réitéré sur chaque sommet de l arbre jusqu à l obtention de feuilles pures. Il s agit bien d un arbre de partitionnement : un individu ne peut être situé dans deux feuilles différentes de l arbre. Le modèle de prédiction peut être lu très facilement. On peut traduire un arbre en une base de règles sans altération de l information. Le chemin menant d un sommet vers la racine de l arbre peut être traduit en une partie prémisse d une règle de prédiction de type attributvaleur. Pour classer un nouvel individu, il suffit de l injecter dans l arbre, et de lui associer la conclusion attachée à la feuille dans laquelle il aboutit. Pour construire un arbre de décision, nous devons répondre aux 4 questions suivantes : Comment choisir, parmi l ensemble des variables disponibles, la variable de segmentation d un sommet? Lorsque la variable est continue, c est le cas de la variable Humidité, comment déterminer le seuil de coupure lors de la segmentation (la valeur 77.5 dans l arbre de décision ci-dessus)? Comment déterminer la bonne taille de l arbre? Est-il souhaitable de produire absolument des feuilles pures selon la variable à prédire, même si le groupe correspondant correspond à une fraction très faible des observations? Enfin, si la prise de décision sur une feuille semble naturelle lorsqu elle 10

11 est pure, quelle est la règle de décision optimale lorsque qu une feuille contient des représentants des différentes modalités de la variable à prédire? Il existe plusieurs critères de choix de variables correspondant à différents types d arbres : CART (Classification And Regression Tree : Indice de Gini) CHAID (Chi square Automatic Interaction Detection) C5.0 (Entropie de Shannon) Déroulement de la construction : Recherche de la variable et du seuil qui sépare le mieux Application de la séparation à la population Obtention de nouveaux nœuds Arrêt de l approfondissement de l arbre lorsque les conditions d arrêt sont rencontrées Eventuel élagage de l arbre Conditions d arrêt existantes : Profondeur de l arbre atteint une limite fixée (=nombre de variables utilisées) ; Nombre de feuilles atteint un maximum fixé ; L effectif de chaque nœud est inférieur à un seuil fixé ; La qualité de l arbre est suffisante ; La qualité de l arbre n augmente plus de façon sensible Inconvénients Temps de calculs importants(recherche, des critères de division, élagage) ; Nécessité d un grand nombre d individus (pour avoir individus minimum par nœud pour que les règles aient une valeur) ; Effet papillon : On change une variable dans l arbre, tout l arbre change ; Échantillon d apprentissage de grande taille ; Sensible à de petites variations dans les données ; Non incrémental : on doit recommencer la construction de l arbre si on veut intégrer de nouvelles données. 2.3 Hadoop Le projet Hadoop est un projet libre développé en Java qui utilise une implémentation de MapReduce. C est un framework libre qui permet aux applications de travailler avec des milliers de nœuds et des pétaoctets de 11

12 données. Hadoop sert principalement au traitement de gros volumes de donnèes Architecture : HDFS Le HDFS est le système de fichier distribué d Hadoop, composé d un serveur maître, le NameNode et de serveurs détenant les données proprement dites, les Datanodes. Quand une application cliente a besoin d accéder a une information, elle interroge le NameNode qui lui indique les Datanodes sur lesquels se trouve ces informations. Une fois en possession de cette liste, l application cliente va directement interroger le(s) Datanodes. Dans une architecture HDFS, un fichier est découpé en un ou plusieurs blocs et réparti sur les datanodes du cluster. De plus, chaque bloc est répliqué suivant le facteur de réplication que vous avez spécifié dans votre configuration. L un des avantages principaux de MapReduce est qu il répartit la charge sur un grand nombre de serveurs. Le simple fait d ajouter des machines à celles déjà en place suffit à augmenter la capacité de calcul (de façon plugand-play ). Or, lorsque le nombre de données est très important, l utilisation de plusieurs machines sera nécessaire. C est pourquoi MapReduce nous permettra de traiter de manière parallèle plusieurs branches des arbres de décision. Que ce soit pendant la construction ou pendant le parcours des 12

13 arbres Lien avec MapReduce Ensuite, par dessus HDFS, nous avons la partie moteur MAP/REDUCE avec un JobTracker, genre de centralisateur de tâches, et des TaskTracker qui se chargent d executer les travaux demandés. Le Client soumet la requète de travail au JobTracker qui va les transmettre au(x) TaskTracker concerné(s) en s efforcant d être au plus proche de la donnée. Concernant MapReduce, son rôle consiste à diviser le traitement en 2 étapes :.la première phase (Map) est une étape d ingestion et de transformation des données sous la forme de paires clé/valeur.la seconde phase (Reduce) est une étape de fusion des enregistrements par clé pour former le résultat final. 2.4 Map Reduce Comme expliqué plus tôt dans ce dossier, nous allons avoir à faire, lors de ce projet, à de très grandes bases de données. Il est donc important de pouvoir traiter les données et faire cela de manière parallèle. En effet, les branches de nos arbres de décision doivent être traitées de manière parallèle. Pour cela, nous allons être amenés à utiliser le framework développé par 13

14 Google : MapReduce. D ailleurs, le projet Hadoop développé en Java utilise une implémentation de MapReduce Parallélisme L un des avantages principaux de MapReduce est qu il répartit la charge sur un grand nombre de serveurs. Le simple fait d ajouter des machines à celles déjà en place suffit à augmenter la capacité de calcul (de façon plugand-play ). Or, lorsque le nombre de données est très important, l utilisation de plusieurs machines sera nécessaire. C est pourquoi MapReduce nous permettra de traiter de manière parallèle plusieurs branches des arbres de décision. Que ce soit pendant la construction ou pendant le parcours des arbres Opération Map La fonction map itère sur une très grande liste d éléments et applique une opération sur chaque élément. La liste produite en conséquence est stockée séparément de la liste originale, sur le disque local. Chaque élément est calculé indépendamment et le fichier en entrée n est pas modifié, donc il est très facile de réaliser plusieurs opérations map en parallèle. Ce point sera particulièrement intéressant pour notre projet. En effet, avec le matériel approprié cela permet d effectuer des calculs sur des quantités très importantes de données, et ce en un temps relativement court. Pour expliquer son fonctionnement d un point de vue du code, la fonction Map prend en entrée un fichier de données et calcule une liste de couples (clef,valeur), réutilisables par la fonction Reduce par la suite Opération Reduce L opération Reduce regroupe les couples, produits par la fonction Map, ayant la même clé et créé des listes de valeurs ayant une clé commune. Il se contente donc de faire le produit cartésien de ces valeurs associées à une même clé. Pour résumer le fonctionnement de MapReduce, on peut se référer au schéma suivant, édité par deux professeurs de l ENS. 3 Spécification Générale Pour répondre aux besoins définis précédemment, nous développerons une application nommée Fast and Furious decision tree induction. Cette 14

15 Figure 1 Shéma édité par Malo Jaffré et Pablo Rauzy (ENS) application sera développée non seulement en langage Java sous l environnement Eclipse mais aussi en association avec la technologie MapReduce de Hadoop décrites ci-dessus. Afin d être le plus flexible possible, cet outil devra rester généraliste, c est-à-dire qu on veillera à ce qu il puisse être utilisé avec tout type de données. Par la suite, afin de décrire au mieux possible le fonctionnement de l application, nous imaginerons que nous utiliserons l outil sur une base de données médicale. Cette base de données contiendra des informations sur différents patients avec divers symptômes et dont le diagnostique a déjà été établi. Ainsi l objectif de Fast and Furious decision tree induction sera de proposer au médecin une fourchette de diagnostiques les plus probables pour le patient, en fonction des symptômes constatés par le médecin. 3.1 Description générale du fonctionnement L application Fast and Furious decision tree induction recevra en entrée deux fichiers qui porteront le même nom mais dont le format sera différent. Il y aura un fichier.data qui contiendra les données et l annotation associée et un fichier.names qui détiendra les annotations et une description de chaque colonne et de son type. 15

16 Le fichier.data Dans le fichier.data, chaque exemple sera contenu sur ligne. Pour chaque descripteur correspondra une colonne, un élément. Ainsi, on trouvera dans ce fichier, une ligne par exemple dont chacune de ses caractéristiques sera séparée par une virgule et on y verra également un point en fin de ligne pour signaler la fin de l exemple. Il est également à noter que la première ligne d un fichier.data liste l ensemble des noms des colonnes. Chaque nom est également séparé par des virgules et la liste finie par un point. L ordre de cette première ligne détermine l ordre des caractéristiques sur les lignes suivantes (lignes des exemples). Et enfin dans chaque fichier de ce type, la dernière colonne correspondra toujours à l annotation associée aux caractéristiques. Dans le cas de la base de données médicale, un patient représente l exemple, les symptômes sont les caractéristiques et le diagnostique (maladie) est l annotation. Nous obtiendrons donc en entrée de l application un fichier.data du type suivant : Age, Fumeur, IMC, Maladie. 52, Oui, 25, Cancer 45, Non, 24, Diabète Le fichier.names Dans le fichier.names, la première ligne correspond à la liste de l ensemble des annotations que l on peut trouver dans la base de données. Comme dans le premier fichier, chaque annotation est séparée par une virgule et la liste se finit par un point. Puis nous pourrons trouver ensuite, dans le fichier, une description des colonnes (type, caractéristique). Ainsi, pour chaque colonne, il y aura une ligne de ce type : nom colonne : type colonne options facultatives Dans les options facultatives, nous pourrons préciser : ignore : pour ignorer les informations contenues dans la colonne c est à dire qu on ne posera aucune question en rapport à cette donnée ; cutoff : n : pour ne tenir compte que des informations présentes au moins n fois dans la base de données ; Il est à savoir qu une colonne ne pourra être que de trois types, pour notre application : discrète : ce qui signifie que les données présentes dans cette colonne devront forcément faire partie d une liste prédéfinie (ex : oui, non, je ne sais pas) ; continue : c est à dire que les données de la colonne ne constituent pas une liste exhaustive mais se limite à peu de mots ou un nombre ; texte : ce qui veut dire que les informations présentes dans ces colonnes 16

17 sont des phrases, des expressions 3.2 Les arbres de décisions dans l application Comme expliquer précédemment, pour utiliser la méthode des arbres de décisions, l application doit poser différentes questions afin de réduire au maximum le nombre de possibilités de résolution du problème. Ainsi, il ne restera qu une fourchette de possibilités avec une probabilité suffisante pour être la solution. Pour chaque question posée, deux paramètres doivent être pris en compte : la taille de N : nombre de mots dans l expression à rechercher (ex : parti socialiste - 2) le type de recherche : Ngram : recherche dans un premier temps, tous les mots un par un de l expression, puis tous les couples de mots consécutifs et ainsi de suite jusqu à constituer des ensembles de N (défini précédemment) mots consécutifs ; Fgram : (Full) recherche de l expression en entière ; Sgram : recherche Ngram + recherche des expressions de trois à N mots consécutifs où il y a un mot qui est remplacé par un blanc (un mot quelconque). Quelques exemples de cas d arrêts de l application, c est à dire de la méthode des arbres de décisions sont : toutes les questions ont été posées ; plus de gain d entropie en posant des questions ; si la feuille de résultats contient moins de n lignes (n à définir). 3.3 Le fichier de résultats En fin de traitement, l application renverra en sortie un fichier xml créant ainsi un fichier lisible décrivant les résultats et les probabilités d obtenir ce résultat. Il ressemblera globalement à l exemple suivant : < q u e s t i o n =...> <l e f t T r e e> <r i g h t T r e e> <q u e s t i o n =...> <r e s u l t s =...> <r e s u l t 1=...> 17

18 <r e s u l t 2=...> Pour finir, nous proposerons notre application pour le traitement automatique des langues. Plus précisément, Fast and Furious decision tree induction aura pour objectif de déterminer le plus rapidement le genre du texte en paramètre (policier, politique, etc). 18

19 4 Planification initiale Figure 2 Diagramme de Gantt édité par Renaud PHILIPPE 19

20 Conclusion Ce projet s inscrit dans le cadre d un ensemble de projet déjà en route à l IRISA. Il va nous permettre de découvrir des aspects et des outils de l informatique que nous connaissions jusqu alors peu (parallélisation, intelligence artificielle, Hadoop,...). La rédaction de ce rapport, ainsi que les différentes réunions avec nos encadreurs, nous a permis de définir clairement ce a quoi allait ressembler notre projet, et les différentes fonctionnalités qu il devrait avoir. De plus, il existe de multiples applications pour l outil que nous allons développer. C est une motivation supplémentaire de savoir qu il pourra être utilisé par un grand nombre de personnes, et cela sans que l on n ai besoin de le modifier. La suite de notre projet va maintenant consister dans l étude de spécifications fonctionnelles de notre outil. Pour cela, il va nous falloir nous intéresser au fonctionnement externe de notre application, et réfléchir à une première ébauche de son architecture logicielle. Cela nous permettra également d écrire de façon définitive le cahier des charges de notre projet. 20

Fast and Furious Decision Tree Induction

Fast and Furious Decision Tree Induction Institut National des Sciences Appliquées de Rennes Dossier de planification initiale Encadreurs : Nikolaos Parlavantzas - Christian Raymond Fast and Furious Decision Tree Induction Andra Blaj Nicolas

Plus en détail

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Jade. Projet Intelligence Artificielle «Devine à quoi je pense» Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

BI = Business Intelligence Master Data-ScienceCours 7 - Data

BI = Business Intelligence Master Data-ScienceCours 7 - Data BI = Business Intelligence Master Data-Science Cours 7 - Data Mining Ludovic DENOYER - UPMC 30 mars 2015 Ludovic DENOYER - Typologie des méthodes de Data Mining Différents types de méthodes : Méthodes

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

Projet : Plan Assurance Qualité

Projet : Plan Assurance Qualité Projet : Document : Plan Assurance Qualité 2UP_SPEC_DEV1 VERSION 1.00 Objet Ce document a pour objectif de définir la démarche d analyse et de conception objet ainsi les activités liées. Auteur Eric PAPET

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Mostafa Hanoune, Fouzia Benabbou To cite this version: Mostafa Hanoune, Fouzia Benabbou. Modélisation Informatique

Plus en détail

Arbres de Décision. 1 Introduction

Arbres de Décision. 1 Introduction Arbres de Décision Ricco RAKOTOMALALA Laboratoire ERIC Université Lumière Lyon 2 5, av. Mendés France 69676 BRON cedex e-mail : rakotoma@univ-lyon2.fr Résumé Après avoir détaillé les points clés de la

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

Concevoir des applications Web avec UML

Concevoir des applications Web avec UML Concevoir des applications Web avec UML Jim Conallen Éditions Eyrolles ISBN : 2-212-09172-9 2000 1 Introduction Objectifs du livre Le sujet de ce livre est le développement des applications web. Ce n est

Plus en détail

KARMA Le système de Revenue Management d'air France KLM avec Hadoop

KARMA Le système de Revenue Management d'air France KLM avec Hadoop KARMA Le système de Revenue Management d'air France KLM avec Hadoop Conférence BIG DATA - Master MBDS Université de Nice Sophia Antipolis 16 Décembre 2014 Martial AYAS maayas@airfrance.fr 2 Agenda 1. Présentation

Plus en détail

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie Partie I : Séries statistiques descriptives univariées (SSDU) A Introduction Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie et tous sont organisés selon le même

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main

TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main PSIA :Plates-formes pour les systèmes informatiques avancés TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main Jonathan Lejeune, Julien Sopena Contexte Le modèle MapReduce

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration Julien MATHEVET Alexandre BOISSY GSID 4 Rapport Load Balancing et migration Printemps 2001 SOMMAIRE INTRODUCTION... 3 SYNTHESE CONCERNANT LE LOAD BALANCING ET LA MIGRATION... 4 POURQUOI FAIRE DU LOAD BALANCING?...

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

Les algorithmes de fouille de données

Les algorithmes de fouille de données Février 2005 Les algorithmes de fouille de données DATAMINING Techniques appliquées à la vente, aux services client, interdictions. Cycle C Informatique Remerciements Je remercie les personnes, les universités

Plus en détail

Génie logiciel. Concepts fondamentaux. Bruno MERMET, Université du Havre 1

Génie logiciel. Concepts fondamentaux. Bruno MERMET, Université du Havre 1 Génie logiciel Concepts fondamentaux Bruno MERMET, Université du Havre 1 Nécessité du Génie Logiciel Bruno MERMET, Université du Havre 2 Développement d un logiciel Caractéristiques souhaitées : Adéquation

Plus en détail

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012 Livre blanc Solution Hadoop d entreprise d EMC Stockage NAS scale-out Isilon et Greenplum HD Par Julie Lockner et Terri McClure, Analystes seniors Février 2012 Ce livre blanc d ESG, qui a été commandé

Plus en détail

Algorithmique et Programmation Projets 2012/2013

Algorithmique et Programmation Projets 2012/2013 3 Dames 3. Objectif Il s agit d écrire un programme jouant aux Dames selon les règles. Le programme doit être le meilleur possible. Vous utiliserez pour cela l algorithme α β de recherche du meilleur coup

Plus en détail

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte Projet d informatique M1BI : Compression et décompression de texte Le but de ce projet est de coder un programme réalisant de la compression et décompression de texte. On se proposera de coder deux algorithmes

Plus en détail

Structures de données non linéaires

Structures de données non linéaires Structures de données non linéaires I. Graphes Définition Un graphe (simple) orienté G est un couple (S, A), où : S est un ensemble dont les éléments sont appelés les sommets. A est un ensemble de couples

Plus en détail

Évaluation et implémentation des langages

Évaluation et implémentation des langages Évaluation et implémentation des langages Les langages de programmation et le processus de programmation Critères de conception et d évaluation des langages de programmation Les fondations de l implémentation

Plus en détail

Hadoop / Big Data. Benjamin Renaut MBDS 2014-2015

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS 2014-2015 Hadoop / Big Data Benjamin Renaut MBDS 2014-2015 TP 1 - Correction Méthodologie Map/Reduce - programmation Hadoop. Rappel 1 La première partie du TP consistait à mettre en

Plus en détail

Techniques de DM pour la GRC dans les banques Page 11

Techniques de DM pour la GRC dans les banques Page 11 Techniques de DM pour la GRC dans les banques Page 11 II.1 Introduction Les techniques de data mining sont utilisé de façon augmentaté dans le domaine économique. Tels que la prédiction de certains indicateurs

Plus en détail

Générer du code à partir d une description de haut niveau

Générer du code à partir d une description de haut niveau Cedric Dumoulin Générer du code à partir d une description de haut niveau Ce projet vise à fournir un environnement de développement permettant de modéliser des UI Android à un haut niveau d abstraction,

Plus en détail

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant

Plus en détail

Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO

Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO Mappy en Chiffre Filiale du groupe Solocal 10M de visiteurs uniques 300M visites annuelles 100 collaborateurs dont 60% technique 3,7 Md de dalles

Plus en détail

MISE A JOUR : 04 FEVRIER 2011 PROCÉDURE D INSTALLATION. Cegid Business COMMENT INSTALLER CEGID BUSINESS V8 SOUS WINDOWS XP, VISTA ET 7

MISE A JOUR : 04 FEVRIER 2011 PROCÉDURE D INSTALLATION. Cegid Business COMMENT INSTALLER CEGID BUSINESS V8 SOUS WINDOWS XP, VISTA ET 7 PROCÉDURE D INSTALLATION Cegid Business V8 COMMENT INSTALLER CEGID BUSINESS V8 SOUS WINDOWS XP, VISTA ET 7 Sommaire 1. Introduction 2. Installation de SQL Server 2005 ou 2008 3. Installation de Cegid Business

Plus en détail

Ebauche Rapport finale

Ebauche Rapport finale Ebauche Rapport finale Sommaire : 1 - Introduction au C.D.N. 2 - Définition de la problématique 3 - Etat de l'art : Présentatio de 3 Topologies streaming p2p 1) INTRODUCTION au C.D.N. La croissance rapide

Plus en détail

Cours 1 : Qu est-ce que la programmation?

Cours 1 : Qu est-ce que la programmation? 1/65 Introduction à la programmation Cours 1 : Qu est-ce que la programmation? Yann Régis-Gianas yrg@pps.univ-paris-diderot.fr Université Paris Diderot Paris 7 2/65 1. Sortez un appareil qui peut se rendre

Plus en détail

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle). 1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence

Plus en détail

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner

Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star Manipulation de données avec SAS Enterprise Guide et modélisation prédictive avec SAS Enterprise Miner Le cas Orion Star... 1 Manipulation de données avec SAS Enterprise Guide et modélisation

Plus en détail

Cahier des charges. Jonathan HAEHNEL. Université de Strasbourg IUT Robert Schuman

Cahier des charges. Jonathan HAEHNEL. Université de Strasbourg IUT Robert Schuman Université de Strasbourg IUT Robert Schuman Maître de stage : Nicolas Lachiche Tuteur universitaire : Marie-Paule Muller Cahier des charges Jonathan HAEHNEL Strasbourg, le 6 mai 2011 Table des matières

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Apprentissage Statistique. Bureau d étude :

Apprentissage Statistique. Bureau d étude : Apprentissage Statistique Bureau d étude : Score d appétence en GRC Hélène Milhem IUP SID M2 2011/2012 Institut de Mathématiques de Toulouse UMR CNRS C5219 Equipe de Statistique et Probabilités Université

Plus en détail

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains

Plus en détail

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data Historique de Big data Jusqu à l avènement d Internet et surtout du Web 2.0 il n y avait pas tant de données

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Projet Informatique. Philippe Collet. Licence 3 Informatique S5 2014-2015. http://deptinfo.unice.fr/twiki/bin/view/linfo/projetinfo201415

Projet Informatique. Philippe Collet. Licence 3 Informatique S5 2014-2015. http://deptinfo.unice.fr/twiki/bin/view/linfo/projetinfo201415 Projet Informatique Philippe Collet Licence 3 Informatique S5 2014-2015 http://deptinfo.unice.fr/twiki/bin/view/linfo/projetinfo201415 Réalisation d'un développement de taille conséquente? r Firefox? Ph.

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

PLAN DE COURS. TITRE DU COURS : Mise à niveau pour mathématique 536

PLAN DE COURS. TITRE DU COURS : Mise à niveau pour mathématique 536 100, rue Duquet, Sainte-Thérèse (Québec) J7E 3G6 Téléphone : (450) 430-3120 Télécopieur : (450) 971-7883 Internet : http://www.clg.qc.ca SESSION : H-2009 NO DE COURS : 201-009-50 PRÉALABLE(S) : Math 436

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

Certificat Big Data - Master MAthématiques

Certificat Big Data - Master MAthématiques 1 / 1 Certificat Big Data - Master MAthématiques Master 2 Auteur : Sylvain Lamprier UPMC Fouille de données et Medias Sociaux 2 / 1 Rich and big data: Millions d utilisateurs Millions de contenus Multimedia

Plus en détail

Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP)

Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP) Rapport du Jury du Concours 2010 Épreuve Pratique d Algorithmique et de Programmation (EPAP) Loris Marchal, Guillaume Melquion, Frédéric Tronel 21 juin 2011 Remarques générales à propos de l épreuve Organisation

Plus en détail

Développement itératif, évolutif et agile

Développement itératif, évolutif et agile Document Développement itératif, évolutif et agile Auteur Nicoleta SERGI Version 1.0 Date de sortie 23/11/2007 1. Processus Unifié Développement itératif, évolutif et agile Contrairement au cycle de vie

Plus en détail

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM Étude de cas technique QlikView : Big Data Juin 2012 qlikview.com Introduction La présente étude de cas technique QlikView se consacre au

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Enjeux mathématiques et Statistiques du Big Data

Enjeux mathématiques et Statistiques du Big Data Enjeux mathématiques et Statistiques du Big Data Mathilde Mougeot LPMA/Université Paris Diderot, mathilde.mougeot@univ-paris-diderot.fr Mathématique en Mouvements, Paris, IHP, 6 Juin 2015 M. Mougeot (Paris

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Les principaux domaines de l informatique

Les principaux domaines de l informatique Les principaux domaines de l informatique... abordés dans le cadre de ce cours: La Programmation Les Systèmes d Exploitation Les Systèmes d Information La Conception d Interfaces Le Calcul Scientifique

Plus en détail

Dossier de gestion de projet

Dossier de gestion de projet Dossier de gestion de projet Sommaire 1. Diagramme de Gantt... 2 a. Diagramme... 2 b. Tâches... 3 2. Description textuelle... 3 1. Dossiers... 3 2. Conception... 4 3. Répartition du travail... 5 4. Difficultés

Plus en détail

Marches, permutations et arbres binaires aléatoires

Marches, permutations et arbres binaires aléatoires Marches, permutations et arbres binaires aléatoires Épreuve pratique d algorithmique et de programmation Concours commun des Écoles Normales Supérieures Durée de l épreuve: 4 heures Cœfficient: 4 Juillet

Plus en détail

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude

Plus en détail

Manage Yourself. Rapport de planification. Projet de 4ème année informatique. Equipe :

Manage Yourself. Rapport de planification. Projet de 4ème année informatique. Equipe : Manage Yourself Rapport de planification Projet de 4ème année informatique Equipe : Etienne Alibert, Florian Barbedette, Pierre Chesneau, Mathias Deshayes, Sevan Hartunians, Mathieu Poignet. Encadrant

Plus en détail

Arbres binaires de recherche (ABR) Binary Search Trees (BST)

Arbres binaires de recherche (ABR) Binary Search Trees (BST) LSVIII-BIM Algorithmie, 2015 Arbres binaires de recherche (ABR) Binary Search Trees (BST) I. Arbres binaires 1. Structure 2. Parcours II. Arbres binaires de recherche 1. Définition 2. Opérations sur les

Plus en détail

Catalogue des PFE. Comment postuler

Catalogue des PFE. Comment postuler Catalogue des PFE 2012 2013 IP-TECH propose plusieurs sujets pour des stages de PFE. Ce fascicule est destiné aux étudiants et aux professeurs de l enseignement supérieur. Il commence par un aperçu rapide

Plus en détail

MODALITES DE SUIVI DU PROJET ANNUEL DU MASTER 2 SOLUTIONS INFORMATIQUES LIBRES

MODALITES DE SUIVI DU PROJET ANNUEL DU MASTER 2 SOLUTIONS INFORMATIQUES LIBRES MODALITES DE SUIVI DU PROJET ANNUEL DU MASTER 2 SOLUTIONS INFORMATIQUES LIBRES Département Informatique UFR Sciences 2 Boulevard Lavoisier 49045 Angers Cedex 01 Auteur : Jean-Michel Richer Email : jean-michel.richer@univ-angers.fr

Plus en détail

TD n o 8 - Domain Name System (DNS)

TD n o 8 - Domain Name System (DNS) IUT Montpellier - Architecture (DU) V. Poupet TD n o 8 - Domain Name System (DNS) Dans ce TD nous allons nous intéresser au fonctionnement du Domain Name System (DNS), puis pour illustrer son fonctionnement,

Plus en détail

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca

Une brève introduction aux Données Massives - Challenges et perspectives. Romain Picot-Clémente Cécile Bothorel Philippe Lenca Une brève introduction aux Données Massives - Challenges et perspectives Romain Picot-Clémente Cécile Bothorel Philippe Lenca Plan 1 Big Data 2 4Vs 3 Hadoop et son écosystème 4 Nouveaux challenges, nouvelles

Plus en détail

PCP TP01 Été 2015. Table des matières

PCP TP01 Été 2015. Table des matières PCP TP0 Été 205 Table des matières PCP Travail pratique 0... 2 Illustration exemple canonique... 2 Le travail demandé... 3 Objectif général et objectifs spécifiques... 5 Consignes générales... 6 Quoi remettre...

Plus en détail

OFFRE DE FORMATION L.M.D.

OFFRE DE FORMATION L.M.D. REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE OFFRE DE FORMATION L.M.D. MASTER PROFESSIONNEL ET ACADEMIQUE Systèmes d Information

Plus en détail

Créer le schéma relationnel d une base de données ACCESS

Créer le schéma relationnel d une base de données ACCESS Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox Des données à la connaissance client A la découverte de la plateforme de connaissance client knowlbox Livre blanc mai 2013 A l heure du Big Data, les entreprises s interrogent davantage sur leurs données.

Plus en détail

METHODOLOGIE : INGENIERIE DES SYSTEMES

METHODOLOGIE : INGENIERIE DES SYSTEMES METHODOLOGIE : INGENIERIE DES SYSTEMES L ingénierie de systèmes regroupe l ensemble des activités de pilotage des projets de construction effective d un système en s appuyant sur sa décomposition architecturale

Plus en détail

Algorithmique P2. HeapSort et files de priorité Ulg, 2009-2010 Renaud Dumont

Algorithmique P2. HeapSort et files de priorité Ulg, 2009-2010 Renaud Dumont Algorithmique P2 HeapSort et files de priorité Ulg, 2009-2010 Renaud Dumont Structure de tas - arbre Un tas est une structure de données qui Permet un nouveau type de tri (Tri par tas) Permet l'implémentation

Plus en détail

Cours Numération Mathématique de base 1 MAT-B111-3. Alphabétisation

Cours Numération Mathématique de base 1 MAT-B111-3. Alphabétisation Cours Numération Mathématique de base 1 MAT-B111-3 Alphabétisation Présentation du cours Numération «L esprit de l homme a trois clés qui ouvrent tout : le chiffre, la lettre et la note.» Victor Hugo

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Management de l Innovation

Management de l Innovation Management de l Innovation Mention du Master Sciences et Technologies de l Université Pierre et Marie Curie Directeur du Département de Formation : Patrick Brézillon Contact secrétariat : 01 44 39 08 69

Plus en détail

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement Cursus Outils & Développement Vous êtes Consultant, Chef de Projets, Directeur des Systèmes d Information, Directeur Administratif et Financier, Optez pour les «formations Produits» Nous vous proposons

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2 éducalgo Manuel d utilisation 26 juin 2011 Table des matières 1 Tâche à effectuer : écrire un algorithme 2 2 Comment écrire un algorithme? 3 2.1 Avec quoi écrit-on? Avec les boutons d écriture........

Plus en détail

OBJECTIFS DE CE GUIDE... 5 QU EST-CE QU UN DOCUMENT ACCESSIBLE... 5 LA STRUCTURE D UN DOCUMENT... 6 LES TITRES ET LES SOUS-TITRES...

OBJECTIFS DE CE GUIDE... 5 QU EST-CE QU UN DOCUMENT ACCESSIBLE... 5 LA STRUCTURE D UN DOCUMENT... 6 LES TITRES ET LES SOUS-TITRES... Diffusion de l information dans Internet Guide de création de documents Word accessibles 5 novembre 2009 OBJECTIFS DE CE GUIDE... 5 QU EST-CE QU UN DOCUMENT ACCESSIBLE... 5 LA STRUCTURE D UN DOCUMENT...

Plus en détail

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

Les arbres de décision

Les arbres de décision Les arbres de décision 25 Septembre 2007 Datamining 1 2007-2008 Plan 1 Le partitionnement récursif 2 C4.5 3 CART 4 Evaluation de performances 5 Bilan Datamining 2 2007-2008 Les données du Titanic Le partitionnement

Plus en détail