Fast and furious decision tree induction

Dimension: px
Commencer à balayer dès la page:

Download "Fast and furious decision tree induction"

Transcription

1 Institut National des Sciences Appliquées de Rennes Rapport de pré-étude Encadrants : Nikolaos Parlavantzas - Christian Raymond Fast and furious decision tree induction Andra Blaj Nicolas Desfeux Emeline Escolivet Simon Mandement Renaud Philippe Gareth Thiveux Rennes, le 6 octobre 2010

2 Table des matières Introduction 3 1 Contexte Un projet à l initiative de chercheurs de l IRISA en réponse à un besoin Les technologies L apprentissage L apprentissage automatique L apprentissage automatique supervisé Les arbres de décisions Avantages des arbres de décision Construction d un arbre de décision Inconvénients Hadoop Architecture : HDFS Lien avec MapReduce Map Reduce Parallélisme Opération Map Opération Reduce Spécification Générale Description générale du fonctionnement Les arbres de décisions dans l application Le fichier de résultats Planification initiale 19 Conclusion 20 2

3 Introduction De nos jours, prendre des décisions est la panache de tout homme. Pourtant, il est également de demander possible à une application informatique de faire des choix. Fast and Furious tree induction est un projet qui met en œuvre cette situation. Il s agit d implémenter une application capable de prendre des décisions, à partir d un ensemble d exemples. D autre part, ce sujet traite également de la parallélisation de systèmes et de processus, méthode aujourd hui indispensable à connaître et maîtriser lorsque l on souhaite devenir ingénieur informatique. Ce rapport de pré étude va vous présenter les différentes recherches que nous avons pu faire autour de notre projet. Vous y trouverez également le contexte de notre projet, pourquoi il existe, et quelles peuvent être ces applications. Il contient une première planification de notre travail. Enfin, ce premier rapport définit une première approche des objectifs de notre projet. Pour ce projet nous sommes assisté de Christiant Raymond et de Nikolaus Parlavantzas, tout deux chercheurs à l IRISA 1 et enseignants à l INSA 2 de Rennes. 1. Institut de Recherche en Informatique et Système Automatisés 2. Institut National des Sciences Appliqués 3

4 1 Contexte 1.1 Un projet... Le projet Fast and furious tree induction tire son nom de l exploitation d arbres de décision, et ce, en tant que méthode d apprentissage automatique supervisé. Ces arbres dit de décision sont capables de produire, à partir d une base de données d exemples, des règles de décision sous formes de questions binaires, ayant donc pour seules réponses possibles, oui ou non. On aboutit ainsi sur un découpage de la population d exemples en deux parties, récursivement sur chaque nœud de l arbre. On sélectionne alors les règles comme étant les meilleures au vu de leur gain en entropie par rapport à l échantillon initial d exemples. A terme, cette méthode d apprentissage automatique supervisé doit pouvoir reproduire le travail, et plus précisément les décisions, d un expert. Par analogie avec un médecin par exemple, le travail consisterait ici à établir un diagnostic à partir d une base de données de symptômes. Dans notre cas, l analyse portera sur des documents textuels. On pourra alors envisager tirer des mots clefs, classifier les textes selon différents thèmes ou catégories et éventuellement produire à terme un résumé voire une traduction à l initiative de chercheurs de l IRISA... Ce sujet est actuellement lié aux activités de recherche de deux équipes de l IRISA, l institut de recherche en informatique et systèmes aléatoires, situé sur le campus de Beaulieu, dans la ville de Rennes (35). L IRISA n est autre qu une UMR, unité mixte de recherche,fondée en 1975 et aujourd hui associée à l INRIA et partenaire des établissements tels que le CNRS, l Université de Rennes 1, l INSA de Rennes ou encore l ENS Cachan (antenne de Bretagne). Les équipes concernées et à l initiative de ce projet sont donc Texmex, équipe de laquelle fait partie M. Christian Raymond, et qui travaille sur l exploitation des documents multimédias, et l équipe Myriads, qui compte parmi ses membres M. Nikolaos Parlavantzas, et qui s intéresse au développement et à l administration de systèmes distribués à large échelle en réponse à un besoin. Bien que les arbres des décisions aient pu être maintes et maintes fois l objet de recherches, ceux que l on peut actuellement recenser ont encore chacun leurs défauts. Nous pouvons entre autre citer l arbre Quilian C4.5, 4

5 dont les sources sont librement disponibles, mais qui ne sait malheureusement pas gérer des valeurs autres que continues. Il n est pas donc adapté au traitement de textes. D un autre côté, le LIA-SCT, qui lui peut prendre en charge des données de type texte, a un problème majeur qui réside au niveau de la gestion de la mémoire ; celle-ci n est pas optimisée, empêchant ainsi tout traitement de volumes de données trop importants. Le travail porté sur ce sujet concerne donc avant tout les soucis d optimisation des arbres qui prendraient en compte un très grand nombre d exemples de départ. En effet, en découlerait alors un nombre conséquent de questions à poser, ce qui rendrait l algorithme particulièrement gourmand en temps et en mémoire, d autant que l on supposerait que les données résident toutes en mémoire vive, rendant difficile voire impossible le traitement d ensembles de données trop volumineux. L intérêt majeur serait alors de pouvoir développer un outil, générique de préférence, permettant le traitement d arbres de décision supervisés par le biais de méthodes de parallélisation et de boosting, dans le but de minimiser les temps d exécution et permettre le traitement de gros volumes de données. Un second intérêt de ce projet réside dans la personnalisation de notre outil, afin de proposer un plus large panel de paramétrages et d options que les outils déjà existants et disponibles à base d arbres de décisions. 2 Les technologies 2.1 L apprentissage L apprentissage est le fait d acquérir des connaissances, des savoir-faire ou des techniques. Apprendre peut aussi se définir comme la capacité à reproduire quelque chose que l on nous a enseigné. Il existe bien sur de multiples façons d apprendre. De l apprentissage par l erreur, à l apprentissage par imitation (c est celui utilisé naturellement par l homme dès son plus jeune âge) en passant par l apprentissage par répétition (qui est l apanage des sportifs, qui vont répétée plusieurs fois le même geste jusque arrivé au geste parfait par exemple), toutes cette méthodes ont leurs qualités et leurs défaut.. Un des objectifs de notre projet est de mettre en œuvre un processus d apprentissage pour notre programme. Il devra être capable, de lui même, d apprendre des notions. Pour cela nous allons utiliser l apprentissage automatique, reconnu aujourd hui comme discipline scientifique. 5

6 2.1.1 L apprentissage automatique L apprentissage automatique est une discipline où un outils technologique est capable d apprendre par lui-même. Cela peut s apparenter à une sorte d intelligence artificielle. Il existe plusieurs types d apprentissage automatique, qui vont du supervisé au non supervisé, c est à dire nécessitant plus ou moins d interventions d un expert au préalable. Pour l apprentissage automatique, on fournit à l outil une série d exemple, caractérisé par des attributs. L analyse par l outil ayant subit un apprentissage automatique devra permettre la création de classes. Dans chaque classe, les données seront aussi proches les unes des autres que possible. Dans le cadre de l apprentissage automatique, on utilise également la notion d expert. Un expert est une entité capable de classer les données. L apprentissage automatique est lié à la notion d étiquetage. L idée est de classer des données en leur attribuant des étiquettes. Les exemples ayant des caractéristiques qui ce ressemble auront la même étiquette. C est à partir de la que l on peut distinguer différents types d apprentissage : lorsque les étiquettes existe déjà, on parlera d apprentissage automatique supervisé. Le programme doit être capable d étiqueter les nouveaux exemples sans intervention de l utilisateur. Dans le cas où il n y a pas d étiquette, l apprenant doit en plus être capable des les définir. On parle alors d apprentissage non supervisé. Le programme doit être capable de créer des étiquettes, et ensuite d étiqueter tout les nouveaux exemples que l on pourrait lui fournir, sans intervention d un expert. 1. observations d un phénomène 2. construction d un modèle de ce phénomène 3. prévisions et analyse du phénomène grâce au modèle le tout automatiquement. La difficulté de cette méthode est de juger son efficacité. Il existe plusieurs critère qui permettent de mesurer la qualité d un apprentissage automatique : La quantité de données à disposition. Plus on a d exemples à étudier, plus la qualité de l analyse sera fine. La précision que l on a sur chaque exemple : nombre d attributs, qualité des différents attributs (plus on a d attributs numériques plus l analyse est bonne), pertinence des attributs,... La quantité d information que l on a pour chaque donnée : est-ce que tout les exemples ont tout leurs attributs de renseigné? Le nombre d erreur de mesure. Parmi les données, combien ont des 6

7 valeurs incohérentes? Il faut pour ça un indicateur pour le rangement des données. Cette indicateur est l entropie, autrement appelée mesure du désordre. Sur un ensemble de données, le meilleur apprentissage sera celui qui permettra de réduire l entropie au mieux possible. On peut également utilisé cette définition de l apprentissage automatique, appliqué à l informatique : On dit qu un programme informatique apprend, à partir d une expérience E, par rapport à une classe de tâches T et une mesure de performance P, si sa performance sur des tâches de T, mesurée par P, s améliore avec l expérience E.. Cela signifie que l apprentissage en informatique est lié à l augmentation de sa performance. L apprentissage doit permettre à l outil d étiqueter de façon plus juste et ou plus rapide. Grâce à l expérience qu il emmagasine, ces caractéristiques doivent devenir meilleur. On parle dans ce cas de réduction de l entropie. Notre projet utilise l apprentissage automatique. Dans notre étude, les données d exemple (que l on pourrait aussi dire d expérience ou d apprentissage) qui nous seront fournit serons déjà étiqueter. Il s agira d apprentissage supervisé L apprentissage automatique supervisé Le cadre de notre projet nous amène à considérer plutôt l apprentissage automatique supervisé. L idée est de créer des règles (et donc un processus d apprentissage) grâce à une base de données d apprentissage, rempli avec différents exemples. Un outil utilisant ce type d apprentissage devra être capable, à partir de cette base, de créer les règles qui permettront d évaluer ou de classer de nouvelles données lui étant fournies. Pour utiliser cette méthode, il faut au préalable avoir, soi-même ou par le biais d un expert, étiqueté correctement des exemples. C est à partir de cette base d exemple que l apprenant pourra définir la fonction ou le processus permettant d affecter cette étiquette à ces exemples. Il va créer la fonction à partir des exemples qui lui auront été fourni, et pourra ensuite se servir de cette fonction pour analyser de nouvelles données (qui pourront être à leur tour intégré à la base, pour affiner la fonction d étiquetage). L apprentissage automatique supervisé peut également être défini de manière plus mathématique : Construire un modèle pour prédire y à partir de x, en s appuyant sur un ensemble d apprentissage constitué d exemples d associations (x,y). On peut voir plusieurs buts pour un apprentissage automatique supervisé : l exactitude : on cherche à obtenir le meilleur étiquetage possible. La rapidité : L outil doit construire rapidement le processus d étiquetage 7

8 ou alors doit étiqueter le plus rapidement possible. Garantir une qualité de prévision : assurer à l utilisateur que quelque soit les données, on peut assurer que l étiquetage sera bon (à un nombre fixé à l avance près). Il existe de nombreuses manière d implémenter cette méthode d apprentissage. Parmi ces méthodes, on retrouve les arbres de décision. C est cette méthode que nous allons implémenter dans le cadre de notre projet. 2.2 Les arbres de décisions Un arbre de décision est un outil d aide à la décision et à l exploration de données. Il permet de modéliser simplement, graphiquement et rapidement un phénomène mesuré plus ou moins complexe. Un arbre de décision permet de classer un objet à l aide de questions : chaque noeud de l arbre représente une question, chaque lien est une réponse à la question, et chaque feuille est une classe Avantages des arbres de décision Facile à comprendre et à utiliser ; Nombre de tests limité par le nombre d attributs (de questions) ; Clasification et construction efficace (mais technique) à l aide d apprentissage par optimisation (pour obtenir un arbre petit et correct ) ; Interprétabilité ; Capacité de sélectionner automatiquement les variables discriminantes dans un fichier de données contenant un très grand nombre de variables potentiellement intéressantes. En ce sens, un arbre de décision constitue une technique exploratoire privilégiée pour appréhender de gros fichiers de données. Lisibilité du modèle de prédiction, l arbre de décision, fourni Construction d un arbre de décision La popularité de la méthode repose en grande partie sur sa simplicité. Il s agit de trouver un partitionnement des individus que l on représente sous la forme d un arbre de décision. L objectif est de produire des groupes d individus les plus homogènes possibles du point de vue de la variable à prédire. Il est d usage de représenter la distribution empirique de l attribut à prédire sur chaque sommet (noeud) de l arbre. 8

9 Pour mieux appréhender la démarche, nous allons reprendre et dérouler un exemple qui est présenté dans l ouvrage de Quinlan (1993). Le fichier est composé de 14 observations (voir tableau ci-dessous), il s agit d expliquer le comportement des individus par rapport à un jeu jouer, ne pas jouer à partir des prévisions météorologiques (Ensoleillement, Température, Humidité, Vent : variables prédictives). L arbre de décision correspondant est décrit ci-dessous. Le premier sommet est appelé la racine de l arbre. Il est situé sur le premier niveau. Nous y observons la distribution de fréquence de la variable à prédire Jouer. Nous constatons qu il y a bien 14 observations, dont 9 oui (ils vont jouer) et 5 non. La variable ensoleillement est la première variable utilisée ; on parle de variable de segmentation. Comme elle est composée de 3 modalités soleil, couvert, pluie, elle produit donc 3 sommets enfants. La première arête (la première branche), à gauche, sur le deuxième niveau, est produite à partir de la modalité soleil de la variable ensoleillement. Le sommet qui en résulte couvre 5 observations correspondant aux individus 1, 2, 3, 4, 5, la distribution de fréquence nous indique qu il y a 2 jouer = oui et 3 jouer = non. La seconde arête, au centre, correspond à la modalité couvert de la variable de segmentation ensoleillement ; le sommet correspondant couvre 4 observations, tos ont décidé de jouer (dans le tableau ce sont les individus n 6 à 9). Ce sommet n ayant plus de sommets enfants, ce qui est normal puisqu il est pur du point de vue de la variable à prédire, il n y a pas de contre-exemples. On dit qu il s agit d une 9

10 feuille de l arbre. Reprenons le nœud le plus à gauche sur le deuxième niveau de l arbre. Ce sommet, qui n est pas pur, est segmenté à l aide de la variable humidité. Comme le descripteur est continu, il a été nécessaire de définir un seuil dit de discrétisation qui permet de produire le meilleur partitionnement. Dans notre exemple, le seuil qui a été choisi est 77.5%. Il a permis de produire deux feuilles complètement pures. Ce processus est réitéré sur chaque sommet de l arbre jusqu à l obtention de feuilles pures. Il s agit bien d un arbre de partitionnement : un individu ne peut être situé dans deux feuilles différentes de l arbre. Le modèle de prédiction peut être lu très facilement. On peut traduire un arbre en une base de règles sans altération de l information. Le chemin menant d un sommet vers la racine de l arbre peut être traduit en une partie prémisse d une règle de prédiction de type attributvaleur. Pour classer un nouvel individu, il suffit de l injecter dans l arbre, et de lui associer la conclusion attachée à la feuille dans laquelle il aboutit. Pour construire un arbre de décision, nous devons répondre aux 4 questions suivantes : Comment choisir, parmi l ensemble des variables disponibles, la variable de segmentation d un sommet? Lorsque la variable est continue, c est le cas de la variable Humidité, comment déterminer le seuil de coupure lors de la segmentation (la valeur 77.5 dans l arbre de décision ci-dessus)? Comment déterminer la bonne taille de l arbre? Est-il souhaitable de produire absolument des feuilles pures selon la variable à prédire, même si le groupe correspondant correspond à une fraction très faible des observations? Enfin, si la prise de décision sur une feuille semble naturelle lorsqu elle 10

11 est pure, quelle est la règle de décision optimale lorsque qu une feuille contient des représentants des différentes modalités de la variable à prédire? Il existe plusieurs critères de choix de variables correspondant à différents types d arbres : CART (Classification And Regression Tree : Indice de Gini) CHAID (Chi square Automatic Interaction Detection) C5.0 (Entropie de Shannon) Déroulement de la construction : Recherche de la variable et du seuil qui sépare le mieux Application de la séparation à la population Obtention de nouveaux nœuds Arrêt de l approfondissement de l arbre lorsque les conditions d arrêt sont rencontrées Eventuel élagage de l arbre Conditions d arrêt existantes : Profondeur de l arbre atteint une limite fixée (=nombre de variables utilisées) ; Nombre de feuilles atteint un maximum fixé ; L effectif de chaque nœud est inférieur à un seuil fixé ; La qualité de l arbre est suffisante ; La qualité de l arbre n augmente plus de façon sensible Inconvénients Temps de calculs importants(recherche, des critères de division, élagage) ; Nécessité d un grand nombre d individus (pour avoir individus minimum par nœud pour que les règles aient une valeur) ; Effet papillon : On change une variable dans l arbre, tout l arbre change ; Échantillon d apprentissage de grande taille ; Sensible à de petites variations dans les données ; Non incrémental : on doit recommencer la construction de l arbre si on veut intégrer de nouvelles données. 2.3 Hadoop Le projet Hadoop est un projet libre développé en Java qui utilise une implémentation de MapReduce. C est un framework libre qui permet aux applications de travailler avec des milliers de nœuds et des pétaoctets de 11

12 données. Hadoop sert principalement au traitement de gros volumes de donnèes Architecture : HDFS Le HDFS est le système de fichier distribué d Hadoop, composé d un serveur maître, le NameNode et de serveurs détenant les données proprement dites, les Datanodes. Quand une application cliente a besoin d accéder a une information, elle interroge le NameNode qui lui indique les Datanodes sur lesquels se trouve ces informations. Une fois en possession de cette liste, l application cliente va directement interroger le(s) Datanodes. Dans une architecture HDFS, un fichier est découpé en un ou plusieurs blocs et réparti sur les datanodes du cluster. De plus, chaque bloc est répliqué suivant le facteur de réplication que vous avez spécifié dans votre configuration. L un des avantages principaux de MapReduce est qu il répartit la charge sur un grand nombre de serveurs. Le simple fait d ajouter des machines à celles déjà en place suffit à augmenter la capacité de calcul (de façon plugand-play ). Or, lorsque le nombre de données est très important, l utilisation de plusieurs machines sera nécessaire. C est pourquoi MapReduce nous permettra de traiter de manière parallèle plusieurs branches des arbres de décision. Que ce soit pendant la construction ou pendant le parcours des 12

13 arbres Lien avec MapReduce Ensuite, par dessus HDFS, nous avons la partie moteur MAP/REDUCE avec un JobTracker, genre de centralisateur de tâches, et des TaskTracker qui se chargent d executer les travaux demandés. Le Client soumet la requète de travail au JobTracker qui va les transmettre au(x) TaskTracker concerné(s) en s efforcant d être au plus proche de la donnée. Concernant MapReduce, son rôle consiste à diviser le traitement en 2 étapes :.la première phase (Map) est une étape d ingestion et de transformation des données sous la forme de paires clé/valeur.la seconde phase (Reduce) est une étape de fusion des enregistrements par clé pour former le résultat final. 2.4 Map Reduce Comme expliqué plus tôt dans ce dossier, nous allons avoir à faire, lors de ce projet, à de très grandes bases de données. Il est donc important de pouvoir traiter les données et faire cela de manière parallèle. En effet, les branches de nos arbres de décision doivent être traitées de manière parallèle. Pour cela, nous allons être amenés à utiliser le framework développé par 13

14 Google : MapReduce. D ailleurs, le projet Hadoop développé en Java utilise une implémentation de MapReduce Parallélisme L un des avantages principaux de MapReduce est qu il répartit la charge sur un grand nombre de serveurs. Le simple fait d ajouter des machines à celles déjà en place suffit à augmenter la capacité de calcul (de façon plugand-play ). Or, lorsque le nombre de données est très important, l utilisation de plusieurs machines sera nécessaire. C est pourquoi MapReduce nous permettra de traiter de manière parallèle plusieurs branches des arbres de décision. Que ce soit pendant la construction ou pendant le parcours des arbres Opération Map La fonction map itère sur une très grande liste d éléments et applique une opération sur chaque élément. La liste produite en conséquence est stockée séparément de la liste originale, sur le disque local. Chaque élément est calculé indépendamment et le fichier en entrée n est pas modifié, donc il est très facile de réaliser plusieurs opérations map en parallèle. Ce point sera particulièrement intéressant pour notre projet. En effet, avec le matériel approprié cela permet d effectuer des calculs sur des quantités très importantes de données, et ce en un temps relativement court. Pour expliquer son fonctionnement d un point de vue du code, la fonction Map prend en entrée un fichier de données et calcule une liste de couples (clef,valeur), réutilisables par la fonction Reduce par la suite Opération Reduce L opération Reduce regroupe les couples, produits par la fonction Map, ayant la même clé et créé des listes de valeurs ayant une clé commune. Il se contente donc de faire le produit cartésien de ces valeurs associées à une même clé. Pour résumer le fonctionnement de MapReduce, on peut se référer au schéma suivant, édité par deux professeurs de l ENS. 3 Spécification Générale Pour répondre aux besoins définis précédemment, nous développerons une application nommée Fast and Furious decision tree induction. Cette 14

15 Figure 1 Shéma édité par Malo Jaffré et Pablo Rauzy (ENS) application sera développée non seulement en langage Java sous l environnement Eclipse mais aussi en association avec la technologie MapReduce de Hadoop décrites ci-dessus. Afin d être le plus flexible possible, cet outil devra rester généraliste, c est-à-dire qu on veillera à ce qu il puisse être utilisé avec tout type de données. Par la suite, afin de décrire au mieux possible le fonctionnement de l application, nous imaginerons que nous utiliserons l outil sur une base de données médicale. Cette base de données contiendra des informations sur différents patients avec divers symptômes et dont le diagnostique a déjà été établi. Ainsi l objectif de Fast and Furious decision tree induction sera de proposer au médecin une fourchette de diagnostiques les plus probables pour le patient, en fonction des symptômes constatés par le médecin. 3.1 Description générale du fonctionnement L application Fast and Furious decision tree induction recevra en entrée deux fichiers qui porteront le même nom mais dont le format sera différent. Il y aura un fichier.data qui contiendra les données et l annotation associée et un fichier.names qui détiendra les annotations et une description de chaque colonne et de son type. 15

16 Le fichier.data Dans le fichier.data, chaque exemple sera contenu sur ligne. Pour chaque descripteur correspondra une colonne, un élément. Ainsi, on trouvera dans ce fichier, une ligne par exemple dont chacune de ses caractéristiques sera séparée par une virgule et on y verra également un point en fin de ligne pour signaler la fin de l exemple. Il est également à noter que la première ligne d un fichier.data liste l ensemble des noms des colonnes. Chaque nom est également séparé par des virgules et la liste finie par un point. L ordre de cette première ligne détermine l ordre des caractéristiques sur les lignes suivantes (lignes des exemples). Et enfin dans chaque fichier de ce type, la dernière colonne correspondra toujours à l annotation associée aux caractéristiques. Dans le cas de la base de données médicale, un patient représente l exemple, les symptômes sont les caractéristiques et le diagnostique (maladie) est l annotation. Nous obtiendrons donc en entrée de l application un fichier.data du type suivant : Age, Fumeur, IMC, Maladie. 52, Oui, 25, Cancer 45, Non, 24, Diabète Le fichier.names Dans le fichier.names, la première ligne correspond à la liste de l ensemble des annotations que l on peut trouver dans la base de données. Comme dans le premier fichier, chaque annotation est séparée par une virgule et la liste se finit par un point. Puis nous pourrons trouver ensuite, dans le fichier, une description des colonnes (type, caractéristique). Ainsi, pour chaque colonne, il y aura une ligne de ce type : nom colonne : type colonne options facultatives Dans les options facultatives, nous pourrons préciser : ignore : pour ignorer les informations contenues dans la colonne c est à dire qu on ne posera aucune question en rapport à cette donnée ; cutoff : n : pour ne tenir compte que des informations présentes au moins n fois dans la base de données ; Il est à savoir qu une colonne ne pourra être que de trois types, pour notre application : discrète : ce qui signifie que les données présentes dans cette colonne devront forcément faire partie d une liste prédéfinie (ex : oui, non, je ne sais pas) ; continue : c est à dire que les données de la colonne ne constituent pas une liste exhaustive mais se limite à peu de mots ou un nombre ; texte : ce qui veut dire que les informations présentes dans ces colonnes 16

17 sont des phrases, des expressions 3.2 Les arbres de décisions dans l application Comme expliquer précédemment, pour utiliser la méthode des arbres de décisions, l application doit poser différentes questions afin de réduire au maximum le nombre de possibilités de résolution du problème. Ainsi, il ne restera qu une fourchette de possibilités avec une probabilité suffisante pour être la solution. Pour chaque question posée, deux paramètres doivent être pris en compte : la taille de N : nombre de mots dans l expression à rechercher (ex : parti socialiste - 2) le type de recherche : Ngram : recherche dans un premier temps, tous les mots un par un de l expression, puis tous les couples de mots consécutifs et ainsi de suite jusqu à constituer des ensembles de N (défini précédemment) mots consécutifs ; Fgram : (Full) recherche de l expression en entière ; Sgram : recherche Ngram + recherche des expressions de trois à N mots consécutifs où il y a un mot qui est remplacé par un blanc (un mot quelconque). Quelques exemples de cas d arrêts de l application, c est à dire de la méthode des arbres de décisions sont : toutes les questions ont été posées ; plus de gain d entropie en posant des questions ; si la feuille de résultats contient moins de n lignes (n à définir). 3.3 Le fichier de résultats En fin de traitement, l application renverra en sortie un fichier xml créant ainsi un fichier lisible décrivant les résultats et les probabilités d obtenir ce résultat. Il ressemblera globalement à l exemple suivant : < q u e s t i o n =...> <l e f t T r e e> <r i g h t T r e e> <q u e s t i o n =...> <r e s u l t s =...> <r e s u l t 1=...> 17

18 <r e s u l t 2=...> Pour finir, nous proposerons notre application pour le traitement automatique des langues. Plus précisément, Fast and Furious decision tree induction aura pour objectif de déterminer le plus rapidement le genre du texte en paramètre (policier, politique, etc). 18

19 4 Planification initiale Figure 2 Diagramme de Gantt édité par Renaud PHILIPPE 19

20 Conclusion Ce projet s inscrit dans le cadre d un ensemble de projet déjà en route à l IRISA. Il va nous permettre de découvrir des aspects et des outils de l informatique que nous connaissions jusqu alors peu (parallélisation, intelligence artificielle, Hadoop,...). La rédaction de ce rapport, ainsi que les différentes réunions avec nos encadreurs, nous a permis de définir clairement ce a quoi allait ressembler notre projet, et les différentes fonctionnalités qu il devrait avoir. De plus, il existe de multiples applications pour l outil que nous allons développer. C est une motivation supplémentaire de savoir qu il pourra être utilisé par un grand nombre de personnes, et cela sans que l on n ai besoin de le modifier. La suite de notre projet va maintenant consister dans l étude de spécifications fonctionnelles de notre outil. Pour cela, il va nous falloir nous intéresser au fonctionnement externe de notre application, et réfléchir à une première ébauche de son architecture logicielle. Cela nous permettra également d écrire de façon définitive le cahier des charges de notre projet. 20

Fast and Furious Decision Tree Induction

Fast and Furious Decision Tree Induction Institut National des Sciences Appliquées de Rennes Dossier de planification initiale Encadreurs : Nikolaos Parlavantzas - Christian Raymond Fast and Furious Decision Tree Induction Andra Blaj Nicolas

Plus en détail

«Fast And Furious Decision Tree Induction»

«Fast And Furious Decision Tree Induction» «Fast And Furious Decision Tree Induction» Manuel Utilisateur 4 ème année Département Informatique INSA Rennes Sommaire I. INTRODUCTION... 3 II. INSTALLATION... 3 1. Hadoop... 3 2. Fast And Furious Decision

Plus en détail

Fast and Furious Decision Tree Induction

Fast and Furious Decision Tree Induction Institut National des Sciences Appliquées de Rennes Rapport de spécifications fonctionnelles Encadreurs : Nikolaos Parlavantzas - Christian Raymond Fast and Furious Decision Tree Induction Andra Blaj Nicolas

Plus en détail

V ERSION EXPERIMENTALE

V ERSION EXPERIMENTALE V ERSION EXPERIMENTALE Cette version de Sipina v 3.0 n est pas, et ne sera jamais, définitive, elle sert d outil de recherche, elle a plus une vocation d outil d expérimentation que de logiciel dédié au

Plus en détail

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Développement itératif, évolutif et agile

Développement itératif, évolutif et agile Document Développement itératif, évolutif et agile Auteur Nicoleta SERGI Version 1.0 Date de sortie 23/11/2007 1. Processus Unifié Développement itératif, évolutif et agile Contrairement au cycle de vie

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique

Plan du cours. Intelligence Artificielle et Manipulation Symbolique de l Information. Induction de règles (rappels) L induction logique Intelligence Artificielle et Manipulation Symbolique de l Information Cours 0 mercredi 8 avril 205 Plan du cours Raisonner par induction l induction Induction par arbres de décision Christophe Marsala

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances

Motivation : pourquoi exploration de données? Nous nous noyons dans les données, mais manquons cruellement de connaissances 1 Introduction Définition et motivations Tâches de data mining (fouille de données, exploration de données) Techniques et algorithmes Exemples et applications 1 Motivation : pourquoi exploration de données?

Plus en détail

Système Expert pour Smartphones

Système Expert pour Smartphones INSA Rennes Département INFORMATIQUE Système Expert pour Smartphones Rapport de Planification Olivier Corridor;Romain Boillon;Quentin Decré;Vincent Le Biannic;Germain Lemasson;Nicolas Renaud;Fanny Tollec

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution

Plus en détail

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages

Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages 1 Mehdi LOUIZI Plan Pourquoi Hadoop? Présentation et Architecture Démo Usages 2 Pourquoi Hadoop? Limites du Big Data Les entreprises n analysent que 12% des données qu elles possèdent (Enquête Forrester

Plus en détail

La Clé informatique. Formation Access XP Aide-mémoire

La Clé informatique. Formation Access XP Aide-mémoire La Clé informatique Formation Access XP Aide-mémoire Septembre 2003 Définitions de termes Base de données : Se compare à un énorme classeur ayant plusieurs tiroirs où chacun d eux contient des informations

Plus en détail

Projet : Plan Assurance Qualité

Projet : Plan Assurance Qualité Projet : Document : Plan Assurance Qualité 2UP_SPEC_DEV1 VERSION 1.00 Objet Ce document a pour objectif de définir la démarche d analyse et de conception objet ainsi les activités liées. Auteur Eric PAPET

Plus en détail

Cahier des charges. Jonathan HAEHNEL. Université de Strasbourg IUT Robert Schuman

Cahier des charges. Jonathan HAEHNEL. Université de Strasbourg IUT Robert Schuman Université de Strasbourg IUT Robert Schuman Maître de stage : Nicolas Lachiche Tuteur universitaire : Marie-Paule Muller Cahier des charges Jonathan HAEHNEL Strasbourg, le 6 mai 2011 Table des matières

Plus en détail

Projet Informatique. Philippe Collet. Licence 3 Informatique S5 2014-2015. http://deptinfo.unice.fr/twiki/bin/view/linfo/projetinfo201415

Projet Informatique. Philippe Collet. Licence 3 Informatique S5 2014-2015. http://deptinfo.unice.fr/twiki/bin/view/linfo/projetinfo201415 Projet Informatique Philippe Collet Licence 3 Informatique S5 2014-2015 http://deptinfo.unice.fr/twiki/bin/view/linfo/projetinfo201415 Réalisation d'un développement de taille conséquente? r Firefox? Ph.

Plus en détail

SAP Learning Hub, édition User Adoption Accès dans le cloud à tout moment à des formations pour utilisateurs finaux

SAP Learning Hub, édition User Adoption Accès dans le cloud à tout moment à des formations pour utilisateurs finaux Foire aux questions SAP Learning Hub, édition User Adoption SAP Learning Hub, édition User Adoption Accès dans le cloud à tout moment à des formations pour utilisateurs finaux SAP Learning Hub est une

Plus en détail

Reconnaissance des formes : Classement d ensembles d objets

Reconnaissance des formes : Classement d ensembles d objets Reconnaissance des formes : Classement d ensembles d objets Données Méthodes Extraction de connaissances Applications Expertise Apprentissage Bernard FERTIL Directeur de Recherche CNRS Équipe LXAO, UMR

Plus en détail

Cartographie de mots : application à la visualisation de noms de marque

Cartographie de mots : application à la visualisation de noms de marque Université Montpellier II UFR Fac des Sciences Master 1 Informatique Université Montpellier II UFR Fac des Sciences Master 1 Informatique Cartographie de mots : application à la visualisation de noms de

Plus en détail

Plateforme de capture et d analyse de sites Web AspirWeb

Plateforme de capture et d analyse de sites Web AspirWeb Projet Java ESIAL 2A 2009-2010 Plateforme de capture et d analyse de sites Web AspirWeb 1. Contexte Ce projet de deuxième année permet d approfondir par la pratique les méthodes et techniques acquises

Plus en détail

MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE

MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE [Prénom Nom] Rapport sur le stage effectué du [date] au [date] Dans la Société : [NOM DE LA SOCIETE : Logo de la société] à [Ville] [Intitulé du

Plus en détail

Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium. Comparatif Choco/Drools dans le cadre du projet JASMINe

Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium. Comparatif Choco/Drools dans le cadre du projet JASMINe Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium dans le cadre du projet JASMINe Avril 2008 Table des matières 1 Introduction 3 1.1 Rappel sur JASMINe.......................................

Plus en détail

Manage Yourself. Rapport de planification. Projet de 4ème année informatique. Equipe :

Manage Yourself. Rapport de planification. Projet de 4ème année informatique. Equipe : Manage Yourself Rapport de planification Projet de 4ème année informatique Equipe : Etienne Alibert, Florian Barbedette, Pierre Chesneau, Mathias Deshayes, Sevan Hartunians, Mathieu Poignet. Encadrant

Plus en détail

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3

I Arbres binaires. Lycée Faidherbe 2014-2015. 1 Rappels 2 1.1 Définition... 2 1.2 Dénombrements... 2 1.3 Parcours... 3 I Arbres binaires 2014-2015 Table des matières 1 Rappels 2 1.1 Définition................................................ 2 1.2 Dénombrements............................................ 2 1.3 Parcours.................................................

Plus en détail

ENRICHIR LES DONNEES DE DETAILS ACCEDEES A TRAVERS UN RAPPORT OLAP

ENRICHIR LES DONNEES DE DETAILS ACCEDEES A TRAVERS UN RAPPORT OLAP ENRICHIR LES DONNEES DE DETAILS ACCEDEES A TRAVERS UN RAPPORT OLAP SAS Web Report Studio offre depuis de nombreuses versions la possibilité de visualiser les observations spécifiques à partir des données

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Partie I : Automates et langages

Partie I : Automates et langages 2 Les calculatrices sont interdites. N.B. : Le candidat attachera la plus grande importance à la clarté, à la précision et à la concision de la rédaction. Si un candidat est amené à repérer ce qui peut

Plus en détail

CAHIER DES SPECIFICATIONS FONCTIONNELLES

CAHIER DES SPECIFICATIONS FONCTIONNELLES 2010/2011 INSTITUT SUP GALILEE CAHIER DES SPECIFICATIONS FONCTIONNELLES IHM XML O.N.E.R.A. Institut Sup Galilée O.N.E.R.A. Page 2 Sommaire I. Description du sujet... 4 II. Outils utilisés... 4 III. Description

Plus en détail

CRÉER UN COURS EN LIGNE

CRÉER UN COURS EN LIGNE Anne DELABY CRÉER UN COURS EN LIGNE Deuxième édition, 2006, 2008 ISBN : 978-2-212-54153-3 2 Que recouvre le concept d interactivité? Dans une perspective de cours en ligne, une activité interactive est

Plus en détail

Nouvelles de l AS fouille d images. Émergence de caractéristiques sémantiques

Nouvelles de l AS fouille d images. Émergence de caractéristiques sémantiques Nouvelles de l AS fouille d images Émergence de caractéristiques sémantiques Patrick GROS Projet TEXMEX IRISA - UMR 6074, CNRS, université de Rennes 1, INSA Rennes, INRIA L AS fouille d images Qu est-ce

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

PG208, Projet n 2 : Dessin vectoriel

PG208, Projet n 2 : Dessin vectoriel PG208, Projet n 2 : Dessin vectoriel Bertrand LE GAL, Serge BOUTER et Clément VUCHENER Filière électronique 2 eme année - Année universitaire 2011-2012 1 Introduction 1.1 Objectif du projet L objectif

Plus en détail

PG208, Projet n 3 : Serveur HTTP évolué

PG208, Projet n 3 : Serveur HTTP évolué PG208, Projet n 3 : Serveur HTTP évolué Bertrand LE GAL, Serge BOUTER et Clément VUCHENER Filière électronique 2 eme année - Année universitaire 2011-2012 1 Introduction 1.1 Objectif du projet L objectif

Plus en détail

Supplément théorique Inférence dans les réseaux bayésiens. Rappel théorique. Les processus aléatoires. Les réseaux bayésiens

Supplément théorique Inférence dans les réseaux bayésiens. Rappel théorique. Les processus aléatoires. Les réseaux bayésiens DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2011 Supplément théorique Inférence dans les réseaux bayésiens Rappel théorique Les processus aléatoires La plupart des processus

Plus en détail

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2 éducalgo Manuel d utilisation 26 juin 2011 Table des matières 1 Tâche à effectuer : écrire un algorithme 2 2 Comment écrire un algorithme? 3 2.1 Avec quoi écrit-on? Avec les boutons d écriture........

Plus en détail

LES OUTILS DE LA GESTION DE PROJET

LES OUTILS DE LA GESTION DE PROJET LES OUTILS DE LA GESTION DE PROJET PROJET : «ensemble des actions à entreprendre afin de répondre à un besoin défini dans des délais fixés». Délimité dans le temps avec un début et une fin, mobilisant

Plus en détail

DECHARGEMENT ET CHARGEMENT MASSIF DES DONNEES

DECHARGEMENT ET CHARGEMENT MASSIF DES DONNEES DECHARGEMENT ET CHARGEMENT MASSIF DES DONNEES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas être

Plus en détail

Module ITC34 - Algorithmique et Programmation

Module ITC34 - Algorithmique et Programmation Module ITC34 - Algorithmique et Programmation TDs Algorithmique (trois séances) Benoît Darties - benoit.darties@u-bourgogne.fr Univ. Bourgogne Franche-Comté Année universitaire 2015-2016 Avant-propos :

Plus en détail

Outils Statistiques du Data Mining

Outils Statistiques du Data Mining Outils Statistiques du Data Mining Pr Roch Giorgi roch.giorgi@univ-amu.fr SESSTIM, Faculté de Médecine, Aix-Marseille Université, Marseille, France http://sesstim-orspaca.org http://optim-sesstim.univ-amu.fr

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Évaluation et implémentation des langages

Évaluation et implémentation des langages Évaluation et implémentation des langages Les langages de programmation et le processus de programmation Critères de conception et d évaluation des langages de programmation Les fondations de l implémentation

Plus en détail

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Technologie et biologie (TB) Discipline : Informatique Première et seconde années Programme d informatique

Plus en détail

Concevoir des applications Web avec UML

Concevoir des applications Web avec UML Concevoir des applications Web avec UML Jim Conallen Éditions Eyrolles ISBN : 2-212-09172-9 2000 1 Introduction Objectifs du livre Le sujet de ce livre est le développement des applications web. Ce n est

Plus en détail

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce

Heuristique et métaheuristique. 8. Optimisation combinatoire et métaheuristiques. Optimisation combinatoire. Problème du voyageur de commerce Heuristique et métaheuristique IFT1575 Modèles de recherche opérationnelle (RO) 8. Optimisation combinatoire et métaheuristiques Un algorithme heuristique permet d identifier au moins une solution réalisable

Plus en détail

Introduction à Windows Workflow Foundation

Introduction à Windows Workflow Foundation Introduction à Windows Workflow Foundation Version 1.1 Auteur : Mathieu HOLLEBECQ Co-auteur : James RAVAILLE http://blogs.dotnet-france.com/jamesr 2 Introduction à Windows Workflow Foundation [07/01/2009]

Plus en détail

Thibault Denizet. Introduction à SSIS

Thibault Denizet. Introduction à SSIS Thibault Denizet Introduction à SSIS 2 SSIS - Introduction Sommaire 1 Introduction à SQL Server 2008 Integration services... 3 2 Rappel sur la Business Intelligence... 4 2.1 ETL (Extract, Transform, Load)...

Plus en détail

CELCAT est un leader mondial de la gestion d emploi du temps et du suivi de l assiduité des étudiants dans l enseignement supérieur.

CELCAT est un leader mondial de la gestion d emploi du temps et du suivi de l assiduité des étudiants dans l enseignement supérieur. CELCAT Timetabler Le gestionnaire interactif d emploi du temps CELCAT est un leader mondial de la gestion d emploi du temps et du suivi de l assiduité des étudiants dans l enseignement supérieur. Notre

Plus en détail

Vous pouvez obtenir une extension nécessaire via des achats In-App dans Paramètres (bouton en haut à gauche) > Extensions.

Vous pouvez obtenir une extension nécessaire via des achats In-App dans Paramètres (bouton en haut à gauche) > Extensions. Important: La description correspond à la version de ALON Dictaphone qui comprend toutes les extensions construites. Les extensions construites sont: Partager des Notes Audio Pack Audio Avancé Sélection

Plus en détail

KWISATZ MODULE PRESTASHOP

KWISATZ MODULE PRESTASHOP Table des matières -1) KWISATZ - :...2-1.1) Introduction :...2-1.2) Description :...3-1.2.1) Schéma :...3-1.3) Mise en place :...4-1.3.1) PRESTASHOP :...4-1.3.1.1) Les Web Services :...4-1.3.2) KWISATZ

Plus en détail

ETNA Projet de Fin d Étude 2005-2007 RimElse Cahier des charges. c Copyleft 2006, ELSE Team

ETNA Projet de Fin d Étude 2005-2007 RimElse Cahier des charges. c Copyleft 2006, ELSE Team ETNA Projet de Fin d Étude 2005-2007 RimElse Cahier des charges c Copyleft 2006, ELSE Team 18 avril 2006 Table des matières 1 Introduction 2 2 Présentation du projet 3 2.1 Une distribution Évolulable..................

Plus en détail

Étude de cas. UML n est pas une méthode

Étude de cas. UML n est pas une méthode Étude de cas UML n est pas une méthode UML n est pas une méthode, mais un simple langage ; l OMG ne préconise pas de processus ; il n existe pas une démarche unique qui fixe l ordre dans lequel les modèles

Plus en détail

L EXPLORATEUR DE DONNEES «DATA EXPLORER»

L EXPLORATEUR DE DONNEES «DATA EXPLORER» L EXPLORATEUR DE DONNEES «DATA EXPLORER» Avec l arrivée de l explorateur de données dans SAS Enterprise Guide, vous allez pouvoir explorer le contenu de vos sources de données sans les ajouter à votre

Plus en détail

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L

Arbres de décision. Intelligence Artificielle et Systèmes Formels Master 1 I2L Arbres de décision Intelligence Artificielle et Systèmes Formels Master 1 I2L Sébastien Verel verel@lisic.univ-littoral.fr http://www-lisic.univ-littoral.fr/ verel Université du Littoral Côte d Opale Laboratoire

Plus en détail

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation

TP 1 M1 Informatique Apprentissage Automatique. Premières classifications : apprentissage et évaluation Premières classifications : apprentissage et évaluation L objectif de ce TP est double : prise en main de la bibliothèque scikit-learn de Python, dédiée à l apprentissage automatique, sensibilisation à

Plus en détail

Gestion multi-stocks

Gestion multi-stocks Gestion multi-stocks Dans l architecture initiale du logiciel IDH-STOCK, 11 champs obligatoires sont constitués. Ces champs ne peuvent être supprimés. Ils constituent l ossature de base de la base de données

Plus en détail

Application de gestion de tâche

Application de gestion de tâche Université de Montpellier 2 Rapport TER L3 Application de gestion de tâche Tuteur : M. Seriai Participant : Cyril BARCELO, Mohand MAMMA, Feng LIU 1 er Fevrier 2015 26 Avril 2015 Table des matières 1 Introduction

Plus en détail

Introduction au Makefile

Introduction au Makefile Introduction au Makefile Nicolas Kielbasiewicz 3 mars 2009 Le développement d un programme et plus généralement d un logiciel demande au(x) programmeur(s) de gérer plusieurs fichiers, voire plusieurs langages.

Plus en détail

Arbres de décisions et forêts aléatoires.

Arbres de décisions et forêts aléatoires. Arbres de décisions et forêts aléatoires. Pierre Gaillard 7 janvier 2014 1 Plan 1 Arbre de décision 2 Les méthodes d ensembles et les forêts aléatoires 2 Introduction 3 Introduction Jeu de données (ex

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

ACTUALITÉS LANDPARK. Nouvelle version. Landpark Helpdesk. Landpark Helpdesk. Les avantages de la nouvelle version 3.9.2.

ACTUALITÉS LANDPARK. Nouvelle version. Landpark Helpdesk. Landpark Helpdesk. Les avantages de la nouvelle version 3.9.2. ACTUALITÉS LANDPARK Solutions complètes d'inventaire, de gestion de parc et de helpdesk ITIL Avril 2015 Nouvelle version Landpark Helpdesk Landpark vous associe aux meilleurs logiciels de Gestion de Parc

Plus en détail

Poker. A rendre pour le 25 avril

Poker. A rendre pour le 25 avril Poker A rendre pour le 25 avril 0 Avant propos 0.1 Notation Les parties sans * sont obligatoires (ne rendez pas un projet qui ne contient pas toutes les fonctions sans *). Celles avec (*) sont moins faciles

Plus en détail

COMMENT DÉFINIR L ORIENTÉ OBJET

COMMENT DÉFINIR L ORIENTÉ OBJET COMMENT DÉFINIR L ORIENTÉ OBJET De manière superficielle, le terme «orienté objet», signifie que l on organise le logiciel comme une collection d objets dissociés comprenant à la fois une structure de

Plus en détail

Cahier des charges de l application visant à effectuer un suivi de consommation énergétique pour les communes. Partenaires du projet :

Cahier des charges de l application visant à effectuer un suivi de consommation énergétique pour les communes. Partenaires du projet : Cahier des charges de l application visant à effectuer un suivi de consommation énergétique pour les communes Partenaires du projet : 1 Sommaire A) Contexte... 3 B) Description de la demande... 4 1. Les

Plus en détail

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte Projet d informatique M1BI : Compression et décompression de texte Le but de ce projet est de coder un programme réalisant de la compression et décompression de texte. On se proposera de coder deux algorithmes

Plus en détail

SCI03 - Analyse de données expérimentales

SCI03 - Analyse de données expérimentales SCI03 - Analyse de données expérimentales Introduction à la statistique Thierry Denœux 1 1 Université de Technologie de Compiègne tél : 44 96 tdenoeux@hds.utc.fr Automne 2014 Qu est ce que la statistique?

Plus en détail

Algorithmique et Programmation Projets 2012/2013

Algorithmique et Programmation Projets 2012/2013 3 Dames 3. Objectif Il s agit d écrire un programme jouant aux Dames selon les règles. Le programme doit être le meilleur possible. Vous utiliserez pour cela l algorithme α β de recherche du meilleur coup

Plus en détail

Le voyageur de commerce

Le voyageur de commerce Université de Strasbourg UFR Maths-Informatique Licence 3 - Semestre 6 Le voyageur de commerce Jonathan HAEHNEL & Marc PAPILLON Strasbourg, le 3 mai 2012 Table des matières 1 Etat des lieux 4 1.1 Fonctionnalités..............................

Plus en détail

Activité 1 : échantillonnage

Activité 1 : échantillonnage Activité échantillonnage, intervalle de fluctuation, prise de décision (à partir d un même thème) Les trois activités qui suivent s inspirent du document «ressources pour la classe de première générale

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

Hadoop / Big Data. Benjamin Renaut MBDS 2014-2015

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS 2014-2015 Hadoop / Big Data Benjamin Renaut MBDS 2014-2015 TP 1 - Correction Méthodologie Map/Reduce - programmation Hadoop. Rappel 1 La première partie du TP consistait à mettre en

Plus en détail

Méthode de Test. Pour WIKIROUTE. Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel.

Méthode de Test. Pour WIKIROUTE. Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel. Méthode de Test Pour WIKIROUTE Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel. [Tapez le nom de l'auteur] 10/06/2009 Sommaire I. Introduction...

Plus en détail

INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens

INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens Année académique 2009 2010 1 Introduction Ce projet est le premier d une série de quatre projets qui ont

Plus en détail

Sujet 17 : Exploitation de données financières de Google Finance en C#

Sujet 17 : Exploitation de données financières de Google Finance en C# Amsellem Ari Pour le 01/06/11 Ohayon Alexandre Gueguen Tristan Sujet 17 : Exploitation de données financières de Google Finance en C# Introduction : Il convient tout d abord de signaler que le titre de

Plus en détail

TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main

TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main CODEL : conception et développement d applications d entreprise à large échelle TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main Jonathan Lejeune Contexte Le modèle

Plus en détail

Bienvenue dans le monde de la construction logicielle

Bienvenue dans le monde de la construction logicielle Chapitre 1 Bienvenue dans le monde de la construction logicielle Sommaire : 1.1 La construction logicielle, qu est-ce que c est? : page 3 1.2 Pourquoi la construction logicielle est-elle importante? :

Plus en détail

ATELIER 6 : LA MODÉLISATION DES PROCESSUS ACHATS DANS UNE DÉMARCHE DE QUALITÉ. 25/01/2013 Amue 2013 1

ATELIER 6 : LA MODÉLISATION DES PROCESSUS ACHATS DANS UNE DÉMARCHE DE QUALITÉ. 25/01/2013 Amue 2013 1 ATELIER 6 : LA MODÉLISATION DES PROCESSUS ACHATS DANS UNE DÉMARCHE DE QUALITÉ 25/01/2013 Amue 2013 1 LES PROCESSUS MÉTIERS 25/01/2013 Amue 2012 MODÉLISATION DES PROCESSUS La modélisation : 25/01/2013 Amue

Plus en détail

Recueil des Fiches Concepteurs : Mise en œuvre d un site SharePoint 2013 Juin 2015

Recueil des Fiches Concepteurs : Mise en œuvre d un site SharePoint 2013 Juin 2015 Recueil des s s : Mise en œuvre d un site SharePoint 2013 Juin 2015 Ce document décrit le paramétrage pour la mise en œuvre des fonctionnalités standard de Microsoft SharePoint 2013. NADAP et SharePoint

Plus en détail

Catalogue des PFE. Comment postuler

Catalogue des PFE. Comment postuler Catalogue des PFE 2012 2013 IP-TECH propose plusieurs sujets pour des stages de PFE. Ce fascicule est destiné aux étudiants et aux professeurs de l enseignement supérieur. Il commence par un aperçu rapide

Plus en détail

Module d échange de données INTERLIS v1.0 GeoConcept Manuel d'utilisation

Module d échange de données INTERLIS v1.0 GeoConcept Manuel d'utilisation Module d échange de données INTERLIS v1.0 GeoConcept Manuel d'utilisation Interlis V1.0 - GC version 5.0 Table des matières TABLE DES MATIERES...1 1. INTRODUCTION...2 1.1 OBJECTIF...2 1.2 PRINCIPE...2

Plus en détail

Quand et pourquoi utiliser une base de données NoSQL?

Quand et pourquoi utiliser une base de données NoSQL? Quand et pourquoi utiliser une base de données NoSQL? Introduction Les bases de données NoSQL sont devenues un sujet très à la mode dans le milieu du développement web. Il n est pas rare de tomber sur

Plus en détail

Dossier I Découverte de Base d Open Office

Dossier I Découverte de Base d Open Office ETUDE D UN SYSTEME DE GESTION DE BASE DE DONNEES RELATIONNELLES Définition : Un SGBD est un logiciel de gestion des données fournissant des méthodes d accès aux informations. Un SGBDR permet de décrire

Plus en détail

Les Bonnes PRATIQUES DU TEST LOGICIEL

Les Bonnes PRATIQUES DU TEST LOGICIEL Les Bonnes PRATIQUES DU TEST LOGICIEL SOMMAIRE Qu est-ce que le test logiciel? Pourquoi le test est-il un maillon crucial de l ingénierie logicielle? Quels sont les différents types de tests? Qu est-ce

Plus en détail

SUGARCRM MODULE RAPPORTS

SUGARCRM MODULE RAPPORTS SUGARCRM MODULE RAPPORTS Référence document : SYNOLIA_Support_SugarCRM_Module_Rapports_v1.0.docx Version document : 1.0 Date version : 2 octobre 2012 Etat du document : En cours de rédaction Emetteur/Rédacteur

Plus en détail

Résumé du document «Programmes des classes préparatoires aux Grandes Écoles ; Discipline : Informatique ; Première et seconde années - 2013»

Résumé du document «Programmes des classes préparatoires aux Grandes Écoles ; Discipline : Informatique ; Première et seconde années - 2013» Résumé du document «Programmes des classes préparatoires aux Grandes Écoles ; Discipline : Informatique ; Première et seconde années - 2013» I Objectifs Niveau fondamental : «on se fixe pour objectif la

Plus en détail

Livret du Stagiaire en Informatique

Livret du Stagiaire en Informatique Université François-Rabelais de Tours Campus de Blois UFR Sciences et Techniques Département Informatique Livret du Stagiaire en Informatique Licence 3ème année Master 2ème année Année 2006-2007 Responsable

Plus en détail

Gestion du parc informatique matériel et logiciel de l Ensicaen. Rapport de projet. Spécialité Informatique 2 e année. SAKHI Taoufik SIFAOUI Mohammed

Gestion du parc informatique matériel et logiciel de l Ensicaen. Rapport de projet. Spécialité Informatique 2 e année. SAKHI Taoufik SIFAOUI Mohammed 6, bd maréchal Juin F-14050 Caen cedex 4 Spécialité Informatique 2 e année Rapport de projet Gestion du parc informatique matériel et logiciel de l Ensicaen SAKHI Taoufik SIFAOUI Mohammed Suivi ENSICAEN

Plus en détail

Option Informatique Arbres binaires équilibrés

Option Informatique Arbres binaires équilibrés Option Informatique Arbres binaires équilibrés Sujet novembre 2 Partie II : Algorithmique et programmation en CaML Cette partie doit être traitée par les étudiants qui ont utilisé le langage CaML dans

Plus en détail

ET 24 : Modèle de comportement d un système Boucles de programmation avec Labview.

ET 24 : Modèle de comportement d un système Boucles de programmation avec Labview. ET 24 : Modèle de comportement d un système Boucles de programmation avec Labview. Sciences et Technologies de l Industrie et du Développement Durable Formation des enseignants parcours : ET24 Modèle de

Plus en détail

Programmation orientée objet et technologies Web

Programmation orientée objet et technologies Web Programmation orientée objet et technologies Web LEA.3N, version 2012 Information : (514) 376-1620, poste 7388 Programme de formation Type de sanction Attestation d études collégiales permettant de cumuler

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Documents structurés Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

Glossaire GRH. Il vise à proposer un langage commun, et permet d éviter d éventuels risques de malentendus ou de confusions.

Glossaire GRH. Il vise à proposer un langage commun, et permet d éviter d éventuels risques de malentendus ou de confusions. Ce glossaire a été élaboré dans un souci de clarification des notions et concepts clés communément utilisés en Gestion des Ressources Humaines, et notamment dans le champ de la gestion prévisionnelle des

Plus en détail

UN PROJET MULTIMÉDIA avec les classes 702A et 712B et le logiciel MISTRALMOVIE, au Cycle d Orientation des Grandes-Communes

UN PROJET MULTIMÉDIA avec les classes 702A et 712B et le logiciel MISTRALMOVIE, au Cycle d Orientation des Grandes-Communes UN PROJET MULTIMÉDIA avec les classes 702A et 712B et le logiciel MISTRALMOVIE, au Cycle d Orientation des Grandes-Communes Buts Mise en place d une période de révision d allemand en fin de 7e année sous

Plus en détail

Reproductibilité des expériences de l article "Analyse et réduction du chemin critique dans l exécution d une application"

Reproductibilité des expériences de l article Analyse et réduction du chemin critique dans l exécution d une application Reproductibilité des expériences de l article "Analyse et réduction du chemin critique dans l exécution d une application" Katarzyna Porada and David Parello and Bernard Goossens Univ. Perpignan Via Domitia,

Plus en détail

Un algorithme de composition musicale

Un algorithme de composition musicale Un algorithme de composition musicale Table des matières Présentation Le compositeur. Le code PMX.................................................. Structures de données utilisées........................................

Plus en détail

Comment maximiser le référencement de votre site e-commerce en 15 minutes Tout le monde veut optimiser le référencement de son site.

Comment maximiser le référencement de votre site e-commerce en 15 minutes Tout le monde veut optimiser le référencement de son site. Comment maximiser le référencement de votre site e-commerce en 15 minutes Tout le monde veut optimiser le référencement de son site. C est simple, pas une semaine ne se passe sans qu un nouvel article

Plus en détail

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et

Plus en détail

Evaluer des élèves de Seconde par compétences en Sciences Physiques

Evaluer des élèves de Seconde par compétences en Sciences Physiques Evaluer des élèves de Seconde par compétences en Sciences Physiques Introduction Depuis quelques années, le terme de «compétences» s installe peu à peu dans notre quotidien ; aussi bien dans la vie de

Plus en détail