Outils d extraction d informations à partir de documents numérisés

Dimension: px
Commencer à balayer dès la page:

Download "Outils d extraction d informations à partir de documents numérisés"

Transcription

1 UNIVERSITÉ DE LA RÉUNION - M2 INFORMATIQUE RAPPORT DE STAGE DE MASTER M2-INFORMATIQUE Outils d extraction d informations à partir de documents numérisés Auteur : MANGATA Nicky Encadrants : Jean DIATTA Cynthia PITOU 9 juin

2 Resume Ce document est un rapport de stage dans le cadre d un master 2 informatique à l Université de la Réunion située à St-Denis. Ce travail d étude et de recherche concerne un projet informatique et se fait sur une durée de 6 mois. Le projet informatique effectué est encadré par deux experts en analyse de données et en recherche : Cynthia PITOU et Jean DIATTA, ce projet concerne la mise en place d outils d extraction d informations à partir de documents numérisés et d études de méthodes de classifications sur ces informations. Ainsi dans une génération où l information numérisées joue un rôle primordial et où son volume ne cesse de croitre, tirer le maximum de bénéfice de ces données par le biais de techniques, d outil et de technologies serait un atout considérable. Ce rapport mets donc en avant plusieurs dispositifs permettant de générer des documents numérisés, d organiser, de stocker, d extraire et d analyser des masses d informations de ces documents numérisés afin de localiser celles qui seraient pertinentes relativement à un besoin en information d un utilisateur sans avoir eu au préalable des indications sur son emplacement. Mots clés : Data Mining, JAVA, classification supervisée, classification non supervisée, méthodes d évalutations, R, SQL. Abstract This paper is an internship report in connection with a last-year master s degree in computer sciences at the University of Reunion Island located in Saint-Denis. This work of study and research involves a computer project and was done over a period of six months. The IT project done was provided by two data mining and research experts : Cynthia Pitou and Jean DIATTA, this project talk about the implementation of data extract tool from scanned document and the study of classifications methods on it. In this way, within a generation where scanned data plays an crucial role and has a volume which are becoming more and more important, obtaining the maximum of benefits of this data through methods, tools, technologies will be a considerable asset. This report is therefore highlighting devices allowing to generate scanned documents, organize, record, extract and analyze wealth of information in order to locate those relevant in the context in an informations needs to a user without any indications about the location. Key-words : DataMining, java, clusterings, evaluation methods, r, sql. 2

3 Table des matières 1 Introduction Contexte de l étude Description du laboratoire d accueil Analyse des besoins et spécifications Définition du problème Existant Solutions apportées au projet Développement Outil de génération de facture automatisées Base de données Générateur de fichier csv Les méthodes de classification non supervisées La méthode de classification ascendante hiérarchique Mise en oeuvre de la CAH avec la fonction agnes et le critère d agregation : "lien complet" Mise en oeuvre de la CAH avec la fonction agnes et le critère d agregation : ward Comparaison entre la librairie agnes et la librairie stats Exploitation des résultats L analyse en composante principale Mise en oeuvre de l ACP K-means Mise en oeuvre de la méthode K-means K-medoids Mise en oeuvre de la méthode K-medoids Les méthodes de classification supervisées Les Forêts aléatoires (ou Forêt Decisionnels)

4 5.1.1 Mise en oeuvre de la forêt aléatoire Les arbres de décisions Mise en oeuvre des arbres de décisions Classification naïve bayésienne Mise en oeuvre de la classification naives bayésienne Les Règles d Associations Mise en oeuvre des règles d associations Les méthodes d évaluations Le taux d erreur Mesure de performance Le résultat 50 7 Conclusion 52 8 Annexe Fonctions codées sous R Table des figures 56 Bibliographie 57 4

5 Chapitre 1 Introduction 1.1 Contexte de l étude De nos jours, l information joue un rôle primordial dans le quotidien des individus et dans l essor des entreprises. Cependant, le développement de technologies dans tous les domaines ont conduit à la production d un volume d informations numérisés sans précédent. Il est par conséquent, de plus en plus difficile de localiser précisément ce que l on recherche dans cette masse d informations numérisées. Il est alors intéressant de mettre en place un dispositif permettant de stocker et d organiser des masses d informations de ces documents numérisés et de localiser celles qui seraient pertinentes relativement à un besoin en information d un utilisateur. L objectif de ce travail est donc de mettre en place des outils permettant l extraction et la classification de données à partir de documents numérisés. Toutes les données étant maintenant numérisées, il est nécessaire de pouvoir correctement les traitées, pour cela il existe ce qu on appelle les méthodes de classifications. Ces méthodes vont permettre d analyser de gros corpus de données quelque soit le domaine. En procédant à une classification, on construit des ensembles homogènes d individus, c est-à-dire partageant un certain nombre de caractéristiques identiques. Ainsi la classification permet de mettre en évidence des regroupements sans connaissance à priori sur les données traitées. Dans ce travail afin d avancer dans la recherche, il faut prendre des données d entrées qui ont la même nature mais sont différentes dans leur conception. Les factures étant un type de document qui répond à cette attente, nous considérons donc que les données d entrées seront des factures. Pour produire une masse de factures il est nécessaire de développer un outil permettant la génération automa- 5

6 tique de factures numérisées qui soit proche de la réalité et d y tester les méthodes de classifications. Les méthodes de classifications utilisées dans ce travail sont : La Classification Ascendante Hiérarchique. K-means K-medoids Forêt Aléatoire Les arbres de décisions Naïves Bayes Les Règles d associations Ce travail comporte deux grandes étapes, une partie développement pour préparer les données d entrées et une partie d analyse de données pour classifier ces données d entrées. 1.2 Description du laboratoire d accueil Le Laboratoire d informatique et de Mathématiques (LIM) de l université de la Réunion (UR) est une équipe d accueil (EA2525) structurée en trois axes : - Epistémologie et Didactique de l Informatique et des Mathématiques (EDIM) - InformaTique et Applications (ITA) - Mathématiques (MATHS) Mon stage se situe dans l axe ITA, plus précisément dans le thème des données, des connaissances et de la décision (DCoD). Selon le lim, [2] des études récentes ont montré que la quantité de données numériques créées va doubler tous les deux ans d ici 2020 où elle atteindra 40 zettaoctets, soit plus de gigaoctets par personne. De part l augmentation importante de quantité de données numériques qualifiées de "Big Data", le DCoD du LIM a pour défi de tirer le maximum de bénéfice de ces données par le biais de techniques, d outil et de technologies permettant d analyser les données. 6

7 Mon maitre de stage est Jean Diatta, directeur du LIM et enseignant chercheur à l Université de la Réunion, son domaine de recherche se situe plus précisément dans : La Classification La Fouille de données L analyse de concept Les indices de dissimilarités. Ma tutrice de stage est Cynthia PITOU, doctorante au LIM, son domaine de recherche se situe précisément dans : L extraction de connaissance La classification supervisée La fouille de données. FIGURE 1.1 Organigramme du LIM 7

8 Chapitre 2 Analyse des besoins et spécifications 2.1 Définition du problème Il existe de nos jours des scanners permettant de lire des chèques ou cartes bancaires. Par exemple, le scanner va permettre de lire et décoder la piste magnétique, vérifier la présence de signature, lire les champs complémentaire etc... L emplacement de ces champs étant connus, il est plus facile de vérifier si l information est présente ou non, mais imaginons que l on souhaite scanner des documents où les informations peuvent être présentes à divers emplacements, cela rendrait la tache plus compliquée. Les factures sont l exemple même de ce type de document, car en effet selon le prestataire, la disposition des informations changent. Par conséquent, si l on souhaite scanner et retrouver des informations sur des factures, il est important d au préalable utilisé une méthode de classification qui donnera par son résultat la probabilité de présence la plus forte de l information à un emplacement donné. Il faut également prévoir un programme permettant de générer des documents numériques de ce type de manière automatique et en très grand nombres pour pouvoir obtenir de bon résultats lors de la classification. 2.2 Existant Il existe des outils permettant la création de factures automatique numérisées mais il s avère que ces outils sont pour la plupart payants et ne permettent pas un contrôle total de l emplacement des informations. Cela n est donc pas intéressant pour la problématique posée, car l on cherche justement d avoir la possibilité de 8

9 disposer les informations comme on le souhaite étant donnée que la disposition des informations d une facture changent pour chaque prestataire. Les méthodes de classifications étant essentielles dans ce projet, il est nécessaire d utiliser le logiciel R. R est un logiciel de traitement de données et d analyse statistique. C est un projet GNU développé par John Chambers et ses collègues dans les laboratoires Bell et il est disponible en open source sur le Web. R est largement utilisé dans la littérature pour des analyses et des tests statistiques. R dispose de plusieurs librairies qui sont des fonctions codées sous R et compilées dans un format bien défini. Ces librairies seront nécessaires pour utiliser les méthodes de classification, en effet chaque fonction de méthode de classification sont disponibles dans une ou plusieurs librairies. 2.3 Solutions apportées au projet Afin de mener à bien ce projet, il est important de distinguer les deux grandes étapes du projet c est à dire d une part le développement et d autre part l analyse des données. Pour ce qui est de l analyse de données, il aura donc fallu faire le répertoire des méthodes supervisées et non supervisées sous R afin de classifier les données, et des méthodes d évaluations de celles-ci en utilisant plusieurs librairies que l on décrira ci-dessous. Ce répertoire passe par les algorithmes mis en?uvre, les paramètres à considérer et les représentations graphiques des modèles et des résultats. Pour la partie développement, il était primordial de mettre en place un outil de génération de documents numérisés. Pour ce faire, l utilisation de Eclipse a été choisi et donc le langage de programmation objet JAVA. Il est important de stocker les informations et ses emplacements sous une base de données. La plate-forme de développement WampServer administrée par phpmyadmin a été utilisée pour gérer plus facilement la base de donnée. Il était par la suite primordial de pouvoir extraire les données de la base de données et de les rendre sous un format ".csv" afin de pouvoir importer ces mêmes données sous R. Un outil a donc été développé permettant, à l aide de la librairie "opencsv" de lire et d écrire un format csv. 9

10 Chapitre 3 Développement Dans ce chapitre nous allons voir et expliquer le développement de l outil permettant de générer des documents automatisés ainsi que de l outil permettant de transformer les données de la base de donnée en données d entrées (format.csv) sous R. Ces outils ont tous deux été développés en Java (langage programmation objet) sous Eclipse. Le langage de programmation objet JAVA a été choisi car lors de la compilation, Java dispose de sa propre machine virtuelle, ce qui le donne une indépendance vis à vis du matériel. Eclipse est un projet, décliné et organisé en un ensemble de sousprojets de développements logiciels, de la Fondation Eclipse visant à développer un environnement de production de logiciels libre qui soit extensible, universel et polyvalent, en s appuyant principalement sur Java. 3.1 Outil de génération de facture automatisées Comme dit précédemment chaque prestataire dispose de sa propre méthode afin de produire une facture. C est à dire que les informations et la disposition de celleci peuvent différées d un prestataire à l autre. Afin de produire des factures qui soient proche de la réalité, il est important de pouvoir disposer les informations aux emplacements que l on souhaite. C est pourquoi l utilisateur dispose d une grille lui permettant de placer ses informations : 10

11 FIGURE 3.1 Grille d aide à l écriture pour la génération de factures Cette grille permet à l utilisateur de placer ses informations avec précision et de les aligner s il le souhaite (faire par exemple une disposition en tableau). En effet, le clic de l utilisateur sur une case de la grille entraine l apparition d un formulaire permettant d entrer l information que l on souhaite. Il est courant dans les factures que les informations sont systématiquement disposées deux à deux, c est-à-dire que l on a d une part le libellé et ensuite la valeur. La valeur se trouve généralement toujours à côté ou en dessous du libellé. De plus, pour chaque prestataire, malgré l emplacement différent des informations d une facture à l autre, le type des informations quant à lui est quasiment similaire d un prestataire à un autre. En effet, les informations telles que : l immatriculation, le numéro de siret, la date, le numéro de facture, le code de dossier etc.. sont toujours présentes d une facture à l autre. Par conséquent, le programme va prendre en compte ces types de données et aussi donné le choix à l utilisateur d en ajouter de nouvelles. Voici une illustration de ce qui se passe lorsque l utilisateur clic à un emplacement sur la grille : Il est de ce fait possible via le formulaire de choisir le libellé que l on souhaite entrer à l emplacement sélectionné. Ce libellé peut être saisie manuellement ou alors être automatiquement généré. En effet, par exemple le libellé pour le Siret d une facture à l autre peut prendre diverses valeurs tel que : "numéro de siret", "n :", "Siret".. Une fois le libellé sélectionné, il ne reste plus qu à entrer la valeur correspondante au libellé que l on a précédemment entré. La valeur correspondant au libellé peut être entrée manuellement ou générée automatiquement. En effet, le programme prend en charge le fait de générer des 11

12 FIGURE 3.2 Formulaire pour la génération des libellés valeurs automatiquement en fonction du type d information que l on souhaite. Par exemple le programme va reconnaitre que l on souhaite générer un numéro de facture aléatoire ou un numéro de siret aléatoire. Étant donnée que dans les factures, les valeurs sont systématiquement à côté ou en dessous du libellé, le choix est donné à l utilisateur de placer la valeur en dessous ou à côté. Avec ces différentes fonctionnalités, nous pouvons donc créer une facture et choisir de contrôler ou non le contenue des informations. Les informations peuvent être placées où l on souhaite et on peut maitriser le côté aléatoire du contenue des informations. Il faut cependant noter que certaines informations apparaissent dans divers endroits dans une facture et n ont pas réellement de logique quant à leur emplacement. Il est donc nécessaire d ajouter la possibilité de positionner des éléments dans la facture de manière totalement aléatoire c est-à-dire aussi bien au niveau de la position que du contenu. Le programme dispose d un bouton "aléatoire" (fig. programme) permettant de générer les informations (fig formulaire) relatives à une facture qui n ont pas encore été placée de manière totalement aléatoire (position et valeur). 12

13 FIGURE 3.3 Programme JAVA Dans la figure précédente, il est notable que l on peut générer autant de factures que l on souhaite via le champ "Nombre de document à générer". Les factures une fois générées seront enregistrer au format ".jpg" au chemin indiqué par le formulaire et les informations relatives à la facture seront stockées dans une base de données. Il faut donc indiquer le chemin où l on souhaite enregistrer les factures au format.jpg et spécifier le nombre de facture que l on souhaite générer en fonction du corps de la facture que l on a créé. Il est important de noter que, certains éléments seront positionnés en tant que valeur et position fixe, d autres en valeur variable et position fixe, et enfin des valeurs aléatoires aussi bien en position qu en contenu. Lorsque plusieurs factures sont générées, les éléments définis en tant que valeur et position fixe resteront les mêmes d une facture à l autre. Les éléments définis en tant que valeur aléatoire et position fixe changeront simplement de valeur et enfin les éléments définis en tant qu aléatoire se verront changés aussi bien dans leur position que dans leur contenus d une facture à l autre. 13

14 Les deux factures ci-dessous illustre le paragraphe ci-dessus. En bleu : les éléments aléatoires en position et en valeur En rouge : les éléments fixe en position et aléatoire en valeur En vert : les éléments fixe en position et en valeur Les factures peuvent donc être créées avec un total contrôle non seulement sur la valeur mais aussi sur la position que l on peut désigner manuellement ou aléatoirement. Cela va permettre de créer une large diversité de factures ressemblantes ou non aux factures réelles et ainsi d avoir de meilleurs résultats afin de tirer des conclusions lors de l analyse des données. 14

15 3.2 Base de données Pour pouvoir utiliser les méthodes de classification sur les informations relatives aux factures, il est nécessaire de stocker les différentes informations des factures dans une base de données. La plate forme de développement WampSever administré par phpmyadmin a été choisie pour stocker la base de données car c est une interface de gestion simple de base de données en SQL. PhpmyAdmin visible ci-dessus contient la base de donnée "facture" avec les tables : image_ facture,image_ information,region et type_ information. Ainsi les informations relatives aux factures seront stockées dans ces tables. Voici un descriptif rapide des différentes tables et champs de la base de données : Dans la table région : les coordonnées x et y de l information, w la largeur du rectangle dans lequel est stocké l information et h la hauteur. Le type de l information : le libellé, par exemple s il s agit de l immatriculation ou du numéro de Siret. La facture : le titre de la facture, le chemin de l image représentant la facture, l extension de l image. image_ information : le numéro de la facture, le numéro de région présent dans cette facture, le numéro de type d information présent dans cette facture et la description qui correspond à la valeur de l information. 15

16 Pour chaque facture on aura donc les informations qu il contient et leurs positions. Ces données sont essentielles pour y appliquer les méthodes de classification, ainsi on pourra grâce aux emplacements des données prédire l appartenance à une classe d une nouvelle facture. La prochaine étape consiste alors de faire passer les données de la base de données à un format lisible sous R. Il est important de prendre en considération le format des données d entrée. Sous R il est possible d utiliser des jeux de données au format texte (.txt) et au format tableur (.csv). Par exemple, un jeu de données au format.csv peut être créé avec Excel. Les valeurs du jeu de données seront séparées par une virgule. Au format texte les valeurs doivent être séparées par un espace ou une tabulation. 16

17 3.3 Générateur de fichier csv Pour disposer d un jeu de données sous R, il faut au préalable sélectionner ces données sur la base de donnée à l aide d une requête SQL Select. Il a donc été primordial de procéder au développement d un générateur de requête SQL Select simplifié sous Eclipse en java, permettant d exécuter des requêtes simples. Ainsi, on pourra avoir les jeux de données que l on souhaite et les transformer au format csv. Pour la transformation du jeu de données sous mysql en csv, la librairie opencsv est requise. Opencsv est une librairie simple permettant de parser le format csv en java. Cette librairie a été développée car tous les parseurs csv actuellement développés sont payants ou ne disposent pas de licence. Opencsv permet donc de lire et de parser un fichier csv, il permet également de créer et d écrire dans un fichier csv. La base de données contient tous les données en clair, mais sous R lorsque l on souhaite faire une analyse avec les méthodes de classification cela nécessite qu en entrée nous ayons des tableaux de données. Ce tableau de données doit contenir les informations suivantes : En colonne : les variables En ligne : les individus Étant donnée que ce sont les factures que l on souhaite classifier, dans notre cas les variables seront les informations que l on souhaite prélever pour faire la classification (variables prédictives) telles que les régions des informations, les types d informations, les valeurs ect.. Les individus seront les factures,de ce fait à chaque ligne correspond une facture. En choisissant de classifiées les factures par la position de ses informations, on peut prendre par exemple, la valeur centrée de x et y ainsi que la surface comme résultat de la requête. La requête SQL sera donc la suivante : FIGURE 3.4 Requête SQL Select 17

18 Cela permet d obtenir les résultats suivants sous Mysql : Le problème est que l on souhaite qu une ligne du tableau sous R soit équivalente à une facture, il faudrait par exemple que le numéro d image 475 soit une ligne du tableau de données avec les variables associées à elles en colonnes et donc qu ils ne se repartissent pas en plusieurs lignes comme ci-dessus. Dans le programme JAVA, nous spécifions le fait qu une ligne soit équivalente à une facture et que les colonnes correspondent aux valeurs des différentes variables de cette même facture. 18

19 Cela donnera donc le fichier csv suivant : On observe bien que chaque ligne correspond à une facture. Ici on a par exemple pour la facture numéro 475 les données centrées xmoy, ymoy et la surface de chaque information de la facture. Il suffit maintenant d importer ce fichier sous R pour y appliquer nos méthodes de classification. Pour lire le fichier csv, il faut utiliser la commande read.table comme le montre la figure ci-dessous. Etant donné que c est un fichier csv et que nous avons décidé de séparer les valeurs par une virgule, il faudra spécifier que le séparateur est égal à une virgule. Afin de classifier les factures et de pouvoir prédire la classe à laquelle appartient une nouvelle facture et donc quelles sont ses caractéristiques et où se trouvent ses informations, il est important d étudier les méthodes de classification supervisées et non supervisées. 19

20 Chapitre 4 Les méthodes de classification non supervisées La classification non supervisée, ou "clustering", est un thème de recherche majeur en apprentissage automatique, en analyse et en fouille de données ainsi qu en reconnaissance de formes. Il fait partie intégrante de tout un processus d analyse exploratoire de données permettant de produire des outils de synthétisation, de prédiction, de visualisation et d interprétation d un ensemble d individus (personnes, objets, processus, etc.). L objectif est, à partir de données constituées d un ensemble d individus ou objets(ici les factures) et d une relation de proximité entre ceux-ci (les variables), de construire des groupes d individus homogènes dans le sens où : deux individus proches doivent appartenir à un même groupe. deux individus éloignés doivent appartenir à des groupes différents. En classification non supervisée, l appartenance d un individu à une catégorie n est pas connue. C est justement cette appartenance qu il s agit de retrouver. 4.1 La méthode de classification ascendante hiérarchique La classification hiérarchique est une approche algorithmique qui propose de construire une structure hiérarchique appelée dendrogramme. Il s agit d un arbre dans lequel chaque niveau correspond à une partition de l ensemble des individus. Chaque noeud, appelé aussi amas, est une partie de la 20

21 partition correspondante (un groupe) et l ensemble de ses fils constitue une partition de ce noeud. Les approches permettant de construire un dendrogramme de ce type se décomposent en deux familles : les approches agglomératives qui construisent le dendrogramme par la base, en regroupant à chaque étape les amas d individus les plus similaires ; les approches divisives qui construisent le dendrogramme par le haut, en partitionnant à chaque étape un amas en sous amas. Ici nous utilisons la classification ascendante hiérarchique (CAH) qui est une approche agglomérative. Deux packages sont disponibles sous R pour la mise en oeuvre de la CAH : cluster : Méthode de classification hierarchique se basant sur la méthode de Kauffman et Rousseeuw [4]. stats : Méthode de classification hiérarchique directement intégré sous R [10]. FactoMineR : Méthode de classification et d analyse en composante fait par François Husson [3]. La fonction hclust du package stats est sensiblement similaire à la fonction agnes du package cluster. Plusieurs paramètres sont utilisables pour ces méthodes, la description de certains de ces paramètre sont fait en 4.2. Ces méthodes doivent être donnée par l argument method qui est une chaîne de caractère définissant la méthode de calcul de distance. Elle peut prendre les valeurs : "average" : Distance moyenne non pondérée. "single" : Distance entre deux classes est ici déterminée par la distance entre les deux objets les plus proches (les plus proches voisins) dans les différentes classes. "complete" : Distances entre deux classes est ici déterminée par la plus grande distance entre deux objets de classes différentes (c est-à-dire les "voisins les plus éloignés"). "ward" : Distance s appuyant sur une le calcul de la variance approchée 21

22 afin d évaluer les distances entre classes. "weighted" : Distance moyenne pondérée Mise en oeuvre de la CAH avec la fonction agnes et le critère d agregation : "lien complet" La fonction qui sera essentielle pour la classification hiérarchique ascendante est la fonction agnes. Pour utiliser cette fonction il est nécessaire de charger le package cluster. Un exemple de l utilisation de la fonction agnes est donné ci-dessus. Dans cet exemple la distance euclidienne est utilisé en argument du paramètre "metric". La méthode de calcul de distances entre classes "complete" est utilisée en argument du paramètre method. agnes.complete = agnes(x,diss=inherits(x,"dist"), metric="euclidean",stand =FALSE, method="complete") Une fois que la commande est exécutée, la variable agnes.complete contient la sortie de celle-ci. La fonction plot permet d avoir un affichage graphique du contenu de la variable agnes.complete. plot(agnes.complete,main="cah methode complete") Les figures 2.1 et 2.2 sont des exemples de graphiques obtenues sur les données des factures. 22

23 FIGURE 4.1 Dendogramme - CAH agnes method : complete 23

24 FIGURE 4.2 Banner - CAH agnes method = complete La figure 2.2 montre un graphique de banner indiquant la hauteur du dendrogramme ainsi que toutes les fusions qui ont été nécessaire pour arriver à un certain étage du dendrogramme. Le graphique est à lire de gauche à droite et les fusions sont représentées en blanc sur fond rouge. Le coefficient d agglomération est un indicateur de la structure des données. Il prend ses valeurs dans [0,1]. Plus il est élevé, plus les dissimilarités entre objets sont grandes. Avec ces différents graphiques, on peut en déduire les différentes classes présentes et donc les factures qui sont similaires entre elles. 24

25 4.1.2 Mise en oeuvre de la CAH avec la fonction agnes et le critère d agregation : ward Cette sous-section décrit l utilisation de la fonction agnes avec un autre paramètre pour le critère d agrégation afin de comparer les résultats. agnes.ward = agnes(x,diss=inherits(x,"dist"), metric="euclidean",stand =FALSE, method="ward") plot(agnes.ward,main="cah methode WARD") La figure 2.3 présente le dendrogramme obtenue sur les factures. FIGURE 4.3 Dendogramme - CAH agnes method = ward Il est possible de tester d autres méthodes(single, weight, flexible ) en procédant exactement de la même manière que précédemment mais en changeant simplement le paramètre "method". 25

26 4.1.3 Comparaison entre la librairie agnes et la librairie stats La fonction hclust du package stats permet également de mettre en oeuvre une classification hiérarchique ascendante d un jeu de données d entrée. En ce qui concerne la description de la fonction hclust, elle est très similaire à celle de la fonction agnes. La fonction hclust prend donc en paramètre d entrée les mêmes arguments que la fonction agnes. Cependant la différence majeure entre le procédé hclust et agnes est que l utilisation de agnes donne le coefficient d agglomération (agnes.object) qui est un indicateur sur la structure de données et fournit un graphique de type Banner (figure 2.2). Voici une illustration rapide de l utilisation de la fonction hclust avec la méthode WARD. varhclust = hclust(dist(x[,1 :4]),method="ward") plot(varhclust,main ="CAH hclust method ward") La figure 2.4 présente un dendrogramme. 26

27 FIGURE 4.4 Dendogramme - CAH hclust method = ward 27

28 4.1.4 Exploitation des résultats Une fois la CAH effectuée, qu elle soit faite par la fonction agnes ou hclust et quelque soit la méthode utilisée, il est possible de déterminer le nombre de classes optimal pour découper l arbre. La fonction suivante permet de calculer le nombre de classe optimal : Une fois que la fonction est défini, il faut ensuite l utiliser en prenant l objet CAH comme paramètre de la fonction. L exemple ci-dessous décrit l appel de la fonction best.cutree avec en paramètre agnes.ward le dendrogramme obtenue en 2.3 : La fonction best.cutree() nous suggère 3 classes. La commande suivante permet d afficher graphiquement le découpage en 3 classes : >rect.hclust(agnes.ward,3) La figure 2.5 présente le dendrogramme coupé en 3 classes. 28

29 FIGURE 4.5 Dendogramme - CAH hclust method = ward - 3 classes On observe que le dendrogramme allié à la fonction de coupage de l arbre met en valeur trois grandes classes. Cela permet de bien distinguer trois grandes classes pour les factures qui sont similaire les une aux autres. Certains prestataires différents ont donc a priori la même façon de générer leur facture. 29

30 4.2 L analyse en composante principale L analyse en composantes principales (ACP ou PCA en anglais) est une méthode de la famille de l analyse des données et plus généralement qui consiste à transformer des variables liées entre elles (dites "corrélées" en statistique) en nouvelles variables décorrélées les unes des autres. Ces nouvelles variables sont nommées "composantes principales", ou axes principaux. Elle permet au praticien de réduire le nombre de variables et de rendre l information moins redondante. Pour la mise en place d une ACP sous R, il existe plusieurs librairies tels que "FactoMineR" [3] et "amap" [6]. Nous allons ici utiliser "FactoMineR". Deux fonctions sont disponibles dans cette librairie pour la mise en oeuvre de l ACP : -La fonction PCA : Elle établit une analyse en composante principale avec des individus et des variables illustratives. Les valeurs manquantes (Na) sont remplacées par la moyenne de la colonne. -La fonction HCPC : Elle établit une classification hiérarchique sur Composantes principales. Ce chapitre décrit l utilisation des fonctions PCA et HCPC pour la mise en oeuvre de l ACP Mise en oeuvre de l ACP Le package FactoMineR doit être chargé, il est ensuite nécessaire de créer un objet PCA qui va prendre en paramètre nos données sources. L ACP va permettre d observer quelles sont les variables les plus utilisées pour la classification. test = PCA(X[,5]) A partir de là deux graphiques sont générés mettant en évidence les facteurs principaux. 30

31 FIGURE 4.6 Analyse en composante principal - Individus FIGURE 4.7 Analyse en composante principal - Variables 31

32 Une fois la variable contenant l ACP correctement initialisée, il est possible de réaliser une classification non supervisée des individus. Pour cela la fonction HCPC est utilisée avec en paramètre le résultat de l ACP. res = HCPC(test,nb.clust=-1) FIGURE 4.8 HCPC - classification hierarchique Ici la classification nous donne quatres classes. Cela est interessant car nous pourront continuer l analyse en utilisant d une part 3 classes et d autre 4 classes pour comparer les résultats. La figure 4.6 montre les individus prochent entre elles, on distingue clairement 6 groupes et il y a 6 prestataires dans les données d entrées. Pour ce qui est de la figure 4.7, les variables proche du cercle signifie que les variables sont bien représentée en projection. Les coordonées qui sont proche des axes sont des coordonnées en corrélation avec le facteur. 32

33 FIGURE 4.9 HCPC - Facteur principaux FIGURE 4.10 HCPC - Partitionnement 33

34 4.3 K-means L algorithme des k-moyennes (ou K-means en anglais) est un algorithme de partitionnement de données relevant des statistiques et de l apprentissage automatique (plus précisément de l apprentissage non supervisé). C est une méthode dont le but est de diviser des observations en K partitions (classes) dans lesquelles chaque observation appartient à la partition dont il est le plus proche selon une mesure de distance définit. C est l approche la plus connue, utilisée et étendue dans les différentes communautés dédiées au clustering. Le principe est «naturel», étant donné la distribution des individus de X dans l espace de description et un nombre nk de groupes fixé, l objectif est de minimiser la dispersion des individus relativement à un ensemble de prototypes représentatifs de ces groupes. Il existe plusieurs librairies pour la mise en oeuvre de la méthode K-means sous R, ces librairies sont : "stats" [10], "cluster" [4], "clue" [5]. Nous allons ici utiliser le package "stats" qui est directement intégrée sous R. La fonction essentielle permettant la mise en oeuvre de la méthode K-means sous R est la fonction kmeans() disponible dans le package "stats". Cette section décrit la fonction kmeans ainsi que la mise en oeuvre de la méthode. 34

35 4.3.1 Mise en oeuvre de la méthode K-means La librairie "stats" ainsi que les données d entrées doivent être chargées pour pouvoir utiliser la fonction kmeans(). Les données doivent être de valeurs numériques pour la fonction kmeans, il est de ce fait nécessaire de passer en paramètre de la fonction kmeans la variable X privée de sa dernière colonne qui est qualitatif (colonne : Espece). L utilisation de la fonction kmeans se fait alors comme suit : varkmeans = kmeans(x[,-5],3,iter.max=20,nstart=20) La figure 4.1 montre le résultat de la fonction kmeans sous plusieurs dimensions. Ainsi nous pouvons voir les différentes partitions qui ont été effectuée sur les factures, et la position des éléments en fonctions des différents axes. FIGURE 4.11 Kmeans sur les factures partitionnées en 3 classes La méthode kmeans avec les librairies stats,cluster et clue sont assez similaires, ils donnent de bon résultat en calculant les partitions en se basant 35

36 sur les centroïdes. Cependant, on ne peut pas définir sa propre distance dans la fonction kmeans. Il est important de pouvoir définir sa propre distance, afin de pouvoir faire un kmeans se basant sur cette distance et avoir de meilleurs résultats lors de la création des différentes partitions. Il a donc été primordial de créer sous R des fonctions permettant de calculer des distances, ainsi que des fonctions permettant d effectuer le kmeans sans utiliser les centroïdes. Le code de ces fonctions que j ai développé sous R se trouve dans l annexe. Le code des fonctions de distances et de la méthode kmeans se base sur l algorithme fournit par mon maitre de stage Jean Diatta [1] 4.4 K-medoids La méthode K-medoids permet de partitionner les données en K classes en utilisant le "principe de la médiane", c est une méthode qui est légèrement plus robuste que celle du k-means Mise en oeuvre de la méthode K-medoids Il faut dans un premier temps charger le package "cluster" [4] afin d avoir la fonction permettant l analyse. Une fois que ceci est fait, il ne reste plus qu à charger les données à l aide de la commande vu au chapitre 1 (les données doivent être numériques). La fonction pam avec k=3 s utilise à l aide de cette commande : varpam = pam(x[,-5],3) Il est possible d afficher graphiquement les résultats à l aide de la commande suivante : La figure 5.1 montre le résultat du K-medoids avec la fonction pam. 36

37 FIGURE 4.12 Résultat du k-medoids avec pam() Il est possible d afficher graphiquement les partitions de chaque classe en fonction de certaines variables à l aide de la commande : 37

38 Chapitre 5 Les méthodes de classification supervisées 5.1 Les Forêts aléatoires (ou Forêt Decisionnels) Une forêt aléatoire est à la fois une méthode de classification et de régression qui crée un ensemble d arbres de décision afin de réduire l erreur de biais et d assurer une faible corrélation entre les arbres. Pour prédire l étiquette d un nouvel individu, on utilise un vote majoritaire des arbres de la forêt. Pour l utilisation de cette méthode, il est nécessaire d utiliser le package "randomforest" [7]. L algorithme des Random Forests a été codé par Breiman and Cutler (2005). Il a ensuite été importé dans le logiciel R par Liaw et Wiener, via la librairie randomforest. Il existe deux principaux paramètres dans cette librairie : - Le paramètre le plus important est le nombre m de variables choisies aléatoirement à chacun des noeuds des arbres. Il est nommé mtry dans le paquet. Il peut varier de 1 à p et possède une valeur par défaut : sqrt(p) en classification, p/3 en régréssion. - Nous pouvons également jouer sur le nombre d arbres q de la forêt. Ce paramètre est nommé ntree et sa valeur par défaut est 500. Le programme permet également de régler d autres aspect de la méthode : le nombre minimum d observations (nodesize) en dessous duquel on ne découpe pas un noeud, ou encore la façon d obtenir les échantillons bootstrap (avec ou sans remise, ainsi que le nombre d observations tirées). Ces éléments seront laissés par défaut. 38

39 5.1.1 Mise en oeuvre de la forêt aléatoire La librairie "randomforest" doit être chargée soit manuellement soit avec la commande load(randomforest). Une fois la librairie chargée, la fonction randomforest() peut-être utilisée à l aide de cette commande : rf <- randomforest(classe.,z,ntree=500,proximity=true,importance=true) Ainsi la variable rf est maintenant un objet randomforest. Species est la variable à prédire et les autres variables contenues dans les factures sont les variables prédictives. Il est possible d observer les prédictions faites par randomforest pour en tirer un taux d erreur. Il est également possible avec un objet randomforest de visualiser l importance des variables dans la prédiction à l aide de la commande suivante : Pour mieux comprendre ces résultats, il est possible de les visualiser graphiquement à l aide de la commande suivante : varimpplot(rf) 39

40 FIGURE 5.1 Importance des variables Ce graphique détermine l importance des variables. MeanDecreaseGini et MeanDecreaseAccuracy sont deux mesures pour déterminer l importance des variables. ->MeanDecreaseAccuracy est calculée par rapport aux observations ( les éléments ) ->MeanDecreaseGini est calculée en utilisant l impureté de noeuds. Connaître l importance des variables nous fournit une grande aide sur l interprétation des données. En effet, on peut ainsi savoir de quelles variables on peut se passer, de plus cela nous permet de construire de meilleurs prédicteurs : un prédicteur construit en utilisant uniquement les variables utiles pourra être plus performant qu un prédicteur construit avec en plus des variables de bruit. L algorithme des randomforest calcule une estimation de son erreur de généralisation : l erreur Out-Of-Bag(OOB). OOB signifie "en dehors du bootstrap". Cette erreur estime l erreur de généralisation d une forêt. 40

41 5.2 Les arbres de décisions Un arbre de décision est un outil d aide à la décision qui représente la situation présentée sous la forme graphique d un arbre. Les algorithmes d arbres sont des méthodes aboutissant à des structures arborescentes où chaque noeud est un sous-ensemble de la population, et chaque arrête une valeur de l une des variables prédictives. Il y a trois grandes étapes dans l algorithme des arbres de décision : la phase d expansion. la phase d élagage. la phase d extraction du modèle de prédiction sous la forme d un ensemble de règles de décision. Il existe plusieurs librairies pour l utilisation des arbres de décisions sous R, tels que "rpart" [11], "tree" [9], "party" [12]. Pour l utilisation des arbres de décisions sous R nous avons choisi de charger la librairie "rpart". La librairie "rpart.plot" peut être également utilisée pour des fonctions d affichages plus intéressant. Cette section décrit la fonction rpart du package rpart ainsi que la mise en oeuvre de la méthode des arbres de décisions. 41

42 5.2.1 Mise en oeuvre des arbres de décisions Les librairies "rpart" et "rpart.plot" doivent être chargées soit manuellement soit avec la commande load(). Une fois les librairies correctement chargées, la fonction rpart() s utilise à l aide de la commande suivante : >arbre<-rpart(classe.,z,method="class") Cette commande va créer l arbre de décision qui va prédire la variable classe en fonction des autres variables présentes dans le fichier contenant les factures. Il est nécessaire par la suite de choisir un niveau de simplification en regardant la complexité qui minimise l erreur estimée. Pour déterminer cette complexité, il faut utiliser les commandes suivantes : La figure 7.1 va donner le taux d erreur en fonction du nombre d arbres. 42

43 FIGURE 5.2 Taux d erreur en fonction du nombre d arbres La complexité qui minimise l erreur estimée est de 0,031. Cela va permettre d avoir la complexité optimal a donnée en paramètre pour la construction de l arbre, ce paramètre sera pris en compte lors de la phase d élagage de l algorithme. 43

44 Un arbre simplifié peut être créée en utilisant la fonction prune avec la complexité qui minimise l erreur estimée c est à dire 0,031. La commande suivante permet de créer l arbre simplifié : >arbresimplifie<-prune(arbre,cp=0.66) La fonction prune va retourner un nouvel objet rpart tramé avec la complexité donnée en paramètre. Il ne reste maintenant plus qu à consulter l arbre : Il est possible d afficher l arbre graphiquement à l aide de la commande suivante : >prp(arbresimplifie) La figure 7.2 montre l arbre simplifié resultant de la fonction prune. 44

45 FIGURE 5.3 L arbre de décision L ensemble des feuilles de l arbre constitue donc une partition de la population. Les règles de décisions sont ensuite extraites de l arbre, en parcourant les branches pour obtenir les prémisses et en affectant la classe majoritaire de chaque feuille pour obtenir la conclusion. Les règles issues d un arbre de décision sont exclusives et couvrent l ensemble de la population. Il est maintenant d usage d évaluer la méthode et de voir le nombre d individus mal classés par la méthode des arbres de décisions. 45

46 La fonction predict() va permettre d établir une prédiction en utilisant l arbre de décision créé précédemment en procédant comme suit : La commande table() va permettre de voir précisément quels éléments ont été mal placés : Les éléments ont été correctement placés. 46

47 5.3 Classification naïve bayésienne La classification naïve bayésienne est un type de classification Bayésienne probabiliste simple basé sur le théorème de Bayes. Un classifieur bayésien naïf suppose que l existence d une caractéristique pour une classe, est indépendante de l existence d autres caractéristiques. Pour la mise en oeuvre de la classification naïve bayésienne sous R, il faudra utiliser la fonction naivebayes() de la librairie e1071. Pour comprendre le fonctionnement et les résultats de la classification naive bayésienne, il est nécessaire d étudier la description de la fonction Mise en oeuvre de la classification naives bayésienne La librairie "e1071" doit être chargée soit manuellement soit avec la commande librairy(). Une fois la librairie correctement chargée, on peut utiliser la fonction naivebayes() à l aide de la commande suivante : >m<-naivesbayes(x[1 :4],X[,5]) Ainsi la classification naives bayésienne sera effectuée sur les données du fichier contenant les factures. Il est possible d observer si les prédictions de la méthode Naives Bayes sont correct en utilisant la fonction predict. Ainsi de la meme manière que la méthode précedente, on pourra voir le taux d individu mal classés et donc la performance de la classification naives bayésienne. Il est également possible via la librairie e1071 d observer la distribution des variables pour les différentes classes. Cela va permettre d étudier la moyenne de la variable ainsi que sa variation selon l espèce pour facilité la prédiction. 47

48 5.4 Les Règles d Associations La méthode des règles d associations va permettre d effectuer une analyse pour découvrir des associations ou des relations cachées dans les grandes bases de données. Ces relations seront représentées sous forme de règles d association, par exemple la règle {Couche} -> {Biere} suggère qu il existe une relation forte entre la vente de couches et de bières parce que de nombreux clients qui achètent des couches achètent aussi de la bière. La fonction apriori du package arules est nécessaire pour la mise en oeuvre des règles d associations. Ainsi les règles d associations appliquées au fichier contenant les factures pourraient donnée par exemple des informations sur le placement de certaines variables. Par exemple, le fait que l immatriculation soit placée à un emplacement x entraine le fait que le numéro de siret soit placé à un emplacement y. 5.5 Mise en oeuvre des règles d associations Pour la mise en oeuvre des règles d associations, il est nécessaire d avoir des données de type transaction en entrée. Pour être sous la forme de transactions les données doivent être qualitatives. Ainsi les variables tels que x, y, w et h devront être transformée en varaibles qualitatives. Pour cela, il est primordial de définir certaines région qui correspondent à de certaines valeur de x, y, w et h. Il est possible de déterminer les motifs fréquent par rapport à un support que l on fixe. Pour générer les règles d associations, il est nécessaire d utiliser la fonction apriori qui va générer toutes les règles possible en fonction d un support et d une confiance donnée. Ainsi, il sera possible d extraire un sous-ensemble de ces règles d associations sachant que plus la confiance de la règle est élevé, plus elle est fiable. On pourra donc avoir des règles d associations plus ou moins sur en utilisant une des mesures de confiances(lift,confidence,..) et déterminer par exemple que le fait que un type d information x soit dans une region r1 implique que un type d information y soit dans une région r2. 48

49 5.6 Les méthodes d évaluations Les méthodes d évaluations vont permettre de visualisé la performance d une méthode de classification. De ce fait, il sera possible de comparer les différentes méthodes de classifications en se basant sur le taux d erreurs de chacuns ou sur leurs précisions Le taux d erreur La méthode d évaluation sous sa forme la plus basique est de regarder le taux d erreur de classification de chaque méthode. Il suffit alors de comparer les valeurs prédites avec les valeurs réels pour chaque méthode. Pour cela, il faut utiliser un tableau qui est appelé dans ce contexte : "matrice de confusion" Mesure de performance Il existe plusieurs mesures de performance pour évaluer des méthodes de classifications. La librairie ROCR offre un grand nombre de ces mesures tel que : -Le taux de vrai positif,faux positif -Le taux de vrai négatif,faux négatif -La precision -Accuracy -Le recall...? La librairie ROCR offre les fonctions "prediction" et "performance" pour évaluer les méthodes de classifications. La fonction prediction prend en paramètre : -Les prédictions sous forme de probabilités -Des valeurs binaires pour un label donné -> 1 si le label est présent 0 sinon. Étant donnée que les méthodes de classifications vu précédemment ont une bonne précision pour le jeu de données iris(le taux d erreur est faible), il est intéressant de changer de jeux de données et d utiliser les données fournit par la librairie ROCR pour mieux exploiter les graphiques. ROCR.hiv$hiv.nn$predictions contient les prédictions sous forme de probabilité. ROCR.hiv$hiv.nn$labels contient les valeurs binaires pour indiquer la présence ou non du label. 49

50 Chapitre 6 Le résultat La création de données numérisées de façon simple et automatique permet un gain de temps et d efficacité considérable. On peut générer une multitude de factures avec un contrôle total de la position et du contenu des informations qui seront stockées en tant qu image et en tant que données de la base de données. Le générateur de requêtes SQL de type SELECT permet l extraction d informations ciblées des documents numérisées. Une fois ces données extraites des documents numérisées et importées sous R, cela permettra d avoir une masse de données et de tester la validitée de nos méthodes. Le générateur de requête SQL offre donc une certaine flexibilité en permettant d effectuer nos méthodes avec les données que l on souhaite. L étude et l application des méthodes de classification supervisées et non supervisées sur les factures permet de donner des informations primordiaux sur la position des données de la facture. En effet, les méthodes de classifications non supervisées vont permettre de repérer les différents prestataires pour les factures données en entrée. Les classes détermineront donc les prestataires, il est possible que plusieurs prestataires appartiennent à la même classe ce qui signifie que ces prestataires ont à priori la même méthode de conception de la facture. Les méthodes de classification supervisées quant à elle vont donner des informations sur l importance des variables, par exemple celles qui jouent un rôle fort en tant que variables prédictives. Elle peut également mettre en 50

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Once the installation is complete, you can delete the temporary Zip files..

Once the installation is complete, you can delete the temporary Zip files.. Sommaire Installation... 2 After the download... 2 From a CD... 2 Access codes... 2 DirectX Compatibility... 2 Using the program... 2 Structure... 4 Lier une structure à une autre... 4 Personnaliser une

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Techniques d interaction dans la visualisation de l information Séminaire DIVA Techniques d interaction dans la visualisation de l information Séminaire DIVA Zingg Luca, luca.zingg@unifr.ch 13 février 2007 Résumé Le but de cet article est d avoir une vision globale des techniques

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7 Sommaire 1-Introduction 2 1-1- BPM (Business Process Management)..2 1-2 J-Boss JBPM 2 2-Installation de JBPM 3 2-1 Architecture de JOBSS JBPM 3 2-2 Installation du moteur JBoss JBPM et le serveur d application

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Analyse de performance, monitoring

Analyse de performance, monitoring Analyse de performance, monitoring Plan Principes de profilage Projet TPTP dans Eclipse Utilisation des profiling tools de TPTP Philippe Collet Master 1 Informatique 2009-2010 http://deptinfo.unice.fr/twiki/bin/view/minfo/gl

Plus en détail

Business Intelligence avec Excel, Power BI et Office 365

Business Intelligence avec Excel, Power BI et Office 365 Avant-propos A. À qui s adresse ce livre? 9 1. Pourquoi à chaque manager? 9 2. Pourquoi à tout informaticien impliqué dans des projets «BI» 9 B. Obtention des données sources 10 C. Objectif du livre 10

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

Business Intelligence

Business Intelligence avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................

Plus en détail

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT Ces exercices portent sur les items 2, 3 et 5 du programme d informatique des classes préparatoires,

Plus en détail

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Odile VERBAERE UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Résumé : Cet article présente une réflexion sur une activité de construction de tableau, y compris

Plus en détail

BIRT (Business Intelligence and Reporting Tools)

BIRT (Business Intelligence and Reporting Tools) BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»

Plus en détail

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Spécifications, Développement et Promotion Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC Ricco? Enseignant chercheur (CNU.27) En poste à l Université Lyon 2 Faculté de Sciences Eco. Recherche

Plus en détail

Gestion des données avec R

Gestion des données avec R Gestion des données avec R Christophe Lalanne & Bruno Falissard Table des matières 1 Introduction 1 2 Importation de fichiers CSV 1 2.1 Structure du fichier de données...................................

Plus en détail

Studio. HERITIER Emmanuelle PERSYN Elodie. SCHMUTZ Amandine SCHWEITZER Guillaume

Studio. HERITIER Emmanuelle PERSYN Elodie. SCHMUTZ Amandine SCHWEITZER Guillaume Studio HERITIER Emmanuelle PERSYN Elodie SCHMUTZ Amandine SCHWEITZER Guillaume Cours R Présentation projet 10/10/2013 Introduction RStudio est une interface créé par JJ Allaire Elle est sortie le 11 Février

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS)

Introduction aux outils BI de SQL Server 2014. Fouille de données avec SQL Server Analysis Services (SSAS) MIT820: Entrepôts de données et intelligence artificielle Introduction aux outils BI de SQL Server 2014 Fouille de données avec SQL Server Analysis Services (SSAS) Description générale Ce tutoriel a pour

Plus en détail

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE ANALYSIS OF THE EFFICIENCY OF GEOGRIDS TO PREVENT A LOCAL COLLAPSE OF A ROAD Céline BOURDEAU et Daniel BILLAUX Itasca

Plus en détail

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2 éducalgo Manuel d utilisation 26 juin 2011 Table des matières 1 Tâche à effectuer : écrire un algorithme 2 2 Comment écrire un algorithme? 3 2.1 Avec quoi écrit-on? Avec les boutons d écriture........

Plus en détail

2 Serveurs OLAP et introduction au Data Mining

2 Serveurs OLAP et introduction au Data Mining 2-1 2 Serveurs OLAP et introduction au Data Mining 2-2 Création et consultation des cubes en mode client-serveur Serveur OLAP Clients OLAP Clients OLAP 2-3 Intérêt Systèmes serveurs et clients Fonctionnalité

Plus en détail

Optimisation, traitement d image et éclipse de Soleil

Optimisation, traitement d image et éclipse de Soleil Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Forthcoming Database

Forthcoming Database DISS.ETH NO. 15802 Forthcoming Database A Framework Approach for Data Visualization Applications A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of

Plus en détail

Travaux pratiques avec RapidMiner

Travaux pratiques avec RapidMiner Travaux pratiques avec RapidMiner Master Informatique de Paris 6 Spécialité IAD Parcours EDOW Module Algorithmes pour la Fouille de Données Janvier 2012 Prise en main Généralités RapidMiner est un logiciel

Plus en détail

MYXTRACTION. 2009 La Business Intelligence en temps réel

MYXTRACTION. 2009 La Business Intelligence en temps réel MYXTRACTION 2009 La Business Intelligence en temps réel Administration Qui sommes nous? Administration et management des profils Connecteurs Base des données Gestion des variables et catégories de variables

Plus en détail

ESIEA PARIS 2011-2012

ESIEA PARIS 2011-2012 ESIEA PARIS 2011-2012 Examen MAT 5201 DATA MINING Mardi 08 Novembre 2011 Première Partie : 15 minutes (7 points) Enseignant responsable : Frédéric Bertrand Remarque importante : les questions de ce questionnaire

Plus en détail

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée

Rapport de Stage. Titre : Clustering à l aide d une représentation supervisée Nicolas Creff Du 1er février au 31 juillet 2011 Promotion 2011 Majeure SCIA Rapport de Stage Titre : Clustering à l aide d une représentation supervisée Sujet : Personnalisation de scores à l aide de la

Plus en détail

Agrégation des portefeuilles de contrats d assurance vie

Agrégation des portefeuilles de contrats d assurance vie Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées

e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées Emilie MANON, Joanna JANIK, Gabrielle FELTIN e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées 1 Introduction : La recherche

Plus en détail

Sommaire. 1 Introduction 19. 2 Présentation du logiciel de commerce électronique 23

Sommaire. 1 Introduction 19. 2 Présentation du logiciel de commerce électronique 23 1 Introduction 19 1.1 À qui s adresse cet ouvrage?... 21 1.2 Comment est organisé cet ouvrage?... 22 1.3 À propos de l auteur... 22 1.4 Le site Web... 22 2 Présentation du logiciel de commerce électronique

Plus en détail

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/2011. 1.1 Présentation. 1.2 Ressources Master Maths Finances 2010/2011 Data Mining janvier 2011 RapidMiner 1 Introduction 1.1 Présentation RapidMiner est un logiciel open source et gratuit dédié au data mining. Il contient de nombreux outils

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Program

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Program Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Program Année universitaire / Academic Year: 2013 2014 INTITULE

Plus en détail

1 Modélisation d être mauvais payeur

1 Modélisation d être mauvais payeur 1 Modélisation d être mauvais payeur 1.1 Description Cet exercice est très largement inspiré d un document que M. Grégoire de Lassence de la société SAS m a transmis. Il est intitulé Guide de démarrage

Plus en détail

BIG Data et R: opportunités et perspectives

BIG Data et R: opportunités et perspectives BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, rguati@gmail.com 2 Ecole des Sciences Géomatiques, IAV Rabat,

Plus en détail

Introduction aux SGBDR

Introduction aux SGBDR 1 Introduction aux SGBDR Pour optimiser une base Oracle, il est important d avoir une idée de la manière dont elle fonctionne. La connaissance des éléments sous-jacents à son fonctionnement permet de mieux

Plus en détail

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013 Les enjeux du Big Data Innovation et opportunités de l'internet industriel François Royer froyer@datasio.com Accompagnement des entreprises dans leurs stratégies quantitatives Valorisation de patrimoine

Plus en détail

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

L'intelligence d'affaires: la statistique dans nos vies de consommateurs L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires

Plus en détail

TP3 Intégration de pratiques agiles. 1. User Stories (1) Scénario d intégration agile. En direct-live du château

TP3 Intégration de pratiques agiles. 1. User Stories (1) Scénario d intégration agile. En direct-live du château Rappel TP3 Intégration de pratiques agiles En direct-live du château 40 41 Scénario d intégration agile 1. User Stories (1) 1. Rédiger les User Stories (exigences) 2. Planifier les Itérations (quoi / quand)

Plus en détail

Bigdata et Web sémantique. les données + l intelligence= la solution

Bigdata et Web sémantique. les données + l intelligence= la solution Bigdata et Web sémantique les données + l intelligence= la solution 131214 1 big data et Web sémantique deux notions bien différentes et pourtant... (sable et silicium). «bigdata» ce n est pas que des

Plus en détail

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8 Sage 100 CRM Guide de l Import Plus avec Talend Version 8 Mise à jour : 2015 version 8 Composition du progiciel Votre progiciel est composé d un boîtier de rangement comprenant : le cédérom sur lequel

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

Manuel d utilisation du site web de l ONRN

Manuel d utilisation du site web de l ONRN Manuel d utilisation du site web de l ONRN Introduction Le but premier de ce document est d expliquer comment contribuer sur le site ONRN. Le site ONRN est un site dont le contenu est géré par un outil

Plus en détail

COMMUNIQUE DE LANCEMENT

COMMUNIQUE DE LANCEMENT COMMUNIQUE DE LANCEMENT Le descriptif des nouvelles fonctions par produits Ligne 30 & 100 (Cbase, SQL Server et Mac) - V15.50 (juin 2008) et V15.52 (mi juillet 2008) Sage Entreprise - Version 15.50 (juin

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

La Clé informatique. Formation Excel XP Aide-mémoire

La Clé informatique. Formation Excel XP Aide-mémoire La Clé informatique Formation Excel XP Aide-mémoire Septembre 2005 Table des matières Qu est-ce que le logiciel Microsoft Excel?... 3 Classeur... 4 Cellule... 5 Barre d outil dans Excel...6 Fonctions habituelles

Plus en détail

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...) Avant-propos 1. À qui s'adresse ce livre? 15 2. Pré-requis 15 3. Objectifs du livre 16 4. Notations 17 Introduction à la Business Intelligence 1. Du transactionnel au décisionnel 19 2. Business Intelligence

Plus en détail

FEN FICHE EMPLOIS NUISANCES

FEN FICHE EMPLOIS NUISANCES Version 4.8.2 Date mise à jour : 19 Février 2013 Auteur : LAFUMA Gilles Email : glfm02@orange.fr Web : www.procarla.fr/soft Présentation : FEN FICHE EMPLOIS NUISANCES Le Logiciel FEN Fiche emploi nuisance

Plus en détail

Encryptions, compression et partitionnement des données

Encryptions, compression et partitionnement des données Encryptions, compression et partitionnement des données Version 1.0 Grégory CASANOVA 2 Compression, encryption et partitionnement des données Sommaire 1 Introduction... 3 2 Encryption transparente des

Plus en détail

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,

Plus en détail

Les outils actuels permettent-ils d automatiser la production de cartes? De quels outils dispose-t-on?

Les outils actuels permettent-ils d automatiser la production de cartes? De quels outils dispose-t-on? Le "Portrait de la Biodiversité Communale" est un document réalisé au niveau national pour chaque commune, regroupant les connaissances publiques disponibles et mobilisables à l'échelle nationale en matière

Plus en détail

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein Analyses croisées de sites Web pour détecter les sites de contrefaçon Prof. Dr. Olivier Biberstein Division of Computer Science 14 Novembre 2013 Plan 1. Présentation générale 2. Projet 3. Travaux futurs

Plus en détail

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle). 1 Objectif Description succincte de Pentaho Data Integration Community Edition (Kettle). L informatique décisionnelle («Business Intelligence BI» en anglais, ça fait tout de suite plus glamour) fait référence

Plus en détail

TP1 : Initiation à Java et Eclipse

TP1 : Initiation à Java et Eclipse TP1 : Initiation à Java et Eclipse 1 TP1 : Initiation à Java et Eclipse Systèmes d Exploitation Avancés I. Objectifs du TP Ce TP est une introduction au langage Java. Il vous permettra de comprendre les

Plus en détail

SQL Server 2012 et SQL Server 2014

SQL Server 2012 et SQL Server 2014 SQL Server 2012 et SQL Server 2014 Principales fonctions SQL Server 2012 est le système de gestion de base de données de Microsoft. Il intègre un moteur relationnel, un outil d extraction et de transformation

Plus en détail

BNP Paribas Personal Finance

BNP Paribas Personal Finance BNP Paribas Personal Finance Financially fragile loan holder prevention program CUSTOMERS IN DIFFICULTY: QUICKER IDENTIFICATION MEANS BETTER SUPPORT Brussels, December 12th 2014 Why BNPP PF has developed

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Utiliser Access ou Excel pour gérer vos données

Utiliser Access ou Excel pour gérer vos données Page 1 of 5 Microsoft Office Access Utiliser Access ou Excel pour gérer vos données S'applique à : Microsoft Office Access 2007 Masquer tout Les programmes de feuilles de calcul automatisées, tels que

Plus en détail

Initiation à Excel. Frédéric Gava (MCF) gava@univ-paris12.fr

Initiation à Excel. Frédéric Gava (MCF) gava@univ-paris12.fr Initiation à Excel Frédéric Gava (MCF) gava@univ-paris12.fr LACL, bâtiment P2 du CMC, bureau 221 Université de Paris XII Val-de-Marne 61 avenue du Général de Gaulle 94010 Créteil cedex Plan de cette année

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET TP DE DATA MINING Le TP et le projet consisteront à mettre

Plus en détail

Guide de référence pour l achat de Business Analytics

Guide de référence pour l achat de Business Analytics Guide de référence pour l achat de Business Analytics Comment évaluer une solution de décisionnel pour votre petite ou moyenne entreprise : Quelles sont les questions à se poser et que faut-il rechercher?

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Créer un document composite avec NéoOffice J et le partager

Créer un document composite avec NéoOffice J et le partager OU BIEN On veut que les élèves mettent en relation du texte et des images trouvées sur internet (ce sont eux qui devront les chercher ou bien on va les insérer dans le document et à eux de les mettre en

Plus en détail

Module de gestion des contacts et échanges avec les clients et fournisseurs (CRM)

Module de gestion des contacts et échanges avec les clients et fournisseurs (CRM) bmi-fact+ Module de gestion des contacts et échanges avec les clients et fournisseurs (CRM) Module commun aux applications bmi-fact, bmi-compta, POWERGES et Gest-Office. Qu est-ce qu un CRM (Customer Relationship

Plus en détail

Bourses d excellence pour les masters orientés vers la recherche

Bourses d excellence pour les masters orientés vers la recherche Masters de Mathématiques à l'université Lille 1 Mathématiques Ingénierie Mathématique Mathématiques et Finances Bourses d excellence pour les masters orientés vers la recherche Mathématiques appliquées

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining - http://data.mining.free.fr Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 1 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Industrial Phd Progam

Industrial Phd Progam Industrial Phd Progam Catalan Government: Legislation: DOGC ECO/2114/2012 Modification: DOGC ECO/2443/2012 Next: Summary and proposal examples. Main dates March 2013: Call for industrial Phd projects grants.

Plus en détail

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version 1.0 30/11/05

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version 1.0 30/11/05 EXCEL PERFECTIONNEMENT Version 1.0 30/11/05 SERVICE INFORMATIQUE TABLE DES MATIERES 1RAPPELS...3 1.1RACCOURCIS CLAVIER & SOURIS... 3 1.2NAVIGUER DANS UNE FEUILLE ET UN CLASSEUR... 3 1.3PERSONNALISER LA

Plus en détail

Master Développement Durable et Organisations Master s degree in Sustainable Development and Organizations Dossier de candidature Application Form

Master Développement Durable et Organisations Master s degree in Sustainable Development and Organizations Dossier de candidature Application Form Master Développement Durable et Organisations Master s degree in Sustainable Development and Organizations Dossier de candidature Application Form M / Mr Mme / Mrs Nom Last name... Nom de jeune fille Birth

Plus en détail

Initiation à LabView : Les exemples d applications :

Initiation à LabView : Les exemples d applications : Initiation à LabView : Les exemples d applications : c) Type de variables : Créer un programme : Exemple 1 : Calcul de c= 2(a+b)(a-3b) ou a, b et c seront des réels. «Exemple1» nom du programme : «Exemple

Plus en détail

AGROBASE : un système de gestion de données expérimentales

AGROBASE : un système de gestion de données expérimentales AGROBASE : un système de gestion de données expérimentales Daniel Wallach, Jean-Pierre RELLIER To cite this version: Daniel Wallach, Jean-Pierre RELLIER. AGROBASE : un système de gestion de données expérimentales.

Plus en détail

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178 Thèse no. 7178 PROBLEMES D'OPTIMISATION DANS LES SYSTEMES DE CHAUFFAGE A DISTANCE présentée à l'ecole POLYTECHNIQUE FEDERALE DE ZURICH pour l'obtention du titre de Docteur es sciences naturelles par Alain

Plus en détail

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection Nicolas HEULOT (CEA LIST) Michaël AUPETIT (CEA LIST) Jean-Daniel FEKETE (INRIA Saclay) Journées Big Data

Plus en détail

Sommaire. I.1 : Alimentation à partir d un fichier Access (.mdb)...2

Sommaire. I.1 : Alimentation à partir d un fichier Access (.mdb)...2 Sommaire I. SCENARII DE TRAITEMENTS...2 I.1 : Alimentation à partir d un fichier Access (.mdb)...2 I.1 : Vérification de l intégrité des traitements SQL sur la pyramide des ages...3 I.2 : Vérification

Plus en détail

COMPTABILITE SAGE LIGNE 30

COMPTABILITE SAGE LIGNE 30 COMPTABILITE SAGE LIGNE 30 Date : 25/09/2006 Auteur : Pascal VIGUIER Réf. : SAGE092006 SOMMAIRE SOMMAIRE... 1 1. MENU FICHIER... 3 1.1 1.2 AUTORISATION D ACCES... 3 A PROPOS DE VOTRE SOCIETE... 4 1.2.1

Plus en détail

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains

Plus en détail

Les technologies du Big Data

Les technologies du Big Data Les technologies du Big Data PRÉSENTÉ AU 40 E CONGRÈS DE L ASSOCIATION DES ÉCONOMISTES QUÉBÉCOIS PAR TOM LANDRY, CONSEILLER SENIOR LE 20 MAI 2015 WWW.CRIM.CA TECHNOLOGIES: DES DONNÉES JUSQU'À L UTILISATEUR

Plus en détail

Formation Webase 5. Formation Webase 5. Ses secrets, de l architecture MVC à l application Web. Adrien Grand <jpountz@via.ecp.fr> Centrale Réseaux

Formation Webase 5. Formation Webase 5. Ses secrets, de l architecture MVC à l application Web. Adrien Grand <jpountz@via.ecp.fr> Centrale Réseaux Formation Webase 5 Ses secrets, de l architecture MVC à l application Web Adrien Grand Centrale Réseaux Sommaire 1 Obtenir des informations sur Webase 5 2 Composants de Webase 5 Un

Plus en détail

REQUEA. v 1.0.0 PD 20 mars 2008. Mouvements d arrivée / départ de personnels Description produit

REQUEA. v 1.0.0 PD 20 mars 2008. Mouvements d arrivée / départ de personnels Description produit v 1.0.0 PD 20 mars 2008 Mouvements d arrivée / départ de personnels Description produit Fonctionnalités L application Gestion des mouvements d arrivée / départ de Requea permet la gestion collaborative

Plus en détail

GEDEXPERT. La Gestion Electronique de Documents spécialement conçue pour les Experts Comptables VOTRE NOUVEL ASSISTANT POUR

GEDEXPERT. La Gestion Electronique de Documents spécialement conçue pour les Experts Comptables VOTRE NOUVEL ASSISTANT POUR La Gestion Electronique de Documents spécialement conçue pour les Experts Comptables è GEDEXPERT Spécialement conçue pour les experts comptables Compatible avec vos outils de production et de bureautique.

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Introduction à Eclipse

Introduction à Eclipse Introduction à Eclipse Eclipse IDE est un environnement de développement intégré libre (le terme Eclipse désigne également le projet correspondant, lancé par IBM) extensible, universel et polyvalent, permettant

Plus en détail

Avertissement. La Gestion Electronique de Documents

Avertissement. La Gestion Electronique de Documents Sommaire Les plus de GEDExpert... p 1.3 Mise en place Fichiers de bases... p 1.4 Mise en place Plan de classement... p 1.8 La fiche dossier... p 1.13 L acquisition de documents... p 1.19 Les liens avec

Plus en détail

Gestion du parc informatique matériel et logiciel de l Ensicaen. Rapport de projet. Spécialité Informatique 2 e année. SAKHI Taoufik SIFAOUI Mohammed

Gestion du parc informatique matériel et logiciel de l Ensicaen. Rapport de projet. Spécialité Informatique 2 e année. SAKHI Taoufik SIFAOUI Mohammed 6, bd maréchal Juin F-14050 Caen cedex 4 Spécialité Informatique 2 e année Rapport de projet Gestion du parc informatique matériel et logiciel de l Ensicaen SAKHI Taoufik SIFAOUI Mohammed Suivi ENSICAEN

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

GEDEXPERT. La Gestion Electronique de Documents des PME PMI. VOTRE NOUVEL ASSISTANT pour. Pour partager l information au sein de l entreprise

GEDEXPERT. La Gestion Electronique de Documents des PME PMI. VOTRE NOUVEL ASSISTANT pour. Pour partager l information au sein de l entreprise La Gestion Electronique de Documents des PME PMI è GEDEXPERT Pour partager l information au sein de l entreprise Compatible avec vos outils de gestion et de bureautique. Base de données SQL sécurisée.

Plus en détail

1 Introduction et installation

1 Introduction et installation TP d introduction aux bases de données 1 TP d introduction aux bases de données Le but de ce TP est d apprendre à manipuler des bases de données. Dans le cadre du programme d informatique pour tous, on

Plus en détail

Exemple PLS avec SAS

Exemple PLS avec SAS Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that

Plus en détail

TP1 : Initiation à Java et Eclipse

TP1 : Initiation à Java et Eclipse TP1 : Initiation à Java et Eclipse 1 I. Objectif du TP TP1 : Initiation à Java et Eclipse Programmation Mobile Initiation à l environnement Eclipse et aux notions de base du langage Java. II. Environnement

Plus en détail

MODE OPERATOIRE OPENOFFICE BASE

MODE OPERATOIRE OPENOFFICE BASE MODE OPERATOIRE OPENOFFICE BASE Openoffice Base est un SGBDR : Système de Gestion de Base de Données Relationnelle. L un des principaux atouts de ce logiciel est de pouvoir gérer de façon efficace et rapide

Plus en détail

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous : BASE BioArray Software Environment (BASE) est une base de données permettant de gérer l importante quantité de données générées par des analyses de bio-puces. BASE gère les informations biologiques, les

Plus en détail

Introduction à Microsoft InfoPath 2010

Introduction à Microsoft InfoPath 2010 Introduction à Microsoft InfoPath 2010 Couplé à Microsoft SharePoint Designer 2010, InfoPath 2010 simplifie la création de solutions de bout en bout sur SharePoint Server 2010, qui contiennent des formulaires

Plus en détail

TRAVAUX DE RECHERCHE DANS LE

TRAVAUX DE RECHERCHE DANS LE TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT

Plus en détail