Le projet logiciel E.C.D.Sagitta Un état des lieux

Dimension: px
Commencer à balayer dès la page:

Download "Le projet logiciel E.C.D.Sagitta Un état des lieux"

Transcription

1 Le projet logiciel E.C.D.Sagitta Un état des lieux Olivier Raynaud http ://www.isima.fr/raynaud Résumé. Le projet logiciel E.C.D.Sagitta se présente comme la compilation de modules logiciels dédiés à l extraction de connaissances à partir de données. A ce jour nous disposons d un module d extraction (le module Extracteur qui est outils de type E.T.L.), d un module de navigation dans les règles d association (le module A.R.F. pour association rules f inder) et d un module de recherche de symétries dans les items d une collections d enregistrements (le module clone miner ). La connaissance de certaines forment de symétrie dans les données permet de calculer une représentation de ces données sous une forme moins volumineuse. Au fil du texte qui suit nous définissons le contexte de réalisation du projet logiciel. Nous pensons ici en particulier aux motivations et aux objectifs attendus de cet effort de développement. Pour cela nous rappelons en introduction les grands principes sous jacents au processus E.C.D. Ensuite, puisque par nature un processus E.C.D. incorpore une technique de fouille, nous décrivons dans la section 2 la technique du panier de la ménagère. Nous rappelons à cette occasion que les objets mathématiques sous jacents à cette technique sont le coeur de metier de notre équipe de recherche. La troisième section est consacrée à la description de deux approches originales proposées par notre équipe pour appréhender le problème de l extraction des connaissances. Enfin nous décrivons le projet logiciel, dans sa version finale souhaitée et dans sa version actuelle. 1 Introduction Les progrès de la technologie informatique dans l acquisition et le transport de données permettent aux acteurs économiques de disposer à ce jour de quantités de données souvent gigantesques. Ces progrès ont eu pour conséquence une transformation profonde de leurs modes de fonctionnement. Certains auteurs parlent de révolution des services ([7, 24]). A titre d exemple : les entreprises ont stocké et accumulé les données résultant de leurs activités opérationnelles tout au long des dernières années. Elles gardaient à l esprit leur exploitation future. En effet, une connaissance approfondie des modes de consommation et des profils clients doit permettre de mieux cerner ses besoins et de lui proposer des services plus adaptés. On parle alors de services personnalisés. Pourtant une autre analyse pourrait être faite. La connaissance acquise permet aussi de dégager

2 les grandes tendances du comportement à la consommation. Cette connaissance assure de proposer des produits normalisés pour le plus grand nombre. Charge alors aux services marketing de préparer les consommateurs à cette normalisation. Fig. 1 Croissance des capacités du parc informatique. Les capacités de stockage sont données en milliers de tera octets. Cette figure est extraite de [8]. La figure 1 montre que partout dans le monde se sont constitués des gisements considérables d informations potentielles mais que ces informations restent néanmoins très difficiles à extraire et à représenter. En effet les capacités de stockage et de traitement de l information sont sans commune mesure. Ainsi la réalisation d un processus efficace d extraction des connaissances à partir des données (processus E.C.D.) constitue un challenge incontournable pour la gestion des grandes masses de données. Les solutions matérielles retenues par les entreprises pour répondre à ce problème s appuient sur plusieurs principes. En 1995 Smith ([22]) propose une stratification de l information en fonction de la nature de son utilisation : opérationnelle, tactique ou stratégique. Les entreprises distinguent ainsi aujourd hui les besoins opérationnels du quotidien des besoins décisionnels pour le moyen et long terme. Le second principe est alors intuitif, il consiste à séparer physiquement les données d ordre opérationnel des données informationnelles qui seront archivées et conservée dans des entrepôts (data wharehouse). R. Godin dans [11] caractérise ces dernières ; Elles sont par exemple orientées sujet (on retrouve ici le découpage en domaines ou métiers, cher à la modélisation d un S.I.), intégrée (les données sont formatées en fonction de leur provenance), et pour finir temporelles (c est à dire de nature historique). Cette séparation physique des données permet de mettre en place des applications logicielles adaptées aux différents besoins ou à la nature des données. Ainsi pour le traitement opérationnel les entreprises se munissent d outils assurant les transactions en ligne (outils OLTP, ERP). Pour les données orientées décisionnel elles s équipent d outils d analyse (par exemple les outils OLAP pour l ana- 2

3 lyse multidimensionnelle) ou de prospection (progiciel de fouille de données comme SAS Enterprise Miner, Intelligent Miner, Alice, Clémentine...). Fig. 2 Architecture de stockage et de traitement des données. Cette figure est extraite de [11]. En représententant l architecture la plus répendue au sein des grandes entreprises, la figure 2 résume clairement ces principes. L objet de notre étude concerne la mise en place d un dispositif de prospection. Pour cela nous devons définir clairement ce processus de prospection ou processus E.C.D. Frawley et Piatesky-Shapiro définissent précisément le concept de fouille. Il s agit ici de l extraction d informations originales, auparavant inconnues et potentiellement utiles, à partir de données. Citons aussi la définition proposée par M.J.A. Berry : l exploration et l analyse par des moyens automatiques (ou semi automatiques) d un large volume de données afin de découvrir des tendances ou des règles. Dans la suite de ce texte nous ferons la distinction entre techniques de fouille de données ( data-mining ), qui sont multiples (statistiques, réseaux de neurones, inférence inductive...) et le processus logiciel (processus E.C.D.) assez complexe qui permet de répondre aux définitions de Frawley et Berry (La figure 3 illustre un exemple de processus). Ce processus commence par le nettoyage et la récupération des données sous un format adapté aux étapes suivantes. L ensemble des outils logiciels assurant ces fonctionnalités sont appelés outils E.T.L. (pour extraction, transformation et loading). Le processus se poursuit alors par l étape de fouille proprement dite. Son déroulement dépend très largement de la technique de fouille employée. L application E.C.D. doit ensuite permettre la visualisation des résultats sous forme de graphiques ou de tableaux de bord. Ces fonctionnalités sont appelées outils de visualisation et outils de reporting. Pour les auteurs de [7] le processus E.C.D. doit se poursuivre par la réalisation d un bilan d efficacité (plusieurs méthodes de comparaison sont proposées). Les résultats de ce bilan sont alors compilés dans la masse d informations dont dispose l entreprise 3

4 pour le domaine concerné (les auteurs justifient ainsi la notion de cercle vertueux de l extraction des connaissances à partir des données). Fig. 3 Un processus E.C.D. qui distingue bien l action de fouille ( data-mining ) de l ensemble du processus. Cette figure est extraite de [23]. Nous avons évoqué jusqu à présent les notions de données, d information et de connaissance sans les définir. Pour combler cette lacune nous nous appuyerons sur les travaux de Devlin ([4]). Il définit les données comme un ensemble de signes dont la manipulation est régie par une syntaxe. Il décrit alors l information comme un ensemble composé de données et du sens qu on leur accorde. La question de savoir si la présence de l homme est indipensable pour dégager ce sens est alors posée. En informatique on parle aussi parfois d information pour évoquer les règles ou le schéma comportemental d un ensemble de données. Il s agit bien souvent d un abus de langage et nous utiliserons le terme de meta-données (ce qu elles sont) pour les caractériser. Enfin, pour Devlin, la connaissance rapproche l information et la capacité d agir à partir de cette information. La figure 4 résume ces définitions. Nous avons retenu ces définitions pour deux raisons en particulier. La première parce qu elles rejoignent la notion de cercle vertueux qui impose une action et une mesure de son efficacité en fin de cycle E.C.D. La seconde parce qu elles positionnent l homme avec sa force de proposition et sa capacité d interprétation, au coeur du processus. Ainsi une technique de fouille de données n a de sens que si elle répond à une problématique posée par un groupe d individus et est compatible avec leurs méthodes de travail. La fouille de données doit s adapter aux besoins et non pas l inverse. Pour résumer cette introduction : nous avons justifié les besoins logiciels en comparant les croissances des puissances de traitement et des capacités de stockage des outils informatiques. Nous avons ensuite décrit l architecture de stockage et de traitement retenue par les entreprises pour répondre aux besoins opérationnels d un coté 4

5 Fig. 4 Définitions emboitées des notions de données, d information et de connaissance et décisionnels de l autre. Enfin nous avons défini l extraction des connaissances en terme de processus logiciel (appelé processus E.C.D.) et avons insisté pour positionner l homme au coeur de ce processus. Ce texte se poursuit par quatre sections. La premiere est consacrée à une technique particulière de fouille (l étude du panier de la ménagère) et à l outil mathématique majeur utilisé par cette technique (l analyse formelle de concepts). Ensuite la deuxième section décrit deux outils innovants de fouille de données (la navigation et la recherche de clones) proposées par notre équipe de recherche. Nous évoquerons dans la section suivante les besoins de notre équipe pour assurer les validation théorique et pratique de ses travaux. Enfin, la dernière porte sur une description synthétique du projet E.C.D.Sagitta. 2 Techniques de fouille de données En introduction de ce texte nous avons parlé du processus E.C.D. sans évoquer les différentes techniques de fouille proprement dites. Pour compléter notre étude, nous consacrons donc cette section à une technique particulière dite de l étude du panier de la ménagère (correspondant à la recherche des règles d association dans une base de données de transactions). 2.1 La recherche des règles d association Les magasins de grande distribution stockent dans des tables les achats effectués par leurs clients. Une table se présente alors comme une liste de transactions, ou de paniers. Et chaque transaction est décrite par l ensemble des items (les produits achetés) sélectionnés par le client. La recherche des règles d association a été introduite à l origine par Agrawal et al dans [1]. Une règle d association est une expression de la forme X Y où X (l antécédent) et Y (le conséquent) sont des ensembles d items. Le sens d une règle est intuitif : si un panier contient les items de X alors il contient probablement les items de Y. 5

6 Pour Devlin la connaissance se compose de l information et de la capacité d agir à partir de cette information. Cette idée d associer l information et l action est soutenue par M.J.A. Berry ([7]) : la fouille de données prend en entrée des données et des opportunités commerciales et produit des résultats concrets pour générer des actions. Ainsi Agrawal et al dans [1] listent un ensemble de questions auxquelles pourra répondre la recherche de règles d association et surtout le type d actions commerciales qu elles pourront entrainer. Extrait modifié de [1] : Trouver les règles avec boisson gazeuse comme conséquent ; (Comment mieux vendre la boisson gazeuse?) Trouver les règles avec biscuit comme antécédent ; (Sur quels produits aura un impact l arrêt des vente de biscuits?) Trouver les règles avec saucisse comme antécédent et moutarde comme conséquent ; (Quels produits accompagnent l achat de saucisses lorsque celui-ci s agrémente de moutarde) Trouver les règles concernant des produits provenant de rayonnages distincts ; (Exsite-t-il des liens de cause à effet entre les ventes et les rangements dans les rayonnages?) Trouver les k meilleures règles contenant soda comme conséquent ; Ce qu il faut retenir de cette liste : tout d abord les actions commerciales évoquées s expriment toujours sous la forme de questions, les informations recueillies par le processus E.C.D. fournira donc des éléments supplémentaires pour y répondre mais ne décrit pas les actions à mener elles mêmes ; ensuite la dernière question exprime l existence de critères qualitatifs d une règle. Bien que de nombreux critères aient été défini dans [13], nous ne retiendrons dans le cadre de cette étude que le support d une règle (la proportion des enregistrements de la base concernés par la règle) qui reflète sa pertinence, et la confiance d une règle (la proportion des enregistrements qui la respecte) qui indique sa justesse. Nous pouvons résumer la problèmatique soulevée précédemment comme suit : Problème 1 (La recherche des règles d association) Entrée : une relation binaire (extraite de la table à traiter) ; Sortie : un ensemble de règles d association respectant des contraintes (les contraintes fixent le contenu des règles, leur support et leur confiance) ; Précédemment nous avons défini une règle d association comme une expression de la forme X Y où X et Y sont des ensembles d items. Dans [20, 25] les auteurs ramènent le problème de la recherche de telles règles à celui de la recherche des concepts de la relation binaire servant d entrée au problème 1 (autrement dit la table de transactions). Un concept peut être vu comme un panier type. C est à dire qu il n existe pas forcement, dans la table, des transactions correspondant exactement à ce panier, mais que ce panier représente un ensemble de transactions en rassemblant ce qui leur est commun. 6

7 2.2 Fondements mathématiques La notion de concept comme représentation de la connaissance provient de la modélisation du monde réel supposé être constitué d objets ou d individus disposant de propriétés ou d attributs. La description d un concept résume les propriétés partagées par un ensemble d objets. La structure qui regroupe et décrit l ensemble des concepts issus d une base de données est connue sous le nom de treillis de Galois de la relation binaire objet-propriété. Cette correspondance de Galois a été proposée à la fin des années 60 ([3]) et reste aujourd hui l outil majeur dans l étude des données constituées d objets décrits par des propriétés ([21]). Le spectre des applications est large. Il couvre la classification conceptuelle, l analyse formelle de concepts (utilisée pour la recherche des règles d association), les bases de données relationnelles et objets ou la théorie des implications ([5, 6]). D une façon générale le nombre de concepts d une relation binaire croit de façon exponentielle avec la taille de cette relation. Notons que des auteurs ont montré que ce n était pas toujours le cas d un point de vue pratique ([25]). Malgrès tout, tout effort visant à reduire la taille de cette relation assure une meilleure efficacité des algorithmes de calcul des concepts. Notre équipe de recherche s est spécialisée depuis longtemps dans l étude des propriétés des ensembles ordonnés et des treillis. Ainsi, notre travail consiste souvent à déterminer, pour une strucure discrête donnée et plus particulièrement pour un treillis, une représentation simple et ayant une algorithmique efficace (reconstruction, génénration, test de comparabilité...). A ce jour, notre vision est clairevoyante dans les domaines de l algorithmique combinatoire, de l algorithmique de génération des treillis, mais auusi dans les domaines de la théorie et de la représentation des treillis et du codage des ordres partiels. Néammoins, dans le contexte d une recherche internationale compétitive et exigeante, une diffusion large de nos résultats est dépendante d une vérification expérimentale de qualité. 2.3 Besoins logiciels dans un cadre de recherche scientifique Notre intuition est que cette validation doit suivre deux axes (cf. figure 5) : 1. la programmation d applications legères permettant la génération, la gestion, la visualisation des objets étudiés, mais aussi la vérification de leurs propriétés ; Nous parlerons alors de validation théorique. 2. l adéquation de l utilisation de ces objets dans le cadre de l analyse des bases de données ou de la fouille de données. Nous parlerons ici de validation pratique Validation théorique Nous l avons évoqué, les travaux de notre équipe porte sur la génération, la reconnaissance et la définition d objets combinatoires complexes issus d une relation binaire. 7

8 Fig. 5 Le rôle d une application dans un schéma de validation L algorithmique associée porte sur des objets basiques (les inf-irréductibles ou les supirréductibles) du treillis de Galois de la relation. Pour implémenter cette algorithmique nous devons disposer d une boite à outils (ou collection de fonctions) qui manipulent ces objets basiques. Nous pourrons alors appliquer ces algorithmes à des ensembles de benchmarks reconnus et vérifier expérimentalement la justesse des résultats. Dans un second temps nous pourrons réaliser des statistiques ou des comparaisons avec d autres méthodes. La figure 6 résume ce processus et mentionne plus précisément la nature des objets combinatoires étudiés. Fig. 6 Protocole de validation théorique Pour mettre en place un tel processus nous devons respecter un certain nombre de recommandations. Tout d abord définir un format de stockage d une relation et donc disposer d une application qui transforme les fichiers benchmarks dans ce format (cf. figure 7). Ensuite, nous devons mettre à disposition un environnement de développement rapide et pour cela documenter très précisément la collection de fonctions disponibles. Enfin, pour préparer au mieux nos solutions algorithmiques à un futur passage à l échelle (tout relatif), les fonctions de notre collection devront picorer dans les fichiers formatés et ne surtout pas les charger en mémoire. 8

9 Fig. 7 Schéma de discrétisation de benchmarks Validation pratique La validation dite pratique consiste à mesurer l adéquation des méthodes innovantes que nous proposons (cf. section 3) au processus E.C.D. Comme nous l avons précisé en introduction, un processus E.C.D. doit positionner l analyste au coeur de son déroulement. En ce sens l utilisation de benchmarks pour mesurer l efficacité de nos méthodes n est pas toujours adaptée. Notre intention est donc de proposer à l analyste un ensemble d outils, déjà connus et/ou innovants, qui lui permettent de réaliser le processus sur ses données propres. Enfin la proximité de l analyste nous permettra de répondre à une autre exigence mentionnée en introduction : une technique de fouille doit répondre à un type de question précis. Avec l analyste, nous serons à même de définir clairement ces questions. Fig. 8 Schéma de validation pratique. Les outils innovants mentionnés font l objet d une description complète dans la section 3 de ce document. Pour résumer nos besoins, nous devons disposer d une application qui assure la récupération de benchmarks, leur discrétisation et leur formatage (format XML). Nous devons disposer d une bibliothèque de fonctions (largement documentée) qui permette la gestion d une relation (sous format XML) et la génération de ses objets basiques (inf. et sup-irréductibles). Du coté analyste nous devons disposer d une application qui assure les premières tâches du processus E.C.D. (nettoyage, discrétisation, affinage, formatage) et l accès à des techniques innovantes de fouille. Nous devrons aussi assurer la confidentialité de ses données. Dans cette section nous avons décrit une technique de fouille (l étude du panier de la ménagère) et montré que cette technique repose sur la problèmatique de la génération du treillis des concepts issus d une relation binaire. Nous avons rappelé à cette occasion que cette problématique constitue le coeur de métier de notre équipe de recherche. 9

10 Nous avons finalement évoqué la nécessité de disposer d outils logiciels pour assurer les validations théorique et pratique de nos travaux. Plusieurs fois au cours des pages précédentes des outils originaux participants au processus E.C.D. ont été mentionnés. La section suivante est consacrée à une description plus détaillée de ces outils. 3 Approche proposée par notre équipe Au cours des dernières années notre équipe a orienté ses efforts dans l étude des stuctures discrètes ordonnées et des systèmes implicationnels. Citons par exemple l énumération des éléments du treillis de Galois ([9, 19]), la reconnaissance de règles appartenant à des bases d implications données ([16]), la recherche interactive des règles d association ([16, 17]) ou la recherche de similitudes dans le comportement des attributs d une table ([10, 15]). Notre attention se porte donc sur l étude des structures mais aussi sur les algorithmes sous jacents. Peut-on répondre à des requêtes concernant les objets étudiés en temps raisonnable (polynomial)? Ces différents travaux sont dans la droite ligne des résultats obtenus par les membres de l équipe en des temps plus anciens ([14, 18]). Ces travaux nous permettent aujourd hui de proposer deux outils innovants de fouille de données. Le premier, appelé navigation, s appuie sur la technique de la recherche des règles d association. Le second, appelé recherche de clones, nous permet de réduire le volume des données à traiter, de valider des choix de discrétisation ou de réaliser des tâches de classification. Les techniques de classification étant un des pilliers essentiels de la fouille de données. 3.1 La navigation Les solutions standards La plupart des méthodes proposées pour résoudre le problème 1 consistent en une démarche itérative composée : 1. d une étape de génération (potentiellement exponentielle) d un ensemble de règles ; 2. d une étape de parcours de cet ensemble pour trouver la/les règle/s intéressante/s ; 3. d une étape d analyse et d affinage qui relance le processus ; Ces méthodes permettent un parcours des règles une fois que l ensemble des règles a été généré. La phase d affinage permet d appliquer des contraintes. On peut restreindre l espace de recherche en augmentant les seuils de support et de confiance ([2], [12]) ou en spécifiant que les règles recherchées contiennent tel item. La seule interaction avec l utilisateur consiste en l évaluation des contraintes. Le temps de calcul nécessaire à la réalisation de l étape de génération est un obstacle crucial à l interactivité entre l utilisateur et le progiciel alors même que le processus E.C.D. est hautement centré sur l humain, sa connaissance du domaine, son intuition et sa capacité d interprétation. 10

11 Pour répondre à cet inconvénient majeur nous proposons une méthode originale de navigation à priori dans l espace des règles Découverte interactive des règles d association Notre méthode de navigation est un processus interactif qui permet de générer les règles à la demande. L analyste se voit proposer un ensemble restreint (polynomial) de règles dites générales dont les parties droites correspondent à chaque item. Il a ensuite la possibilité de demander une réduction de la partie gauche d une règle afin d affiner ce qui est vraiment nécessaire pour produire la partie droite. A chaque étape du processus le nombre de calculs est restreint, ceci assure de garder le contact avec l utilisateur. Au fur et à mesure on voit donc se construire un arbre de règles dont les branches peuvent être élaguées ou développées. Bien que cet arbre soit composé de règles exactes (de confiance 1), l utilisateur pourra, pour une règle donnée, extraire des règles de qualité dégradée (pour le support et la confiance). Enfin l outil est capable de semi-automatiser la réduction d une règle générale à la demande de l utilisateur. L outil permettra aussi de vérifier si la règle choisie appartient à une base spécifique (base réduite à gauche, etc). Les résultats mathématiques sous-jacents à ces fonctionnalités ont fait l objet de publications récentes [17, 16]. 3.2 La recherche de Clones Dans [15] les auteurs définissent, de manière formelle, une relation d équivalence sur l ensemble des items décrivant une relation binaire. Ces classes sont appelés classes d items clones. Deux items sont clones si leur présence est interchangeable dans l ensemble des concepts de la relation. Ainsi l ensemble des paniers types où l un des items clones apparait peut être déduit de l ensemble des paniers types où le second item est présent. Et ceci en un nombre linéaire de calculs. En représentant chaque classe d items clones par un seul item on réduit le contexte et ainsi l espace de recherche des règles Sémantique associée aux clones Comment interpréter le fait que deux items, qui permettent de décrire un ensemble de transactions, sont interchageables? Aujourd hui notre réponse n est que partielle. Afin de faciliter la discussion nous proposons quatre exemples : 1. Un grand nombre de paniers types contiennent les mêmes produits à ceci près que certains d entre eux inclus des chaises de jardin alors que les autres incorporent un banc de jardin ; 2. Le comportement accidentogène des conducteurs ayant moins de 10 ans de pratique de la conduite est le même pour les tranches d ages de 18 à 23 ans et de 23 à 27 ans. 3. La répartition du pouvoir d achat sur les biens de comsommation ou de services est le même pour les seniors que pour les juniors. 4. Pour chaque panier type contenant un article vestimentaire de telle marque, il existe le même panier type, sans cet article, mais avec un article de quincaillerie. 11

12 Les quatre assertions précédentes sont supposées être des interprétations possibles faites à partir d un ensemble de règles. Notons que ces règles ne sont pas exclusivement issues de bases de transactions. Nous avons élargi le champs d étude au domaine de l assurance et au domaine socio-économique. Pour ces domaines on ne parle plus d items et de transactions mais d attributs et d enregistrements. Pour être adaptées à la recherche des règles d association les données doivent alors subir un traitement appelé discrétisation. Une discrétisation consiste à découper en tranches les attributs dit continus qui décrivent les enregistrements de la table. Autrement dit la discrétisation de l attribut âge consiste par exemple à regrouper dans une même classe d âge tous les personnes de 18 à 23 ans et toutes les personnes de 23 à 27 ans. Les attributs clones dans les 4 cas étudiés sont :chaises/banc de jardin, tranches [18,23]/[23,27], tranche junior/senior, marque vestimentaire/quincaillerie. Notre intuition est que la sémantique est sensiblement différente pour chacun de ces cas. Le cas deux est clairement relatif à une discrétisation non adaptée, en effet il aurait fallut ne pas découper en deux la tranche [18-27] puisque l âge n a aucune influence sur l ensemble des règles. Le cas trois est le même si ce n est que les intervalles (junior, sénior) ne sont pas contigüs. Le cas 1 reflète le problème de la hiérarchie dans les niveaux de description des articles du magasin. Si une telle classe de clones existe c est que le niveau de description n était pas ou peu adapté. Enfin, le cas 4, très mystérieux, résiste à toute analyse à ce jour. En plus de permettre une réduction d un contexte, les clones se présentent donc comme un moyen de vérification ou un critère d évaluation de la qualité d une procédure de discrétisation, de classification ou de description hiérarchique d un ensemble d objets Les items clones dans un processus E.C.D. Notre intention est d utiliser la technique des clones pour les deux problémes suivants : Réduction des volumes de données à traiter Comme nous l avons mentionné, en représentant chaque classe d items clones par un seul item on réduit le contexte et ainsi l espace de recherche des règles. L utilisation de cette technique peut s inscrire dans une phase de pré-processing, succédant à la phase de discrétisation, visant à réduire la taille d un contexte avant l application d une technique de fouille. Une phase de post-processing est alors nécessaire pour reconstruire les règles à partir de la définition des classes de clones. Ceci afin de préparer les données à la phase de visualisation. Il est à noter que la reconstruction peut être effectuée à la demande. Outil d évaluation qualitative d une phase de discrétisation Dans une application logicielle dédiée à la discrétisation nous proposerons une fonctionnalité d évaluation d une discrétisation donnée. En déterminant les classes d items clones nous seront à même de repérer des cas similaires aux cas 2 et 3. C est à dire des cas où les classes d items clones sont issus de la discrétisation d un 12

13 même item. Nous proposerons alors le regroupement de tels ou tels intervalles de valeurs Difficultés algorithmiques L expérience montrera sûrement que le nombre de clones d une relation est limité. Notre recherche ne doit donc pas se restreindre aux classes exactes de clones. Nous avons proposé une première notion de distance entre attributs (si cette distance est nulle les attributs sont clones) malheureusement sont évaluation reste délicate puisque elle nécessite de devoir compter un ensemble de règles. Ce qui n est pas le cas pour déterminer les classes exactes. Le calcul d une approximation de cette distance a fait l objet d un projet étudiant et d une implémentation. Le logiciel est disponible à l adresse suivante : http ://www.isima.fr/raynaud/software/clone/download.htm Conclusion Nous avons présenté dans cette section deux outils innovants de fouille de données que sont la navigation et la recherche de clones. La navigation est originale car elle se présente comme un outil interactif de recherche de règles alors que cette technique de fouille est classée comme non dirigée dans la littérature. La recherche de clones nous permet quand à elle de réduire le volume de la relation et ainsi de rendre plus efficace les traitements de fouille, quels qu ils soient. Enfin, ces deux outils s appliquent sur des relations binaires et imposent donc un traitement de discrétisation des données étudiées. Nous pensons que la qualité des résultats produits par ces outils est très dépendante de cette phase de discrétisation. Nous avons montré que la recherche de clones peut être adaptée à l évaluation de la qualité d une discrétisation. 4 Le projet E.C.D.Sagitta L objectif de notre projet logiciel est le développement d un ensemble d applications (ou de modules) appelé E.C.D.Sagitta répondant aux besoins exprimés. Cette section est composée de deux sous-sections. Dans un premier temps nous donnons l architecture modulaire retenue par notre équipe. Le développement de ces modules et de leurs fonctionnalités sont donc des objectifs à atteindre. Dans un second temps nous décrivons les développements déja effectués. 4.1 Une architecture modulaire adaptée 1. Le module Extracteur : l étude des besoins a montré la nécessité d une application (outils E.T.L.) assurant le nettoyage, la discrétisation (ou le calcul des agrées) et le formatage X.M.L. des données. Ce module doit s installer sur le poste utilisateur et donner accès aux bases de données locales hébergant les données brutes ou les benchmarks. Cet outil installé localement assurera la confidentialité 13

14 des données. Ce module sera utilisé indifféremment par les analystes qui préparent leurs données ou par les chercheurs qui formatent les benchmarks en vue de valider leurs travaux. Ces derniers auront le choix d extraire des benchmarks une relation discrétisée pour évaluer des outils de fouille, ou d extraire les agrées pour tester des outils d analyse de base de données. Ce module répond aux besoins de la figure Le centre de calcul : il réalise les calculs lourds à partir des fichiers formatés fournis en entrée. Ce centre à disposition des programmeurs se présentera sous la forme d une liste précise de fonctions qu il sait calculer (la boite à outils). Il sera clairement documenté. 3. Le serveur : le dernier module est constitué du serveur qui assure l interface entre les utilisateurs et le centre de calcul. Il donne accès aux outils innovants de fouille ou d analyse de données. Il assure aussi la gestion d un espace disque permettant le stockage des fichiers normalisés, et d enregistrer les travaux en cours. Les utilisateurs inscrits ont accès à ces services par l intermédiaire d un client léger (navigateur Web). La figure 9 résume l architecture matérielle et logicielle retenue. Fig. 9 Architecture modulaire 4.2 Les développements déjà effectués A ce jour notre effort de développement s est porté : sur le module d extraction indispensable à la gestion des benchmarks et aux formatage X.M.L. des données ; sur l architecture du serveur (gestion des services d espace disque aux utilisateurs) et la mise en place du premier service de technique innovante de fouille (la navigation interactive). sur quelques fonctions du centre de calcul programmées en C++ (avec utilisation des S.T.L.) ; 14

15 4.2.1 Le module Extracteur Le module Extracteur assure tout d abord le branchement sur des bases de données Oracle et MySql. Ensuite il permet d exécuter une discrétisation des données sélectionnées suivant différentes méthodes (adaptées à divers contextes). Enfin Extracteur exporte les données obtenues sous un format X.M.L. qui servira de format d entrée pour les modules suivants. Puisque Extracteur se branche directement sur une base de données, la discrétisation peut se faire sur une vue/table dont le contenu a déjà fait l objet d une vérification ou d une sélection des lignes ou des colonnes. A terme Extracteur proposera tout de même un service de nettoyage. A noter que si les données ne sont pas disponibles dans une base (comme les benchmarks du Web, ou dans le cas de données dispersées) nous devons passer par la réalisation d un script SQL de création d une table qui sera hébergée sous les S.G.B.D. Oracle ou MySql (cf. figure 10). Fig. 10 Processus d extraction des données Cette phase d extraction et de transformation est primordiale pour assurer la qualité de la suite du processus. Notre objectif n est pas d implémenter toutes les techniques de discrétisation proposées par les progiciels (SAS, Alice...), mais de pouvoir tester des méthodes originales ou des méthodes proposées, imaginées par les analystes utilisateurs. Pour cela l originalité de ce module tient dans la possibilité d insérer à Extracteur des plug-in implémentant de nouvelles méthodes. Un plug-in se présentera sous la forme d une classe java (des classes exemples seront à disposition pour la consultation). L analyste se confrontera alors uniquement aux aspects algorithmiques de ses besoins et non pas sur les aspects techniques ou d implémentation. La figure 11 est une capture d écran du prototype opérationnel disponible pour téléchargement à l adresse : w3.isima.fr/raynaud/software/extracteur/extracteur.htm Le serveur Pour répondre aux besoins exprimés dans la section précédente nous avons retenu un serveur TomCat produisant des pages HTML par l intérmédiaire de Servlets (issue de pages JSP). Le serveur a pour rôle de répondre aux requêtes exprimées par les utilisateurs grace à un client leger de type navigateur. 15

16 Fig. 11 Capture d écran de Extracteur (d autres captures d écran sont disponibles à l adresse w3.isima.fr/raynaud/software/extracteur) Le serveur TomCat est physiquement hébergé par notre équipe et assure la cohésion entre différents modules : un serveur de base de données pour la gestion des droits et des comptes utilisateurs ; un espace disque personnalisé qui sert au stockage de fichiers de travail et des sources de données sous un format X.M.L. ; un centre de calcul (serveur XML-RPC) qui assure l exécution des algorithmes sur les données stockées dans les espaces disque. Le langage et l environnement de développement choisi est donc Java (J2EE). La figure 12 résume l architecture retenue pour le serveur. Fig. 12 Architecture du serveur Le centre de calcul Le centre de calcul se présente sous la forme d une interface de fonctions (ou API). Ces fonctions ont été développées en C++ (avec utilisation de S.T.L.) et compilées. 16

17 Grâce au logiciel Swig nous produisons à partir du fichier compilé un programme Python appelable par le serveur XML-RPC. Actuellement l interface est composée de 3 fonctions nécessaires pour l exécution de la recherche interactive de règles d association. 5 Conclusion Adam Smith, dans la société des nations, décrit tous les avantages inhérents à une économie de marché. Citons le dynamisme économique, les libertés d entreprendre, la croissance des richesses ou l autorégulation des prix assurée par la loi de l offre et de la demande. Il précise néammoins le contexte idéal à cette économie : un contexte à information compléte dans lequel chacun est libre de choisir ou d agir. Disposer de l information est donc un atout crucial pour consommer, acheter ou investir intelligemment sur le marché. Pour cette raison les problèmes liés à la gestion des grandes masses de données, à la recherche d information ou de connaissances dans les entrepôts de données sont des problèmes sensibles. Les acteurs économiques veulent disposer d une information fiable pour axer leurs stratégies sur le moyen et long terme. Nous pouvons peut être trouver ici une explication du boum survenu ces dernières années dans les domaines de l informatique liés à ces problèmatiques. L économie n est pas le seul domaine pour lequel l information est sensible. L état, pour rationaliser son administration ou assurer la sécurité (dans tous ces aspects opérationnels) est insatiable en informations. Rationaliser consiste souvent à créer des gains de productivité par l automatisation d un grand nombre de tâches. L outil informatique est l outil idéal pour mettre en place cette automatisation. Nous pensons néammoins que la fouille de données à ceci de particulier qu elle assiste des prises de décision parfois délicates et lourdes de conséquences. Pour cette raison le décideur doit pouvoir comprendre et retracer le cheminement de l analyse automatique de l outil informatique et savoir limiter sa portée. Enfin, la soif de savoir qui caractèrise l homme n est pas toujours justifiée par un but précis (compétitivité, sécurité...). Elle correspond aussi souvent à une démarche inconsciente qui nous pousse à comprendre l univers qui nous entoure. La fouille ou l analyse de données de masse sont devenus des outils indispensables aux métiers de la recherche. Par exemple ils ont permis aux biologistes de mettre en place une nouvelle classification phylogénétique du vivant. Au XVIIIième siècle Voltaire évoque cette soif de comprendre, il raconte aussi l orgueil des hommes qui raisonnent. Cet orgueil qui persuade les individus de la démesure de leur destin. Pour répondre aux hommes, l écrivain les confronte à Micromégas, un géant voyageur venu sur Terre par hasard dont le savoir est immense. En les quittant il leur laissera quelques bribes de ce savoir. Des pages blanches. Afin de tenir compte de cet avertissement nous avons retenu le nom de E.C.D.Sagitta pour notre projet. En effet Sagitta, la flêche, est synonyme d acuité et de rapidité, ce que l on souhaite à nos algorithmes. Ce mot est aussi la racine du mot sagesse, celle que l on doit conserver dans le cadre d une quête difficile. 17

18 Références [1] R. Agrawal, T. Imielinski, and A. Swami. Mining association rules between sets of items in large databases. In ACM SIGMOD 93. Washington, USA, [2] R. Agrawal and R. Srikant. Fast algorithm for mining association rules. In 20th International Conference of Very Large DataBasis (VLDB), pages Santiago, Chile, September, [3] M. Barbut and B. Monjardet. Ordre et classification. Hachette, [4] K. Devlin. Turning Information into Knowledge. InfoSens, [5] V. Duquenne. Latticial structure in data analysis. Theoritical Computer Science, 217 : , [6] V. Duquenne and J-L. Guigues. Famille minimale d implications informatives résultant d un tableau de données binaires. Mathématiques Sciences Humaines, 24, [7] M.J.A. Berry et G. Linoff. Data-Mining, Techniques appliquï 1 2s au marketing, la vente et aux services clients. InterEditions, ï 1 2 [8] R. Lefebure et G. Venturi. Data-Mining, Gestion de la relation client, Personnalisation de site Web. Eyrolles, seconde edition, [9] A. Gely. A generic algorithm for generating closed sets of a binary relation. In ICFCA 05, [10] A. Gely, R. Medina, L. Nourine, and Y. Renaud. Uncovering and reducing hidden combinatorics in guigues-duquenne covers. In ICFCA 05, [11] R. Godin. Les entrepï 1 2 s de donnï 1 2 s et l analyse de donnï 1 2s. Version beta edition, [12] J. Hipp, U. Guentzer, and G. Nakhaeizadeh. Algorithms for association rules mining - a general survey and comparison. SIGKDD Exploration, 2(1) :58 64, [13] M. Halkidi M. Vazirgiannis and D. Gunopulos. Uncertainty Handling and Quality Assessment in Data-Mining. Springer, [14] R. Medina and L. Nourine. Algorithme efficace de gï 1 2ï 1 2 ation des idï 1 2ux d un ensemble ordonnï 1 2. [15] R. Medina and L. Nourine. Clone items : a pre-processing information for knowledge discovery. submitted. [16] R. Medina, L. Nourine, and O. Raynaud. Interactive association rules discovery. In 4th International Conference, ICFCA, pages , [17] R. Medina, C. Noyer, and O. Raynaud. Efficient algorithms for clone items detection. In CLA 05, pages 70 81, [18] L. Nourine and O. Raynaud. A fast algorithm for building lattices. Information Processing Letters, volume 71 : , [19] L. Nourine and O. Raynaud. A fast incremental algorithm for building lattices. Journal of Experimental and Theoritical Artificial Intelligence, 14 : ,

19 [20] N. Pasquier, Y. Bastide, R. Taouil, and L. Lakhal. Efficient mining of association rules using closed itemset lattices. Information Systems, 24, 1 :P , [21] R.Wille. Why can concept lattices support knowledge discovery in database. Journal of experimental and theoritical artificial intelligence, volume 14 :81 92, [22] D. Smith. System engineering for healthcare professionals. Cardiff institute of higher education, [23] G. Piatesky-Shapiro U. Fayyade and P. Smyth. From data-mining to knowledge discovery in data base. AAAI97, [24] I. Watson. Applying case-based reasonning : Techniques for Enterprise Systems. Morgan Kaufmann, [25] M. Zaki. Generating non redundant association rules. October,

Généralités sur les bases de données

Généralités sur les bases de données Généralités sur les bases de données Qu est-ce donc qu une base de données? Que peut-on attendre d un système de gestion de bases de données? Que peut-on faire avec une base de données? 1 Des données?

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

LES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1

LES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1 LES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1 SAS Cost and Profitability Management, également appelé CPM (ou C&P), est le nouveau nom de la solution SAS Activity-Based Management. Cette version

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données

Plus en détail

UE 8 Systèmes d information de gestion Le programme

UE 8 Systèmes d information de gestion Le programme UE 8 Systèmes d information de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur Indications

Plus en détail

Les solutions SAS pour les Petites et Moyennes Entreprises

Les solutions SAS pour les Petites et Moyennes Entreprises BROCHURE SOLUTION Les solutions SAS pour les Petites et Moyennes Entreprises Sur un marché aussi compétitif que celui des Petites et Moyennes Entreprises, le temps et l efficacité sont deux valeurs prioritaires

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Fouille de données: des bases binaires aux bases évidentielles

Fouille de données: des bases binaires aux bases évidentielles Fouille de données: des bases binaires aux bases évidentielles Ahmed Samet Faculté des sciences de Tunis Présenté le : 16 janvier 2013 Ahmed Samet Fouille de données: des bases binaires aux bases évidentielles

Plus en détail

Les principaux domaines de l informatique

Les principaux domaines de l informatique Les principaux domaines de l informatique... abordés dans le cadre de ce cours: La Programmation Les Systèmes d Exploitation Les Systèmes d Information La Conception d Interfaces Le Calcul Scientifique

Plus en détail

JEN : un algorithme efficace de construction de générateurs pour l identification des règles d association

JEN : un algorithme efficace de construction de générateurs pour l identification des règles d association JEN : un algorithme efficace de construction de générateurs pour l identification des règles d association Amélie Le Floc h*, Christian Fisette*, Rokia Missaoui**, Petko Valtchev***, Robert Godin* * Département

Plus en détail

Thibault Denizet. Introduction à SSIS

Thibault Denizet. Introduction à SSIS Thibault Denizet Introduction à SSIS 2 SSIS - Introduction Sommaire 1 Introduction à SQL Server 2008 Integration services... 3 2 Rappel sur la Business Intelligence... 4 2.1 ETL (Extract, Transform, Load)...

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza Avant de commencer à travailler avec le produit, il est nécessaire de comprendre, à un haut niveau, les problèmes en réponse desquels l outil a été

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

JASPERSOFT ET LE PAYSAGE ANALYTIQUE. Jaspersoft et le paysage analytique 1

JASPERSOFT ET LE PAYSAGE ANALYTIQUE. Jaspersoft et le paysage analytique 1 JASPERSOFT ET LE PAYSAGE ANALYTIQUE Jaspersoft et le paysage analytique 1 Ce texte est un résumé du Livre Blanc complet. N hésitez pas à vous inscrire sur Jaspersoft (http://www.jaspersoft.com/fr/analyticslandscape-jaspersoft)

Plus en détail

L informatique des entrepôts de données

L informatique des entrepôts de données L informatique des entrepôts de données Daniel Lemire SEMAINE 13 L exploration des données 13.1. Présentation de la semaine L exploration de données (ou data mining) est souvent associée à l intelligence

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles) SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients

Plus en détail

Concevoir des applications Web avec UML

Concevoir des applications Web avec UML Concevoir des applications Web avec UML Jim Conallen Éditions Eyrolles ISBN : 2-212-09172-9 2000 1 Introduction Objectifs du livre Le sujet de ce livre est le développement des applications web. Ce n est

Plus en détail

Didier MOUNIEN Samantha MOINEAUX

Didier MOUNIEN Samantha MOINEAUX Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

DEMANDE D INFORMATION RFI (Request for information)

DEMANDE D INFORMATION RFI (Request for information) DOD SEICAM RFI Demande d information EVDEC Réf. : RFI_EVDEC- GT5_Outil_reporting_BI_v4.doc Page 1/11 DEMANDE D INFORMATION RFI (Request for information) OUTIL INTÉGRÉ DE REPORTING ET D ANALYSE DÉCISIONNELLE

Plus en détail

SQL Server 2012 et SQL Server 2014

SQL Server 2012 et SQL Server 2014 SQL Server 2012 et SQL Server 2014 Principales fonctions SQL Server 2012 est le système de gestion de base de données de Microsoft. Il intègre un moteur relationnel, un outil d extraction et de transformation

Plus en détail

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence É C O L E D I N G É N I E U R D E S T E C H N O L O G I E S D E L I N F O R M A T I O N E T D E L A C O M M U N I C A T I O N Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION Mentions

Plus en détail

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et

Plus en détail

Intelligence Economique - Business Intelligence

Intelligence Economique - Business Intelligence Intelligence Economique - Business Intelligence Notion de Business Intelligence Dès qu'il y a une entreprise, il y a implicitement intelligence économique (tout comme il y a du marketing) : quelle produit

Plus en détail

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte 1Les bases : vos objectifs 2 Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

CARTE HEURISTIQUE...1 LA CHAÎNE DÉCISIONNELLE...2. Collecte des données...2 Stockage des Données...3 Exploitation des Données...4 OLTP ET OLAP...

CARTE HEURISTIQUE...1 LA CHAÎNE DÉCISIONNELLE...2. Collecte des données...2 Stockage des Données...3 Exploitation des Données...4 OLTP ET OLAP... Table des matières CARTE HEURISTIQUE...1 LA CHAÎNE DÉCISIONNELLE...2 Collecte des données...2 Stockage des Données...3 Exploitation des Données...4 OLTP ET OLAP...6 OPÉRATIONS SUR LES CUBES...7 Exemple

Plus en détail

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM Étude de cas technique QlikView : Big Data Juin 2012 qlikview.com Introduction La présente étude de cas technique QlikView se consacre au

Plus en détail

Spécificités, Applications et Outils

Spécificités, Applications et Outils Spécificités, Applications et Outils Ricco Rakotomalala Université Lumière Lyon 2 Laboratoire ERIC Laboratoire ERIC 1 Ricco Rakotomalala ricco.rakotomalala@univ-lyon2.fr http://chirouble.univ-lyon2.fr/~ricco/data-mining

Plus en détail

Application de K-means à la définition du nombre de VM optimal dans un cloud

Application de K-means à la définition du nombre de VM optimal dans un cloud Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février

Plus en détail

Pour les entreprises de taille moyenne. Descriptif Produit Oracle Oracle Business Intelligence Standard Edition One

Pour les entreprises de taille moyenne. Descriptif Produit Oracle Oracle Business Intelligence Standard Edition One Pour les entreprises de taille moyenne Descriptif Produit Oracle Edition One POURQUOI VOTRE ENTREPRISE A BESOIN D UNE SOLUTION DE BUSINESS INTELLIGENCE (BI) Des quantités toujours plus importantes de données

Plus en détail

LES ENTREPOTS DE DONNEES

LES ENTREPOTS DE DONNEES Module B4 : Projet des Systèmes d information Lille, le 25 mars 2002 LES ENTREPOTS DE DONNEES Problématique : Pour capitaliser ses informations, une entreprise doit-elle commencer par mettre en œuvre des

Plus en détail

Ici, le titre de la. Tableaux de bords de conférence

Ici, le titre de la. Tableaux de bords de conférence Ici, le titre de la Tableaux de bords de conférence pilotage d entreprise, indicateurs de performance reporting et BI quels outils seront incontournables à l horizon 2010? Les intervenants Editeur/Intégrateur

Plus en détail

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours Information du cours Informatique décisionnelle et data mining www.lia.univ-avignon.fr/chercheurs/torres/cours/dm Juan-Manuel Torres juan-manuel.torres@univ-avignon.fr LIA/Université d Avignon Cours/TP

Plus en détail

BIRT (Business Intelligence and Reporting Tools)

BIRT (Business Intelligence and Reporting Tools) BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Etat de l art sur l utilisation des techniques Web Sémantique en ECD

Etat de l art sur l utilisation des techniques Web Sémantique en ECD Etat de l art sur l utilisation des techniques Web Sémantique en ECD Hicham Behja ENSAM Meknès(1,2,3) Brigitte Trousse Projet AxIS INRIA Sophia Antipolis (2) Abdelaziz Marzak Faculté des sciences Casablanca

Plus en détail

Cahier de charges (Source : "Java EE - Guide de développement d'applications web en Java" par Jérôme Lafosse) Module. Site Web dynamique JSP / Servlet

Cahier de charges (Source : Java EE - Guide de développement d'applications web en Java par Jérôme Lafosse) Module. Site Web dynamique JSP / Servlet Cahier de charges (Source : "Java EE - Guide de développement d'applications web en Java" par Jérôme Lafosse) Module Site Web dynamique JSP / Servlet Sujet : betaboutique Soutenance le 04 / 01 /2013 &

Plus en détail

Business Intelligence : Informatique Décisionnelle

Business Intelligence : Informatique Décisionnelle Business Intelligence : Informatique Décisionnelle On appelle «aide à la décision», «décisionnel», ou encore «business intelligence», un ensemble de solutions informatiques permettant l analyse des données

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Méthode de Test. Pour WIKIROUTE. Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel.

Méthode de Test. Pour WIKIROUTE. Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel. Méthode de Test Pour WIKIROUTE Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel. [Tapez le nom de l'auteur] 10/06/2009 Sommaire I. Introduction...

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

BUSINESS INTELLIGENCE

BUSINESS INTELLIGENCE GUIDE COMPARATIF BUSINESS INTELLIGENCE www.viseo.com Table des matières Business Intelligence :... 2 Contexte et objectifs... 2 Une architecture spécifique... 2 Les outils de Business intelligence... 3

Plus en détail

RAPPORT DE PROJET DATA MINING

RAPPORT DE PROJET DATA MINING DEA 127 : INFORMATIQUE SYSTEMES INTELLIGENTS RAPPORT DE PROJET DATA MINING «Analyse des endettements par niveau de développement des pays» Réalisé par : BELEM MAHAMADOU Sous la direction de : M. EDWIN

Plus en détail

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne Présentation du produit SAP s SAP pour les PME SAP BusinessObjects Business Intelligence, édition Edge Objectifs En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille

Plus en détail

Les Entrepôts de Données

Les Entrepôts de Données Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations

Plus en détail

Présentation du module. Base de données spatio-temporelles. Exemple. Introduction Exemple. Plan. Plan

Présentation du module. Base de données spatio-temporelles. Exemple. Introduction Exemple. Plan. Plan Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Partie 1 : Notion de bases de données (Conception

Plus en détail

Visual Paradigm Contraintes inter-associations

Visual Paradigm Contraintes inter-associations Visual Paradigm Contraintes inter-associations Travail de Bachelor d'informaticien de gestion Partie C Présentation de Visual Paradigm 1 Présentation de Visual Paradigm For UML L objet du travail de Bachelor

Plus en détail

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Cours Base de données relationnelles. M. Boughanem, IUP STRI Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),

Plus en détail

Présentations personnelles. filière IL

Présentations personnelles. filière IL Présentations personnelles filière IL Résumé Liste de sujets de présentations personnelles. Chaque présentation aborde un sujet particulier, l'objectif étant que la lecture du rapport ainsi que l'écoute

Plus en détail

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences.

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences. Notre alliance, Votre atout. HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences. C est de cette philosophie qu est née notre partenariat avec la société toulousaine (31) Bewise,

Plus en détail

Le cinquième chapitre

Le cinquième chapitre Le cinquième chapitre Objectif : présenter les supports matériels ou immatériels permettant d'étayer cette nouvelle approche de la fonction maintenance. I. Evolution du domaine technique - Différents domaines

Plus en détail

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée Communiqué de presse Charles-Yves Baudet Twitter: Les clients de Teradata Teradata Corporation peuvent dan.conway@teradata.com tirer parti de plusieurs + 33 1 64 86 76 14 + 33 (0) 1 55 21 01 48/49 systèmes,

Plus en détail

TP J2EE GUIDE DE DEPLOIEMENT DE L APPLICATION WEB DE GESTION DES COMPTES

TP J2EE GUIDE DE DEPLOIEMENT DE L APPLICATION WEB DE GESTION DES COMPTES 2008 UFR Ingénieurs 2000 Vivien Boistuaud Julien Herr TP J2EE GUIDE DE DEPLOIEMENT DE L APPLICATION WEB DE GESTION DES COMPTES Ce document a été réalisé par V. Boistuaud et J. Herr dans le cadre des travaux

Plus en détail

Intégration de données hétérogènes et réparties. Anne Doucet Anne.Doucet@lip6.fr

Intégration de données hétérogènes et réparties. Anne Doucet Anne.Doucet@lip6.fr Intégration de données hétérogènes et réparties Anne Doucet Anne.Doucet@lip6.fr 1 Plan Intégration de données Architectures d intégration Approche matérialisée Approche virtuelle Médiateurs Conception

Plus en détail

Entreposage, analyse en ligne et fouille de données

Entreposage, analyse en ligne et fouille de données Entreposage, analyse en ligne et fouille de données Houssem Jerbi IRIT - SIG/ED jerbi@irit.fr Journée COMPIL " Bases de Données" 14/12/2010 PLAN Introduction Bases de données Entrepôt de données Technologie

Plus en détail

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude

Plus en détail

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Introduction à l Informatique Décisionnelle - Business Intelligence (7) Introduction à l Informatique Décisionnelle - Business Intelligence (7) Bernard ESPINASSE Professeur à Aix-Marseille Université (AMU) Ecole Polytechnique Universitaire de Marseille Septembre 2013 Emergence

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

CONNECTEUR QLIKVIEW POUR INFORMATICA POWERCENTER

CONNECTEUR QLIKVIEW POUR INFORMATICA POWERCENTER CONNECTEUR QLIKVIEW POUR INFORMATICA POWERCENTER Tirer pleinement profit de l ETL d Informatica à l aide d une plate-forme de Business Discovery rapide et flexible De plus en plus d entreprises exploitent

Plus en détail

Empreintes conceptuelles et spatiales pour la caractérisation des réseaux sociaux

Empreintes conceptuelles et spatiales pour la caractérisation des réseaux sociaux Empreintes conceptuelles et spatiales pour la caractérisation des réseaux sociaux Bénédicte Le Grand*, Marie-Aude Aufaure** and Michel Soto* *Laboratoire d Informatique de Paris 6 UPMC {Benedicte.Le-Grand,

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21 IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances

Plus en détail

Projet : Plan Assurance Qualité

Projet : Plan Assurance Qualité Projet : Document : Plan Assurance Qualité 2UP_SPEC_DEV1 VERSION 1.00 Objet Ce document a pour objectif de définir la démarche d analyse et de conception objet ainsi les activités liées. Auteur Eric PAPET

Plus en détail

Analyse de grandes bases de données en santé

Analyse de grandes bases de données en santé .. Analyse de grandes bases de données en santé Alain Duhamel Michaël Genin Mohamed Lemdani EA 2694 / CERIM Master 2 Recherche Biologie et Santé Journée Thématique Fouille de Données Plan. 1 Problématique.

Plus en détail

W4 - Workflow La base des applications agiles

W4 - Workflow La base des applications agiles W4 - Workflow La base des applications agiles, W4 philippe.betschart@w4global.com Vous avez dit «workflow»? Processus : Enchaînement ordonné de faits ou de phénomènes, répondant à un certain schéma et

Plus en détail

PLAN. Les systèmes d'information analytiques. Exemples de décisions

PLAN. Les systèmes d'information analytiques. Exemples de décisions Les systèmes d'information analytiques Dr A.R. Baba-ali Maitre de conferences USTHB PLAN Le cycle de decision Les composants analytiques ETL (Extract, Transform and Load) Entrepot de (Data warehouse) Traitement

Plus en détail

COMMENT DÉFINIR L ORIENTÉ OBJET

COMMENT DÉFINIR L ORIENTÉ OBJET COMMENT DÉFINIR L ORIENTÉ OBJET De manière superficielle, le terme «orienté objet», signifie que l on organise le logiciel comme une collection d objets dissociés comprenant à la fois une structure de

Plus en détail

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier? DOSSIER SOLUTION CA ERwin Modeling Comment gérer la complexité des données et améliorer l agilité métier? CA ERwin Modeling fournit une vue centralisée des définitions de données clés afin de mieux comprendre

Plus en détail

MYXTRACTION. 2009 La Business Intelligence en temps réel

MYXTRACTION. 2009 La Business Intelligence en temps réel MYXTRACTION 2009 La Business Intelligence en temps réel Administration Qui sommes nous? Administration et management des profils Connecteurs Base des données Gestion des variables et catégories de variables

Plus en détail

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani

Datawarehouse: Cubes OLAP. Marlyse Dieungang Khaoula Ghilani Datawarehouse: Cubes OLAP Marlyse Dieungang Khaoula Ghilani Table des matières 1 Data Warehouse 3 1.1 Introduction............................ 3 1.1.1 Définition......................... 3 1.1.2 Architecture........................

Plus en détail

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Le tout fichier Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique Introduction à l informatique : Information automatisée Le premier ordinateur Définition disque dure, mémoire, carte mémoire, carte mère etc Architecture d un ordinateur Les constructeurs leader du marché

Plus en détail

Jedox rafraîchit les rapports du fabricant de boissons MBG

Jedox rafraîchit les rapports du fabricant de boissons MBG Jedox rafraîchit les rapports du fabricant de boissons MBG «Nous pouvons désormais réaliser plus efficacement notre reporting et la planifi cation de nos ventes grâce à Jedox, et avons même soif de plus

Plus en détail

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING

Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Modélisation Informatique de Clients Douteux, En utilisant les Techniques de DATAMINING Mostafa Hanoune, Fouzia Benabbou To cite this version: Mostafa Hanoune, Fouzia Benabbou. Modélisation Informatique

Plus en détail

XML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

XML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million XML, PMML, SOAP Rapport EPITA SCIA Promo 2004 16 janvier 2003 Julien Lemoine Alexandre Thibault Nicolas Wiest-Million i TABLE DES MATIÈRES Table des matières 1 XML 1 1.1 Présentation de XML.................................

Plus en détail

Le logiciel de gestion intégré conçu pour les PME du Bâtiment. www.absyscyborg.com

Le logiciel de gestion intégré conçu pour les PME du Bâtiment. www.absyscyborg.com Le logiciel de gestion intégré conçu pour les PME du Bâtiment Beaucoup plus qu un logiciel de suivi de chantier, NaviBat est un véritable outil de pilotage. Navibat n est pas qu un simple logiciel de suivi

Plus en détail

Bases de Données Avancées

Bases de Données Avancées 1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données et le Data Mining Nous suivons le plan suivant : Fonctionnement de Spad Catalogue des méthodes (statistiques

Plus en détail

WebFTP Un client Web sécurisé pour FTP

WebFTP Un client Web sécurisé pour FTP WebFTP Un client Web sécurisé pour FTP Jirung Albert SHIH, Shih@math.Jussieu.fr Université Paris 7 JRES 2001 Introduction Nous allons dans ce document présenter une solution mise en œuvre sur le réseau

Plus en détail

Segmentation et data mining pour l industrie.

Segmentation et data mining pour l industrie. Une solution industrielle complète de data mining Segmentation et data mining pour l industrie. Johan Baltié Franck Coppola Tristan Robet Promotion 2002 Specialisation S.C.I.A. Responsable M. Adjaoute

Plus en détail

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8 Sage 100 CRM Guide de l Import Plus avec Talend Version 8 Mise à jour : 2015 version 8 Composition du progiciel Votre progiciel est composé d un boîtier de rangement comprenant : le cédérom sur lequel

Plus en détail

5. Architecture et sécurité des systèmes informatiques Dimension Fonctionnelle du SI

5. Architecture et sécurité des systèmes informatiques Dimension Fonctionnelle du SI 5. Architecture et sécurité des systèmes informatiques Dimension Fonctionnelle du SI Un SI : et pour faire quoi? Permet de stocker de manière définitive des informations volatiles provenant d autre BD.

Plus en détail

IBM Cognos TM1. Fiche Produit. Aperçu

IBM Cognos TM1. Fiche Produit. Aperçu Fiche Produit IBM Cognos TM1 Aperçu Cycles de planification raccourcis de 75 % et reporting ramené à quelques minutes au lieu de plusieurs jours Solution entièrement prise en charge et gérée par le département

Plus en détail

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN 1. DÉVELOPPEMENT D'APPLICATION (CONCEPTEUR ANALYSTE) 1.1 ARCHITECTURE MATÉRIELLE DU SYSTÈME INFORMATIQUE 1.1.1 Architecture d'un ordinateur Processeur,

Plus en détail

IBM Content Analytics Libérer l Information

IBM Content Analytics Libérer l Information IBM Content Analytics Libérer l Information Patrick HOFLEITNER patrick_hofleitner@fr.ibm.com Août 2011 TABLE DES MATIERES RESUME...3 INTRODUCTION...4 LA PROBLEMATIQUE...5 1 L EXPLOSION DU CONTENU NON-STRUCTURE...5

Plus en détail

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification Séminaire national Alger 12 Mars 2008 «L Entreprise algérienne face au défi du numérique : État et perspectives» CRM et ERP Impact(s) sur l entreprise en tant qu outils de gestion Historique des ERP Le

Plus en détail

Bases de Données. Stella MARC-ZWECKER. stella@unistra.u-strasbg.fr. Maître de conférences Dpt. Informatique - UdS

Bases de Données. Stella MARC-ZWECKER. stella@unistra.u-strasbg.fr. Maître de conférences Dpt. Informatique - UdS Bases de Données Stella MARC-ZWECKER Maître de conférences Dpt. Informatique - UdS stella@unistra.u-strasbg.fr 1 Plan du cours 1. Introduction aux BD et aux SGBD Objectifs, fonctionnalités et évolutions

Plus en détail

Guide d utilisation du navigateur web OECD.Stat

Guide d utilisation du navigateur web OECD.Stat OECD.Stat 2008 2 / 39 Table des matières : Introduction... 4 Concepts liés à OECD.Stat... 4 Organisation des données... 4 Séries de référence... 5 Recherche... 5 Le navigateur web OECD.Stat... 5 Guide

Plus en détail

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES

EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES EXPLORATION DES BASES DE DONNÉES INDUSTRIELLES À L AIDE DU DATA MINING PERSPECTIVES Bruno Agard (1), Andrew Kusiak (2) (1) Département de Mathématiques et de Génie Industriel, École Polytechnique de Montréal,

Plus en détail