Le projet logiciel E.C.D.Sagitta Un état des lieux

Dimension: px
Commencer à balayer dès la page:

Download "Le projet logiciel E.C.D.Sagitta Un état des lieux"

Transcription

1 Le projet logiciel E.C.D.Sagitta Un état des lieux Olivier Raynaud http ://www.isima.fr/raynaud Résumé. Le projet logiciel E.C.D.Sagitta se présente comme la compilation de modules logiciels dédiés à l extraction de connaissances à partir de données. A ce jour nous disposons d un module d extraction (le module Extracteur qui est outils de type E.T.L.), d un module de navigation dans les règles d association (le module A.R.F. pour association rules f inder) et d un module de recherche de symétries dans les items d une collections d enregistrements (le module clone miner ). La connaissance de certaines forment de symétrie dans les données permet de calculer une représentation de ces données sous une forme moins volumineuse. Au fil du texte qui suit nous définissons le contexte de réalisation du projet logiciel. Nous pensons ici en particulier aux motivations et aux objectifs attendus de cet effort de développement. Pour cela nous rappelons en introduction les grands principes sous jacents au processus E.C.D. Ensuite, puisque par nature un processus E.C.D. incorpore une technique de fouille, nous décrivons dans la section 2 la technique du panier de la ménagère. Nous rappelons à cette occasion que les objets mathématiques sous jacents à cette technique sont le coeur de metier de notre équipe de recherche. La troisième section est consacrée à la description de deux approches originales proposées par notre équipe pour appréhender le problème de l extraction des connaissances. Enfin nous décrivons le projet logiciel, dans sa version finale souhaitée et dans sa version actuelle. 1 Introduction Les progrès de la technologie informatique dans l acquisition et le transport de données permettent aux acteurs économiques de disposer à ce jour de quantités de données souvent gigantesques. Ces progrès ont eu pour conséquence une transformation profonde de leurs modes de fonctionnement. Certains auteurs parlent de révolution des services ([7, 24]). A titre d exemple : les entreprises ont stocké et accumulé les données résultant de leurs activités opérationnelles tout au long des dernières années. Elles gardaient à l esprit leur exploitation future. En effet, une connaissance approfondie des modes de consommation et des profils clients doit permettre de mieux cerner ses besoins et de lui proposer des services plus adaptés. On parle alors de services personnalisés. Pourtant une autre analyse pourrait être faite. La connaissance acquise permet aussi de dégager

2 les grandes tendances du comportement à la consommation. Cette connaissance assure de proposer des produits normalisés pour le plus grand nombre. Charge alors aux services marketing de préparer les consommateurs à cette normalisation. Fig. 1 Croissance des capacités du parc informatique. Les capacités de stockage sont données en milliers de tera octets. Cette figure est extraite de [8]. La figure 1 montre que partout dans le monde se sont constitués des gisements considérables d informations potentielles mais que ces informations restent néanmoins très difficiles à extraire et à représenter. En effet les capacités de stockage et de traitement de l information sont sans commune mesure. Ainsi la réalisation d un processus efficace d extraction des connaissances à partir des données (processus E.C.D.) constitue un challenge incontournable pour la gestion des grandes masses de données. Les solutions matérielles retenues par les entreprises pour répondre à ce problème s appuient sur plusieurs principes. En 1995 Smith ([22]) propose une stratification de l information en fonction de la nature de son utilisation : opérationnelle, tactique ou stratégique. Les entreprises distinguent ainsi aujourd hui les besoins opérationnels du quotidien des besoins décisionnels pour le moyen et long terme. Le second principe est alors intuitif, il consiste à séparer physiquement les données d ordre opérationnel des données informationnelles qui seront archivées et conservée dans des entrepôts (data wharehouse). R. Godin dans [11] caractérise ces dernières ; Elles sont par exemple orientées sujet (on retrouve ici le découpage en domaines ou métiers, cher à la modélisation d un S.I.), intégrée (les données sont formatées en fonction de leur provenance), et pour finir temporelles (c est à dire de nature historique). Cette séparation physique des données permet de mettre en place des applications logicielles adaptées aux différents besoins ou à la nature des données. Ainsi pour le traitement opérationnel les entreprises se munissent d outils assurant les transactions en ligne (outils OLTP, ERP). Pour les données orientées décisionnel elles s équipent d outils d analyse (par exemple les outils OLAP pour l ana- 2

3 lyse multidimensionnelle) ou de prospection (progiciel de fouille de données comme SAS Enterprise Miner, Intelligent Miner, Alice, Clémentine...). Fig. 2 Architecture de stockage et de traitement des données. Cette figure est extraite de [11]. En représententant l architecture la plus répendue au sein des grandes entreprises, la figure 2 résume clairement ces principes. L objet de notre étude concerne la mise en place d un dispositif de prospection. Pour cela nous devons définir clairement ce processus de prospection ou processus E.C.D. Frawley et Piatesky-Shapiro définissent précisément le concept de fouille. Il s agit ici de l extraction d informations originales, auparavant inconnues et potentiellement utiles, à partir de données. Citons aussi la définition proposée par M.J.A. Berry : l exploration et l analyse par des moyens automatiques (ou semi automatiques) d un large volume de données afin de découvrir des tendances ou des règles. Dans la suite de ce texte nous ferons la distinction entre techniques de fouille de données ( data-mining ), qui sont multiples (statistiques, réseaux de neurones, inférence inductive...) et le processus logiciel (processus E.C.D.) assez complexe qui permet de répondre aux définitions de Frawley et Berry (La figure 3 illustre un exemple de processus). Ce processus commence par le nettoyage et la récupération des données sous un format adapté aux étapes suivantes. L ensemble des outils logiciels assurant ces fonctionnalités sont appelés outils E.T.L. (pour extraction, transformation et loading). Le processus se poursuit alors par l étape de fouille proprement dite. Son déroulement dépend très largement de la technique de fouille employée. L application E.C.D. doit ensuite permettre la visualisation des résultats sous forme de graphiques ou de tableaux de bord. Ces fonctionnalités sont appelées outils de visualisation et outils de reporting. Pour les auteurs de [7] le processus E.C.D. doit se poursuivre par la réalisation d un bilan d efficacité (plusieurs méthodes de comparaison sont proposées). Les résultats de ce bilan sont alors compilés dans la masse d informations dont dispose l entreprise 3

4 pour le domaine concerné (les auteurs justifient ainsi la notion de cercle vertueux de l extraction des connaissances à partir des données). Fig. 3 Un processus E.C.D. qui distingue bien l action de fouille ( data-mining ) de l ensemble du processus. Cette figure est extraite de [23]. Nous avons évoqué jusqu à présent les notions de données, d information et de connaissance sans les définir. Pour combler cette lacune nous nous appuyerons sur les travaux de Devlin ([4]). Il définit les données comme un ensemble de signes dont la manipulation est régie par une syntaxe. Il décrit alors l information comme un ensemble composé de données et du sens qu on leur accorde. La question de savoir si la présence de l homme est indipensable pour dégager ce sens est alors posée. En informatique on parle aussi parfois d information pour évoquer les règles ou le schéma comportemental d un ensemble de données. Il s agit bien souvent d un abus de langage et nous utiliserons le terme de meta-données (ce qu elles sont) pour les caractériser. Enfin, pour Devlin, la connaissance rapproche l information et la capacité d agir à partir de cette information. La figure 4 résume ces définitions. Nous avons retenu ces définitions pour deux raisons en particulier. La première parce qu elles rejoignent la notion de cercle vertueux qui impose une action et une mesure de son efficacité en fin de cycle E.C.D. La seconde parce qu elles positionnent l homme avec sa force de proposition et sa capacité d interprétation, au coeur du processus. Ainsi une technique de fouille de données n a de sens que si elle répond à une problématique posée par un groupe d individus et est compatible avec leurs méthodes de travail. La fouille de données doit s adapter aux besoins et non pas l inverse. Pour résumer cette introduction : nous avons justifié les besoins logiciels en comparant les croissances des puissances de traitement et des capacités de stockage des outils informatiques. Nous avons ensuite décrit l architecture de stockage et de traitement retenue par les entreprises pour répondre aux besoins opérationnels d un coté 4

5 Fig. 4 Définitions emboitées des notions de données, d information et de connaissance et décisionnels de l autre. Enfin nous avons défini l extraction des connaissances en terme de processus logiciel (appelé processus E.C.D.) et avons insisté pour positionner l homme au coeur de ce processus. Ce texte se poursuit par quatre sections. La premiere est consacrée à une technique particulière de fouille (l étude du panier de la ménagère) et à l outil mathématique majeur utilisé par cette technique (l analyse formelle de concepts). Ensuite la deuxième section décrit deux outils innovants de fouille de données (la navigation et la recherche de clones) proposées par notre équipe de recherche. Nous évoquerons dans la section suivante les besoins de notre équipe pour assurer les validation théorique et pratique de ses travaux. Enfin, la dernière porte sur une description synthétique du projet E.C.D.Sagitta. 2 Techniques de fouille de données En introduction de ce texte nous avons parlé du processus E.C.D. sans évoquer les différentes techniques de fouille proprement dites. Pour compléter notre étude, nous consacrons donc cette section à une technique particulière dite de l étude du panier de la ménagère (correspondant à la recherche des règles d association dans une base de données de transactions). 2.1 La recherche des règles d association Les magasins de grande distribution stockent dans des tables les achats effectués par leurs clients. Une table se présente alors comme une liste de transactions, ou de paniers. Et chaque transaction est décrite par l ensemble des items (les produits achetés) sélectionnés par le client. La recherche des règles d association a été introduite à l origine par Agrawal et al dans [1]. Une règle d association est une expression de la forme X Y où X (l antécédent) et Y (le conséquent) sont des ensembles d items. Le sens d une règle est intuitif : si un panier contient les items de X alors il contient probablement les items de Y. 5

6 Pour Devlin la connaissance se compose de l information et de la capacité d agir à partir de cette information. Cette idée d associer l information et l action est soutenue par M.J.A. Berry ([7]) : la fouille de données prend en entrée des données et des opportunités commerciales et produit des résultats concrets pour générer des actions. Ainsi Agrawal et al dans [1] listent un ensemble de questions auxquelles pourra répondre la recherche de règles d association et surtout le type d actions commerciales qu elles pourront entrainer. Extrait modifié de [1] : Trouver les règles avec boisson gazeuse comme conséquent ; (Comment mieux vendre la boisson gazeuse?) Trouver les règles avec biscuit comme antécédent ; (Sur quels produits aura un impact l arrêt des vente de biscuits?) Trouver les règles avec saucisse comme antécédent et moutarde comme conséquent ; (Quels produits accompagnent l achat de saucisses lorsque celui-ci s agrémente de moutarde) Trouver les règles concernant des produits provenant de rayonnages distincts ; (Exsite-t-il des liens de cause à effet entre les ventes et les rangements dans les rayonnages?) Trouver les k meilleures règles contenant soda comme conséquent ; Ce qu il faut retenir de cette liste : tout d abord les actions commerciales évoquées s expriment toujours sous la forme de questions, les informations recueillies par le processus E.C.D. fournira donc des éléments supplémentaires pour y répondre mais ne décrit pas les actions à mener elles mêmes ; ensuite la dernière question exprime l existence de critères qualitatifs d une règle. Bien que de nombreux critères aient été défini dans [13], nous ne retiendrons dans le cadre de cette étude que le support d une règle (la proportion des enregistrements de la base concernés par la règle) qui reflète sa pertinence, et la confiance d une règle (la proportion des enregistrements qui la respecte) qui indique sa justesse. Nous pouvons résumer la problèmatique soulevée précédemment comme suit : Problème 1 (La recherche des règles d association) Entrée : une relation binaire (extraite de la table à traiter) ; Sortie : un ensemble de règles d association respectant des contraintes (les contraintes fixent le contenu des règles, leur support et leur confiance) ; Précédemment nous avons défini une règle d association comme une expression de la forme X Y où X et Y sont des ensembles d items. Dans [20, 25] les auteurs ramènent le problème de la recherche de telles règles à celui de la recherche des concepts de la relation binaire servant d entrée au problème 1 (autrement dit la table de transactions). Un concept peut être vu comme un panier type. C est à dire qu il n existe pas forcement, dans la table, des transactions correspondant exactement à ce panier, mais que ce panier représente un ensemble de transactions en rassemblant ce qui leur est commun. 6

7 2.2 Fondements mathématiques La notion de concept comme représentation de la connaissance provient de la modélisation du monde réel supposé être constitué d objets ou d individus disposant de propriétés ou d attributs. La description d un concept résume les propriétés partagées par un ensemble d objets. La structure qui regroupe et décrit l ensemble des concepts issus d une base de données est connue sous le nom de treillis de Galois de la relation binaire objet-propriété. Cette correspondance de Galois a été proposée à la fin des années 60 ([3]) et reste aujourd hui l outil majeur dans l étude des données constituées d objets décrits par des propriétés ([21]). Le spectre des applications est large. Il couvre la classification conceptuelle, l analyse formelle de concepts (utilisée pour la recherche des règles d association), les bases de données relationnelles et objets ou la théorie des implications ([5, 6]). D une façon générale le nombre de concepts d une relation binaire croit de façon exponentielle avec la taille de cette relation. Notons que des auteurs ont montré que ce n était pas toujours le cas d un point de vue pratique ([25]). Malgrès tout, tout effort visant à reduire la taille de cette relation assure une meilleure efficacité des algorithmes de calcul des concepts. Notre équipe de recherche s est spécialisée depuis longtemps dans l étude des propriétés des ensembles ordonnés et des treillis. Ainsi, notre travail consiste souvent à déterminer, pour une strucure discrête donnée et plus particulièrement pour un treillis, une représentation simple et ayant une algorithmique efficace (reconstruction, génénration, test de comparabilité...). A ce jour, notre vision est clairevoyante dans les domaines de l algorithmique combinatoire, de l algorithmique de génération des treillis, mais auusi dans les domaines de la théorie et de la représentation des treillis et du codage des ordres partiels. Néammoins, dans le contexte d une recherche internationale compétitive et exigeante, une diffusion large de nos résultats est dépendante d une vérification expérimentale de qualité. 2.3 Besoins logiciels dans un cadre de recherche scientifique Notre intuition est que cette validation doit suivre deux axes (cf. figure 5) : 1. la programmation d applications legères permettant la génération, la gestion, la visualisation des objets étudiés, mais aussi la vérification de leurs propriétés ; Nous parlerons alors de validation théorique. 2. l adéquation de l utilisation de ces objets dans le cadre de l analyse des bases de données ou de la fouille de données. Nous parlerons ici de validation pratique Validation théorique Nous l avons évoqué, les travaux de notre équipe porte sur la génération, la reconnaissance et la définition d objets combinatoires complexes issus d une relation binaire. 7

8 Fig. 5 Le rôle d une application dans un schéma de validation L algorithmique associée porte sur des objets basiques (les inf-irréductibles ou les supirréductibles) du treillis de Galois de la relation. Pour implémenter cette algorithmique nous devons disposer d une boite à outils (ou collection de fonctions) qui manipulent ces objets basiques. Nous pourrons alors appliquer ces algorithmes à des ensembles de benchmarks reconnus et vérifier expérimentalement la justesse des résultats. Dans un second temps nous pourrons réaliser des statistiques ou des comparaisons avec d autres méthodes. La figure 6 résume ce processus et mentionne plus précisément la nature des objets combinatoires étudiés. Fig. 6 Protocole de validation théorique Pour mettre en place un tel processus nous devons respecter un certain nombre de recommandations. Tout d abord définir un format de stockage d une relation et donc disposer d une application qui transforme les fichiers benchmarks dans ce format (cf. figure 7). Ensuite, nous devons mettre à disposition un environnement de développement rapide et pour cela documenter très précisément la collection de fonctions disponibles. Enfin, pour préparer au mieux nos solutions algorithmiques à un futur passage à l échelle (tout relatif), les fonctions de notre collection devront picorer dans les fichiers formatés et ne surtout pas les charger en mémoire. 8

9 Fig. 7 Schéma de discrétisation de benchmarks Validation pratique La validation dite pratique consiste à mesurer l adéquation des méthodes innovantes que nous proposons (cf. section 3) au processus E.C.D. Comme nous l avons précisé en introduction, un processus E.C.D. doit positionner l analyste au coeur de son déroulement. En ce sens l utilisation de benchmarks pour mesurer l efficacité de nos méthodes n est pas toujours adaptée. Notre intention est donc de proposer à l analyste un ensemble d outils, déjà connus et/ou innovants, qui lui permettent de réaliser le processus sur ses données propres. Enfin la proximité de l analyste nous permettra de répondre à une autre exigence mentionnée en introduction : une technique de fouille doit répondre à un type de question précis. Avec l analyste, nous serons à même de définir clairement ces questions. Fig. 8 Schéma de validation pratique. Les outils innovants mentionnés font l objet d une description complète dans la section 3 de ce document. Pour résumer nos besoins, nous devons disposer d une application qui assure la récupération de benchmarks, leur discrétisation et leur formatage (format XML). Nous devons disposer d une bibliothèque de fonctions (largement documentée) qui permette la gestion d une relation (sous format XML) et la génération de ses objets basiques (inf. et sup-irréductibles). Du coté analyste nous devons disposer d une application qui assure les premières tâches du processus E.C.D. (nettoyage, discrétisation, affinage, formatage) et l accès à des techniques innovantes de fouille. Nous devrons aussi assurer la confidentialité de ses données. Dans cette section nous avons décrit une technique de fouille (l étude du panier de la ménagère) et montré que cette technique repose sur la problèmatique de la génération du treillis des concepts issus d une relation binaire. Nous avons rappelé à cette occasion que cette problématique constitue le coeur de métier de notre équipe de recherche. 9

10 Nous avons finalement évoqué la nécessité de disposer d outils logiciels pour assurer les validations théorique et pratique de nos travaux. Plusieurs fois au cours des pages précédentes des outils originaux participants au processus E.C.D. ont été mentionnés. La section suivante est consacrée à une description plus détaillée de ces outils. 3 Approche proposée par notre équipe Au cours des dernières années notre équipe a orienté ses efforts dans l étude des stuctures discrètes ordonnées et des systèmes implicationnels. Citons par exemple l énumération des éléments du treillis de Galois ([9, 19]), la reconnaissance de règles appartenant à des bases d implications données ([16]), la recherche interactive des règles d association ([16, 17]) ou la recherche de similitudes dans le comportement des attributs d une table ([10, 15]). Notre attention se porte donc sur l étude des structures mais aussi sur les algorithmes sous jacents. Peut-on répondre à des requêtes concernant les objets étudiés en temps raisonnable (polynomial)? Ces différents travaux sont dans la droite ligne des résultats obtenus par les membres de l équipe en des temps plus anciens ([14, 18]). Ces travaux nous permettent aujourd hui de proposer deux outils innovants de fouille de données. Le premier, appelé navigation, s appuie sur la technique de la recherche des règles d association. Le second, appelé recherche de clones, nous permet de réduire le volume des données à traiter, de valider des choix de discrétisation ou de réaliser des tâches de classification. Les techniques de classification étant un des pilliers essentiels de la fouille de données. 3.1 La navigation Les solutions standards La plupart des méthodes proposées pour résoudre le problème 1 consistent en une démarche itérative composée : 1. d une étape de génération (potentiellement exponentielle) d un ensemble de règles ; 2. d une étape de parcours de cet ensemble pour trouver la/les règle/s intéressante/s ; 3. d une étape d analyse et d affinage qui relance le processus ; Ces méthodes permettent un parcours des règles une fois que l ensemble des règles a été généré. La phase d affinage permet d appliquer des contraintes. On peut restreindre l espace de recherche en augmentant les seuils de support et de confiance ([2], [12]) ou en spécifiant que les règles recherchées contiennent tel item. La seule interaction avec l utilisateur consiste en l évaluation des contraintes. Le temps de calcul nécessaire à la réalisation de l étape de génération est un obstacle crucial à l interactivité entre l utilisateur et le progiciel alors même que le processus E.C.D. est hautement centré sur l humain, sa connaissance du domaine, son intuition et sa capacité d interprétation. 10

11 Pour répondre à cet inconvénient majeur nous proposons une méthode originale de navigation à priori dans l espace des règles Découverte interactive des règles d association Notre méthode de navigation est un processus interactif qui permet de générer les règles à la demande. L analyste se voit proposer un ensemble restreint (polynomial) de règles dites générales dont les parties droites correspondent à chaque item. Il a ensuite la possibilité de demander une réduction de la partie gauche d une règle afin d affiner ce qui est vraiment nécessaire pour produire la partie droite. A chaque étape du processus le nombre de calculs est restreint, ceci assure de garder le contact avec l utilisateur. Au fur et à mesure on voit donc se construire un arbre de règles dont les branches peuvent être élaguées ou développées. Bien que cet arbre soit composé de règles exactes (de confiance 1), l utilisateur pourra, pour une règle donnée, extraire des règles de qualité dégradée (pour le support et la confiance). Enfin l outil est capable de semi-automatiser la réduction d une règle générale à la demande de l utilisateur. L outil permettra aussi de vérifier si la règle choisie appartient à une base spécifique (base réduite à gauche, etc). Les résultats mathématiques sous-jacents à ces fonctionnalités ont fait l objet de publications récentes [17, 16]. 3.2 La recherche de Clones Dans [15] les auteurs définissent, de manière formelle, une relation d équivalence sur l ensemble des items décrivant une relation binaire. Ces classes sont appelés classes d items clones. Deux items sont clones si leur présence est interchangeable dans l ensemble des concepts de la relation. Ainsi l ensemble des paniers types où l un des items clones apparait peut être déduit de l ensemble des paniers types où le second item est présent. Et ceci en un nombre linéaire de calculs. En représentant chaque classe d items clones par un seul item on réduit le contexte et ainsi l espace de recherche des règles Sémantique associée aux clones Comment interpréter le fait que deux items, qui permettent de décrire un ensemble de transactions, sont interchageables? Aujourd hui notre réponse n est que partielle. Afin de faciliter la discussion nous proposons quatre exemples : 1. Un grand nombre de paniers types contiennent les mêmes produits à ceci près que certains d entre eux inclus des chaises de jardin alors que les autres incorporent un banc de jardin ; 2. Le comportement accidentogène des conducteurs ayant moins de 10 ans de pratique de la conduite est le même pour les tranches d ages de 18 à 23 ans et de 23 à 27 ans. 3. La répartition du pouvoir d achat sur les biens de comsommation ou de services est le même pour les seniors que pour les juniors. 4. Pour chaque panier type contenant un article vestimentaire de telle marque, il existe le même panier type, sans cet article, mais avec un article de quincaillerie. 11

12 Les quatre assertions précédentes sont supposées être des interprétations possibles faites à partir d un ensemble de règles. Notons que ces règles ne sont pas exclusivement issues de bases de transactions. Nous avons élargi le champs d étude au domaine de l assurance et au domaine socio-économique. Pour ces domaines on ne parle plus d items et de transactions mais d attributs et d enregistrements. Pour être adaptées à la recherche des règles d association les données doivent alors subir un traitement appelé discrétisation. Une discrétisation consiste à découper en tranches les attributs dit continus qui décrivent les enregistrements de la table. Autrement dit la discrétisation de l attribut âge consiste par exemple à regrouper dans une même classe d âge tous les personnes de 18 à 23 ans et toutes les personnes de 23 à 27 ans. Les attributs clones dans les 4 cas étudiés sont :chaises/banc de jardin, tranches [18,23]/[23,27], tranche junior/senior, marque vestimentaire/quincaillerie. Notre intuition est que la sémantique est sensiblement différente pour chacun de ces cas. Le cas deux est clairement relatif à une discrétisation non adaptée, en effet il aurait fallut ne pas découper en deux la tranche [18-27] puisque l âge n a aucune influence sur l ensemble des règles. Le cas trois est le même si ce n est que les intervalles (junior, sénior) ne sont pas contigüs. Le cas 1 reflète le problème de la hiérarchie dans les niveaux de description des articles du magasin. Si une telle classe de clones existe c est que le niveau de description n était pas ou peu adapté. Enfin, le cas 4, très mystérieux, résiste à toute analyse à ce jour. En plus de permettre une réduction d un contexte, les clones se présentent donc comme un moyen de vérification ou un critère d évaluation de la qualité d une procédure de discrétisation, de classification ou de description hiérarchique d un ensemble d objets Les items clones dans un processus E.C.D. Notre intention est d utiliser la technique des clones pour les deux problémes suivants : Réduction des volumes de données à traiter Comme nous l avons mentionné, en représentant chaque classe d items clones par un seul item on réduit le contexte et ainsi l espace de recherche des règles. L utilisation de cette technique peut s inscrire dans une phase de pré-processing, succédant à la phase de discrétisation, visant à réduire la taille d un contexte avant l application d une technique de fouille. Une phase de post-processing est alors nécessaire pour reconstruire les règles à partir de la définition des classes de clones. Ceci afin de préparer les données à la phase de visualisation. Il est à noter que la reconstruction peut être effectuée à la demande. Outil d évaluation qualitative d une phase de discrétisation Dans une application logicielle dédiée à la discrétisation nous proposerons une fonctionnalité d évaluation d une discrétisation donnée. En déterminant les classes d items clones nous seront à même de repérer des cas similaires aux cas 2 et 3. C est à dire des cas où les classes d items clones sont issus de la discrétisation d un 12

13 même item. Nous proposerons alors le regroupement de tels ou tels intervalles de valeurs Difficultés algorithmiques L expérience montrera sûrement que le nombre de clones d une relation est limité. Notre recherche ne doit donc pas se restreindre aux classes exactes de clones. Nous avons proposé une première notion de distance entre attributs (si cette distance est nulle les attributs sont clones) malheureusement sont évaluation reste délicate puisque elle nécessite de devoir compter un ensemble de règles. Ce qui n est pas le cas pour déterminer les classes exactes. Le calcul d une approximation de cette distance a fait l objet d un projet étudiant et d une implémentation. Le logiciel est disponible à l adresse suivante : http ://www.isima.fr/raynaud/software/clone/download.htm Conclusion Nous avons présenté dans cette section deux outils innovants de fouille de données que sont la navigation et la recherche de clones. La navigation est originale car elle se présente comme un outil interactif de recherche de règles alors que cette technique de fouille est classée comme non dirigée dans la littérature. La recherche de clones nous permet quand à elle de réduire le volume de la relation et ainsi de rendre plus efficace les traitements de fouille, quels qu ils soient. Enfin, ces deux outils s appliquent sur des relations binaires et imposent donc un traitement de discrétisation des données étudiées. Nous pensons que la qualité des résultats produits par ces outils est très dépendante de cette phase de discrétisation. Nous avons montré que la recherche de clones peut être adaptée à l évaluation de la qualité d une discrétisation. 4 Le projet E.C.D.Sagitta L objectif de notre projet logiciel est le développement d un ensemble d applications (ou de modules) appelé E.C.D.Sagitta répondant aux besoins exprimés. Cette section est composée de deux sous-sections. Dans un premier temps nous donnons l architecture modulaire retenue par notre équipe. Le développement de ces modules et de leurs fonctionnalités sont donc des objectifs à atteindre. Dans un second temps nous décrivons les développements déja effectués. 4.1 Une architecture modulaire adaptée 1. Le module Extracteur : l étude des besoins a montré la nécessité d une application (outils E.T.L.) assurant le nettoyage, la discrétisation (ou le calcul des agrées) et le formatage X.M.L. des données. Ce module doit s installer sur le poste utilisateur et donner accès aux bases de données locales hébergant les données brutes ou les benchmarks. Cet outil installé localement assurera la confidentialité 13

14 des données. Ce module sera utilisé indifféremment par les analystes qui préparent leurs données ou par les chercheurs qui formatent les benchmarks en vue de valider leurs travaux. Ces derniers auront le choix d extraire des benchmarks une relation discrétisée pour évaluer des outils de fouille, ou d extraire les agrées pour tester des outils d analyse de base de données. Ce module répond aux besoins de la figure Le centre de calcul : il réalise les calculs lourds à partir des fichiers formatés fournis en entrée. Ce centre à disposition des programmeurs se présentera sous la forme d une liste précise de fonctions qu il sait calculer (la boite à outils). Il sera clairement documenté. 3. Le serveur : le dernier module est constitué du serveur qui assure l interface entre les utilisateurs et le centre de calcul. Il donne accès aux outils innovants de fouille ou d analyse de données. Il assure aussi la gestion d un espace disque permettant le stockage des fichiers normalisés, et d enregistrer les travaux en cours. Les utilisateurs inscrits ont accès à ces services par l intermédiaire d un client léger (navigateur Web). La figure 9 résume l architecture matérielle et logicielle retenue. Fig. 9 Architecture modulaire 4.2 Les développements déjà effectués A ce jour notre effort de développement s est porté : sur le module d extraction indispensable à la gestion des benchmarks et aux formatage X.M.L. des données ; sur l architecture du serveur (gestion des services d espace disque aux utilisateurs) et la mise en place du premier service de technique innovante de fouille (la navigation interactive). sur quelques fonctions du centre de calcul programmées en C++ (avec utilisation des S.T.L.) ; 14

15 4.2.1 Le module Extracteur Le module Extracteur assure tout d abord le branchement sur des bases de données Oracle et MySql. Ensuite il permet d exécuter une discrétisation des données sélectionnées suivant différentes méthodes (adaptées à divers contextes). Enfin Extracteur exporte les données obtenues sous un format X.M.L. qui servira de format d entrée pour les modules suivants. Puisque Extracteur se branche directement sur une base de données, la discrétisation peut se faire sur une vue/table dont le contenu a déjà fait l objet d une vérification ou d une sélection des lignes ou des colonnes. A terme Extracteur proposera tout de même un service de nettoyage. A noter que si les données ne sont pas disponibles dans une base (comme les benchmarks du Web, ou dans le cas de données dispersées) nous devons passer par la réalisation d un script SQL de création d une table qui sera hébergée sous les S.G.B.D. Oracle ou MySql (cf. figure 10). Fig. 10 Processus d extraction des données Cette phase d extraction et de transformation est primordiale pour assurer la qualité de la suite du processus. Notre objectif n est pas d implémenter toutes les techniques de discrétisation proposées par les progiciels (SAS, Alice...), mais de pouvoir tester des méthodes originales ou des méthodes proposées, imaginées par les analystes utilisateurs. Pour cela l originalité de ce module tient dans la possibilité d insérer à Extracteur des plug-in implémentant de nouvelles méthodes. Un plug-in se présentera sous la forme d une classe java (des classes exemples seront à disposition pour la consultation). L analyste se confrontera alors uniquement aux aspects algorithmiques de ses besoins et non pas sur les aspects techniques ou d implémentation. La figure 11 est une capture d écran du prototype opérationnel disponible pour téléchargement à l adresse : w3.isima.fr/raynaud/software/extracteur/extracteur.htm Le serveur Pour répondre aux besoins exprimés dans la section précédente nous avons retenu un serveur TomCat produisant des pages HTML par l intérmédiaire de Servlets (issue de pages JSP). Le serveur a pour rôle de répondre aux requêtes exprimées par les utilisateurs grace à un client leger de type navigateur. 15

16 Fig. 11 Capture d écran de Extracteur (d autres captures d écran sont disponibles à l adresse w3.isima.fr/raynaud/software/extracteur) Le serveur TomCat est physiquement hébergé par notre équipe et assure la cohésion entre différents modules : un serveur de base de données pour la gestion des droits et des comptes utilisateurs ; un espace disque personnalisé qui sert au stockage de fichiers de travail et des sources de données sous un format X.M.L. ; un centre de calcul (serveur XML-RPC) qui assure l exécution des algorithmes sur les données stockées dans les espaces disque. Le langage et l environnement de développement choisi est donc Java (J2EE). La figure 12 résume l architecture retenue pour le serveur. Fig. 12 Architecture du serveur Le centre de calcul Le centre de calcul se présente sous la forme d une interface de fonctions (ou API). Ces fonctions ont été développées en C++ (avec utilisation de S.T.L.) et compilées. 16

17 Grâce au logiciel Swig nous produisons à partir du fichier compilé un programme Python appelable par le serveur XML-RPC. Actuellement l interface est composée de 3 fonctions nécessaires pour l exécution de la recherche interactive de règles d association. 5 Conclusion Adam Smith, dans la société des nations, décrit tous les avantages inhérents à une économie de marché. Citons le dynamisme économique, les libertés d entreprendre, la croissance des richesses ou l autorégulation des prix assurée par la loi de l offre et de la demande. Il précise néammoins le contexte idéal à cette économie : un contexte à information compléte dans lequel chacun est libre de choisir ou d agir. Disposer de l information est donc un atout crucial pour consommer, acheter ou investir intelligemment sur le marché. Pour cette raison les problèmes liés à la gestion des grandes masses de données, à la recherche d information ou de connaissances dans les entrepôts de données sont des problèmes sensibles. Les acteurs économiques veulent disposer d une information fiable pour axer leurs stratégies sur le moyen et long terme. Nous pouvons peut être trouver ici une explication du boum survenu ces dernières années dans les domaines de l informatique liés à ces problèmatiques. L économie n est pas le seul domaine pour lequel l information est sensible. L état, pour rationaliser son administration ou assurer la sécurité (dans tous ces aspects opérationnels) est insatiable en informations. Rationaliser consiste souvent à créer des gains de productivité par l automatisation d un grand nombre de tâches. L outil informatique est l outil idéal pour mettre en place cette automatisation. Nous pensons néammoins que la fouille de données à ceci de particulier qu elle assiste des prises de décision parfois délicates et lourdes de conséquences. Pour cette raison le décideur doit pouvoir comprendre et retracer le cheminement de l analyse automatique de l outil informatique et savoir limiter sa portée. Enfin, la soif de savoir qui caractèrise l homme n est pas toujours justifiée par un but précis (compétitivité, sécurité...). Elle correspond aussi souvent à une démarche inconsciente qui nous pousse à comprendre l univers qui nous entoure. La fouille ou l analyse de données de masse sont devenus des outils indispensables aux métiers de la recherche. Par exemple ils ont permis aux biologistes de mettre en place une nouvelle classification phylogénétique du vivant. Au XVIIIième siècle Voltaire évoque cette soif de comprendre, il raconte aussi l orgueil des hommes qui raisonnent. Cet orgueil qui persuade les individus de la démesure de leur destin. Pour répondre aux hommes, l écrivain les confronte à Micromégas, un géant voyageur venu sur Terre par hasard dont le savoir est immense. En les quittant il leur laissera quelques bribes de ce savoir. Des pages blanches. Afin de tenir compte de cet avertissement nous avons retenu le nom de E.C.D.Sagitta pour notre projet. En effet Sagitta, la flêche, est synonyme d acuité et de rapidité, ce que l on souhaite à nos algorithmes. Ce mot est aussi la racine du mot sagesse, celle que l on doit conserver dans le cadre d une quête difficile. 17

18 Références [1] R. Agrawal, T. Imielinski, and A. Swami. Mining association rules between sets of items in large databases. In ACM SIGMOD 93. Washington, USA, [2] R. Agrawal and R. Srikant. Fast algorithm for mining association rules. In 20th International Conference of Very Large DataBasis (VLDB), pages Santiago, Chile, September, [3] M. Barbut and B. Monjardet. Ordre et classification. Hachette, [4] K. Devlin. Turning Information into Knowledge. InfoSens, [5] V. Duquenne. Latticial structure in data analysis. Theoritical Computer Science, 217 : , [6] V. Duquenne and J-L. Guigues. Famille minimale d implications informatives résultant d un tableau de données binaires. Mathématiques Sciences Humaines, 24, [7] M.J.A. Berry et G. Linoff. Data-Mining, Techniques appliquï 1 2s au marketing, la vente et aux services clients. InterEditions, ï 1 2 [8] R. Lefebure et G. Venturi. Data-Mining, Gestion de la relation client, Personnalisation de site Web. Eyrolles, seconde edition, [9] A. Gely. A generic algorithm for generating closed sets of a binary relation. In ICFCA 05, [10] A. Gely, R. Medina, L. Nourine, and Y. Renaud. Uncovering and reducing hidden combinatorics in guigues-duquenne covers. In ICFCA 05, [11] R. Godin. Les entrepï 1 2 s de donnï 1 2 s et l analyse de donnï 1 2s. Version beta edition, [12] J. Hipp, U. Guentzer, and G. Nakhaeizadeh. Algorithms for association rules mining - a general survey and comparison. SIGKDD Exploration, 2(1) :58 64, [13] M. Halkidi M. Vazirgiannis and D. Gunopulos. Uncertainty Handling and Quality Assessment in Data-Mining. Springer, [14] R. Medina and L. Nourine. Algorithme efficace de gï 1 2ï 1 2 ation des idï 1 2ux d un ensemble ordonnï 1 2. [15] R. Medina and L. Nourine. Clone items : a pre-processing information for knowledge discovery. submitted. [16] R. Medina, L. Nourine, and O. Raynaud. Interactive association rules discovery. In 4th International Conference, ICFCA, pages , [17] R. Medina, C. Noyer, and O. Raynaud. Efficient algorithms for clone items detection. In CLA 05, pages 70 81, [18] L. Nourine and O. Raynaud. A fast algorithm for building lattices. Information Processing Letters, volume 71 : , [19] L. Nourine and O. Raynaud. A fast incremental algorithm for building lattices. Journal of Experimental and Theoritical Artificial Intelligence, 14 : ,

19 [20] N. Pasquier, Y. Bastide, R. Taouil, and L. Lakhal. Efficient mining of association rules using closed itemset lattices. Information Systems, 24, 1 :P , [21] R.Wille. Why can concept lattices support knowledge discovery in database. Journal of experimental and theoritical artificial intelligence, volume 14 :81 92, [22] D. Smith. System engineering for healthcare professionals. Cardiff institute of higher education, [23] G. Piatesky-Shapiro U. Fayyade and P. Smyth. From data-mining to knowledge discovery in data base. AAAI97, [24] I. Watson. Applying case-based reasonning : Techniques for Enterprise Systems. Morgan Kaufmann, [25] M. Zaki. Generating non redundant association rules. October,

Généralités sur les bases de données

Généralités sur les bases de données Généralités sur les bases de données Qu est-ce donc qu une base de données? Que peut-on attendre d un système de gestion de bases de données? Que peut-on faire avec une base de données? 1 Des données?

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

1. Vue rapide des logiciels disponibles

1. Vue rapide des logiciels disponibles Voici une revue rapide des progiciels gratuits accessibles [FREE AND SHAREWARE] dans la section SUITES du site KDNUGGETS (http://www.kdnuggets.com/software/suites.html). L étude sera approfondie pour les

Plus en détail

LES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1

LES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1 LES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1 SAS Cost and Profitability Management, également appelé CPM (ou C&P), est le nouveau nom de la solution SAS Activity-Based Management. Cette version

Plus en détail

et les Systèmes Multidimensionnels

et les Systèmes Multidimensionnels Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

QU EST-CE QUE LE DECISIONNEL?

QU EST-CE QUE LE DECISIONNEL? La plupart des entreprises disposent d une masse considérable d informations sur leurs clients, leurs produits, leurs ventes Toutefois ces données sont cloisonnées par les applications utilisées ou parce

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Chapitre 9 : Informatique décisionnelle

Chapitre 9 : Informatique décisionnelle Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle

Plus en détail

Les solutions SAS pour les Petites et Moyennes Entreprises

Les solutions SAS pour les Petites et Moyennes Entreprises BROCHURE SOLUTION Les solutions SAS pour les Petites et Moyennes Entreprises Sur un marché aussi compétitif que celui des Petites et Moyennes Entreprises, le temps et l efficacité sont deux valeurs prioritaires

Plus en détail

Leçon 4 : Typologie des SI

Leçon 4 : Typologie des SI Leçon 4 : Typologie des SI Typologie des SI Système formel Système informel Typologie des SI Chaque jour au sein d une organisation Le système d info stocke, traie ou restitue des quantités importantes

Plus en détail

PRODUCTION DE JEUX DE DONNÉES ANONYMISÉES

PRODUCTION DE JEUX DE DONNÉES ANONYMISÉES PRODUCTION DE JEUX DE DONNÉES ANONYMISÉES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas être considérés

Plus en détail

Ce qu est le Data Mining

Ce qu est le Data Mining Data Mining 1 Ce qu est le Data Mining Extraction d informations intéressantes non triviales, implicites, préalablement inconnues et potentiellement utiles à partir de données. Autres appellations: ECD

Plus en détail

Thibault Denizet. Introduction à SSIS

Thibault Denizet. Introduction à SSIS Thibault Denizet Introduction à SSIS 2 SSIS - Introduction Sommaire 1 Introduction à SQL Server 2008 Integration services... 3 2 Rappel sur la Business Intelligence... 4 2.1 ETL (Extract, Transform, Load)...

Plus en détail

Résumé du document «Programmes des classes préparatoires aux Grandes Écoles ; Discipline : Informatique ; Première et seconde années - 2013»

Résumé du document «Programmes des classes préparatoires aux Grandes Écoles ; Discipline : Informatique ; Première et seconde années - 2013» Résumé du document «Programmes des classes préparatoires aux Grandes Écoles ; Discipline : Informatique ; Première et seconde années - 2013» I Objectifs Niveau fondamental : «on se fixe pour objectif la

Plus en détail

UE 8 Systèmes d information de gestion Le programme

UE 8 Systèmes d information de gestion Le programme UE 8 Systèmes d information de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur Indications

Plus en détail

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Technologie et biologie (TB) Discipline : Informatique Première et seconde années Programme d informatique

Plus en détail

Chapitre 1 : Introduction aux Systèmes de Gestion de Bases de Données (Eléments de base)

Chapitre 1 : Introduction aux Systèmes de Gestion de Bases de Données (Eléments de base) Chapitre 1 : Introduction aux Systèmes de Gestion de Bases de Données (Eléments de base) 1. Généralités sur l'information et sur sa Représentation 1.1 Informations et données : a. Au sen de la vie : C

Plus en détail

Service combinators for farming virtual machines

Service combinators for farming virtual machines Master d Informatique Fondamentale École Normale Supérieure de Lyon Sémantique du parallélisme Chantal Keller Service combinators for farming virtual machines K. Bhargavan, A. D. Gordon, I. Narasamdya

Plus en détail

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement

Fournir un accès rapide à nos données : agréger au préalable nos données permet de faire nos requêtes beaucoup plus rapidement Introduction Phases du projet Les principales phases du projet sont les suivantes : La mise à disposition des sources Des fichiers Excel sont utilisés pour récolter nos informations L extraction des données

Plus en détail

JASPERSOFT ET LE PAYSAGE ANALYTIQUE. Jaspersoft et le paysage analytique 1

JASPERSOFT ET LE PAYSAGE ANALYTIQUE. Jaspersoft et le paysage analytique 1 JASPERSOFT ET LE PAYSAGE ANALYTIQUE Jaspersoft et le paysage analytique 1 Ce texte est un résumé du Livre Blanc complet. N hésitez pas à vous inscrire sur Jaspersoft (http://www.jaspersoft.com/fr/analyticslandscape-jaspersoft)

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

BASE DE DONNEES. OlivierCuré [ocure@univ-mlv.fr]

BASE DE DONNEES. OlivierCuré [ocure@univ-mlv.fr] BASE DE DONNEES 1 Contact Olivier Curé ocure@univ-mlv.fr http://www.univ-mlv.fr/~ocure Copernic 4B060 2 Objectifs du cours Présentation des concepts liés aux bases de données, aux modèles des bases de

Plus en détail

Les principaux domaines de l informatique

Les principaux domaines de l informatique Les principaux domaines de l informatique... abordés dans le cadre de ce cours: La Programmation Les Systèmes d Exploitation Les Systèmes d Information La Conception d Interfaces Le Calcul Scientifique

Plus en détail

FICHE CONCEPT 01 ETL (EXTRACT TRANSFORM & LOAD)

FICHE CONCEPT 01 ETL (EXTRACT TRANSFORM & LOAD) FICHE CONCEPT 01 ETL (EXTRACT TRANSFORM & LOAD) BIEN GERER SES REFERENTIELS DE DONNEES : UN ENJEU POUR MIEUX PILOTER LA PERFORMANCE DE SON ETABLISSEMENT octobre 2008 GMSIH 44, Rue de Cambronne 75015 Paris.

Plus en détail

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1

De la donnée à la décision. Sofian MAABOUT LaBRI. Université Bordeaux 1 De la donnée à la décision Sofian MAABOUT LaBRI. Université Bordeaux 1 1 Décider c est choisir, parmi plusieurs actes possibles, celui qui apparaît comme le plus pertinent pour atteindre un résultat envisagé,

Plus en détail

Pour les entreprises de taille moyenne. Descriptif Produit Oracle Oracle Business Intelligence Standard Edition One

Pour les entreprises de taille moyenne. Descriptif Produit Oracle Oracle Business Intelligence Standard Edition One Pour les entreprises de taille moyenne Descriptif Produit Oracle Edition One POURQUOI VOTRE ENTREPRISE A BESOIN D UNE SOLUTION DE BUSINESS INTELLIGENCE (BI) Des quantités toujours plus importantes de données

Plus en détail

BASES DE DONNEES AVANCEES

BASES DE DONNEES AVANCEES 1.Introduction J.Korczak 1 BASES DE DONNEES AVANCEES Jerzy KORCZAK, Mohammed ATTIK email: {jjk,attik}@lsiit.u-strasbg.fr BDA Objectifs : Ce cours présente des méthodes, modèles et outils d'aide au développement

Plus en détail

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles

Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Annexe 4 Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Informatique Première et seconde années

Plus en détail

L approche Bases de données

L approche Bases de données L approche Bases de données Cours: BD. Avancées Année: 2005/2006 Par: Dr B. Belattar (Univ. Batna Algérie) I- : Mise à niveau 1 Cours: BDD. Année: 2013/2014 Ens. S. MEDILEH (Univ. El-Oued) L approche Base

Plus en détail

BUSINESSOBJECTS EDGE PREMIUM

BUSINESSOBJECTS EDGE PREMIUM PRODUITS BUSINESSOBJECTS EDGE PREMIUM Avantages de la Business Intelligence Assurer une visibilité intégrale des activités Identifier de nouvelles opportunités Détecter et résoudre les problèmes Remplacer

Plus en détail

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et

Plus en détail

Business Intelligence (BI) Stratégie de création d un outil BI

Business Intelligence (BI) Stratégie de création d un outil BI Business Intelligence (BI) La Business intelligence est un outil décisionnel incontournable à la gestion stratégique et quotidienne des entités. Il fournit de l information indispensable, sous plusieurs

Plus en détail

Gestion de données complexes

Gestion de données complexes Master 2 Informatique Spécialité AIGLE Gestion de données complexes Amayas ABBOUTE Gilles ENTRINGER SOMMAIRE Sommaire i 1 - Introduction 1 2 - Technologies utilisées 2 2.1 API Jena........................................

Plus en détail

Concevoir des applications Web avec UML

Concevoir des applications Web avec UML Concevoir des applications Web avec UML Jim Conallen Éditions Eyrolles ISBN : 2-212-09172-9 2000 1 Introduction Objectifs du livre Le sujet de ce livre est le développement des applications web. Ce n est

Plus en détail

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :

Plus en détail

Cartographie de mots : application à la visualisation de noms de marque

Cartographie de mots : application à la visualisation de noms de marque Université Montpellier II UFR Fac des Sciences Master 1 Informatique Université Montpellier II UFR Fac des Sciences Master 1 Informatique Cartographie de mots : application à la visualisation de noms de

Plus en détail

RETRO-INGENIERIE DES BASES DE DONNEES

RETRO-INGENIERIE DES BASES DE DONNEES RETRO-INGENIERIE DES BASES DE DONNEES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas être considérés

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Annexe. Méthodologie de mise en œuvre d un projet BusinessObjects

Annexe. Méthodologie de mise en œuvre d un projet BusinessObjects Annexe Méthodologie de mise en œuvre d un projet BusinessObjects Déroulement du cours 1 : Le rôle du Designer d Univers 2 : Créer un Univers avec l Assistant 3 : Créer un Univers étape par étape 4 : Enrichir

Plus en détail

Fouille de données: des bases binaires aux bases évidentielles

Fouille de données: des bases binaires aux bases évidentielles Fouille de données: des bases binaires aux bases évidentielles Ahmed Samet Faculté des sciences de Tunis Présenté le : 16 janvier 2013 Ahmed Samet Fouille de données: des bases binaires aux bases évidentielles

Plus en détail

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr

FOUILLE DE DONNEES. Anne LAURENT ECD. laurent@lirmm.fr FOUILLE DE DONNEES Anne LAURENT laurent@lirmm.fr ECD Pourquoi la fouille de données? Données disponibles Limites de l approche humaine Nombreux besoins : Industriels, Médicaux, Marketing, Qu est-ce que

Plus en détail

Introduction aux S.G.B.D.

Introduction aux S.G.B.D. NFE113 Administration et configuration des bases de données - 2010 Introduction aux S.G.B.D. Eric Boniface Sommaire L origine La gestion de fichiers Les S.G.B.D. : définition, principes et architecture

Plus en détail

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8 Sage 100 CRM Guide de l Import Plus avec Talend Version 8 Mise à jour : 2015 version 8 Composition du progiciel Votre progiciel est composé d un boîtier de rangement comprenant : le cédérom sur lequel

Plus en détail

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza Avant de commencer à travailler avec le produit, il est nécessaire de comprendre, à un haut niveau, les problèmes en réponse desquels l outil a été

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Noureddine Kerzazi noureddine.kerzazi@polymtl.ca

Noureddine Kerzazi noureddine.kerzazi@polymtl.ca Domaine de la modélisation des processus pour le génie logiciel. Noureddine Kerzazi noureddine.kerzazi@polymtl.ca DSL4SPM Domain-Specific-Language for Software Process Modeling Il s agit d un nouveau cadre

Plus en détail

VISUAL PARADIGM. C. Présentation de Visual Paradigm For UML TRANSFORMATION DE MCD EN MLD ITÉRATIVE. Document version 1

VISUAL PARADIGM. C. Présentation de Visual Paradigm For UML TRANSFORMATION DE MCD EN MLD ITÉRATIVE. Document version 1 HEG Arc - Haute école Arc Gestion Travail de Bachelor d'informaticien de gestion VISUAL PARADIGM TRANSFORMATION DE MCD EN MLD ITÉRATIVE C. Document version 1 Créé le : 17.06.2012 Modifié le : 01.07.2012

Plus en détail

de survie du chef de projet

de survie du chef de projet KIT de survie du chef de projet 01 1 2 3 4 5 6 04 03 07 07 03 03 LE SERVEUR LE CLIENT TECHNOLOGIE WEB CLIENT LE SERVEUR WEB TECHNIQUES & CADRE DE TRAVAIL APPLICATIONS 101 LE SERVEUR Un serveur informatique

Plus en détail

L informatique des entrepôts de données

L informatique des entrepôts de données L informatique des entrepôts de données Daniel Lemire SEMAINE 13 L exploration des données 13.1. Présentation de la semaine L exploration de données (ou data mining) est souvent associée à l intelligence

Plus en détail

FlexIS: vers un système d intégration d information flexible

FlexIS: vers un système d intégration d information flexible FlexIS: vers un système d intégration d information flexible P. Colomb 1, et H. Jaudoin 2 1 LIMOS - CNRS UMR 6158, Université Blaise Pascal, France email: colomb@isima.fr LIMOS, 24 Avenue des Landais,

Plus en détail

JAVA PROGRAMMATION. Programme. 1. Java, HTML et World Wide Web

JAVA PROGRAMMATION. Programme. 1. Java, HTML et World Wide Web PROGRAMMATION PUBLIC Professionnels informatiques qui souhaitent développer des applications et «applets» Java DUREE 4 jours 28 heures OBJECTIF Créer divers «applets» à intégrer dans un site Web dynamique,

Plus en détail

Guide de démarrage rapide avec DataStudio Online Edition

Guide de démarrage rapide avec DataStudio Online Edition Guide de démarrage rapide avec DataStudio Online Edition Introduction Ce document vient en complément des films de démonstration disponibles sur le site web de data. L ETL ETL est un sigle qui signifie

Plus en détail

Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium. Comparatif Choco/Drools dans le cadre du projet JASMINe

Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium. Comparatif Choco/Drools dans le cadre du projet JASMINe Guillaume SOLDERA (B guillaume.soldera@serli.fr) SERLI Informatique Bull OW2 Consortium dans le cadre du projet JASMINe Avril 2008 Table des matières 1 Introduction 3 1.1 Rappel sur JASMINe.......................................

Plus en détail

Contexte général de l étude

Contexte général de l étude 1 2 Contexte général de l étude Les entrepôts de données associés à des outils d analyse On Line Analytical Processing (OLAP), représentent une solution effective pour l informatique décisionnelle (Immon,

Plus en détail

Intelligence Economique - Business Intelligence

Intelligence Economique - Business Intelligence Intelligence Economique - Business Intelligence Notion de Business Intelligence Dès qu'il y a une entreprise, il y a implicitement intelligence économique (tout comme il y a du marketing) : quelle produit

Plus en détail

Didier MOUNIEN Samantha MOINEAUX

Didier MOUNIEN Samantha MOINEAUX Didier MOUNIEN Samantha MOINEAUX 08/01/2008 1 Généralisation des ERP ERP génère une importante masse de données Comment mesurer l impact réel d une décision? Comment choisir entre plusieurs décisions?

Plus en détail

Etat de l art sur l utilisation des techniques Web Sémantique en ECD

Etat de l art sur l utilisation des techniques Web Sémantique en ECD Etat de l art sur l utilisation des techniques Web Sémantique en ECD Hicham Behja ENSAM Meknès(1,2,3) Brigitte Trousse Projet AxIS INRIA Sophia Antipolis (2) Abdelaziz Marzak Faculté des sciences Casablanca

Plus en détail

Sage 100 CRM - Guide de l Import Plus Version 8. Mise à jour : 2015 version 8

Sage 100 CRM - Guide de l Import Plus Version 8. Mise à jour : 2015 version 8 Sage 100 CRM - Guide de l Import Plus Version 8 Mise à jour : 2015 version 8 Composition du progiciel Votre progiciel est composé d un boîtier de rangement comprenant : le cédérom sur lequel est enregistré

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

Méthode de Test. Pour WIKIROUTE. Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel.

Méthode de Test. Pour WIKIROUTE. Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel. Méthode de Test Pour WIKIROUTE Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel. [Tapez le nom de l'auteur] 10/06/2009 Sommaire I. Introduction...

Plus en détail

Bouchekif Abdesselam 11 mars 2012

Bouchekif Abdesselam 11 mars 2012 Expériences sur les données du répertoire de données de UCI avec une boîte à outils Bouchekif Abdesselam 11 mars 2012 Résumé Les dix dernières années ont été témoin de grands progrès réalisés dans le domaine

Plus en détail

Ici, le titre de la. Tableaux de bords de conférence

Ici, le titre de la. Tableaux de bords de conférence Ici, le titre de la Tableaux de bords de conférence pilotage d entreprise, indicateurs de performance reporting et BI quels outils seront incontournables à l horizon 2010? Les intervenants Editeur/Intégrateur

Plus en détail

Une plateforme adaptative pour la FOAD (Formation Ouverte et à Distance)

Une plateforme adaptative pour la FOAD (Formation Ouverte et à Distance) Une plateforme adaptative pour la FOAD (Formation Ouverte et à Distance) Bernard CAUSSE IUT de Bayonne Pays Basque Laboratoire d Informatique de l UPPA 3 Avenue Darrigrand 64100 Bayonne France Résumé Présentation

Plus en détail

IBM Content Analytics Libérer l Information

IBM Content Analytics Libérer l Information IBM Content Analytics Libérer l Information Patrick HOFLEITNER patrick_hofleitner@fr.ibm.com Août 2011 TABLE DES MATIERES RESUME...3 INTRODUCTION...4 LA PROBLEMATIQUE...5 1 L EXPLOSION DU CONTENU NON-STRUCTURE...5

Plus en détail

Visual Paradigm Contraintes inter-associations

Visual Paradigm Contraintes inter-associations Visual Paradigm Contraintes inter-associations Travail de Bachelor d'informaticien de gestion Partie C Présentation de Visual Paradigm 1 Présentation de Visual Paradigm For UML L objet du travail de Bachelor

Plus en détail

La Business Intelligence 01/05/2012. Les Nouvelles Technologies

La Business Intelligence 01/05/2012. Les Nouvelles Technologies 2 La Business Intelligence Les Nouvelles Technologies 3 Une expertise méthodologique pour une intervention optimale sur tous les niveaux du cycle de vie d un projet 4 5 Ils nous font confiance : L ambition

Plus en détail

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Le tout fichier Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique Introduction à l informatique : Information automatisée Le premier ordinateur Définition disque dure, mémoire, carte mémoire, carte mère etc Architecture d un ordinateur Les constructeurs leader du marché

Plus en détail

Plateforme SAS. Data & Information System

Plateforme SAS. Data & Information System Data & Information System SOMMAIRE Rédacteur : Ref: F.Barthelemy AXIO_1111_V1 PLATEFORME SAS PREREQUIS SAS GUIDE SAS WRS SAS PORTAL SAS MINER Une plateforme unique et modulable capable d exploiter l architecture

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Application de K-means à la définition du nombre de VM optimal dans un cloud

Application de K-means à la définition du nombre de VM optimal dans un cloud Application de K-means à la définition du nombre de VM optimal dans un cloud EGC 2012 : Atelier Fouille de données complexes : complexité liée aux données multiples et massives (31 janvier - 3 février

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

BIRT (Business Intelligence and Reporting Tools)

BIRT (Business Intelligence and Reporting Tools) BIRT (Business Intelligence and Reporting Tools) Introduction Cette publication a pour objectif de présenter l outil de reporting BIRT, dans le cadre de l unité de valeur «Data Warehouse et Outils Décisionnels»

Plus en détail

CESI Bases de données

CESI Bases de données CESI Bases de données Introduction septembre 2006 Bertrand LIAUDET EPF - BASE DE DONNÉES - septembre 2005 - page 1 PRÉSENTATION GÉNÉRALE 1. Objectifs généraux L objectif de ce document est de faire comprendre

Plus en détail

Présentation du module Base de données spatio-temporelles

Présentation du module Base de données spatio-temporelles Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes

Plus en détail

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles) SGBDR Systèmes de Gestion de Bases de Données (Relationnelles) Plan Approches Les tâches du SGBD Les transactions Approche 1 Systèmes traditionnels basés sur des fichiers Application 1 Gestion clients

Plus en détail

Cahier de charges (Source : "Java EE - Guide de développement d'applications web en Java" par Jérôme Lafosse) Module. Site Web dynamique JSP / Servlet

Cahier de charges (Source : Java EE - Guide de développement d'applications web en Java par Jérôme Lafosse) Module. Site Web dynamique JSP / Servlet Cahier de charges (Source : "Java EE - Guide de développement d'applications web en Java" par Jérôme Lafosse) Module Site Web dynamique JSP / Servlet Sujet : betaboutique Soutenance le 04 / 01 /2013 &

Plus en détail

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Cours Base de données relationnelles. M. Boughanem, IUP STRI Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),

Plus en détail

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences.

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences. Notre alliance, Votre atout. HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences. C est de cette philosophie qu est née notre partenariat avec la société toulousaine (31) Bewise,

Plus en détail

JEN : un algorithme efficace de construction de générateurs pour l identification des règles d association

JEN : un algorithme efficace de construction de générateurs pour l identification des règles d association JEN : un algorithme efficace de construction de générateurs pour l identification des règles d association Amélie Le Floc h*, Christian Fisette*, Rokia Missaoui**, Petko Valtchev***, Robert Godin* * Département

Plus en détail

RAPPORT DE PROJET DATA MINING

RAPPORT DE PROJET DATA MINING DEA 127 : INFORMATIQUE SYSTEMES INTELLIGENTS RAPPORT DE PROJET DATA MINING «Analyse des endettements par niveau de développement des pays» Réalisé par : BELEM MAHAMADOU Sous la direction de : M. EDWIN

Plus en détail

BUSINESS INTELLIGENCE

BUSINESS INTELLIGENCE GUIDE COMPARATIF BUSINESS INTELLIGENCE www.viseo.com Table des matières Business Intelligence :... 2 Contexte et objectifs... 2 Une architecture spécifique... 2 Les outils de Business intelligence... 3

Plus en détail

Projet : Plan Assurance Qualité

Projet : Plan Assurance Qualité Projet : Document : Plan Assurance Qualité 2UP_SPEC_DEV1 VERSION 1.00 Objet Ce document a pour objectif de définir la démarche d analyse et de conception objet ainsi les activités liées. Auteur Eric PAPET

Plus en détail

Fouille de données orientée motifs, méthodes et usages.

Fouille de données orientée motifs, méthodes et usages. Fouille de données orientée motifs, méthodes et usages. François RIOULT GREYC - Équipe Données-Documents-Langues CNRS UMR 6072 Université de Caen Basse-Normandie France Résumé La fouille de données orientée

Plus en détail

Durée ou Modalité: Examen! MOTS CLES : Architecture d application, Internet, Web2, RIA, Service Oriented Architecture, XML

Durée ou Modalité: Examen! MOTS CLES : Architecture d application, Internet, Web2, RIA, Service Oriented Architecture, XML DEPARTEMENT INFORMATIQUE ET GESTION S 9 PIGUE9.1 ARCHITECTURE DES SYSTEMES D INFORMATION & INTERNET! COORDINATEUR : Christophe FIORIO! EQUIPE PEDAGOGIQUE : Christophe FIORIO, Tiberiu STRATULAT! VOLUME

Plus en détail

Analyse de données textuelles Panorama des fonctions, des méthodes et des usages

Analyse de données textuelles Panorama des fonctions, des méthodes et des usages Analyse de données textuelles Panorama des fonctions, des méthodes et des usages Sylvie Dalbin Assistance & Techniques Documentaires DocForum, Le 17 Novembre 2005 Déroulé de l'intervention (1) 1. Définition

Plus en détail

SOMMAIRE. I. Introduction 02. II. Glossaire 03 a. Glossaire technique 03 b. Glossaire fonctionnel 04

SOMMAIRE. I. Introduction 02. II. Glossaire 03 a. Glossaire technique 03 b. Glossaire fonctionnel 04 SOMMAIRE I. Introduction 02 II. Glossaire 03 a. Glossaire technique 03 b. Glossaire fonctionnel 04 III. Présentation de l'association 05 a. Présentation juridique et géographique 05 b. Présentation de

Plus en détail

Bases de Données Avancées

Bases de Données Avancées 1/26 Bases de Données Avancées DataWareHouse Thierry Hamon Bureau H202 - Institut Galilée Tél. : 33 1.48.38.35.53 Bureau 150 LIM&BIO EA 3969 Université Paris 13 - UFR Léonard de Vinci 74, rue Marcel Cachin,

Plus en détail

Maintenance de charge pour l optimisation des entrepôts de données évolutifs : aide à l administrateur

Maintenance de charge pour l optimisation des entrepôts de données évolutifs : aide à l administrateur Maintenance de charge pour l optimisation des entrepôts de données évolutifs : aide à l administrateur Cécile Favre, Fadila Bentayeb, Omar Boussaid Université de Lyon (Laboratoire ERIC - Lyon 2) 5 av.

Plus en détail

Analyse abstraite de missions sous PILOT

Analyse abstraite de missions sous PILOT Analyse abstraite de missions sous PILOT Damien Massé EA 3883, Université de Bretagne Occidentale, Brest damien.masse@univ-brest.fr Résumé Nous étudions la possibilité de réaliser un analyseur par interprétation

Plus en détail

Spring IDE. Mise en œuvre. Eclipse

Spring IDE. Mise en œuvre. Eclipse A Spring IDE Bien que Spring mette à disposition d intéressants mécanismes afin d améliorer l architecture des applications Java EE en se fondant sur l injection de dépendances et la programmation orientée

Plus en détail

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/ Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/

Plus en détail

Architecture technique

Architecture technique OPUS DRAC Architecture technique Projet OPUS DRAC Auteur Mathilde GUILLARME Chef de projet Klee Group «Créateurs de solutions e business» Centre d affaires de la Boursidière BP 5-92357 Le Plessis Robinson

Plus en détail

DECHARGEMENT ET CHARGEMENT MASSIF DES DONNEES

DECHARGEMENT ET CHARGEMENT MASSIF DES DONNEES DECHARGEMENT ET CHARGEMENT MASSIF DES DONNEES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas être

Plus en détail

Sage 100 CRM Guide de l Analyseur de Logs Intégration de Sage 100 CRM Version 8

Sage 100 CRM Guide de l Analyseur de Logs Intégration de Sage 100 CRM Version 8 Sage 100 CRM Guide de l Analyseur de Logs Intégration de Sage 100 CRM Version 8 Mise à jour : 2015 version 8 Composition du progiciel Votre progiciel est composé d un boîtier de rangement comprenant :

Plus en détail

1. Une approche innovante, basée sur «l objet document» 2. Le respect des chaînes éditoriales de l entreprise

1. Une approche innovante, basée sur «l objet document» 2. Le respect des chaînes éditoriales de l entreprise Lucid e-globalizer, solution globale de gestion de contenu multilingue. Ce document a pour objectif de vous présenter Lucid e-globalizer, la solution de gestion de contenu multilingue de Lucid i.t., ses

Plus en détail

Logiciel d analyse du monde des objets connectés intelligents

Logiciel d analyse du monde des objets connectés intelligents Logiciel d analyse du monde des objets connectés intelligents Le défi : Transformer les données en intelligence décisionnelle Le logiciel SkySpark analyse automatiquement les données issues des équipements

Plus en détail

Création d un catalogue en ligne

Création d un catalogue en ligne 5 Création d un catalogue en ligne Au sommaire de ce chapitre Fonctionnement théorique Définition de jeux d enregistrements Insertion de contenu dynamique Aperçu des données Finalisation de la page de

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail