Le projet logiciel E.C.D.Sagitta Un état des lieux

Transcription

1 Le projet logiciel E.C.D.Sagitta Un état des lieux Olivier Raynaud http :// Résumé. Le projet logiciel E.C.D.Sagitta se présente comme la compilation de modules logiciels dédiés à l extraction de connaissances à partir de données. A ce jour nous disposons d un module d extraction (le module Extracteur qui est outils de type E.T.L.), d un module de navigation dans les règles d association (le module A.R.F. pour association rules f inder) et d un module de recherche de symétries dans les items d une collections d enregistrements (le module clone miner ). La connaissance de certaines forment de symétrie dans les données permet de calculer une représentation de ces données sous une forme moins volumineuse. Au fil du texte qui suit nous définissons le contexte de réalisation du projet logiciel. Nous pensons ici en particulier aux motivations et aux objectifs attendus de cet effort de développement. Pour cela nous rappelons en introduction les grands principes sous jacents au processus E.C.D. Ensuite, puisque par nature un processus E.C.D. incorpore une technique de fouille, nous décrivons dans la section 2 la technique du panier de la ménagère. Nous rappelons à cette occasion que les objets mathématiques sous jacents à cette technique sont le coeur de metier de notre équipe de recherche. La troisième section est consacrée à la description de deux approches originales proposées par notre équipe pour appréhender le problème de l extraction des connaissances. Enfin nous décrivons le projet logiciel, dans sa version finale souhaitée et dans sa version actuelle. 1 Introduction Les progrès de la technologie informatique dans l acquisition et le transport de données permettent aux acteurs économiques de disposer à ce jour de quantités de données souvent gigantesques. Ces progrès ont eu pour conséquence une transformation profonde de leurs modes de fonctionnement. Certains auteurs parlent de révolution des services ([7, 24]). A titre d exemple : les entreprises ont stocké et accumulé les données résultant de leurs activités opérationnelles tout au long des dernières années. Elles gardaient à l esprit leur exploitation future. En effet, une connaissance approfondie des modes de consommation et des profils clients doit permettre de mieux cerner ses besoins et de lui proposer des services plus adaptés. On parle alors de services personnalisés. Pourtant une autre analyse pourrait être faite. La connaissance acquise permet aussi de dégager

2 les grandes tendances du comportement à la consommation. Cette connaissance assure de proposer des produits normalisés pour le plus grand nombre. Charge alors aux services marketing de préparer les consommateurs à cette normalisation. Fig. 1 Croissance des capacités du parc informatique. Les capacités de stockage sont données en milliers de tera octets. Cette figure est extraite de [8]. La figure 1 montre que partout dans le monde se sont constitués des gisements considérables d informations potentielles mais que ces informations restent néanmoins très difficiles à extraire et à représenter. En effet les capacités de stockage et de traitement de l information sont sans commune mesure. Ainsi la réalisation d un processus efficace d extraction des connaissances à partir des données (processus E.C.D.) constitue un challenge incontournable pour la gestion des grandes masses de données. Les solutions matérielles retenues par les entreprises pour répondre à ce problème s appuient sur plusieurs principes. En 1995 Smith ([22]) propose une stratification de l information en fonction de la nature de son utilisation : opérationnelle, tactique ou stratégique. Les entreprises distinguent ainsi aujourd hui les besoins opérationnels du quotidien des besoins décisionnels pour le moyen et long terme. Le second principe est alors intuitif, il consiste à séparer physiquement les données d ordre opérationnel des données informationnelles qui seront archivées et conservée dans des entrepôts (data wharehouse). R. Godin dans [11] caractérise ces dernières ; Elles sont par exemple orientées sujet (on retrouve ici le découpage en domaines ou métiers, cher à la modélisation d un S.I.), intégrée (les données sont formatées en fonction de leur provenance), et pour finir temporelles (c est à dire de nature historique). Cette séparation physique des données permet de mettre en place des applications logicielles adaptées aux différents besoins ou à la nature des données. Ainsi pour le traitement opérationnel les entreprises se munissent d outils assurant les transactions en ligne (outils OLTP, ERP). Pour les données orientées décisionnel elles s équipent d outils d analyse (par exemple les outils OLAP pour l ana- 2

3 lyse multidimensionnelle) ou de prospection (progiciel de fouille de données comme SAS Enterprise Miner, Intelligent Miner, Alice, Clémentine...). Fig. 2 Architecture de stockage et de traitement des données. Cette figure est extraite de [11]. En représententant l architecture la plus répendue au sein des grandes entreprises, la figure 2 résume clairement ces principes. L objet de notre étude concerne la mise en place d un dispositif de prospection. Pour cela nous devons définir clairement ce processus de prospection ou processus E.C.D. Frawley et Piatesky-Shapiro définissent précisément le concept de fouille. Il s agit ici de l extraction d informations originales, auparavant inconnues et potentiellement utiles, à partir de données. Citons aussi la définition proposée par M.J.A. Berry : l exploration et l analyse par des moyens automatiques (ou semi automatiques) d un large volume de données afin de découvrir des tendances ou des règles. Dans la suite de ce texte nous ferons la distinction entre techniques de fouille de données ( data-mining ), qui sont multiples (statistiques, réseaux de neurones, inférence inductive...) et le processus logiciel (processus E.C.D.) assez complexe qui permet de répondre aux définitions de Frawley et Berry (La figure 3 illustre un exemple de processus). Ce processus commence par le nettoyage et la récupération des données sous un format adapté aux étapes suivantes. L ensemble des outils logiciels assurant ces fonctionnalités sont appelés outils E.T.L. (pour extraction, transformation et loading). Le processus se poursuit alors par l étape de fouille proprement dite. Son déroulement dépend très largement de la technique de fouille employée. L application E.C.D. doit ensuite permettre la visualisation des résultats sous forme de graphiques ou de tableaux de bord. Ces fonctionnalités sont appelées outils de visualisation et outils de reporting. Pour les auteurs de [7] le processus E.C.D. doit se poursuivre par la réalisation d un bilan d efficacité (plusieurs méthodes de comparaison sont proposées). Les résultats de ce bilan sont alors compilés dans la masse d informations dont dispose l entreprise 3

4 pour le domaine concerné (les auteurs justifient ainsi la notion de cercle vertueux de l extraction des connaissances à partir des données). Fig. 3 Un processus E.C.D. qui distingue bien l action de fouille ( data-mining ) de l ensemble du processus. Cette figure est extraite de [23]. Nous avons évoqué jusqu à présent les notions de données, d information et de connaissance sans les définir. Pour combler cette lacune nous nous appuyerons sur les travaux de Devlin ([4]). Il définit les données comme un ensemble de signes dont la manipulation est régie par une syntaxe. Il décrit alors l information comme un ensemble composé de données et du sens qu on leur accorde. La question de savoir si la présence de l homme est indipensable pour dégager ce sens est alors posée. En informatique on parle aussi parfois d information pour évoquer les règles ou le schéma comportemental d un ensemble de données. Il s agit bien souvent d un abus de langage et nous utiliserons le terme de meta-données (ce qu elles sont) pour les caractériser. Enfin, pour Devlin, la connaissance rapproche l information et la capacité d agir à partir de cette information. La figure 4 résume ces définitions. Nous avons retenu ces définitions pour deux raisons en particulier. La première parce qu elles rejoignent la notion de cercle vertueux qui impose une action et une mesure de son efficacité en fin de cycle E.C.D. La seconde parce qu elles positionnent l homme avec sa force de proposition et sa capacité d interprétation, au coeur du processus. Ainsi une technique de fouille de données n a de sens que si elle répond à une problématique posée par un groupe d individus et est compatible avec leurs méthodes de travail. La fouille de données doit s adapter aux besoins et non pas l inverse. Pour résumer cette introduction : nous avons justifié les besoins logiciels en comparant les croissances des puissances de traitement et des capacités de stockage des outils informatiques. Nous avons ensuite décrit l architecture de stockage et de traitement retenue par les entreprises pour répondre aux besoins opérationnels d un coté 4

5 Fig. 4 Définitions emboitées des notions de données, d information et de connaissance et décisionnels de l autre. Enfin nous avons défini l extraction des connaissances en terme de processus logiciel (appelé processus E.C.D.) et avons insisté pour positionner l homme au coeur de ce processus. Ce texte se poursuit par quatre sections. La premiere est consacrée à une technique particulière de fouille (l étude du panier de la ménagère) et à l outil mathématique majeur utilisé par cette technique (l analyse formelle de concepts). Ensuite la deuxième section décrit deux outils innovants de fouille de données (la navigation et la recherche de clones) proposées par notre équipe de recherche. Nous évoquerons dans la section suivante les besoins de notre équipe pour assurer les validation théorique et pratique de ses travaux. Enfin, la dernière porte sur une description synthétique du projet E.C.D.Sagitta. 2 Techniques de fouille de données En introduction de ce texte nous avons parlé du processus E.C.D. sans évoquer les différentes techniques de fouille proprement dites. Pour compléter notre étude, nous consacrons donc cette section à une technique particulière dite de l étude du panier de la ménagère (correspondant à la recherche des règles d association dans une base de données de transactions). 2.1 La recherche des règles d association Les magasins de grande distribution stockent dans des tables les achats effectués par leurs clients. Une table se présente alors comme une liste de transactions, ou de paniers. Et chaque transaction est décrite par l ensemble des items (les produits achetés) sélectionnés par le client. La recherche des règles d association a été introduite à l origine par Agrawal et al dans [1]. Une règle d association est une expression de la forme X Y où X (l antécédent) et Y (le conséquent) sont des ensembles d items. Le sens d une règle est intuitif : si un panier contient les items de X alors il contient probablement les items de Y. 5

6 Pour Devlin la connaissance se compose de l information et de la capacité d agir à partir de cette information. Cette idée d associer l information et l action est soutenue par M.J.A. Berry ([7]) : la fouille de données prend en entrée des données et des opportunités commerciales et produit des résultats concrets pour générer des actions. Ainsi Agrawal et al dans [1] listent un ensemble de questions auxquelles pourra répondre la recherche de règles d association et surtout le type d actions commerciales qu elles pourront entrainer. Extrait modifié de [1] : Trouver les règles avec boisson gazeuse comme conséquent ; (Comment mieux vendre la boisson gazeuse?) Trouver les règles avec biscuit comme antécédent ; (Sur quels produits aura un impact l arrêt des vente de biscuits?) Trouver les règles avec saucisse comme antécédent et moutarde comme conséquent ; (Quels produits accompagnent l achat de saucisses lorsque celui-ci s agrémente de moutarde) Trouver les règles concernant des produits provenant de rayonnages distincts ; (Exsite-t-il des liens de cause à effet entre les ventes et les rangements dans les rayonnages?) Trouver les k meilleures règles contenant soda comme conséquent ; Ce qu il faut retenir de cette liste : tout d abord les actions commerciales évoquées s expriment toujours sous la forme de questions, les informations recueillies par le processus E.C.D. fournira donc des éléments supplémentaires pour y répondre mais ne décrit pas les actions à mener elles mêmes ; ensuite la dernière question exprime l existence de critères qualitatifs d une règle. Bien que de nombreux critères aient été défini dans [13], nous ne retiendrons dans le cadre de cette étude que le support d une règle (la proportion des enregistrements de la base concernés par la règle) qui reflète sa pertinence, et la confiance d une règle (la proportion des enregistrements qui la respecte) qui indique sa justesse. Nous pouvons résumer la problèmatique soulevée précédemment comme suit : Problème 1 (La recherche des règles d association) Entrée : une relation binaire (extraite de la table à traiter) ; Sortie : un ensemble de règles d association respectant des contraintes (les contraintes fixent le contenu des règles, leur support et leur confiance) ; Précédemment nous avons défini une règle d association comme une expression de la forme X Y où X et Y sont des ensembles d items. Dans [20, 25] les auteurs ramènent le problème de la recherche de telles règles à celui de la recherche des concepts de la relation binaire servant d entrée au problème 1 (autrement dit la table de transactions). Un concept peut être vu comme un panier type. C est à dire qu il n existe pas forcement, dans la table, des transactions correspondant exactement à ce panier, mais que ce panier représente un ensemble de transactions en rassemblant ce qui leur est commun. 6

7 2.2 Fondements mathématiques La notion de concept comme représentation de la connaissance provient de la modélisation du monde réel supposé être constitué d objets ou d individus disposant de propriétés ou d attributs. La description d un concept résume les propriétés partagées par un ensemble d objets. La structure qui regroupe et décrit l ensemble des concepts issus d une base de données est connue sous le nom de treillis de Galois de la relation binaire objet-propriété. Cette correspondance de Galois a été proposée à la fin des années 60 ([3]) et reste aujourd hui l outil majeur dans l étude des données constituées d objets décrits par des propriétés ([21]). Le spectre des applications est large. Il couvre la classification conceptuelle, l analyse formelle de concepts (utilisée pour la recherche des règles d association), les bases de données relationnelles et objets ou la théorie des implications ([5, 6]). D une façon générale le nombre de concepts d une relation binaire croit de façon exponentielle avec la taille de cette relation. Notons que des auteurs ont montré que ce n était pas toujours le cas d un point de vue pratique ([25]). Malgrès tout, tout effort visant à reduire la taille de cette relation assure une meilleure efficacité des algorithmes de calcul des concepts. Notre équipe de recherche s est spécialisée depuis longtemps dans l étude des propriétés des ensembles ordonnés et des treillis. Ainsi, notre travail consiste souvent à déterminer, pour une strucure discrête donnée et plus particulièrement pour un treillis, une représentation simple et ayant une algorithmique efficace (reconstruction, génénration, test de comparabilité...). A ce jour, notre vision est clairevoyante dans les domaines de l algorithmique combinatoire, de l algorithmique de génération des treillis, mais auusi dans les domaines de la théorie et de la représentation des treillis et du codage des ordres partiels. Néammoins, dans le contexte d une recherche internationale compétitive et exigeante, une diffusion large de nos résultats est dépendante d une vérification expérimentale de qualité. 2.3 Besoins logiciels dans un cadre de recherche scientifique Notre intuition est que cette validation doit suivre deux axes (cf. figure 5) : 1. la programmation d applications legères permettant la génération, la gestion, la visualisation des objets étudiés, mais aussi la vérification de leurs propriétés ; Nous parlerons alors de validation théorique. 2. l adéquation de l utilisation de ces objets dans le cadre de l analyse des bases de données ou de la fouille de données. Nous parlerons ici de validation pratique Validation théorique Nous l avons évoqué, les travaux de notre équipe porte sur la génération, la reconnaissance et la définition d objets combinatoires complexes issus d une relation binaire. 7

8 Fig. 5 Le rôle d une application dans un schéma de validation L algorithmique associée porte sur des objets basiques (les inf-irréductibles ou les supirréductibles) du treillis de Galois de la relation. Pour implémenter cette algorithmique nous devons disposer d une boite à outils (ou collection de fonctions) qui manipulent ces objets basiques. Nous pourrons alors appliquer ces algorithmes à des ensembles de benchmarks reconnus et vérifier expérimentalement la justesse des résultats. Dans un second temps nous pourrons réaliser des statistiques ou des comparaisons avec d autres méthodes. La figure 6 résume ce processus et mentionne plus précisément la nature des objets combinatoires étudiés. Fig. 6 Protocole de validation théorique Pour mettre en place un tel processus nous devons respecter un certain nombre de recommandations. Tout d abord définir un format de stockage d une relation et donc disposer d une application qui transforme les fichiers benchmarks dans ce format (cf. figure 7). Ensuite, nous devons mettre à disposition un environnement de développement rapide et pour cela documenter très précisément la collection de fonctions disponibles. Enfin, pour préparer au mieux nos solutions algorithmiques à un futur passage à l échelle (tout relatif), les fonctions de notre collection devront picorer dans les fichiers formatés et ne surtout pas les charger en mémoire. 8

9 Fig. 7 Schéma de discrétisation de benchmarks Validation pratique La validation dite pratique consiste à mesurer l adéquation des méthodes innovantes que nous proposons (cf. section 3) au processus E.C.D. Comme nous l avons précisé en introduction, un processus E.C.D. doit positionner l analyste au coeur de son déroulement. En ce sens l utilisation de benchmarks pour mesurer l efficacité de nos méthodes n est pas toujours adaptée. Notre intention est donc de proposer à l analyste un ensemble d outils, déjà connus et/ou innovants, qui lui permettent de réaliser le processus sur ses données propres. Enfin la proximité de l analyste nous permettra de répondre à une autre exigence mentionnée en introduction : une technique de fouille doit répondre à un type de question précis. Avec l analyste, nous serons à même de définir clairement ces questions. Fig. 8 Schéma de validation pratique. Les outils innovants mentionnés font l objet d une description complète dans la section 3 de ce document. Pour résumer nos besoins, nous devons disposer d une application qui assure la récupération de benchmarks, leur discrétisation et leur formatage (format XML). Nous devons disposer d une bibliothèque de fonctions (largement documentée) qui permette la gestion d une relation (sous format XML) et la génération de ses objets basiques (inf. et sup-irréductibles). Du coté analyste nous devons disposer d une application qui assure les premières tâches du processus E.C.D. (nettoyage, discrétisation, affinage, formatage) et l accès à des techniques innovantes de fouille. Nous devrons aussi assurer la confidentialité de ses données. Dans cette section nous avons décrit une technique de fouille (l étude du panier de la ménagère) et montré que cette technique repose sur la problèmatique de la génération du treillis des concepts issus d une relation binaire. Nous avons rappelé à cette occasion que cette problématique constitue le coeur de métier de notre équipe de recherche. 9

10 Nous avons finalement évoqué la nécessité de disposer d outils logiciels pour assurer les validations théorique et pratique de nos travaux. Plusieurs fois au cours des pages précédentes des outils originaux participants au processus E.C.D. ont été mentionnés. La section suivante est consacrée à une description plus détaillée de ces outils. 3 Approche proposée par notre équipe Au cours des dernières années notre équipe a orienté ses efforts dans l étude des stuctures discrètes ordonnées et des systèmes implicationnels. Citons par exemple l énumération des éléments du treillis de Galois ([9, 19]), la reconnaissance de règles appartenant à des bases d implications données ([16]), la recherche interactive des règles d association ([16, 17]) ou la recherche de similitudes dans le comportement des attributs d une table ([10, 15]). Notre attention se porte donc sur l étude des structures mais aussi sur les algorithmes sous jacents. Peut-on répondre à des requêtes concernant les objets étudiés en temps raisonnable (polynomial)? Ces différents travaux sont dans la droite ligne des résultats obtenus par les membres de l équipe en des temps plus anciens ([14, 18]). Ces travaux nous permettent aujourd hui de proposer deux outils innovants de fouille de données. Le premier, appelé navigation, s appuie sur la technique de la recherche des règles d association. Le second, appelé recherche de clones, nous permet de réduire le volume des données à traiter, de valider des choix de discrétisation ou de réaliser des tâches de classification. Les techniques de classification étant un des pilliers essentiels de la fouille de données. 3.1 La navigation Les solutions standards La plupart des méthodes proposées pour résoudre le problème 1 consistent en une démarche itérative composée : 1. d une étape de génération (potentiellement exponentielle) d un ensemble de règles ; 2. d une étape de parcours de cet ensemble pour trouver la/les règle/s intéressante/s ; 3. d une étape d analyse et d affinage qui relance le processus ; Ces méthodes permettent un parcours des règles une fois que l ensemble des règles a été généré. La phase d affinage permet d appliquer des contraintes. On peut restreindre l espace de recherche en augmentant les seuils de support et de confiance ([2], [12]) ou en spécifiant que les règles recherchées contiennent tel item. La seule interaction avec l utilisateur consiste en l évaluation des contraintes. Le temps de calcul nécessaire à la réalisation de l étape de génération est un obstacle crucial à l interactivité entre l utilisateur et le progiciel alors même que le processus E.C.D. est hautement centré sur l humain, sa connaissance du domaine, son intuition et sa capacité d interprétation. 10

11 Pour répondre à cet inconvénient majeur nous proposons une méthode originale de navigation à priori dans l espace des règles Découverte interactive des règles d association Notre méthode de navigation est un processus interactif qui permet de générer les règles à la demande. L analyste se voit proposer un ensemble restreint (polynomial) de règles dites générales dont les parties droites correspondent à chaque item. Il a ensuite la possibilité de demander une réduction de la partie gauche d une règle afin d affiner ce qui est vraiment nécessaire pour produire la partie droite. A chaque étape du processus le nombre de calculs est restreint, ceci assure de garder le contact avec l utilisateur. Au fur et à mesure on voit donc se construire un arbre de règles dont les branches peuvent être élaguées ou développées. Bien que cet arbre soit composé de règles exactes (de confiance 1), l utilisateur pourra, pour une règle donnée, extraire des règles de qualité dégradée (pour le support et la confiance). Enfin l outil est capable de semi-automatiser la réduction d une règle générale à la demande de l utilisateur. L outil permettra aussi de vérifier si la règle choisie appartient à une base spécifique (base réduite à gauche, etc). Les résultats mathématiques sous-jacents à ces fonctionnalités ont fait l objet de publications récentes [17, 16]. 3.2 La recherche de Clones Dans [15] les auteurs définissent, de manière formelle, une relation d équivalence sur l ensemble des items décrivant une relation binaire. Ces classes sont appelés classes d items clones. Deux items sont clones si leur présence est interchangeable dans l ensemble des concepts de la relation. Ainsi l ensemble des paniers types où l un des items clones apparait peut être déduit de l ensemble des paniers types où le second item est présent. Et ceci en un nombre linéaire de calculs. En représentant chaque classe d items clones par un seul item on réduit le contexte et ainsi l espace de recherche des règles Sémantique associée aux clones Comment interpréter le fait que deux items, qui permettent de décrire un ensemble de transactions, sont interchageables? Aujourd hui notre réponse n est que partielle. Afin de faciliter la discussion nous proposons quatre exemples : 1. Un grand nombre de paniers types contiennent les mêmes produits à ceci près que certains d entre eux inclus des chaises de jardin alors que les autres incorporent un banc de jardin ; 2. Le comportement accidentogène des conducteurs ayant moins de 10 ans de pratique de la conduite est le même pour les tranches d ages de 18 à 23 ans et de 23 à 27 ans. 3. La répartition du pouvoir d achat sur les biens de comsommation ou de services est le même pour les seniors que pour les juniors. 4. Pour chaque panier type contenant un article vestimentaire de telle marque, il existe le même panier type, sans cet article, mais avec un article de quincaillerie. 11

12 Les quatre assertions précédentes sont supposées être des interprétations possibles faites à partir d un ensemble de règles. Notons que ces règles ne sont pas exclusivement issues de bases de transactions. Nous avons élargi le champs d étude au domaine de l assurance et au domaine socio-économique. Pour ces domaines on ne parle plus d items et de transactions mais d attributs et d enregistrements. Pour être adaptées à la recherche des règles d association les données doivent alors subir un traitement appelé discrétisation. Une discrétisation consiste à découper en tranches les attributs dit continus qui décrivent les enregistrements de la table. Autrement dit la discrétisation de l attribut âge consiste par exemple à regrouper dans une même classe d âge tous les personnes de 18 à 23 ans et toutes les personnes de 23 à 27 ans. Les attributs clones dans les 4 cas étudiés sont :chaises/banc de jardin, tranches [18,23]/[23,27], tranche junior/senior, marque vestimentaire/quincaillerie. Notre intuition est que la sémantique est sensiblement différente pour chacun de ces cas. Le cas deux est clairement relatif à une discrétisation non adaptée, en effet il aurait fallut ne pas découper en deux la tranche [18-27] puisque l âge n a aucune influence sur l ensemble des règles. Le cas trois est le même si ce n est que les intervalles (junior, sénior) ne sont pas contigüs. Le cas 1 reflète le problème de la hiérarchie dans les niveaux de description des articles du magasin. Si une telle classe de clones existe c est que le niveau de description n était pas ou peu adapté. Enfin, le cas 4, très mystérieux, résiste à toute analyse à ce jour. En plus de permettre une réduction d un contexte, les clones se présentent donc comme un moyen de vérification ou un critère d évaluation de la qualité d une procédure de discrétisation, de classification ou de description hiérarchique d un ensemble d objets Les items clones dans un processus E.C.D. Notre intention est d utiliser la technique des clones pour les deux problémes suivants : Réduction des volumes de données à traiter Comme nous l avons mentionné, en représentant chaque classe d items clones par un seul item on réduit le contexte et ainsi l espace de recherche des règles. L utilisation de cette technique peut s inscrire dans une phase de pré-processing, succédant à la phase de discrétisation, visant à réduire la taille d un contexte avant l application d une technique de fouille. Une phase de post-processing est alors nécessaire pour reconstruire les règles à partir de la définition des classes de clones. Ceci afin de préparer les données à la phase de visualisation. Il est à noter que la reconstruction peut être effectuée à la demande. Outil d évaluation qualitative d une phase de discrétisation Dans une application logicielle dédiée à la discrétisation nous proposerons une fonctionnalité d évaluation d une discrétisation donnée. En déterminant les classes d items clones nous seront à même de repérer des cas similaires aux cas 2 et 3. C est à dire des cas où les classes d items clones sont issus de la discrétisation d un 12

13 même item. Nous proposerons alors le regroupement de tels ou tels intervalles de valeurs Difficultés algorithmiques L expérience montrera sûrement que le nombre de clones d une relation est limité. Notre recherche ne doit donc pas se restreindre aux classes exactes de clones. Nous avons proposé une première notion de distance entre attributs (si cette distance est nulle les attributs sont clones) malheureusement sont évaluation reste délicate puisque elle nécessite de devoir compter un ensemble de règles. Ce qui n est pas le cas pour déterminer les classes exactes. Le calcul d une approximation de cette distance a fait l objet d un projet étudiant et d une implémentation. Le logiciel est disponible à l adresse suivante : http :// Conclusion Nous avons présenté dans cette section deux outils innovants de fouille de données que sont la navigation et la recherche de clones. La navigation est originale car elle se présente comme un outil interactif de recherche de règles alors que cette technique de fouille est classée comme non dirigée dans la littérature. La recherche de clones nous permet quand à elle de réduire le volume de la relation et ainsi de rendre plus efficace les traitements de fouille, quels qu ils soient. Enfin, ces deux outils s appliquent sur des relations binaires et imposent donc un traitement de discrétisation des données étudiées. Nous pensons que la qualité des résultats produits par ces outils est très dépendante de cette phase de discrétisation. Nous avons montré que la recherche de clones peut être adaptée à l évaluation de la qualité d une discrétisation. 4 Le projet E.C.D.Sagitta L objectif de notre projet logiciel est le développement d un ensemble d applications (ou de modules) appelé E.C.D.Sagitta répondant aux besoins exprimés. Cette section est composée de deux sous-sections. Dans un premier temps nous donnons l architecture modulaire retenue par notre équipe. Le développement de ces modules et de leurs fonctionnalités sont donc des objectifs à atteindre. Dans un second temps nous décrivons les développements déja effectués. 4.1 Une architecture modulaire adaptée 1. Le module Extracteur : l étude des besoins a montré la nécessité d une application (outils E.T.L.) assurant le nettoyage, la discrétisation (ou le calcul des agrées) et le formatage X.M.L. des données. Ce module doit s installer sur le poste utilisateur et donner accès aux bases de données locales hébergant les données brutes ou les benchmarks. Cet outil installé localement assurera la confidentialité 13

14 des données. Ce module sera utilisé indifféremment par les analystes qui préparent leurs données ou par les chercheurs qui formatent les benchmarks en vue de valider leurs travaux. Ces derniers auront le choix d extraire des benchmarks une relation discrétisée pour évaluer des outils de fouille, ou d extraire les agrées pour tester des outils d analyse de base de données. Ce module répond aux besoins de la figure Le centre de calcul : il réalise les calculs lourds à partir des fichiers formatés fournis en entrée. Ce centre à disposition des programmeurs se présentera sous la forme d une liste précise de fonctions qu il sait calculer (la boite à outils). Il sera clairement documenté. 3. Le serveur : le dernier module est constitué du serveur qui assure l interface entre les utilisateurs et le centre de calcul. Il donne accès aux outils innovants de fouille ou d analyse de données. Il assure aussi la gestion d un espace disque permettant le stockage des fichiers normalisés, et d enregistrer les travaux en cours. Les utilisateurs inscrits ont accès à ces services par l intermédiaire d un client léger (navigateur Web). La figure 9 résume l architecture matérielle et logicielle retenue. Fig. 9 Architecture modulaire 4.2 Les développements déjà effectués A ce jour notre effort de développement s est porté : sur le module d extraction indispensable à la gestion des benchmarks et aux formatage X.M.L. des données ; sur l architecture du serveur (gestion des services d espace disque aux utilisateurs) et la mise en place du premier service de technique innovante de fouille (la navigation interactive). sur quelques fonctions du centre de calcul programmées en C++ (avec utilisation des S.T.L.) ; 14

15 4.2.1 Le module Extracteur Le module Extracteur assure tout d abord le branchement sur des bases de données Oracle et MySql. Ensuite il permet d exécuter une discrétisation des données sélectionnées suivant différentes méthodes (adaptées à divers contextes). Enfin Extracteur exporte les données obtenues sous un format X.M.L. qui servira de format d entrée pour les modules suivants. Puisque Extracteur se branche directement sur une base de données, la discrétisation peut se faire sur une vue/table dont le contenu a déjà fait l objet d une vérification ou d une sélection des lignes ou des colonnes. A terme Extracteur proposera tout de même un service de nettoyage. A noter que si les données ne sont pas disponibles dans une base (comme les benchmarks du Web, ou dans le cas de données dispersées) nous devons passer par la réalisation d un script SQL de création d une table qui sera hébergée sous les S.G.B.D. Oracle ou MySql (cf. figure 10). Fig. 10 Processus d extraction des données Cette phase d extraction et de transformation est primordiale pour assurer la qualité de la suite du processus. Notre objectif n est pas d implémenter toutes les techniques de discrétisation proposées par les progiciels (SAS, Alice...), mais de pouvoir tester des méthodes originales ou des méthodes proposées, imaginées par les analystes utilisateurs. Pour cela l originalité de ce module tient dans la possibilité d insérer à Extracteur des plug-in implémentant de nouvelles méthodes. Un plug-in se présentera sous la forme d une classe java (des classes exemples seront à disposition pour la consultation). L analyste se confrontera alors uniquement aux aspects algorithmiques de ses besoins et non pas sur les aspects techniques ou d implémentation. La figure 11 est une capture d écran du prototype opérationnel disponible pour téléchargement à l adresse : w3.isima.fr/raynaud/software/extracteur/extracteur.htm Le serveur Pour répondre aux besoins exprimés dans la section précédente nous avons retenu un serveur TomCat produisant des pages HTML par l intérmédiaire de Servlets (issue de pages JSP). Le serveur a pour rôle de répondre aux requêtes exprimées par les utilisateurs grace à un client leger de type navigateur. 15

16 Fig. 11 Capture d écran de Extracteur (d autres captures d écran sont disponibles à l adresse w3.isima.fr/raynaud/software/extracteur) Le serveur TomCat est physiquement hébergé par notre équipe et assure la cohésion entre différents modules : un serveur de base de données pour la gestion des droits et des comptes utilisateurs ; un espace disque personnalisé qui sert au stockage de fichiers de travail et des sources de données sous un format X.M.L. ; un centre de calcul (serveur XML-RPC) qui assure l exécution des algorithmes sur les données stockées dans les espaces disque. Le langage et l environnement de développement choisi est donc Java (J2EE). La figure 12 résume l architecture retenue pour le serveur. Fig. 12 Architecture du serveur Le centre de calcul Le centre de calcul se présente sous la forme d une interface de fonctions (ou API). Ces fonctions ont été développées en C++ (avec utilisation de S.T.L.) et compilées. 16

17 Grâce au logiciel Swig nous produisons à partir du fichier compilé un programme Python appelable par le serveur XML-RPC. Actuellement l interface est composée de 3 fonctions nécessaires pour l exécution de la recherche interactive de règles d association. 5 Conclusion Adam Smith, dans la société des nations, décrit tous les avantages inhérents à une économie de marché. Citons le dynamisme économique, les libertés d entreprendre, la croissance des richesses ou l autorégulation des prix assurée par la loi de l offre et de la demande. Il précise néammoins le contexte idéal à cette économie : un contexte à information compléte dans lequel chacun est libre de choisir ou d agir. Disposer de l information est donc un atout crucial pour consommer, acheter ou investir intelligemment sur le marché. Pour cette raison les problèmes liés à la gestion des grandes masses de données, à la recherche d information ou de connaissances dans les entrepôts de données sont des problèmes sensibles. Les acteurs économiques veulent disposer d une information fiable pour axer leurs stratégies sur le moyen et long terme. Nous pouvons peut être trouver ici une explication du boum survenu ces dernières années dans les domaines de l informatique liés à ces problèmatiques. L économie n est pas le seul domaine pour lequel l information est sensible. L état, pour rationaliser son administration ou assurer la sécurité (dans tous ces aspects opérationnels) est insatiable en informations. Rationaliser consiste souvent à créer des gains de productivité par l automatisation d un grand nombre de tâches. L outil informatique est l outil idéal pour mettre en place cette automatisation. Nous pensons néammoins que la fouille de données à ceci de particulier qu elle assiste des prises de décision parfois délicates et lourdes de conséquences. Pour cette raison le décideur doit pouvoir comprendre et retracer le cheminement de l analyse automatique de l outil informatique et savoir limiter sa portée. Enfin, la soif de savoir qui caractèrise l homme n est pas toujours justifiée par un but précis (compétitivité, sécurité...). Elle correspond aussi souvent à une démarche inconsciente qui nous pousse à comprendre l univers qui nous entoure. La fouille ou l analyse de données de masse sont devenus des outils indispensables aux métiers de la recherche. Par exemple ils ont permis aux biologistes de mettre en place une nouvelle classification phylogénétique du vivant. Au XVIIIième siècle Voltaire évoque cette soif de comprendre, il raconte aussi l orgueil des hommes qui raisonnent. Cet orgueil qui persuade les individus de la démesure de leur destin. Pour répondre aux hommes, l écrivain les confronte à Micromégas, un géant voyageur venu sur Terre par hasard dont le savoir est immense. En les quittant il leur laissera quelques bribes de ce savoir. Des pages blanches. Afin de tenir compte de cet avertissement nous avons retenu le nom de E.C.D.Sagitta pour notre projet. En effet Sagitta, la flêche, est synonyme d acuité et de rapidité, ce que l on souhaite à nos algorithmes. Ce mot est aussi la racine du mot sagesse, celle que l on doit conserver dans le cadre d une quête difficile. 17

18 Références [1] R. Agrawal, T. Imielinski, and A. Swami. Mining association rules between sets of items in large databases. In ACM SIGMOD 93. Washington, USA, [2] R. Agrawal and R. Srikant. Fast algorithm for mining association rules. In 20th International Conference of Very Large DataBasis (VLDB), pages Santiago, Chile, September, [3] M. Barbut and B. Monjardet. Ordre et classification. Hachette, [4] K. Devlin. Turning Information into Knowledge. InfoSens, [5] V. Duquenne. Latticial structure in data analysis. Theoritical Computer Science, 217 : , [6] V. Duquenne and J-L. Guigues. Famille minimale d implications informatives résultant d un tableau de données binaires. Mathématiques Sciences Humaines, 24, [7] M.J.A. Berry et G. Linoff. Data-Mining, Techniques appliquï 1 2s au marketing, la vente et aux services clients. InterEditions, ï 1 2 [8] R. Lefebure et G. Venturi. Data-Mining, Gestion de la relation client, Personnalisation de site Web. Eyrolles, seconde edition, [9] A. Gely. A generic algorithm for generating closed sets of a binary relation. In ICFCA 05, [10] A. Gely, R. Medina, L. Nourine, and Y. Renaud. Uncovering and reducing hidden combinatorics in guigues-duquenne covers. In ICFCA 05, [11] R. Godin. Les entrepï 1 2 s de donnï 1 2 s et l analyse de donnï 1 2s. Version beta edition, [12] J. Hipp, U. Guentzer, and G. Nakhaeizadeh. Algorithms for association rules mining - a general survey and comparison. SIGKDD Exploration, 2(1) :58 64, [13] M. Halkidi M. Vazirgiannis and D. Gunopulos. Uncertainty Handling and Quality Assessment in Data-Mining. Springer, [14] R. Medina and L. Nourine. Algorithme efficace de gï 1 2ï 1 2 ation des idï 1 2ux d un ensemble ordonnï 1 2. [15] R. Medina and L. Nourine. Clone items : a pre-processing information for knowledge discovery. submitted. [16] R. Medina, L. Nourine, and O. Raynaud. Interactive association rules discovery. In 4th International Conference, ICFCA, pages , [17] R. Medina, C. Noyer, and O. Raynaud. Efficient algorithms for clone items detection. In CLA 05, pages 70 81, [18] L. Nourine and O. Raynaud. A fast algorithm for building lattices. Information Processing Letters, volume 71 : , [19] L. Nourine and O. Raynaud. A fast incremental algorithm for building lattices. Journal of Experimental and Theoritical Artificial Intelligence, 14 : ,

19 [20] N. Pasquier, Y. Bastide, R. Taouil, and L. Lakhal. Efficient mining of association rules using closed itemset lattices. Information Systems, 24, 1 :P , [21] R.Wille. Why can concept lattices support knowledge discovery in database. Journal of experimental and theoritical artificial intelligence, volume 14 :81 92, [22] D. Smith. System engineering for healthcare professionals. Cardiff institute of higher education, [23] G. Piatesky-Shapiro U. Fayyade and P. Smyth. From data-mining to knowledge discovery in data base. AAAI97, [24] I. Watson. Applying case-based reasonning : Techniques for Enterprise Systems. Morgan Kaufmann, [25] M. Zaki. Generating non redundant association rules. October,

Montrer encore