Extraction et gestion des connaissances : EGC'2008

Transcription

1 Revue des Nouvelles Technologies de l Information Sous la direction de Djamel A. Zighed et Gilles Venturini Extraction et gestion des connaissances : EGC'2008 Rédacteurs invités : Fabrice Guillet (LINA, Université de Nantes) Brigitte Trousse (INRIA Sophia Antipolis-Méditerranée) Volume I CÉPADUÈS-ÉDITIONS 111, rue Vauquelin TOULOUSE France Tél. : Fax : (de l étranger ) Fax : courriel : cepadues@cepadues.com

2 Chez le même éditeur RNTI-Revue des Nouvelles Technologies de l'information Sous la direction de Djamel A. Zighed et Gilles Venturini n 1 : Entreposage fouille de données E1 : Mesures de qualité pour la fouille de données E2 : Extraction et gestion des connaissances EGC 2004 C1 : Classification et fouille de données E3 : Extraction et gestion des connaissances EGC 2005 B1 : 1 re Journée Francophone sur les Entrepôts de Données et l Analyse en ligne EDA 2005 E4 : Fouille de données complexes E5 : Extraction des connaissances : Etat et perspectives E6 : Extraction et gestion des connaissances EGC 2006 E7 : Visualisation en extraction des connaissances E8 : Systèmes d'information pour l'aide à la Décision en Ingénierie Système B2 : 2 re Journée Francophone sur les Entrepôts de Données et l Analyse en ligne EDA 2006 E9 : Extraction et gestion des connaissances EGC 2007 E10 : Défi fouille de textes B3 : 3 re Journée Francophone sur les Entrepôts de Données W1 : Fouille du Web A1 : Data Mining et Apprentissage Statistique : applications en assurance, banque et marketing A2 : Apprentissage artificiel et fouille de données SM1 : ISoLA 2007 Workshop On Leveraging Applications of Formal Methods, Verification and Validation Ensemble composé de 2 volumes : (volume I) (volume II) CEPAD 2008 ISBN : Le code de la propriété intellectuelle du 1 er juillet 1992 interdit expressément la photocopie à usage collectif sans autorisation des ayants droit. Or, cette pratique en se généralisant provoquerait une baisse brutale des achats de livres, au point que la possibilité même pour les auteurs de créer des œuvres nouvelles et de les faire éditer correctement serait alors menacée. Nous rappelons donc que toute reproduction, partielle ou totale, du présent ouvrage est interdite sans autorisation de l'éditeur ou du Centre français d'exploitation du droit de copie (CFC 3, rue d'hautefeuille Paris). Dépôt légal : janvier 2008 N éditeur : 81800

3 LE MOT DES DIRECTEURS DE LA COLLECTION RNTI Chères Lectrices, Chers Lecteurs, La Revue des Nouvelles Technologies de l Information a pour objectif d être un outil de communication de très grande qualité et ouvert à tous les chercheurs impliqués dans les technologies de l information. Nous continuons à faire paraître des numéros dans les thèmes liés à l Extraction de connaissances à partir des Données, à la Fouille de données et à la Gestion des connaissances, mais cette année marque une évolution dans notre revue qui ouvre plus largement sa thématique à d autres domaines de l Informatique, toujours avec les mêmes niveaux d exigence sur les numéros publiés. A ce titre, nous vous rappelons que RNTI accueille deux types de numéros (pour lesquels une procédure d évaluation à trois relecteurs est systématiquement mise en place) : des numéros à thème faisant l objet d un appel à communication. Chaque numéro à thème est édité par un ou plusieurs rédacteurs en chef invités. Un comité de programme spécifique d une quinzaine de personnes est formé à cette occasion. Si vous avez un projet éditorial vous pouvez nous le soumettre et s il est dans le créneau de RNTI vous serez désigné rédacteur invité et vous vous chargerez ensuite de manière libre et indépendante de la mise en place de la collecte, de l évaluation, de la sélection et de la publication du numéro, des actes de conférences sélectives garantissant une haute qualité des articles. Si vous présidez une conférence dans des thématiques liées aux technologies de l information, vous pouvez nous contacter. Dans le présent numéro, nous publions les papiers sélectionnés par la conférence EGC 2008 qui se tient à Sophia Antipolis du 30 janvier au 1er février Nous tenons à remercier particulièrement les organisateurs de cette conférence ainsi que l association EGC pour la confiance qu ils accordent à cette revue et nous les félicitons pour la qualité du travail accompli. Nous espérons vivement que ce numéro vous donnera à toutes et à tous une entière satisfaction. Pour tout renseignement, nous vous invitons à consulter notre site Web et à nous contacter. Djamel A. Zighed et Gilles Venturini. http :// - iii -

4

5 PRÉFACE La sélection d articles publiés dans le présent recueil constitue les actes de la huitième conférence Extraction et Gestion des Connaissances (EGC 2008) qui s est déroulée à Sophia Antipolis du 30 janvier au 1 er février Comme les précédentes éditions, ces journées francophones sont consacrées à toutes les problématiques, théories, méthodes et applications de la fouille de données, de l apprentissage, de l extraction et de la gestion de connaissances. Il s agit de rassembler les chercheurs universitaires et les acteurs d entreprises concernés par ces domaines afin de présenter des travaux de qualité, de communiquer, et de stimuler les innovations. Lors de cette huitième édition, parmi les 156 résumés déposés qui ont donné lieu à 134 soumissions d articles ou de démonstrations, ont été retenus : 42 articles en format long (environ 30% des soumissions), 27 articles en format court, 15 posters et 6 démonstrations de logiciel. Ce volume de soumissions ainsi que le taux de sélection illustrent à la fois le dynamisme de cette communauté scientifique ainsi que la qualité des travaux menés dans ce domaine. Les articles de ce numéro sont regroupés selon les sessions dans lesquelles ils ont été présentés, et dans l ordre chronologique. Ces regroupements thématiques sont, d une certaine manière, arbitraires : de nombreux autres arrangements auraient été possibles, aussi nous invitons les lecteurs à parcourir l ensemble des titres pour se faire une idée de la couverture d un domaine particulier, plutôt que de s en tenir uniquement aux intitulés des sessions. Remerciements Nous tenons à remercier tous les auteurs qui ont soumis des articles à cette conférence. Nous félicitons ceux dont la proposition a été acceptée, et nous espérons que les commentaires des relecteurs auront été constructifs et encourageants pour les autres auteurs. Nous espérons que cette conférence et ce numéro seront profitables à tous. Compte tenu du grand nombre de relectures (trois relecteurs par article donnent lieu à près de 400 relectures), nous tenons à remercier tous les membres du comité de lecture ainsi que les relecteurs additionnels pour leur travail d évaluation et les commentaires qu ils ont pu fournir aux auteurs. Nous tenons à remercier et féliciter particulièrement le comité d organisation : un grand merci à eux pour tout le temps qu ils ont consacré au succès de cette conférence. En particulier un grand merci à Hakim Hacid pour la gestion du site de soumission, Monique Simonetti pour la logistique locale, Bernard Senach et Gaëlle Leblond pour leur aide à de nombreuses tâches, Florent Masséglia pour la réalisation du logo EGC08, Sémi Gaieb pour son aide pour le site Web, Claudia Marinica pour les inscriptions, Fabien Picarougne pour la construction des actes. Merci également à Alice Marascu et Florent Masséglia pour l organisation des ateliers, Hicham Behja et Bernard Senach pour l organisation des tutoriaux et enfin Alzennyr Da Silva et Mohand-Said Hacid pour l organisation des démonstrations logicielles. Nos remerciements vont également à Marie-Claire Forgue (W3C), Jacques Lemaire (IUT Menton) pour leur soutien pour cet évènement, à Dany Sergeant, Agnès Cortell, Sophie Honnorat, Stéphanie Aubin, Yves Lechevallier, Abdelmoujib Elkhoumri et Reda Kabbaj sans oublier le personnel des services GENER (services généraux) et SEMIR (moyens informatiques) de l Inria pour leur aide avant et/ou lors de la conférence elle-même. - v -

6 Cette conférence ne pourrait voir le jour sans le soutien de l Association EGC, soutien qui s exprime de multiples manières : parution des actes, organisation locale, et dotation de deux prix attribués lors de la conférence. (consulter pour une description plus complète) Enfin, nous remercions spécialement le Centre de Recherche Inria Sophia Antipolis - Méditerranée d une part pour nous avoir offert le plaisir d inaugurer son nouvel amphithéeatre 1 et d autre part pour son soutien financier et logistique. Fabrice Guillet et Brigitte Trousse. 1 Financé en partie par la Région PACA, la Communauté d Agglomération Sophia Antipolis (CASA), le Conseil Général et l Etat. - vi -

7 Président d honneur d EGC 2008 : Osmar Zaïane, Université d Alberta, Canada. Le Comité de lecture de ce numéro est constitué des Comités de programme et de pilotage. Comité de programme d EGC 2008, sous la présidence de Fabrice Guillet : J. Akoka (CNAM, Paris, F) T. Aluja-Banet (EIO, UPC, Barcelone, E) D. Aubert (LaBRI, U. Bordeaux 1, F) M.-A. Aufaure (Supelec, Paris, F) N. Aussenac-Gilles (IRIT, U. Toulouse, F) B. Bachimont (UTC, F) J.-P. Barthès (UTC, F) N. Belkhiter (Faculté des sciences et de génie, U. Laval, C) A. Bellaachia (The George Washington U., USA) S. Ben Yahia (U. Tunis, T) S. Benbernou (LIRIS, U. Claude Bernard Lyon1, F) S. Bengio (Google Inc., Mountain View California, USA) Y. Bennani (LIPN-U. Paris 13, F) G. Berio (Dipartimento di Informatica, U. di Torino, I) L. Berti-Equille (IRISA, Rennes, F) H. Bock (Institute of Statistics, RWTH Aachen U., USA) P. Bosc (IRISA-ENSSAT, U. Rennes 1, F) F. Bouali (U. Lille 2, F) M. Boughanem (IRIT, U. Toulouse, F) J.-F. Boulicaut (LIRIS, U. lyon 1, F) M. Boullé (Frane Télécom R&D, F) O. Boussaid (ERIC, U. Lyon, F) M. Bouzeghoub (PRISM, U. Versailles, F) P. Brito (NIAAD-LIACC, U. Porto, P) S. Canu (LITIS, INSA de Rouen, F) F. Chateau (U. Lyon 2, F) M. Chavent (MAB, U. Bordeaux 1, F) F. Cloppet (CRIP5, U. Paris 5, F) M. Collard (I3S, U. Nice Sophia Antipolis, F) A. Cornuejols (LRI, U. Paris Sud, F) B. Crémilleux (GREYC, U. Caen, F) J. Darmont (ERIC, U. Lyon 2, F) F. De Marchi (LIRIS, U. lyon 1, F) S. Després (LIPN, U.Paris 13, F) E. Diday (CEREMADE, U. PARIS-DAUPHINE, F) R. Dieng-Kuntz (INRIA Sophia Antipolis - Méditerranée, F) C. Djeraba (LIFL, U. Lille 1, F) S. Faiz (LTSIRS, INSAT, T) G. Falquet (U. Genève, S) A. Magda Florea (U. Polytechnique de Bucarest, R) C. Froidevaux (LRI, U. Paris Sud, F) P. Gallinari (LIP6, U. Pierre et Marie Curie, F) J.-G. Ganascia (LIP6, U. Pierre et Marie Curie, F) P. Gancarski (LSIIT-AFD, F) F. Gandon (INRIA Sophia-Antipolis - Méditerranée, F) C. Garbay (CLIPS-IMAG, Grenoble, F) G. Gardarin (PRISM, U. Versailles Saint-Quentin, F) P. Geurts (U. Liège, B) A. Giacometti (LI, U. Tours, F) R. Gilleron (INRIA Lille, F) G. Govaert (UTC, F) C. Guinot (CERIES, U. Biométrie et Epidémiologie, F) A. Hardy (FUNDP, Namur, B) F. Jaquenet (EURISE, U. Saint-Etienne, F) A. Khenchaf (ENSIETA, Brest, F) P. Kuntz (LINA, U. Nantes, F) S. Lallich (ERIC, U. Lyon 2, F) M. Lamure (U. Lyon 1, F) L. Lancieri (France Telecom R&D, F) P. Laublet (LaLIC, U. Paris-Sorbonne, F) A. Laurent (LIRMM, Polytech Montpellier, F) A. Lazraq (ENIM, Ecole des Mines de Rabat, M) J. Le Maitre (LSIS - U. Sud Toulon-Var, F) Y. Lechevallier (INRIA Paris - Rocquencourt, F) R. Lehn (LINA, U. Nantes, F) P. Lenca (GET/ENST Bretagne, Brest, F) P. Leray (LINA, U. Nantes, F) I.-C. Lerman (IRISA, U. Rennes 1, F) S. Loiseau (LERIA, U. Angers, F) F. Masseglia (INRIA Sophia Antipolis - Méditerranée, F) E. Mephu Nguifo (CRIL, U. Artois, F) R. Missaoui (U. du Québec en Outaouais, C) A. Morin (IRISA, Rennes, F) A. Napoli (LORIA, Nancy, F) M. Noirhomme-Fraiture (FUNDP, Namur, B) J.-M. Ogier (L3i, U. Rochelle, F) N. Pasquier (I3S, U. Nice Sophia Antipolis, F) S. Pinson (LAMSADE, U. Paris Dauphine, F) P. Poncelet (LGI2P/EMA, F) F. Poulet (IRISA, Rennes, F) P. Preux (LIFL, U. Lille, F) J.-C. Régnier (Laboratoire SDP, U. Lyon 2, F) C. Reynaud (U. Paris-Sud, LRI & INRIA (Futurs), F) C. Roche (Equipe CONDILLAC, U. Savoie, F) M.-C. Rousset (LSR-IMAG, U. Grenoble 1, F) L. Saitta (U. del Piemonte Orientale, I) I. Saleh (Paragraphe, U. Paris 8, F) G. Saporta (CNAM, Chaire de Stat. Appl. Paris, F) M. Schneider (LIMOS, U. Blaise Pascal, F) M. Sebban (U. Saint-Etienne, F) F. Sèdes (IRIT, U. Toulouse 3, F) D. Simovici (U. of Massachusetts, Boston, USA) E. Ghazali Talbi (LIFL, U. Lille, F) M. Teisseire (LIRMM, Polytech Montpellier, F) F. Toumani (LIMOS, U. Clermont-Ferrand, F) S. Trausan-Matu (U. Polytechnique de Bucarest, R) F. Trichet (LINA, U. Nantes, F) B. Trousse (INRIA Sophia Antipolis - Méditerranée, F) G. Venturini (U. Tours, F) R. Verde (Facoltà di Studi Politici Jean Monnet, I) J.-P. Vert (Ecole des Mines de Paris, F) N. Vincent (Crip5, U. Paris 5, F) C. Vrain (LIFO, U. Orléans, F) J. Wijsen (U. Mons-Hainaut, B) F. Zehraoui (LAMI, U. Evry-Val d Esonne, F) K. Zreik (Paragraphe, U. Paris 8, F) - vii -

8 Comité de pilotage d EGC, sous la présidence de Djamel Zighed : Danielle Boulanger (IAE, U. Lyon 3) Henri Briand, (LINA, U. de Nantes) Régis Gras (LINA, U. de Nantes) Fabrice Guillet (LINA, U. de Nantes) Mohand-Saïd Hacid (LIRIS, U. Lyon 1) Georges Hébrail (ENST, Paris) Danièle Hérin (LIRMM, U. Montpellier 2) Yves Kodratoff (LRI, U. Paris-sud) Ludovic Lebart (ENST, Paris) Jean-Marc Petit (LIRIS, INSA Lyon) Jacques Philippé (PerfomanSe) Gilbert Ritschald (U. Genève, Suisse) Relecteurs non membres du Comité de lecture : Marie Agier, Jorge Anacleto Louça, Sujeevan Aseervatham, Alexandre Aussem, Hanane Azzag, Julien Blanchard, Alexandre Blansché, Nacim Fateh Chikhi, Etienne Cuvelier, Lisa Di Jorio, Thanh-Nghi Do, Mohamed Amir Esseghir, Frédéric Flouvat, Frédéric Fürst, Moultazem Ghazal, Allel Hadjali, Tienté Hsu, Hélène Jaudoin, Zeina Jrad, Mouna Kamel, Mustapha Lebbah, Lynda Lechani-Tamine, Stéphane Lopes, Patrick Marcel, Fabrice Muhlenbach, Olivier Pivert, Marc Plantevit, Elie Prudhomme, Cheddy Raïssi, Mathieu Roche, Paola Salle, Karen Sauvagnat, Isabelle Tellier, Fabien Torre, Sami Zghal. Comité d organisation, sous la présidence de Brigitte Trousse : Service REV - Organisation Colloques et Communication : Monique Simonetti, REV, INRIA SA - Méditerranée Agnès Cortell, REV, INRIA SA - Méditerranée Gaelle Leblond, REV, INRIA SA - Méditerranée Dany Sergeant,REV, INRIA SA - Méditerranée Services GENER et SEMIR, Inria SA - Méditerranée Equipe-Projet AxIS : Stéphanie Aubin, INRIA Paris - Rocquencourt Hicham Behja, INRIA SA - Méditerranée & ENSAM (Meknes, Maroc) Alzennyr Da Silva, INRIA Paris - Rocquencourt Abdelmoujib Elkhoumri, INRIA SA - Méditerranée & Université Hassan 1er, Settat, Maroc), France Sémi Gaïeb, INRIA SA - Méditerranée Sophie Honnorat, INRIA SA - Méditerranée Reda Kabbaj, INRIA SA - Méditerranée & Université de Fès, Maroc), France Yves Lechevallier, INRIA paris - Rocquencourt Alice Marascu, INRIA SA - Méditerranée Florent Masséglia, INRIA SA - Méditerranée Bernard Senach, INRIA SA - Méditerranée Avec la participation de : Mohand-Saïd Hacid, LIRIS, Université Lyon I Hakim Hacid, ERIC, Université Lyon 2 Claudia Marinica, LINA, Université Nantes Fabien Picarougne, LINA, Université Nantes Marie-Claire Forgue, W3C, Sophia Antipolis Jacques Lemaire, IUT Menton - viii -

9 TABLE DES MATIÈRES VOLUME I Conférences invitées Industrialiser le data Mining : enjeux et perspectives, Françoise Fogelman-Soulié... 1 Le forage de réseaux sociaux, Osmar Zaïane... 3 From Mining the Web to Inventing the New Sciences Underlying the Internet, Usama Fayyad... 5 Session Web sémantique et ontologies Extraction et exploitation des annotations contextuelles, Noureddine Mokhtari, Rose Dieng-Kuntz... 7 Vers une fouille sémantique des brevets: Application au domaine biomédical, Nizar Ghoula, Khaled Khelif, Rose Dieng-Kuntz Utilisation du Web Sémantique pour la gestion d une liste de diffusion d une CoP, Bassem Makni, Khaled Khelif, Hacène Cherfi, Rose Dieng-Kuntz Approche d annotation automatique des événements dans les articles de presse, Rim Faiz, Aymen Elkhlifi Web Content Data Mining : la classification croisée pour l analyse textuelle d un site Web, Malika Charrad, Yves Lechevallier, Gilbert Saporta, Mohamed Ben Ahmed Session Recherche d information et visualisation Recherche d information personnalisée dans les bibliothèques numériques scientifiques, Thanh-Trung Van, Michel Beigbeder Requêtes alternatives dans le contexte d un entrepôt de données génomiques, Christine Froidevaux, Frédéric Lemoine Enhancing Personal File Retrieval in Semantic File Systems with Tag-Based Context, Ba-Hung Ngo, Frédérique Silber-Chaussumier, Christian Bac Clustering Visuel Semi-Supervisé pour des systèmes en coordonnées en étoiles 3D, Loïc Lecerf, Boris Chidlovskii Les cartes cognitives hiérarchiques, Lionel Chauvin, David Genest, Stéphane Loiseau ix -

10 Session Ontologies Une mesure de similarité contextuelle pour l aide à la navigation dans un treillis, Saoussen Sakji, Marie-Aude Aufaure, Géraldine Polaillon, Bénédicte Le Grand Une approche ontologique pour automatiser le contrôle de conformité dans le domaine du bâtiment, Catherine Faron-Zucker, Anastasiya Yurchyshyna, Nhan Le Thanh, Celson Lima Sémantique et réutilisation d ontologie générique, Sylvie Després, Sylvie Szulman Gradients de prototypicalité conceptuelle et lexicale : une contribution à la pragmatisation des ontologies de domaine, Xavier Aimé, Frédéric Fürst, Pascale Kuntz, Francky Trichet Mesures Hiérarchiques pondérées pour l évaluation d un système semi-automatique d annotation de génomes utilisant des arbres de décision, Lucie Gentils, Jérôme Azé, Claire Toffano-Nioche, Valentin Loux, Anne Poupon, Jean-François Gibrat, Christine Froidevaux Méthodologie d Évaluation Intelligente des Concepts Ontologiques, Lobna Karoui, Marie-Aude Aufaure Session Flux de données Échantillonnage pour l extraction de motifs séquentiels : des bases de données statiques aux flots de données, Chedy Raïssi, Pascal Poncelet Le FIA: un nouvel automate permettant l extraction efficace d itemsets fréquents dans les flots de données, Jean-Emile Symphor, Alban Mancheron, Lionel Vinceslas, Pascal Poncelet Échantillonnage spatio-temporel de flux de données distribués, Raja Chiky, Jérôme Cubille, Alain Dessertaine, Georges Hébrail, Marie-Luce Picard Semantics of Spatial Window over Spatio-Temporal Data Stream, Yi Yu, Talel Abdessalem, Junwei Yan Délestage pour l analyse multidimensionnelle de flux de données, Sylvain Ferrandiz, Georges Hébrail Session Posters Classification des documents en réseaux petits-mondes en vue d apprentissage, Mohamed Khazri, Mohamed Tmar, Mohand Boughanem, Mohamed Abid Apport des traitements morphosyntaxiques pour l alignement des définitions par une classification SVM, Laura Diosan, Alexandrina Rogozan, Jean-Pierre Pécuchet Vers l intégration de la prédiction dans les cubes OLAP, Anouck Bodin -Niemczuk, Riadh Ben Messaoud, Sabine Loudcher Rabaséda, Omar Boussaid x -

11 Un nouveau système immunitaire artificiel pour l apprentissage non supervisé, Rachid El Meziane, Ilham Berrada, Ismail Kassou Génération de séquence résumée par une nouvelle approche basée sur le Soft Computing, Youssef Hadi, Rachid El Meziane, Rachid Oulad Haj Thami Évaluation des critères asymétriques pour les arbres de décision, Simon Marcellin, Djamel A Zighed, Gilbert Ritschard Principes d Analyse des données symboliques et application à la détection d anomalies sur des ouvrages publics, Edwin Diday Échantillonnage adaptatif de jeux de données déséquilibrés pour les forêts aléatoires, Julien Thomas, Pierre-Emmanuel Jouve, Elie Prudhomme Une proposition pour l extraction de relations non prédicatives, Mouna Kamel Méthodologie de définition de e-services pour la gestion des connaissances à partir d un plateau de créativité : application au e-learning instrumental, Noel Conruyt, David Grosser, Olivier Sebastien Stratégies de classification non supervisée sur fenêtres superposées : application aux données d usage du Web, Alzennyr Da Silva, Yves Lechevallier Une J-mesure orientée pour élaguer des modèles de chroniques, Nabil Benayadi, Marc Le Goc Extraction et validation par croisement des relations d une ontologie de domaine, Lobna karoui, Marie-Aude Aufaure Ontologies et raisonnement à partir de cas : Application à l analyse des risques industriels, Amjad Abou Assali, Dominique Lenne, Bruno Debray Classification Automatique Non supervisée de Documents Textuels basés sur Wordnet, Amine Abdelmalek, Zakaria Elberrichi, Ladjel Bellatreche, Michel Simonet, Mimoum Malki Session Démonstrations Khiops : outil de préparation et modélisation des données pour la fouille des grandes bases de données, Marc Boullé Processus d acquisition d un dictionnaire de sigles et de leurs définitions à partir d un corpus, Vladislav Matviico, Nicolas Muret, Mathieu Roche Cas d utilisation réelle de Nautilus : Calcul d indicateurs chez un opérateur mobile, Adrien Schmidt, Serge Fantino FIASCO : un nouvel algorithme d extraction d itemsets fréquents dans les flots de données, Lionel Vinceslas, Jean-Émile Symphor, Alban Mancheron et Pascal Poncelet xi -

12 Visualisation des motifs séquentiels extraits à partir d un corpus en Ancien Français, Julien Rabatel, Yuan Lin, Yoann Pitarch, Hassan Saneif, Claire Serp, Mathieu Roche, Anne Laurent Le logiciel SODAS : avancées récentes Un outil permettant d analyser et de visualiser des données symboliques, Myriam Touati, Mohamed Rahal, Filipe Afonso, Edwin Diday Session Données volumineuses Vers l exploitation de grandes masses de données, Raphaël Féraud, Marc Boullé, Fabrice Clérot, Françoise Fessant Clustering en haute dimension par accumulation de clusterings locaux, Marc-Ismael Akodjenou-Jeannin, Kave Salamatian, Patrick Gallinari Binary Block GTM : Carte auto-organisatrice probabiliste pour les grands tableaux binaires, Rodolphe Priam, Mohamed Nadif, Gérard Govaert Session Apprentissage Optimisation du Primal pour les SVM, Trinh-Minh-Tri Do, Thierry Artières Vers des Machines à Vecteurs Support "Actionnables" : Une Approche Fondée sur le Classement, Ansaf Salleb-Aouissi, Bert C. Huang, David L. Waltz Algorithmes rapides de boosting de SVM, Thanh-Nghi Do, Jean-Daniel Fekete, François Poulet Approche hybride de classification supervisée à base de treillis de Galois : application à la reconnaissance de visages, Brahim Douar, Chiraz Latiri, Yahya Slimani Pondération locale des variables en apprentissage numérique non-supervisé, Nistor Grozavu, Younès Bennani, Mustapha Lebbah Optimisation de réseaux de neurones RBF pour la régression via un algorithme évolutionnaire: RBF-Gene, Virginie Lefort, Guillaume Beslon Structure Inference of Bayesian Networks from Data: A New Approach Based on Generalized Conditional Entropy, Dan Simovici, Saaid Baraty Discretization of Continuous Features by Resampling, Taimur Qureshi, Djamel A Zighed Une nouvelle approche du Boosting face aux données réelles, Emna Bahri, Mondher Maddouri Une approche ensembliste inspirée du boosting en classification non supervisée, Romain Billot, Henri-Maxime Suchier, Stéphane Lallich xii -

13 VOLUME II Session Fouille de motifs et règles Mining Implications from Lattices of Closed Trees, Jose Luis Balcazar, Albert Bifet, Antoni Lozano Suppression des Itemsets Clés Non-Essentiels en Classification basée sur les Règles d Association, Viet Phan Luong Détection de groupes atypiques pour une variable cible quantitative, Sylvie Guillaume, Florian Guillochon, Michel Schneider Extraction d itemsets compacts, Bashar Saleh, Florent Masseglia Étude de l interaction entre variables pour l extraction des règles d influence, Leila Nemmiche Alachaher, Sylvie Guillaume Recherche adaptative de structures de régulation génétique, Mohamed Elati, Céline Rouveirol Session Données multimédia Data mining for activity extraction in video data, Jose Luis Patino, Etienne Corvee, François Bremond, Monique Thonnat Fouille de données audio pour la discrimination automatique de mots homophones, Rena Nemoto, Martine Adda-Decker, Ioana Vasilescu Recherche d images par noyaux sur graphes de régions, Philippe-Henri Gosselin, Justine Lebrun, Sylvie Philipp-Foliguet Interprétation d images basée sur une approche évolutive guidée par une ontologie, Germain Forestier, Sébastien Derivaux, Cédric Wemmert, Pierre Gançarski Une nouvelle approche pour la recherche d images par le contenu, Nguyen-Khang Pham, Annie Morin Classification adaptative de séries temporelles : application à l identification des gènes exprimés au cours du cycle cellulaire., Alpha Diallo, Ahlame Douzal, Françoise Giroud Session Fouille de séquences et graphes Visualisation et classification des parcours de vie, Nicolas S. Müller, Sylvain Lespinats, Gilbert Ritschard, Matthias Studer, Alexis Gabadinho Approches de type n-grammes pour l analyse de parcours de vie familiaux, Matthias Studer, Alexis Gabadinho, Nicolas S. Müller, Gilbert Ritschard Recherche de motifs spatio-temporels de cas atypiques pour le trafic routier urbain, Marc Joliveau, Florian De Vuyst Découverte de motifs séquentiels et règles inattendues, Dong (Haoyuan) Li, Anne Laurent, Pascal Poncelet xiii -

14 Extraction de Motifs Séquentiels Multidimensionnels Clos sans Gestion d Ensemble de Candidats, Marc Plantevit, Anne Laurent, Maguelonne Teisseire Prétraitement des bases de données de réactions chimiques pour la fouille de schémas de réactions, Frédéric Pennerath, Géraldine Polaillon, Amedeo Napoli La prise en compte de la dimension temporelle dans la classification de données, Éloïse Loubier, Bernard Dousset Session Fouille de texte Analyse exploratoire d opinions cinématographiques : co-clustering de corpus textuels communautaires, Damien Poirier, Cécile Bothorel, Marc Boullé Assignation automatique de solutions à des classes de plaintes liées aux ambiances intérieures polluées, Zoulikha Heddadji, Nicole Vincent, Séverine Kirchner, Georges Stamon Un système de vote pour la classification de textes d opinion, Michel Plantié, Mathieu Roche, Gérard Dray ExpLSA : utilisation d informations syntaxico-sémantiques associées à LSA pour améliorer les méthodes de classification conceptuelle., Nicolas Béchet, Mathieu Roche, Jacques Chauché Un modèle d espace vectoriel de concepts pour noyaux sémantiques, Sujeevan Aseervatham Intégration de la structure dans un modèle probabiliste de documents, Mathias Géry, Christine Largeron, Franck Thollard Session Classification Un algorithme de classification topographique non supervisée à deux niveaux simultanés, Guénaël Cabanes, Younès Bennani Segmentation hiérarchique des cartes topologiques, Mustapha Lebbah, Hanane Azzag Intégration de contraintes dans les cartes auto-organisatrices, Anouar BenaHassena, Khalid Benabdeslem, Fazia Bellal, Alexandre Aussem, Bruno Canitia Une nouvelle méthode divisive de classification non supervisée pour des données symboliques intervalles, Nathanaël Kasoro, André Hardy Co-classification sous contraintes par la somme des résidus quadratiques, Ruggero Gaetano Pensa, Jean-François Boulicaut Étude comparative de deux approches de classification recouvrante : Moc vs. Okm, Guillaume Cleuziou, Jacques-Henri Sublemontier xiv -

15 Session Connaissances Distribuées et ontologies Système multi-agent argumentatif pour la classification des connaissances cruciales, Imène Brigui, Inès Saad Un processus d acquisition d information pour les besoins d enrichissement des BDG, Khaoula Mahmoudi, Sami Faiz Un modèle et une algèbre pour les systèmes de gestion d ontologies, Gilles Falquet, Claire-Lise Mottaz-Jiang, Jacques Guyot La découverte de mappings dans SomeRDFS, François-Elie Calvier, Chantal Reynaud xv -

16

17 Industrialiser le data mining : enjeux et perspectives Françoise Fogelman-Soulié 1 KXEN, 25 quai Galliéni, SURESNES Cedex, France francoise@kxen.com Résumé. L informatique décisionnelle est un secteur en forte croissance dans toutes les entreprises. Les techniques classiques (reporting simple & Olap), qui s intéressent essentiellement à présenter les données, sont aujourd hui très largement déployées. Le data mining commence à se répandre, apportant des capacités de prévision à forte valeur ajoutée pour les entreprises les plus compétitives. Ce développement est rendu possible par la disponibilité croissante de masses de données importantes et la puissance de calcul dorénavant dispotant théoriques (quels algorithmes utiliser pour produire des modèles d analyses exploitant des nible. Cependant, la mise en oe uvre industrielle des projets de data mining pose des contraintes milliers de variables pour des millions d exemples) qu opérationnelles (comment mettre en production et contrôler le bon fonctionnement de centaines de modèles). Je présenterai ces contraintes issues des besoins des entreprises ; je montrerai comment exploiter des résultats théoriques (provenant des travaux de Vladimir Vapnik) pour produire des modèles robustes ; je donnerai des exemples d applications réelles en gestion de la relation client et en analyse de qualité. Je concluerai en présentant quelques perspectives (utilisation du texte et des réseaux sociaux). Mots clés : Data mining ; robustesse ; Structural Risk Minimization ; scalabilité. 1 Françoise Fogelman Soulié est Vice President Strategic Business Development chez KXEN, après avoir été Directeur Associé & Directeur de l Agence CRM de Business & Decision ; Directeur de l équipe "data warehouse, data mining" de Atos Ingéniérie ; Directeur Scientifique & Directeur Général de Mimetics. Précédemment, elle était Professeur au Laboratoire d Informatique de Paris 11 Orsay. Ancienne élève de l Ecole Normale Supérieure, elle est agrégée de mathématiques et Docteur d Etat en Informatique (réseaux neuronaux). Elle a exercé de nombreuses fonctions d expertise scientifique : membre du Bureau Exécutif du RNTL & évaluateur pour le programme Technologies logicielles de l ANR ; membre du Conseil Scientifique du Groupe France Telecom ; expert auprès de la Commission Européenne. Elle a été Président de la European Neural Network Society et membre du Board of Governors de l International Neural Network Society. Elle est auteur ou éditeur de 12 ouvrages et plus de 100 articles scientifiques. Elle a encadré une vingtaine de thèses (réseaux neuronaux). Elle est Chevalier des Palmes Académiques

18 Le forage de réseaux sociaux Osmar R. Zaïane 1 Université d Alberta, Canada zaiane@cs.ualberta.ca Résumé. L exploitation des réseaux sociaux pour l extraction de connaissances n est pas nouvelle. Les anthropologues, sociologues et épidémiologies se sont déjà penchés sur la question. C est probablement le succès du moteur de recherche Google qui a vulgarisé l utilisation des parcours aléatoires des réseaux sociaux pour l ordonnancement par pertinence. Plusieurs applications ont depuis vu naissance. La découverte des communautés dans les réseaux sociaux est aussi une nouvelle tendance de recherche très prisée. Durant cet exposé nous parlerons de l analyse des réseaux sociaux, la découverte de communautés, et présenterons quelques applications dont l ordonnancement dans les bases de données. 1 Osmar R. Zaïane est professeur agrégé en sciences informatiques à l université d Alberta, au Canada. Il a obtenu un DEA en électronique en 1989 à l université de Paris-Orsay, France et un MSc en informatique en 1992 à l université Laval, au Canada. Il a obtenu son doctorat en informatique en 1999 de l université Simon Fraser, au Canada sous la direction du professeur Jiawei Han. Sa thèse se concentrait sur le forage de données de la toile mondiale et l extraction de motifs des données multimédias. Aujourd hui ses intérêts de recherche sont axés autour des nouveaux algorithmes de forage de données et l application de l extraction des connaissances en médecine et le téléapprentissage. Il a des contributions en classification, classement, détection des anomalies ainsi que les règles d association. Il a publié plus de 90 articles dans des revues et conférences internationales, et a enseigné sur les six continents. Osmar Zaïane est le rédacteur en chef de l ACM SIGKDD Explorations et rédacteur associé de deux revues: Knowledge and Information Systems, An International Journal et International Journal of Internet Technology and Secured Transactions. Il a été organisateur et président du comité de programme de plusieurs conférences et ateliers internationaux liés à l extraction des connaissances, entre autre cette année la conférence IEEE International Conference on Data Mining à Omaha

19 From Mining the Web to Inventing the New Sciences Underlying the Internet Usama Fayyad 1 Yahoo!, California, USA Summary. As the Internet continues to change the way we live, find information, communicate, and do business, it has also been taking on a dramatically increasing role in marketing and advertising. Unlike any prior mass medium, the Internet is a unique medium when it comes to interactivity and offers ability to target and program messaging at the individual level. Coupled with its uniqueness in the richness of the data that is available for measurability, in the variety of ways to utilize the data, and in the great dependence of effective marketing on applications that are heavily data-driven, makes data mining and statistical data analysis, modeling, and reporting an essential mission-critical part of running the on-line business. However, because of its novelty and the scale of data sets involved, few companies have figured out how to properly make use of this data. In this talk, I will review some of the challenges and opportunities in the utilization of data to drive this new generation of marketing systems. I will provide several examples of how data is utilized in critical ways to drive some of these capabilities. The discussion will be framed with the More general framework of Grand Challenges for data mining : pragmatic and technical. I will conclude this presentation with a consideration of the larger issues surrounding the Internet as a technology that is ubiquitous in our lives, yet one where very little is understood, at the scientific level, in defining and understanding many of the basics the Internet enables : Community, Personalization, and the new Microeconomics of the web. This leads to an overview of the new Yahoo! Research organization and its aims : inventing the new sciences underlying what we do on the Internet, focusing on areas that have received little attention in the traditional academic circles. Some illustrative examples will be reviewed to make the ultimate goals more concrete. 1 Dr. Usama Fayyad is Yahoo! s executive vice president of Research & Strategic Data Solutions. He also oversees the Yahoo! Research organization that includes offices in Sunnyvale, Burbank and Berkeley, CA as well as New York, Europe, and S. America. Prior to joining Yahoo!, he co-founded and led the DMX Group, a data mining and data strategy consulting company. In early 2000, he co-founded and served as CEO of digimine Inc. (now Revenue Science, Inc.). He s professional experience also includes five years spent leading the data mining and exploration group at Microsoft Research. From 1989 to 1996 Fayyad held a leadership role at NASA s Jet Propulsion Laboratory (JPL) where his work garnered him the top research excellence award that Caltech awards to JPL scientists, as well as a U.S. Government medal from NASA. Fayyad earned his Ph.D. in engineering from the University of Michigan, Ann Arbor (1991), and also holds BSE s in both electrical and computer engineering (1984); MSE in computer science and engineering (1986); and M.Sc. in mathematics (1989). He has published over 100 technical articles in the fields of data mining and Artificial Intelligence, is a Fellow of the American Association of Artificial Intelligence, has edited two influential books on the data mining and launched and served as editor-in-chief of both the primary scientific journal in the field and the primary newsletter in the technical community published by the ACM. He regularly delivers keynotes and talks at government, industry and academic conferences around the world

20 Extraction et exploitation des annotations contextuelles Noureddine Mokhtari, Rose Dieng-Kuntz INRIA 2004 route des lucioles - BP 93 FR Sophia Antipolis cedex {Noureddine.Mokhtari, Rose.Dieng}@sophia.inria.fr Résumé Dans la perspective d offrir un web sémantique, des travaux ont cherché à automatiser l extraction des annotations sémantiques à partir de textes pour représenter au mieux la sémantique que vise à transmettre une page web. Dans cet article nous proposons une approche d extraction des annotations qui représentent le plus précisément possible le contenu d un document. Nous proposons de prendre en compte la notion de contexte modélisé par des relations contextuelles émanant, à la fois, de la structure et de la sémantique du texte. L annotation sémantique est devenue l une des approches privilégiées par les travaux sur le web sémantique. Les travaux visant à extraire semi-automatiquement ces annotations, plus particulièrement à partir de textes, ont connu ces dernières années une avancée importante. Dans ce contexte, des outils de traitement automatique de la langue naturelle (TALN) sont proposés. Ces outils reposent en général sur des méthodes linguistiques telles que la projection de patrons morpho-syntaxiques ou des méthodes statistiques (fréquence d apparition). Les méthodes de TALN peuvent être semi-automatiques (l intervention de l expert du domaine est alors requise) ou automatiques (dans ce cas, les approches proposées requièrent une certaine spécialisation dans un domaine particulier (Aussenac-Gilles et al., 2006)). Les approches utilisées jusqu'à présent reposent en général sur l extraction de termes, certaines permettent également l extraction de relations entre ces termes, mais en ignorant en général le contexte de leur apparition. Dans le cadre de cette problématique, nous proposons une approche de modélisation, d extraction et d exploitation des annotations, qui prenne en compte leurs contextes. La limite observée, concernant les approches d extraction des termes pour l annotation, a été notre principale motivation pour offrir des annotations qui représentent au mieux le contenu d un document. Nous considérons l annotation sémantique d un document comme une image par un annotateur (humain ou programme) du contenu de ce document. Cette annotation sémantique doit être exploitable par la machine et de la qualité de cette image dépend son exploitation par l application visée. Ce travail s inscrit dans le cadre du projet SEVENPRO qui a comme objectif de développer, en reposant sur des technologies et des outils qui aident à la fouille de connaissances sur un produit, des corpus de textes multimédia et sur la réalité virtuelle 3D enrichie sémantiquement. Tout d abord, dans la section 2, nous allons analyser quelques travaux sur l extraction des annotations à partir du texte. Puis dans la section 3, nous aborderons notre proposition sur la modélisation de la notion du contexte. Dans la section 4, nous proposerons notre approche - 7 -

21 Vers une fouille sémantique des brevets : Application au domaine biomédical INRIA Sophia Antipolis 2004 route des Lucioles 06902, BP93 Sophia Antipolis - France {Nizar.ghoula, Khaled.Khelif, Rose.Dieng}@sophia.inria.fr Résumé. Les brevets sont une source d'information très riche puisque ce sont des documents qui servent à décrire les inventions. L'accès aux documents de brevets en ligne est possible grâce aux efforts des offices nationaux de la propriété intellectuelle. Par ailleurs, ayant des objectifs différents, la présentation de ces documents a pris des formes variées loin d'être unifiées. Ce papier présente une méthode et un système permettant l'analyse de brevets "Patent Mining" pour générer des annotations sémantiques. L'idée principale est de pouvoir prendre en considération la structure des brevets pour pouvoir trouver un lien entre le contenu du brevet et les concepts des différentes ontologies. 1.1 Contexte Nizar Ghoula, Khaled Khelif, Rose Dieng-Kuntz Le traitement des documents de propriété intellectuelle, tels que les brevets, est important pour l industrie, les affaires et les communautés juridiques. Récemment, les communautés de recherche académiques et en particulier, les chercheurs de traitement automatique de la langue naturelle et de la recherche documentaire ont reconnu l importance du traitement des brevets. En fouillant les brevets scientifiques, nous pouvons remarquer un volume important d informations sur la biologie, les substances et les procédures médicales. En effet, l extraction des informations de ces brevets permet de donner une idée précise sur : (i) par exemple les interactions biomédicales et l effet pharmacologique résultant, et (ii) la propriété intellectuelle dans un certain contexte biologique. Durant ces dernières années, de grands efforts ont été exercés pour mettre les données relatives aux brevets sous une forme électronique et les présenter au public via les services en ligne. De nos jours, nous remarquons que ces services présentent et fournissent des structures de données hétérogènes, ce qui rend difficile à mettre en œuvre une analyse automatique des brevets. Dans ce papier, nous présentons l approche PatAnnot fondée sur les principes du web sémantique et qui se réfère aux notions de métadonnée et ontologies pour faciliter l extraction des connaissances et la recherche d informations relatives aux brevets. Ce travail rentre dans le cadre du projet européen Sealife (Schroeder et al, 2006) qui a pour objectif la réalisation d un navigateur Web sémantique pour le domaine des sciences de la vie, qui exploitera les ressources du Web en les rendant partageables, accessibles et manipulables par plusieurs utilisateurs dans différents domaines biomédicaux et ce afin de favoriser le partage des connaissances

22 Utilisation du Web Sémantique pour la gestion d une liste de diffusion d une CoP Bassem Makni, Khaled Khelif Rose Dieng-Kuntz, Hacène Cherfi INRIA Sophia Antipolis, 2004 route des Lucioles 06902, BP93 Sophia Antipolis - France {bassem.makni, khaled.khelif, rose.dieng, hacene.cherfi}@sophia.inria.fr Résumé. Cet article décrit une approche de création semi-automatique d ontologies et d annotations sémantiques à partir de messages électroniques échangés dans une liste de diffusion dédiée au support informatique. Les ressources sémantiques générées permettront d identifier les questions fréquemment posées (FAQ) à travers une recherche guidée par cette ontologie. L extraction d informations à partir de messages électroniques (mails) n a pas été très étudiée dans la communauté du TAL 1. Ceci est dû principalement à la présentation informelle des mails et à leurs faibles apports d informations. Cependant, les mails peuvent être parfois la principale source de connaissances pour une organisation ou une communauté de pratique (CoP). C est le cas 2 qui est une association ouverte à tous les enseignants exploitant les TIC 3 en Belgique durant leurs interactions avec les apprenants pour préparer leurs leçons. La communication dans cette CoP se fait essentiellement par échanges de mails sur une liste de diffusion décrivant des problèmes rencontrés. Dans le but de faciliter la navigation dans cette liste de diffusion et la recherche de solutions pour des problèmes déjà posés, nous proposons une approche de création d annotations sémantiques pour cette liste, ces annotations reposant sur une ontologie qui est elle-même extraite en partie à partir du corpus de mails. La base d annotations créée servira pour la navigation guidée par l ontologie en s appuyant sur le moteur de recherche sémantique CORESE (Corby et al., 2004). Dans ce qui suit, nous présentons l puis nous présentons un scénario d utilisation de cette ontologie avant de conclure. 2 Construction de l Afin de construire l ontologie nous optons pour une approche modulaire composée de quatre ontologies, chacune dédiée à une tâche particulière : (i) une ontologie pour les 1 Traitement Automatique des Langues 2 Association des professeurs exploitant les TIC en Belgique francophone : 3 Technologies de l information et de la communication

23 Approche d annotation automatique des événements Rim Faiz *, Aymen Elklifi ** * LARODEC, IHEC de Carthage, 2016 Carthage Présidence, Tunisie Rim.Faiz@ihec.rnu.tn ** LARODEC, ISG de Tunis, 2000 Le Bardo, Tunisie Aymen_elkhlifi@yahoo.fr Résumé. Quotidiennement, plusieurs agences de presse publient des milliers d articles contenant plusieurs événements de toutes sortes (politiques, économiques, culturels, etc.). Les preneurs de décision, se trouvent face à ce grand nombre d événements dont seulement quelques uns les concernent. Le traitement automatique de tels événements devient de plus en plus nécessaires. Pour cela, nous proposons une approche, qui se base sur l apprentissage automatique, et qui permet d annoter les articles de presse pour générer un résumé automatique contenant les principaux événements. Nous avons validé notre approche par le développement du système "AnnotEv". Acquérir de la connaissance à partir de textes est une nécessité qui s est accrue ces vingt dernières années, avec l essor considérable de la masse de documents disponibles en format électronique, qu il faut gérer afin d extraire ou de filtrer les informations pertinentes parmi toutes celles contenues dans ces documents (Faiz, 2006). A titre d exemple; les événements boursiers sont nombreux et diversifiés. Les experts de la bourse doivent analyser ces événements en un temps relativement raisonnable pour prendre des décisions importantes. Il s agit, donc, d annoter les documents présentant des événements pour pouvoir extraire ceux qui sont pertinents. C est dans ce cadre que s inscrit notre travail dont l objectif est de développer une approche qui annote automatiquement ces articles de Presse. La suite du document est organisée comme suit : nous commençons, dans la section 2, par décrire les principaux systèmes d annotations existants. Au cours de la section 3, nous présentons notre approche d annotation, qui a été validée par le système AnnotEv lequel sera présenté et évalué dans la section 4. Enfin, dans la section 5, nous présentons quelques perspectives de notre travail. 2 Présentation de quelques systèmes d annotation Plusieurs méthodes et techniques sont utilisées par les systèmes d annotations dédiés au Web sémantique telles que l Exploration Contextuelle (Desclés, 1997), les graphes conceptuels (Roussey et al, 2002), les méta-thésaurus (Khelif et al., 2004) et les indicateurs linguistiques (Muller et al., 2004). Nous pouvons citer : Le système EXCOM (Djaoua et al., 2006) utilise un ensemble d outils linguistiques qui visent à annoter un document par un ensemble de connaissances aussi bien internes

24 Web Content Data Mining : la classification croisée pour l analyse textuelle d un site Web Malika Charrad*, Yves Lechevallier** Gilbert Saporta***, Mohamed Ben Ahmed* *Laboratoire RIADI, Ecole Nationale des Sciences de l Informatique, Tunis malika.charrad@riadi.rnu.tn mohamed.benahmed@riadi.rnu.tn **INRIA-Rocquencourt, Le Chesnay cedex yves.lechevallier@inria.fr ***CNAM, 292 rue Saint-Martin, Paris cedex 03 saporta@cnam.fr Résumé. Notre objectif dans cet article est l analyse textuelle d un site Web indépendamment de son usage. Notre approche se déroule en trois étapes. La première étape consiste au typage des pages afin de distinguer les pages de navigation ou pages «auxiliaires» des pages de contenu. La deuxième étape consiste au prétraitement du contenu des pages de contenu afin de représenter chaque page par un vecteur de descripteurs. La dernière étape consiste au block clustering ou la classification simultanée des lignes et des colonnes de la matrice croisant les pages aux descripteurs de pages afin de découvrir des biclasses de pages et de descripteurs. L application de cette approche au site de tourisme de Metz prouve son efficacité et son applicabilité. L ensemble de classes de pages groupés en thèmes facilitera l analyse ultérieure de l usage du site. Le Web représente aujourd hui la principale source d information. Ce gisement contenant une grande quantité de données non-structurées, distribuées et multi-medias a besoin d être maintenu, filtré et organisé pour permettre un usage efficace. Cette tâche s avère difficile à réaliser avec la large distribution, l ouverture et la forte dynamicité du Web. Par conséquent, plusieurs travaux de recherche ont tenté d analyser le contenu des sites Web et comprendre le comportement des utilisateurs de ces sites. L approche que nous proposons dans cet article se situe dans ce cadre. Notre objectif est d analyser un site Web en se basant sur le contenu et indépendamment de l usage. En d autres termes, nous cherchons à réduire la quantité d information contenue dans le site Web en un groupe de thèmes qui pourraient susciter l intérêt des internautes. Il sera par la suite possible d analyser le comportement des utilisateurs vis-à-vis de ces thèmes

25 Recherche d information personnalisée dans les bibliothèques numériques scientifiques Thanh-Trung Van, Michel Beigbeder Centre G2I/Département RIM Ecole Nationale Supérieure des Mines de Saint-Etienne 158 cours Fauriel, Saint-Etienne, FRANCE {van,mbeig}@emse.fr Résumé. Dans cet article nous présentons nos travaux sur la recherche d information personnalisée dans les bibliothèques numériques. Nous utilisons des profils utilisateurs qui représentent des intérêts et des préférences des utilisateurs. Les résultats de recherche peuvent-être re-triés en tenant compte des besoins d informations spécifiques de différentes personnes, ce qui donne une meilleure précision. Nous étudions différentes méthodes basées sur les citations, sur le contenu textuel des documents et des approches hybrides. Les résultats des expérimentations montrent que nos approches sont efficaces et applicables dans le cadre des bibliothèques numériques. La recherche d information dans les bibliothèques numériques est souvent une tâche ennuyeuse et fastidieuse. Les utilisateurs doivent répéter le processus d envoyer les requêtes, regarder les résultats et modifier les requêtes jusqu à ce qu ils trouvent les informations pertinentes. Une des raisons principales est que les requêtes des utilisateurs sont souvent courtes et donc ambiguës. Par exemple, la même requête «java» peut être formulée par une personne qui s intéresse au langage de programmation «java», et par une autre qui veut chercher des informations concernant une île en Indonésie. Cependant les moteurs de recherche renvoient le même résultat pour ces deux personnes. Même avec une plus longue requête comme «langage programmation java» ; nous ne savons pas quels types de document cet utilisateur veut chercher. Si c est un(e) programmeur(e), peut-être il/elle s intéresse aux documents techniques sur le langage Java, si c est un(e) enseignant(e), peut-être il/elle s intéresse aux tutoriels de Java pour ses cours. Le problème que nous avons mentionné peut être résolu en utilisant des techniques de personnalisation avec des profils utilisateurs. D une manière générale, nous pouvons définir un profil d utilisateur comme un ensemble structuré d informations qui décrit les intérêts et/ou les préférences de cet utilisateur. Le travail de Amato et Straccia (1999) est parmi les premiers travaux consacrés à définir un modèle de représentation de profil utilisateur dans les bibliothèques numériques, leur modèle est un modèle multidimensionnel dans lequel le profil utilisateur se compose de plusieurs

26 Requêtes alternatives dans le contexte d un entrepôt de données génomiques Christine Froidevaux, Frédéric Lemoine LRI, CNRS UMR 8623, Université Paris Sud 11, France {chris,lemoine}@lri.fr, Résumé. Afin d aider les biologistes à annoter des génomes, ce qui nécessite l analyse, le croisement, et la comparaison de données provenant de sources diverses, nous avons conçu un entrepôt de données de génomique microbienne. Nous présentons la structure globale flexible de l entrepôt et son architecture multi-niveaux et définissons des correspondances entre ces niveaux. Nous introduisons ensuite la notion de requête alternative et montrons comment le système peut construire l ensemble des requêtes alternatives à une requête initiale. Pour cela, nous indroduisons un mécanisme d interrogation qui repose sur l architecture multi-niveaux, et donnons un algorithme de calcul des requêtes alternatives. Avec l entrée dans l ère post-génomique, l avancée du séquençage de génomes et l utilisation de plus en plus massive d expériences à haut débit produisent une quantité gigantesque de données biologiques. La conception de systèmes de gestion de données pour stocker et interroger cette information devient cruciale, en particulier dans le domaine de l annotation fonctionnelle des génomes, qui consiste en l attribution d une fonction biologique aux produits de chaque gène. Cette tâche est indispensable pour savoir quels gènes sont impliqués dans certains processus (e.g la pathogénicité pour les génomes microbiens). C est dans ce contexte que nous avons conçu l entrepôt de données génomiques Microbiogenomics 1, dont l objectif est de rassembler des données de génomique microbienne, pour l annotation fonctionnelle (ou la ré-annotation) de génomes microbiens (Lemoine et al., 2007). Pour réaliser cette tâche d annotation, les biologistes ont besoin d une grande variété de données (telles que des données fonctionnelles, d homologie, de voies métaboliques, etc.) qui se trouvent dans diverses sources de données dispersées sur le web. Leur travail consiste à naviguer dans les sources de données, trouver des gènes / protéines homologues à leurs gènes / protéines d étude, comparer les données qui proviennent de ces différentes sources et finalement prendre une décision quant à la fonction de leurs protéines d intérêt. Notre objectif est de pouvoir effectuer des calculs sur les données, ainsi que d appliquer des techniques de fouille de données telles que l extraction de règles d associations. C est pourquoi nous avons choisi une architecture d entrepôt de données, bien adaptée à ces tâches. Notre entrepôt est spécifique et ne suit pas la définition classique d un entrepôt de données de 1 http ://microbiogenomics.u-psud.fr

27 Enhancing Personal File Retrieval in Semantic File Systems with Tag-Based Context Hung Ba Ngo * **, Frédérique Silber-Chaussumier *, Christian Bac* * Institut National des Télécommunications-France, ** Cantho University-Vietnam {hung.ngo_ba, frederique.silber-chaussumier, christian.bac}@int-edu.eu Abstract. Recently, tagging systems are widely used on the Internet. On desktops, tags are also supported by some semantic file systems and desktop search tools. In this paper, we focus on personal tag organization to enhance personal file retrieval. Our approach is based on the notion of context. A context is a set of tags assigned to a file by a user. Based on tag popularity and relationships between tags, our proposed algorithm creates a hierarchy of contexts on which a user can navigate to retrieve files in an effective manner. Nowadays, tagging systems such as (Delicious) are widely used on the Internet. These tagging systems enable users to add keywords (or tags) to Internet resources without relying on a controlled vocabulary. On the desktop, tags are also supported by some semantic file systems and desktop search tools. Users in LFS (Padioleau, 2005), for example, can manually assign tags to a Jpeg file to annotate the names of persons in that photo for later retrieval. With tags, users are flexible in describing their opinions and interests on files (or resources). As a result, users personal files are classified per tags and each user has a personal vocabulary of tags. Users then can retrieve files using logical expressions of tags. By default, tagging systems are more suitable for file retrieval using querying than browsing. However, experiments in personal information management (Barreau et al., 1995), and (Khoo et al., 2007) show that most users prefer browsing than querying (logical search) as retrieving their files from a desktop. That is the reason why recently tagging systems such as Delicious on web or LFS (Padioleau, 2005) and TagFS (Bloehdorn et al., 2006) on desktop concentrate on tag organization to help users to browse tags for file retrieval. We continue to enhance personal file retrieval in tagging systems with context-based searching. A context in our approach is a set of tags assigned to a file (or resource) by a user. Based on tag popularity and relationships between tags, our proposed algorithm creates a hierarchy of contexts on which a user can navigate to retrieve files in an effective manner. In this paper, we first present the interesting techniques for tag organization in section 2; introduce tagbased context and how to enhance tagging systems with context-based searching in section 3. Our algorithm for creating a Directed Acyclic Graph of Tags (DAGoT) based on tag popularity and relationship of tags is in section 4. This DAGoT is used to organize contexts into a hierarchical structure so that we can enhance personal file retrieval with context-based searching. An implementation and experimental results using real data are presented in section 5. Our conclusion and perspectives are in the last section

28 Clustering Visuel Semi-Supervisé pour des systèmes en coordonnées en étoiles 3D Loïc Lecerf, Boris Chidlovskii Xerox Research Centre Europe 6, chemin de Maupertuis, Meylan, France Résumé. Dans cet article, nous proposons une approche qui combine les méthodes statistiques avancées et la flexibilité des approches interactives manuelles en clustering visuel. Nous présentons l interface Semi-Supervised Visual Clustering (SSVC). Sa contribution principale est l apprentissage d une métrique de projection optimale pour la visualisation en coordonnées en étoiles ainsi que pour l extension 3D que nous avons développée. La métrique de distance de projection est apprise à partir des retours de l utilisateur soit en termes de similarité/dissimilarité entre les items, soit par l annotation directe. L interface SSVC permet, de plus, une utilisation hybride dans laquelle un ensemble de paramètres sont manuellement fixés par l utilisateur tandis que les autres paramètres sont déterminés par un algorithme de distance optimale. Obtenir un clustering efficace et de haute qualité sur des données de grande taille est un problème majeur pour l extraction des connaissances. Il existe une demande de plus en plus importante pour des techniques flexibles et efficaces de clustering capables de s adapter à des jeux de données de structure complexe. Un ensemble de données est typiquement représenté dans un tableau composé de N items (lignes) et d dimensions (colonnes). Un item représente un événement ou une observation, alors qu une dimension peut-être un attribut ou une caractéristique de l item. Dans un mode semi-supervisé ou supervisé, une partie ou tous les items peuvent être annotés par une classe. Les méthodes de clustering tentent de partitionner les items en groupes avec une mesure de similarité. Un ensemble de données peut être grand en termes de nombre de dimensions, nombre d éléments, ou les deux. L approche classique est basée sur des algorithmes de clustering, comme les K-moyennes, le clustering spectral ou hiérarchique ainsi que leurs multiples variantes (Hastie et al., 2001). Il existe cependant plusieurs inconvénients connus à ces méthodes. Premièrement, il n est pas toujours facile de déterminer, visualiser et valider les clusters de forme irrégulière. Plusieurs algorithmes sont efficaces pour trouver des clusters dans des formes elliptiques (donc convenant aux distributions normales multidimensionnelles), mais peuvent échouer à reconnaître des clusters de forme complexe. Deuxièmement, les algorithmes existant sont automatiques, ils excluent toute intervention de l utilisateur dans le processus jusqu à la fin de l algorithme

29 Les cartes cognitives hiérarchiques Lionel Chauvin, David Genest, Stéphane Loiseau LERIA - Université d Angers 2 boulevard Lavoisier Angers Cedex 01 {lionelc,genest,loiseau}@info.univ-angers.fr Résumé. Une carte cognitive fournit une représentation graphique d un réseau d influence entre des concepts. Les cartes cognitives de dimensions importantes ont l inconvénient d être difficiles à appréhender, interpréter et exploiter. Cet article présente un modèle de cartes cognitives hiérarchiques permettant au concepteur d effectuer des regroupements de concepts qui sont ensuite utilisés dans un mécanisme permettant à l utilisateur d obtenir des vues partielles et synthétiques d une carte. Introduction Une base de données de grande taille est difficile à appréhender dans sa totalité. Pour palier ce problème, diverses techniques ont été créées afin de fournir des vues partielles ou d effectuer des regroupements de données par thèmes. De façon similaire il est difficile de comprendre une base de connaissances. Plus une base de connaissance est grande, plus le nombre de connaissances utilisables afin d effectuer une déduction est important. A partir d un certain nombre l humain ne peut plus évaluer toutes les connaissances mises en jeu dans une déduction. Il est donc nécessaire de diviser l ensemble des étapes d une déduction par paquets et de fournir à l humain une évaluation de chaque paquet. Cette évaluation peut être imprécise mais facilite la compréhension en donnant l idée générale. Pour notre étude nous nous intéressons à un modèle graphique de gestion de connaissances appelé cartes cognitives (Tolman, 1948). Une carte cognitive représente un réseau d influences entre concepts. Une influence est une relation de causalité entre deux concepts. L effet de l influence d un concept sur un autre peut être représenté de manière numérique ou symbolique. Ce type de représentation fournit un bon support à la communication entre humains dans le but d effectuer une analyse d un système complexe. Les cartes cognitives ont été utilisées dans de nombreux domaines tels que la biologie (Tolman, 1948)(Touretzky et Redish, 1995), l écologie (Celik et al., 2005)(Poignonec, 2006), la sociologie (Poignonec, 2006). Un mécanisme d inférence des influences dans une carte cognitive peut être défini, ce qui en fait un outil d aide à la décision. Ce type d outils a été utilisé par exemple en politique et en économie (Axelrod, 1976)(Cossette, 1994). La représentation informatique d une carte cognitive et la mise en oeuvre d un calcul automatique de l inférence est relativement simple. L objectif de ce travail est de faciliter la compréhension et l exploitation de cartes cognitives de grandes tailles. Pour cela nous présentons un modèle de cartes cognitives permettant à l utilisateur d obtenir des vues partielles et synthétiques d une carte

30 Une mesure de similarité contextuelle pour l'aide à la navigation dans un treillis Saoussen Sakji*, Marie-Aude Aufaure*,** Géraldine Polaillon*, Bénédicte Le Grand***, Michel Soto*** *Supélec Computer Science department plateau du Moulon 3, rue Joliot Curie F Gif sur Yvette Cedex {Saoussen.Sakji, Marie-Aude.Aufaure, ** INRIA Paris-Rocquencourt Domaine de Voluceau Rocquencourt B.P. 105 F Le Chesnay Cedex ***Laboratoire d Informatique de Paris 6 104, av du P dt Kennedy F Paris {Benedicte.Le-Grand, Michel.Soto}@lip6.fr Résumé. La recherche d information et la navigation dans les pages web s avèrent complexes du fait du volume croissant des données et de leur manque de structure. La formalisation conceptuelle d un contexte associé à une ontologie rend possible l amélioration de ce processus. Nous définissons un contexte conceptuel comme étant l association d un treillis de concepts construit à partir de pages web avec des ontologies. La recherche et la navigation peuvent alors s effectuer à plusieurs niveaux d abstraction : le niveau des données, le niveau conceptuel et le niveau sémantique. Cet article s intéresse essentiellement au niveau conceptuel grâce à une représentation par les treillis de concepts des documents selon les termes qu ils ont en commun. Notre objectif est de proposer une mesure de similarité permettant à l utilisateur de mieux naviguer dans le treillis. En effet, une bonne interprétation du treillis devrait passer par un choix rigoureux des concepts, objets, relations et propriétés les plus intéressants. Pour faciliter la navigation, il faut pouvoir indiquer à l utilisateur les concepts les plus pertinents par rapport au concept correspondant à sa requête ou pouvoir lui proposer un point de départ. L originalité de notre proposition réside dans le fait de considérer un lien sémantique entre les concepts du treillis, basé sur une extension des mesures de similarité utilisées dans le cadre des ontologies, afin de permettre une meilleure exploitation de ce treillis. Nous présentons les résultats expérimentaux de l application de cette mesure sur des treillis construits à partir de pages web dans le domaine du tourisme. L objectif de nos travaux est de faciliter la recherche d information dans des pages Web par l utilisation conjointe de treillis de Galois et d ontologies, qui constitue ce que nous appelons un «contexte conceptuel». Les regroupements conceptuels fournis par les treillis, associés aux liens sémantiques de l ontologie, permettent d améliorer la recherche d information en fournissant des niveaux de navigation plus abstraits et complémentaires

31 Une approche ontologique pour automatiser le contrôle de conformité dans le domaine du bâtiment Anastasiya Yurchyshyna* **, Catherine Faron-Zucker*, Nhan Le Thanh*, Celson Lima**, * I3S, Université de Nice Sophia-Antipolis, CNRS 930 route des Colles, BP 145, Sophia Antipolis, France {Catherine.Faron-Zucker, Nhan.Le-Thanh}@unice.fr ** CSTB, 290 route des Lucioles, BP 209, Sophia Antipolis, France {celson.lima, anastasiya.yurchyshyna}@cstb.fr Résumé. Cet article présente la méthode et le système C3R pour vérifier de façon semi-automatique la conformité d un projet de construction par rapport à des normes du bâtiment. Les projets de construction sont représentés par des graphes RDF et les normes par des requêtes SPARQL ; le processus de contrôle consiste en l appariement des requêtes et des graphes. Son efficacité repose sur l acquisition de connaissances ontologiques et sur un processus d extraction de connaissances guidé par ce but spécifique de contrôle de conformité qui prend en compte les connaissances ontologiques acquises. Elle repose ensuite sur des méta-connaissances acquises auprès des experts du CSTB qui permettent de guider le contrôle lui-même : les requêtes représentant les normes sont annotées et organisées selon ces annotations. Ces annotations sont également utilisées dans les interactions avec l utilisateur de C3R pour expliquer les résultats du processus de validation, en particulier en cas d échec. Dans le domaine du bâtiment, une masse croissante de normes régissent l exécution des projets de construction (e.g. bâtiments publics, maisons individuelles) et de nombreuses initiatives 1 sont lancées pour fournir des services électroniques de régulation. Un des objectifs généraux en est l automatisation du contrôle de la conformité d un projet de construction par rapport à un ensemble de normes techniques du bâtiment en vigueur. Cela constitue le cadre de notre travail au CSTB 2 et nous proposons ici un modèle de contrôle de conformité. Les projets de construction sont maintenant communément décrits dans le modèle IFC 3, un modèle orienté objet développé par l IAI 4 pour faciliter l interopérabilité dans le domaine de la construction. Il est pourvu d une syntaxe ifcxml 5 ; des données ifcxml peuvent être automatiquement générées par les outils de COA dédiés à l architecture ou par les convertis OntoGov, INTELCITIES, TERREGOV, QUALEG 2005, e-power, ISTforCE Centre Scientifique et Technique du Bâtiment, Industry Foundation Classes International Alliance for Interoperability

32 Sémantique et Réutilisation d ontologie générique Sylvie Després, Sylvie Szulman LIPN, UMR7030 Univ. Paris 13 sylvie.despres@lipn.univ-paris13.fr despres LIPN, UMR7030 Univ. Paris 13 ss@lipn.univ-paris13.fr szulman Résumé. Dans ce papier, nous enrichissons la méthode Terminae de construction d ontologie à partir de textes en proposant une semi-automatisation de la construction du modèle conceptuel. Nous présentons un algorithme permettant la conceptualisation d un terme en s appuyant sur les informations linguistiques contenues dans l ontologie générique de référence. Cet article présente une extension à la méthode de construction d ontologie à partir de textes Terminae Aussenac-Gilles et al. (2008). Lors de la création d une nouvelle ontologie, nous proposons de réutiliser une ontologie générique de référence afin de faciliter la phase de conceptualisation des termes d un corpus. Une ontologie générique de référence (traduction du terme core ontology) couvre un domaine composite (par exemple le droit) comportant de nombreux sous domaines (droit public, privé, européen, etc.). A ce titre, une telle ontologie constitue un cadre unifié pour la construction d ontologies de domaine composite puisqu elle décrit les concepts communs à l ensemble des sous-domaines. La réutilisation constitue actuellement un point central de l ingénierie des ontologies soulevant des questions complexes. De nombreux travaux sont en cours dans ce domaine Euzenat et al. (2004), Noy (2004b), Shvaiko et Euzenat (2005), Predoiu et al. (2005), Bach (2006), Safar et al. (2007). Toutefois, peu de travaux exploitent la distinction entre les différents types d ontologies et leur articulation. En effet, parmi les concepts de l ontologie générique, certains jouent un rôle de pivot entre les ontologies des sous-domaines et permettent d ancrer l ontologie en cours de construction. Le processus d alignement proposé exploite également des informations lexicales et sémantiques de l ontologie de référence. Dans le paragraphe 2, nous situons notre approche de la réutilisation d ontologies et son intégration dans la méthode Terminae. Le paragraphe 3 détaille l algorithme d alignement sémantique. Puis quelques exemples illustrent les premières expérimentations faites dans le domaine juridique. Enfin, nous concluons en discutant les apports et les limites de la méthode adoptée

33 Gradients de prototypicalité conceptuelle et lexicale Xavier Aimé, Frédéric Fürst, Pascale Kuntz, Francky Trichet LINA - Laboratoire d Informatique de Nantes Atlantique (CNRS-FRE 2729) Équipe COD - Connaissances & Décision 2 rue de la Houssinière BP Nantes Cedex 03 pascale.kuntz@univ-nantes.fr, francky.trichet@univ-nantes.fr LARIA - Laboratoire de Recherche en Informatique d Amiens (CNRS-FRE 2733) UPJV, 33 rue Saint Leu Amiens Cedex 01 frederic.furst@u-picardie.fr Société TENNAXIA 19 rue de Réaumur Paris xaime@tennaxia.com Résumé. Longtemps les ontologies ont été limitées à des domaines scientifiques et techniques, favorisant au passage l essor du concept de «connaissances universelles et objectives». Avec l émergence et l engouement actuel pour les sciences cognitives, couplés à l application des ontologies à des domaines relatifs aux Sciences Humaines et Sociales (SHS), la subjectivité des connaissances devient une dimension incontournable qui se doit d être intégrée et prise en compte dans le processus d ingénierie ontologique (IO). L objectif de nos travaux est de développer la notion d Ontologie Pragmatisée Vernaculaire de Domaine (OPVD). Le principe sous-jacent à de telles ressources consiste à considérer que chaque ontologie est non seulement propre à un domaine, mais également à un endogroupe donné, doté d une pragmatique qui est fonction tant de la culture que de l apprentissage et de l état émotionnel du dit endogroupe. Cette pragmatique, qui traduit un processus d appropriation et de personnalisation de l ontologie considérée, est qualifiée à l aide de deux mesures : un gradient de prototypicalité conceptuelle et un gradient de prototypicalité lexicale. D un point de vue linguistique, la pragmatique s intéresse aux éléments du langage dont la signification ne peut être comprise qu en fonction d un contexte d interprétation donné. Dans le cadre des ontologie de domaine (qui sont des spécifications formelles de conceptualisations partagées Gruber (1993)), il s agit d enrichir la sémantique formelle intrinsèque à une ontologie de domaine (OD) à l aide d éléments caractéristiques d un contexte de création ou d usage

34 Mesures hiérarchiques pondérées pour l évaluation d un système semi-automatique d annotation de génomes utilisant des arbres de décision L. Gentils, J. Azé, C. Toffano-Nioche, V. Loux, A. Poupon, J-F. Gibrat, C. Froidevaux LRI UMR 8623 CNRS, Univ. Paris-Sud 11 F Orsay France (Lucie.Gentils,Claire.Toffano-Nioche,Jerome.Aze,Christine.Froidevaux)@lri.fr MIG INRA, Domaine de Vilvert Jouy-en-Josas Cedex France (Valentin.Loux,Jean-Francois.Gibrat)@jouy.inra.fr, IBBMC UMR 8619 CNRS, Univ. Paris-Sud 11 F Orsay France anne@rezo.net, Résumé. L annotation d une protéine consiste, entre autres, à lui attribuer une classe dans une hiérarchie fonctionnelle. Celle-ci permet d organiser les connaissances biologiques et d utiliser un vocabulaire contrôlé. Pour estimer la pertinence des annotations, des mesures telles que la précision, le rappel, la spécificité et le Fscore sont utilisées. Cependant ces mesures ne sont pas toujours bien adaptées à l évaluation de données hiérarchiques, car elles ne permettent pas de distinguer les erreurs faites aux différents niveaux de la hiérarchie. Nous proposons ici une représentation formelle pour les différents types d erreurs adaptés à notre problème. Aujourd hui de nombreux génomes séquencés sont disponibles du fait du développement continu des technologies à haut débit et des procédures expérimentales 1. Les experts biologistes jouent un rôle central dans l analyse et l annotation de cette quantité massive de données brutes. Pour annoter un nouveau génome, ils doivent intégrer plusieurs types d informations en provenance de sources variées, ce qui prend entre 12 et 18 mois à une équipe de 2 à 4 personnes pour un petit génome bactérien contenant environ 2000 gènes. Pour faire face au déluge des nouvelles données génomiques, le processus d annotation doit être le plus automatisé possible. Dans le contexte du projet RAFALE 2, nous proposons aux biologistes utilisant la plate-forme AGMIAL 3, un système semi-automatique d annotation fonctionnelle de protéines. Nous proposons un système semi-automatique car le processus est collaboratif : pour chaque protéine, une annotation est suggérée par le système et les biologistes décident de l annotation finale. 1 http :// 2 http :// 3 http ://genome.jouy.inra.fr/agmial

35 Méthodologie d Evaluation Intelligente des Concepts Ontologiques Lobna Karoui*, Marie-Aude Aufaure* *Supelec, Plateau de Moulon, Gif-sur-Yvette {Lobna.Karoui, Marie-Aude.Aufaure}@supelec.fr Résumé. Un des problèmes majeurs dans la gestion des ontologies est son évaluation. Cet article traite l évaluation des concepts ontologiques qui sont extraits de pages Web. Pour cela, nous avons proposé une méthodologie d évaluation des concepts basée trois critères révélateurs : «le degré de crédibilité»; «le degré de cohésion» et «le degré d éligibilité». Chaque critère correspond à un apport de connaissance pour la tâche d évaluation. Notre méthode d évaluation assure une évaluation qualitative grâce aux associations de mots ainsi qu une évaluation quantitative par le biais des trois degrés. Nos résultats et discussions avec les experts et les utilisateurs ont montré que notre méthode facilite la tâche d évaluation. L évaluation d une ontologie est une tâche difficile. Ceci explique l absence de méthodes d évaluation standard ou de mesures d évaluation servant à valider l ontologie. Dans cet article, nous focalisons notre intérêt sur l évaluation des concepts de l ontologie de domaine (appelés concepts ontologiques) qui sont extraits des pages Web. Nous travaillons sur les documents HTML écrits en français, dans le domaine du tourisme. Dans un travail précédent, nous avons défini un contexte structurel qui tient compte du document HTML et développé un algorithme de clustering afin de bien rassembler les mots sémantiquement proches (Karoui et al, 2006). Le résultat de ce travail était constitué de classes de mots pour lesquelles les experts ont du réaliser une lourde tâche d évaluation et d étiquetage. Pour aider ces derniers et faciliter l interprétation sémantique de ces classes (concepts), nous avons défini une méthode d évaluation basée sur trois critères révélateurs. Ces derniers sont le degré de crédibilité, le degré de cohésion et le degré d éligibilité. Le degré de crédibilité exploite deux types de contextes : un contexte linguistique et un contexte documentaire. En se basant sur ces deux types de contextes, nous calculons le degré de crédibilité associé à chaque classe de mots et à chaque contexte. Le degré de cohésion calcule le degré de rapprochement des mots d une classe en utilisant les documents du web. Le degré d éligibilité sélectionne ou suggère le mot de la classe qui peut être son concept ou qui peut orienter le raisonnement vers le futur concept approprié. Dans ce qui suit, nous détaillerons ces critères ainsi que leur rôle. 2 Les critères révélateurs de l évaluation intelligente des concepts Les critères révélateurs assistent l expert du domaine durant la tâche d évaluation. Ces critères sont : le degré de crédibilité: le caractère de ce qu on croit ; le degré de cohésion: le caractère d une chose dont toutes ses parties sont réunies avec une relation logique entre ses éléments et sans aucune contradiction ; le degré d éligibilité : le caractère d un mot qui com

36 Echantillonnage pour l extraction de motifs séquentiels : des bases de données statiques aux flots de données Chedy Raïssi,, Pascal Poncelet LIRMM, 161 rue Ada,34392 Montpellier Cedex 5, France raissi@lirmm.fr, EMA-LGI2P, Parc Scientifique Georges Besse, Nîmes Cedex, France prénom.nom@ema.fr Résumé. Depuis quelques années, la communauté fouille de données s est intéressée à la problématique de l extraction de motifs séquentiels à partir de grandes bases de données en considérant comme hypothèse que les données pouvaient être chargées en mémoire centrale. Cependant, cette hypothèse est mise en défaut lorsque les bases manipulées sont trop volumineuses. Dans cet article, nous étudions une technique d échantillonnage basée sur des réservoirs et montrons comment cette dernière est particulièrement bien adaptée pour résumer de gros volumes de données. Nous nous intéressons ensuite à la problématique plus récente de la fouille sur des données disponibles sous la forme d un flot continu et éventuellement infini ("data stream"). Nous étendons l approche d échantillonnage à ce nouveau contexte et montrons que nous sommes à même d extraire des motifs séquentiels de flots tout en garantissant les taux d erreurs sur les résultats. Les différentes expérimentations menées confirment nos résultats théoriques. La problématique de l extraction de motifs séquentiels dans de grandes bases de données intéresse la communauté fouille de données depuis une dizaine d années et différentes méthodes ont été développées pour extraire des séquences fréquentes. L extraction de tels motifs est toutefois une tâche difficile car l espace de recherche considéré est très grand. Afin de gérer au mieux cet espace de recherche, différentes stratégies ont été proposées. Les plus traditionnelles utilisent une approche à la Apriori Srikant et Agrawal (1996) et diffèrent principalement par les structures de données utilisées (vecteurs de bits, arbres préfixés,...). Les approches les plus récentes considèrent, quant à elles, des projections multiples de la base de données selon le principe de pattern-growth proposé dans Pei et al. (2001) et évitent ainsi de générer des candidats. Outre ces différentes stratégies, les propositions les plus efficaces considèrent comme hypothèse que la base de données peut être chargée directement en mémoire centrale. Cependant, avec le développement des nouvelles technologies, ces dernières se trouvent de plus en plus mises en défaut dans la mesure où la quantité de données manipulées est trop volumineuse et qu il devient irréaliste de stocker l intégralité de la base en mémoire centrale. Le développement des nouvelles technologies permet également de générer de très grands volumes de données issues de différentes sources : trafic TCP/IP, transactions financières, en

37 Le FIA: un nouvel automate permettant l extraction efficace d itemsets fréquents dans les flots de données Jean-Émile S, Alban M, Lionel V ymphor ancheron inceslas et Pascal Poncelet GRIMAAG, Université des Antilles et de la Guyane, Martinique, France. {je.symphor;alban.mancheron;lionel.vinceslas}@martinique.univ-ag.fr EMA-LG2IP/site EERIE, Parc Scientifique Georges Besse, Nîmes Cedex, France. pascal.poncelet@ema.fr Résumé. Le FIA (Frequent Itemset Automaton) est un nouvel automate qui permet de traiter de façon efficace la problématique de l extraction des itemsets fréquents dans les flots de données. Cette structure de données est très compacte et informative, et elle présente également des propriétés incrémentales intéressantes pour les mises à jour avec une granularité très fine. L algorithme développé pour la mise à jour du FIA effectue un unique passage sur les données qui sont prises en compte tout d abord par batch (i.e., itemset par itemset), puis pour chaque itemset, item par item. Nous montrons que dans le cadre d une approche prédictive et par l intermédiaire de la bordure statistique, le FIA permet d indexer les itemsets véritablement fréquents du flot en maximisant le rappel et en fournissant à tout moment une information sur la pertinence statistique des itemsets indexés avec la P -valeur. L extraction d itemsets fréquents est une problématique de recherche qui intéresse la communauté fouille de données depuis plus d une dizaine d années et intervient pour la recherche de règles d association, de motifs séquentiels ou encore d itemsets maximaux. Les premiers à traiter cette question furent Agrawal et Srikant (1994), ils ont été suivis en ce sens par Han et al. (2000). Traditionnellement, les différents algorithmes proposés dans la littérature reposent sur des structures de données de type arbre ou encore treillis (e.g. : A-priori (Agrawal et Srikant, 1994), F P-growth (Han et al., 2000),... ). La problématique de recherche de motifs (i.e., une généralisation des itemsets) apparaît dans des domaines aussi variés que la bioinformatique ou la fouille de textes. En ce qui concerne ce dernier, de nouvelles structures de données, basées sur des automates sont apparues afin d extraire les sous-séquences communes à une ensemble de textes (Troníček, 2002). Par exemple, Hoshino et al. (2000) ont introduit, un nouvel automate déterministe et acyclique : le SA (Subsequence Automaton) qui permet de reconnaître toutes les sous-séquences d un ensemble de textes. L un des problèmes principaux auxquels doit faire face une approche d extraction de motifs est de disposer de structures qui soient suffisamment compactes et informatives afin de minimiser l explosion combinatoire liée à d importants espaces de recherche. En effet, l applicabilité des algorithmes

38 Echantillonnage spatio-temporel de flux de données distribués Raja Chiky, Jérôme Cubillé, Alain Dessertaine, Georges Hébrail, Marie-Luce Picard GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS - Département Informatique et Réseaux 46 rue Barrault, Paris Cedex 13 prenom.nom@enst.fr EDF R&D - Départements ICAME et OSIRIS 1, Avenue du Général de Gaulle, Clamart prenom.nom@edf.fr Résumé. Ces dernières années, sont apparues de nombreuses applications, utilisant des données potentiellement infinies, provenant de façon continue de capteurs distribués. On retrouve ces capteurs dans des domaines aussi divers que la météorologie (établir des prévisions), le domaine militaire (surveiller des zones sensibles), l analyse des consommations électriques (transmettre des alertes en cas de consommation anormale),... Pour faire face à la volumétrie et au taux d arrivée des flux de données, des traitements sont effectués à la volée sur les flux. En particulier, si le système n est pas assez rapide pour traiter toutes les données d un flux, il est possible de construire des résumés de l information. Cette communication a pour objectif de faire un premier point sur nos travaux d échantillonnage dans un environnement de flux de données fortement distribués. Notre approche est basée sur la théorie des sondages, l analyse des données fonctionnelles et la gestion de flux de données. Cette approche sera illustrée par un cas réel : celui des mesures de consommations électriques. 1 Motivations Les entrepôts de données sont de plus en plus alimentés par des flux de données provenant d un grand nombre de capteurs distribués. Malgré l évolution des nouvelles technologies de traitement et de stockage des données, il reste difficile voire impossible de conserver la totalité de l information. Pour faire face à cette inflation, de nombreux travaux (Aggarwal, 2007; Babcock et al, 2002; Muthukrishnan, 2005) ont été menés ces dernières années sur la gestion et l analyse de flux de données : un flux de données est défini comme une séquence continue, potentiellement infinie, de n-uplets (d enregistrements) ayant tous la même structure. L ordre d arrivée des n-uplets n est pas contrôlé, et les données, de par l importance de leur volume et de leur débit d arrivée, ne peuvent pas exhaustivement être stockées sur disque : les données passent, et doivent être traitées à la volée

39 Semantics of Spatial Window over Spatio-Temporal Data Stream Yi Yu,, Talel Abdessalem CIMS center, University of Tongji Shanghai, China Ecole Nationale Supérieure des Télécommunications LTCI - UMR CNRS , rue Barrault, Paris - France First.Last@enst.fr Résumé. Dans les systèmes DSMS (Data Stream Management Systems), les données en entrée sont infinies et les requêtes sur celles-ci sont actives tout le temps. Dans le but de satisfaire ces caractéristiques, le fenêtrage temporel est largement utilisée pour convertir le flux infini de données sous forme de relations finies. Mais cette technique est inadaptée pour de nombreuses applications émergentes, en particulier les services de localisation. De nombreuses requêtes ne peuvent pas être traitées en utilisant le fenêtrage temporel, ou seraient traitées plus efficacement à l aide d un fenêtrage basé sur l espace (fenêtrage spatial). Dans cet article, nous analysons la nécessité d un fenêtrage spatial sur des flux de données spatio-temporels, et proposons, sur la base du langage de requêtes CQL (Continuous Query Language), une syntaxe et une sémantique associées au fenêtrage spatial. Data stream management systems (DSMS) have emerged to meet the needs of processing continuous changing, unbounded data and real-time responses. The applications include stock quoting, auction processing, network flow monitoring, moving objects monitoring [Abdessalem et al. (2007), Moreira et al. (2000)], etc. In these cases, the common features consist in : 1- the data sources are infinite and real-time changing, 2- queries over data have to produce continuous responses. To cope with the first feature, the window concept is proposed. The idea consists in transforming unbounded data stream into bounded data tables, then queries can be processed as in a traditional database system. For the second feature, query evaluation methods should be executed continuously resulting in a real-time changing of the response. As we mentioned above, window techniques are proposed for solving two issues in data stream processing : infinite data sources and continuous query. In current DSMS, the windowing operation is done using the timestamps of the input data (i.e. temporal attributes). For example, in a network traffic monitoring application it is not possible to store and analyze online the whole input data. We can just continuously monitor the situation for a bounded time interval,

40 Délestage pour l analyse multidimensionnelle de flux de données Sylvain Ferrandiz, Georges Hébrail GET / Télécom Paris 46, rue Barrault F Paris Cedex 13 sylvain.ferrandiz@enst.fr georges.hebrail@enst.fr Résumé. Dans le contexte de la gestion de flux de données, les données entrent dans le système à leur rythme. Des mécanismes de délestage sont à mettre en place pour qu un tel système puisse faire face aux situations où le débit des données dépasse ses capacités de traitement. Le lien entre réduction de la charge et dégradation de la qualité des résultats doit alors être quantifié. Dans cet article, nous nous plaçons dans le cas où le système est un cube de données, dont la structure est connue a priori, alimenté par un flux de données. Nous proposons un mécanisme de délestage pour les situations de surcharge et quantifions la dégradation de la qualité des résultats dans les cellules du cube. Nous exploitons l inégalité de Hoeffding pour obtenir une borne probabiliste sur l écart entre la valeur attendue et la valeur estimée. 1 La gestion de flux de données Les avancées de l électronique et de l informatique enrichissent continuellement la pratique de la récolte et de la gestion des données. La constante est l accroissement des capacités de traitement, tant au niveau de l acquisition que du stockage et de l accès aux données. Mais lorsque l information doit être extraite instantanément de données récoltées continuellement, le modèle relationnel basé sur des tables atteint ses limites. C est là qu interviennent les flux de données. Un flux de données est une suite de tuples ayant tous la même structure. Cette structure est représentée par un schéma, comprenant le nom des champs du tuple et leur type. La différence entre un flux et une table est le caractère ordonné des tuples. L ordre est souvent déterminé par un champ d agencement (typiquement la date, mais pas nécessairement). On entre dans le cadre de la gestion de flux dès lors que les données du flux n ont pas vocation à être stockées, les données nécessitent un traitement immédiat, les requêtes sont exécutées continuellement (i.e. les flux de données donnent naissance à d autres flux de données). La gestion de flux de données repose sur un modèle "data push" : les données se présentent d elles-mêmes, à leur propre rythme. En conséquence, le système ne maîtrise pas et ne connaît

41 Classification de documents en réseaux petits mondes en vue d apprentissage Khazri Mohamed*, Tmar Mohamed**, Mohand Boughanem***, Abid Mohamed* *Ecole Nationale d'ingénieurs de Sfax, Route de Soukra, 3038, Sfax Mohamed.khazri@yahoo.fr mohamed.abid@enis.rnu.tn **Institut Supérieur d'informatique et du Multimédia de Sfax, 3018, Sfax mohamed.tmar@isimsf.rnu.tn ***Institut de Recherche en Informatique de Toulouse, route de Narbonne, 31000, Toulouse, France bougha@irit.fr Les systèmes de recherche d'information préconisent une fonctionnalité très intéressante voire indispensable lors de tout processus de recherche : il s'agit de la reformulation automatique de la requête. Cette fonctionnalité permet de rétablir les choix de l'utilisateur dans la perspective de retrouver plus de documents qui répondent à son besoin en information. Il est à noter à ce niveau que le besoin en information de l'utilisateur est très vague : l'utilisateur ne sait en général pas ce qu'il cherche. Par ailleurs, il peut tolérer un résultat initial imprécis sous réserve de l'améliorer par feedback Rocchio (1971). Faire recours à de nouvelles méthodes d'apprentissage est alors devenu une nécessité. Plusieurs modèles qui ont été auparavant délaissés, tels que la classification, sont repris en vu d'améliorer l'apprentissage en recherche d'information. Nous proposons dans ce papier une méthode d apprentissage en faisant appel aux réseaux petits mondes (small worlds en anglais, Watts (1999)). 2 Notre Approche Les propriétés des réseaux petits mondes paraissent intéressantes dans les problèmes de classification. D'autant plus que ces propriétés sont valuées. Comme application à la recherche d'information, nous présumons qu'un ensemble de documents peut constituer des réseaux petits mondes pour moins qu'ils parlent du même sujet, et qu'une idée peut être transmise d'un document à un autre document si les auteurs partagent le même intérêt. Nos objectifs pour l'intégration des small worlds en recherche d'information ont deux effets : un effet de construction des small worlds par le bais de la classification; et un effet d'estimation de pertinence sur d autres documents. En partant de l hypothèse suivante : «une classe est raisonnable si elle admet certaines propriétés : celles des small worlds». Le premier effet va simplement faire une construction de small worlds de documents homogènes (pertinents ou non pertinents). Pour ce faire, nous proposons trois stratégies : une stratégie de construction de graphes de documents (1), une stratégie de propagation des liens (2), et une stratégie de construction des classes des documents (3). Pour la stratégie (3) nous utiliserons une méthode de classification hiérarchique, et l identification du nombre de classes dépend de la qualité de classification et de la nature de

42 Classification des documents en réseaux petits mondes en vue d apprentissage classes construites. A chaque itération nous calculons une valeur d inertie intra-classe qui permet de quantifier l homogénéité de la classification. Pour des classes réellement construites les coefficients de clustérisation et les distances moyennes montrent que les classes construites admettent les propriétés des small worlds. En partant de l hypothèse suivante : «une classe est un small worlds, et qu'une classe homogène (constituée de documents pertinents ou non pertinents) peut être utilisée comme moyen efficace pour bien constituer l'estimation des scores d'autres documents», le deuxième effet consiste à estimer la pertinence pour d autres documents. Pour traduire la pertinence pour un document il suffit d identifier la classe à laquelle il appartient et de juger de sa pertinence en fonction de la nature de la classe. Ce document est jugé pertinent si la classe résultat contient plus de documents pertinents que de documents non pertinents et est jugé non pertinent si non, 3 Conclusion Nous avons présenté dans cet article une approche statistique de classification des documents. L'approche consiste à définir un nouveau concept d'apprentissage. L'apprentissage consiste à construire des classes qui préservent les propriétés des réseaux petits mondes. Nous admettons que les classes préservant ces propriétés sont des estimateurs de pertinences d'autres documents. L'approche que nous avons proposée consiste à considérer tous les critères pouvant intervenir dans le jugement de l'utilisateur et de leur affecter les meilleurs poids pour que la pertinence utilisateur soit proche de la pertinence système. Les poids des critères considérés sont ajustés par apprentissage. Chaque poids traduit l'intérêt porté par l'utilisateur à celui-ci. Les poids relatifs aux termes peuvent servir de moyen de construction de requête. Nous envisageons de tester l'approche sur une base réelle de documents afin de mesurer l'apport des réseaux petits mondes à la recherche d'information. Nous envisageons également de tester la reformulation de la requête en se basant sur les poids des critères. Avec l effet petit monde, nous envisageons d autres méthodes telles que les méthodes d ordonnancement (ranking effect). Références Watts, D.J. (1999). Small Worlds. Princeton university press. Princeton. Rocchio, J. (1971). Relevance feedback in information retrieval. SMART retrieval-system: experiments in automatic document processing, Summary This paper presents a statistical approach to classify a corpus of documents. The corpus is represented by a graph where nodes are represented by the documents and links are defined by some criteria. The classification aims to build homogenous small worlds (containing as much as possible only relevant documents or non relevant documents).these classes are used to estimate the scores of other documents

43 Apport des traitements morpho-syntaxiques pour l alignement des définitions par une classification SVM Laura Dioşan,, Alexandrina Rogozan, Jean-Pierre Pécuchet LITIS (EA 4108) - INSA Rouen, France Babeş Bolyai University, Computer Science Department, Cluj Napoca, Romania lauras@cs.ubbcluj.ro, arogozan@insa-rouen.fr, pecuchet@insa-rouen.fr Résumé. Cet article propose une méthode d alignement automatique de définitions destinée à améliorer la fusion entre des terminologies spécialisées et un vocabulaire médical généraliste par un classifieur de type SVM (Support Vecteur Machine) et une représentation compacte et pertinente d un couple de définitions par concaténation d un ensemble de mesures de similarité, afin de tenir compte de leur complémentarité, auquelle nous ajoutons les longueurs de chacune des définitions. Trois niveaux syntaxiques ont été investigués. Le modèle fondé sur un apprentissage à partir des groupes nominaux de type Noms-Adjectifs aboutit aux meilleures performances. Les systèmes de recherche d informations reposent sur une terminologie spécifique d un domaine d application que seuls les experts possèdent. En effet, les utilisateurs naïfs utilisent un langage généraliste pour formuler leurs requêtes. Pour qu un système de recherche puisse répondre efficacement aux requêtes de ces derniers, il devrait pouvoir tirer parti des liens sémantiques entre des concepts véhiculés dans le langage généraliste et dans le langage spécialisé. Une des tâches du projet VODEL est de réaliser un alignement automatique de définitions, c est-à-dire de mettre en correspondance des définitions associées à un même concept, mais ayant des vedettes différentes. Le cadre choisi étant celui du domaine médical, les ressources terminologiques de spécialité sont tirées du thésaurus MeSH et du dictionnaire VIDAL, alors que le vocabulaire généraliste est représenté par des définitions appartenant à l encyclopédie Wikipédia et au réseau sémantique LDI de Memodata 1. Aligner deux définitions revient à résoudre efficacement un problème de classification binaire supervisée. Notre modèle d alignement passe par deux étapes : premièrement, une représentation compacte des définitions et deuxièmement, une classification supervisée de couples de définitions. Chaque définition a été représentée par un sac des mots, après un traitement linguistique (segmentation, lemmatisation et étiquetage morpho-syntaxique) permettant de filtrer les mots vides et de ne garder que les noms (N), les noms et les adjectifs (NA), et respectivement les noms, les adjectifs et les verbes (NAV). Nous proposons une représentation compacte et pertinente d un couple de définitions par concaténation d un ensemble de mesures de similarité classiques (Matching, Dice, Jaccard, Overlap, Cosine), afin de tenir compte de leur complémentarité, auquel nous ajoutons les longueurs de chacune des définitions. Nous proposons un alignement des terminologies par un classifieur de type SVM (Séparateur à Vaste 1 Le corpus de définitions a été réalisé dans le cadre du projet VODEL par G. Lortal, I. Bou Salem et M. Wang

44 Vers l intégration de la prédiction dans les cubes OLAP Anouck Bodin-Niemczuk, Riadh Ben Messaoud Sabine Loudcher Rabaséda, Omar Boussaid Laboratoire ERIC, Université Lumière Lyon 2 5 avenue Pierre Mendès-France, Bron Cedex {abodin rbenmessaoud}@eric.univ-lyon2.fr { sabine.loudcher omar.boussaid}@univ-lyon2.fr L analyse en ligne OLAP (On Line Analytical Processing) soutient les entrepôts de données dans le processus d aide à la décision. Cependant, il n existe pas d outils pour guider l utilisateur dans l exploration, ni pour approfondir l analyse vers l explication et la prédiction. Dans un processus décisionnel, un utilisateur peut vouloir anticiper la réalisation d évènements futurs. Le couplage de la fouille de données avec la technologie OLAP permet d assister l utilisateur dans cette tâche pour l extraction de nouvelles connaissances. Nous discernons une dichotomie entre les travaux étudiés pour la prédiction dans l OLAP. D un côté, Chen et al. (2006) intègrent un processus complet de fouille de données pour l élaboration d un modèle de prédiction. D un autre côté, Sarawagi et al. (1998) intègrent parfaitement le modèle dans l environnement OLAP. La combinaison des deux approches permettrait une réelle intégration de la prédiction à l analyse en ligne. Nous proposons un cadre de prédiction OLAP fondé à la fois sur la philosophie OLAP et sur la fouille de données. Via une technique de type arbre de régression, l utilisateur peut prédire la valeur de la mesure d un nouveau fait selon un contexte d analyse défini par ses soins. Nous nous plaçons dans le cadre du "What if analysis" où le procédé de projection dans l avenir illustre une démarche centrée sur l utilisateur OLAP. Nous utilisons un processus complet d apprentissage automatique et exploitons les résultats obtenus dans le cube de données OLAP. Nous réalisons un premier pas vers un cadre de prédiction OLAP en y associant les arbres de régression. Notre démarche se résume de la manière suivante : Le point de départ est un contexte d analyse C (sous-cube) avec n faits OLAP observés selon la mesure quantitative M q, défini par l utilisateur au sein d un cube de données C. Pour la construction et la validation du modèle, le contexte d analyse est segmenté en deux : 70% des faits servent à l apprentissage et 30% à l évaluation du modèle. Les critères d évaluation sont le taux d erreur moyen et la réduction de l erreur. Soit R(X Y ; S; σ) une règle de décision obtenue dans le modèle. X est une conjonction et/ou disjonction de modalités. Y est la valeur moyenne prédite pour la mesure M q sachant X. S est le support de la règle et σ est l écart-type de M q dans l ensemble d apprentissage vérifiant X. Pour exploiter les règles dans l environnement OLAP nous procédons ainsi : pour intégrer la règle R(X Y, S, σ) dans le sous-cube C, on affecte à la cellule c vide qui vérifie X, la valeur prédite Y. Les agrégats à un niveau hiérarchique supérieur peuvent alors êtres calculés en y intégrant les valeurs prédites aux niveaux inférieurs. Afin de valoriser le

45 Vers l intégration de la prédiction dans les cubes OLAP modèle dans OLAP, nous utilisons des indicateurs visuels aidant l interprétation des résultats par l utilisateur. Avec une nuance de couleur il distingue les valeurs prédites des faits originels. Nous avons expérimenté notre proposition sur un jeu de données médicales relatif au dépistage du cancer du sein (Digital Database for Screening Mammography 1 ). Après modélisation selon un schéma en étoile et définition d un contexte d analyse nous avons faits agrégés. Nous utilisons l algorithme d apprentissage AID (Automatic Interaction Detection) pour construire un arbre de régression. L erreur moyenne est de 0,11 et la réduction de l erreur est de 0,64. Le modèle peut donc être exploité avec précautions. Dans le cadre du "What if analysis", nous répondons à la question suivante : À combien de régions suspectes doit-on s attendre si on a un patient âgé de 50 à 54 ans présentant une pathologie maligne de type calcifications amorphes et si l indice d évaluation de la part du médecin est de 3 sachant que la subtilité de l évaluation est de niveau 2 et que l examen est réalisé avec un scanner de type laser lumineux? Sur 6 dimensions, 2 sont retenues par le modèle comme étant explicatives : l indice d évaluation du médecin et le type de scanner. Le nombre de régions suspectes prédit est en moyenne de 2,77. Notre approche de couplage de l OLAP avec des méthodes de prédiction montre ici une grande partie de son potentiel. Nos travaux ouvrent diverses perspectives de recherche. Nous souhaitons étendre les modalités d exploitation du modèle de prédiction dans l OLAP. Nous pensons notamment aux cas où l arbre de régression ne renvoie pas un modèle fiable à la vue des critères de validité définis. Nous souhaitons aussi prendre en compte le nombre de faits sur lequel repose la prédiction. En effet, les valeurs de mesure prédites sont souvent indiquées pour des agrégats de faits, leur nombre permettrait à l utilisateur d aller plus loin dans son analyse. Ceci apporterait aussi une première piste dans le cas où l utilisateur souhaite explorer un niveau d agrégation plus fin considérant les prédictions réalisées aux niveaux supérieurs. Références Chen, B.-C., R. Ramakrishnan, J. W. Shavlik, et P. Tamma (2006). Bellwether Analysis : Predicting Global Aggregates from Local Regions. In Proceedings of the 32 nd International Conference on Very Large Data Bases (VLDB 06), Seoul, Korea, pp ACM Press. Sarawagi, S., R. Agrawal, et N. Megiddo (1998). Discovery-driven Exploration of OLAP Data Cubes. In Proceedings of the 6 th International Conference on Extending Database Technology (EDBT 98), Valencia, Spain, pp Springer. Summary In order to enrich the decision-making process, we propose to couple OLAP and data mining with a complete machine learning process. We extend OLAP to prediction capabilities. We use regression trees to predict the measure values of new data aggregates. 1 http ://marathon.csee.usf.edu/mammography/database.html

46 Un nouveau système immunitaire artificiel pour l apprentissage non supervisé Rachid Elmeziane, Ilham Berrada et Ismail Kassou Laboratoire Al Khawarizmi- ENSIAS- BP 713- Agdal Rabat- Maroc {meziane, iberrada, kassou}@ensias.ma Résumé. Nous proposons dans ce papier un nouveau système immunitaire artificiel (SIA) appelé système NK, pour la détection de comportement du soi non soi avec une approche non supervisée basée sur le mécanisme de cellule NK (Naturel Killer). Dans ce papier, le système NK est appliqué à la détection de fraude en téléphonie mobile. 1 Contexte Dans le but de résoudre des problèmes complexes du monde réel dans des domaines différents tels que l'optimisation, la détection d'anomalies ou la robotique, des heuristiques inspirées de mécanismes naturels ont été exploitées avec succès. Plusieurs chercheurs se sont intéressés aux systèmes immunitaires biologiques (SIB) comme un nouveau paradigme de l intelligence artificielle et ont développé des applications industrielles en ordonnancement, en robotique, ou en détection d intrusion. Néanmoins, peu de travaux ont traité la problématique de la détection de fraude de comportement en télécommunications. Dans ce papier, on propose un nouveau système immunitaire artificiel (SIA) pour la détection du comportement du soi non soi avec une approche non supervisée basée sur le mécanisme SIB dit inné de cellule NK. Un tel système diffère des SIA existants qui se basent sur le mécanisme supervisé adaptatif de SIB des cellules T et B (Garrett 2005). 2 Présentation du système NK proposé L algorithme de notre système NK, décrit dans le tableau TAB1, comporte quatre phases qui concernent la reconnaissance et l'extraction de modèles d instances puis leur transformation en signaux d inhibition et d activation. La dernière phase concerne la détection de la présence de comportements anormaux sur la base de l analyse des densités spectrales ou de filtrage des signaux. Notons ici que la terminologie signal utilisée correspond à un signal discret à temps discret et que l entrée de l algorithme est une série chronologique vectorielle. L algorithme du système NK élaboré a été testé sur des données simulées de instances de télécommunication, relatives aux trafics de certains usagers chez un intermédiaire, et qui sont infectées par un comportement frauduleux pour les instances entre et et dont la proportion représente 0.01% de l'échantillon. Les résultats obtenus sont satisfaisants car, malgré la proportion très faible des opérations frauduleuses dans l échantillon, notre système NK a réussi à les détecter (cf. FIG. 3) et à identifier les instances de comportements frauduleux (cf. FIG. 1 et FIG. 2). Ces mêmes résultats seront comparés avec

47 Génération de séquence résumé par une nouvelle approche basée sur le Soft Computing Youssef Hadi,, Rachid El Meziane Rachid Oulad Haj Thami, Laboratoire GSCM_LRIT, Faculté des Sciences, Université Mohamed V Agdal B.P Rabat, Maroc hadiyoussef@gmail.com, Laboratoire SI2M, Equipe WiM, ENSIAS, Université Mohamed V Souissi B.P. 713 Rabat-Agdal, Maroc oulad@ensias.ma ENSIAS, Université Mohamed V Souissi, B.P. 713 Rabat-Agdal, Maroc meziane@ensias.ma Résumé. Cet article propose une approche d abstraction des séquences vidéo basée sur le soft computing. Etant donné une longueur cible du condensé vidéo, on cherche les segments vidéo qui couvrent le maximum du visuel de la vidéo originale en respectant la longueur du condensé. 1 La génération des séquences résumées proposée La génération de résumé vidéo est une technique alternative prometteuse utilisée dans l indexation et la recherche vidéo (Truong et Venkatesh, 2007). L objectif de cet article est de proposer une approche de génération des séquences résumées utilisant le soft computing vue son efficacité dans les systèmes tolérant l imprécision et l incertitude (Zadeh, 1956). Etant donné une longueur cible du condensé vidéo, on veut calculer les segments vidéo qui couvrent le maximum du visuel en respectant la longueur du condensé. Les segments vidéo sont représentés par des images clés et décrites par un histogramme de couleur. L histogramme est un outil très ordinaire pour résumer visuellement la distribution d un échantillon de données. Pour maximiser le visuel on doit maximiser la présence de l information de la couleur et sa distribution. Ce pendant, le problème revient à maximiser l occurrence et la distribution du visuel représenté par l information de couleur du contenu vidéo. En effet, l occurrence et la distribution de ce contenu visuel représente des variables linguistiques, c.-à-d. "l occurrence est maximale" et "la distribution est maximale". L occurrence et la distribution représentent deux ensembles flous qui nécessitent une détermination de leur fonction d appartenance. Dans notre proposition, nous segmentons les séquences vidéo en plans (shots) comme unité de base en utilisant une transformation de couleur RGB réversible comme une représentation du contenu vidéo (Hadi et al., 2006b). Après, nous sélectionnons les images représentatives (keyframes) à partir des plans vidéo on se basant sur l estimation du mouvement local (Essannouni et al., 2006). L algorithme d extraction des images représentatives utilisé est basé sur un

48 Évaluation des critères asymétriques pour les arbres de décision Simon Marcellin Djamel A. Zighed Gilbert Ritschard Université Lumière Lyon 2 {abdelkader.zighed,simon.marcellin}@univ-lyon2.fr Université de Genève Gilbert.ritschard@unige.ch Résumé. Pour construire des arbres de décision sur des données déséquilibrées, des auteurs ont proposés des mesures d entropie asymétriques. Le problème de l évaluation de ces arbres se pose ensuite. Cet article propose d évaluer la qualité d arbres de décision basés sur une mesure d entropie asymétrique. L apprentissage supervisé sur données déséquilibrées fait l objet de nombreux travaux (Provost (2000)). Pour le cas des arbres de décision, différents auteurs ont proposé d utiliser des mesures d entropie prenant en compte l asymétrie pour la recherche du meilleur éclatement. Nous avons ainsi proposé une axiomatique permettant de définir une famille de mesures asymétriques (Zighed et al. (2007)). Comment évaluer la qualité des arbres construits avec de telles mesures? En effet, les critères de performances globaux (comme le taux d erreur) ne prennent pas en compte l asymétrie des classes. Ceux qui évaluent les performances du modèle sur une seule classe sont tributaires de la règle d affectation d une classe dans chaque feuille. Or, dans le cas de données déséquilibrées, la règle majoritaire utilisée habituellement ne convient pas. Nous proposons donc une méthodologie et une évaluation des arbres construits avec une entropie asymétrique. 2 Méthodes d évaluation Nous avons retenu deux méthodes pour évaluer les arbres de décisions asymétriques : les courbes ROC et les graphes rappel / précision. Les courbes ROC permettent d évaluer la structure des arbres indépendamment du déséquilibre des classes (Provost et Fawcett (1997)). Les graphes rappel / précision permettent quant à eux d évaluer les performances du modèle sur une classe, en faisant varier la règle d affectation. Ces deux méthodes permettent ainsi de tenir compte des deux problèmes cités en introduction

49 Principes d Analyse des données symboliques et application à la détection d anomalies sur des ouvrages publics E. Diday *, C. Crémona**, F. Goupil*, F. Afonso***, M. Rahal* *CEREMADE Paris Dauphine, Place du Mal de Lattre de Tassigny Paris Cedex 16 (goupil, diday, ** Laboratoire Central des Ponts et Chaussées Paris. ***SYROKKO - 6, rue Ambroise Jacquin Fontenay-en-Parisis afonso@syrokko.com Résumé. L analyse des données Symboliques a pour objectif de fournir des résultats complémentaires à ceux fournis par la fouille de données classique en créant des concepts issus de données simples ou complexes puis en analysant ces concepts par des descriptions symboliques où les variables expriment la variation des instances de ces concepts en prenant des valeurs intervalle, histogramme, suites, munies de règles et de taxonomies, etc. On appelle «concept», une entité qui se définit par un croisement de catégories. L objet de l ADS est d analyser des ensembles de concepts décrits par des variables symboliques. Ces variables sont non seulement à valeur numérique ou qualitative mais aussi à valeur intervalle, histogramme, loi de probabilité, fonction, ensemble de valeurs etc., afin de tenir compte de la variation des valeurs prises par les individus de l extension de chaque concept. L ADS et son logiciel SODAS comportent deux étapes : la première consiste à construire la description des concepts à partir de celle des individus, la seconde consiste à analyser le tableau de données symboliques ainsi créé en étendant les méthodes de la Statistique ou du Data Mining aux concepts considérés comme unités statistiques de plus haut niveau. Nous illustrons ces deux étapes en montrant trois avantages de l ADS : i) on peut étudier les bonnes unités statistiques à un niveau de généralisation voulu par l utilisateur ; ii) on réduit la taille des données en considérant comme unités d étude, des classes plutôt que les individus ; iii) on réduit le nombre de variables du fait qu elles sont à valeur symbolique (par exemple, à valeur «histogramme» plutôt qu à valeur «fréquence d une catégorie» ou à valeur intervalle plutôt qu à valeur «borne d intervalle»). On utilise pour cela le logiciel SODAS (voir l ouvrage collectif issu du projet européen ASSO d EUROSTAT : Diday, Noirhomme (2007)). 2 Description Les données fournies par le LCPC (Laboratoire Central des Ponts et Chaussées) sont constituées d un ensemble de 14 TGV qui en passant à une température donnée sur un pont déclenchent des signaux de 9 capteurs répartis à différents endroits du pont (voir la figure 1). En entrée, on dispose d un tableau de données symboliques qui contient dans la case (i, j) le

50 Echantillonnage adaptatif de jeux de données déséquilibrés pour les forêts aléatoires Julien Thomas,, Pierre-Emmanuel Jouve, Elie Prudhomme Société Fenics Lyon, France. Université Lumière Lyon 2, Laboratoire ERIC. Résumé. Dans nombre d applications, les données présentent un déséquilibre entre les classes. La prédiction est alors souvent détériorée pour la classe minoritaire. Pour contourner cela, nous proposons un échantillonnage guidé, lors des itérations successives d une forêt aléatoire, par les besoins de l utilisateur. Introduction Les jeux de données déséquilibrés constituent un problème important de l apprentissage supervisé. Or la plupart des modèles sont conçus pour des données équilibrées. Leur utilisation sur des données déséquilibrées conduit souvent à une mauvaise prédiction de la classe minoritaire. Pourtant, cette situation se retrouve régulièrement dans la pratique (Détection de pannes (Pazzani et al., 1994), textmining, aide aux diagnostics médicaux...). Ces applications ont besoin de disposer de méthodes capables de prédire la classe minoritaire avec des performances en adéquation avec les attentes de l utilisateur. L évantail des solutions existantes vont de l échantillonnage (Japkowicz, 2000; Chawla et al., 2002), à la construction d un modèle de prédiction spécifique à la classe d intérêt, en passant par l utilisation de matrices de coût (Pazzani et al., 1994; Kubat et al., 1998). FUNSS L idée de FUNSS (Fitting User Needs Sampling Strategy) est de traduire le besoin en rappel pour la classe minoritaire en terme de marge de décision entre les individus de chaque classe. Les individus minoritaires (positifs) sont entourés par une quantité importante d individus majoritaires (négatifs) qui empèchent le classifieur de les apprendre correctemment. Pour augmenter le rappel, une solution consiste à choisir des individus négatifs éloignés des individus positifs. A l inverse, pour augmenter la précision, il suffit de garder les individus négatifs proches des individus positifs. FUNSS reprend ce principe en modifiant l échantillonnage réalisé au cours des forêts aléatoires en un échantillonnage dirigé. A chaque tirage avec remise, le processus est le suivant : si l individu est positif, il est intégré dans le nouvel échantillon ; sinon un groupe de n individus négatifs est tiré ainsi qu un individu positif. L individu négatif du groupe qui est soit le plus proche, soit le plus éloigné de l individu positif est intégré dans le nouvel échantillon. Chaque échantillon de la forêt aléatoire est donc l occasion d augmenter ou de diminuer le rappel pour atteindre une valeur fixée par l utilisateur. Pour cela, le rappel de la forêt est estimé à chaque nouvel arbre à l aide des individus out-of-bag. S il est en dessous du rappel désiré, l échantillonnage suivant sélectionne des individus négatifs éloignés. Dans le cas contraire, les individus négatifs proches sont favorisés. Enfin pour déterminer l individu le plus proche d une cible, les individus sont ordonnés pour chaque attribut sur leur proximité à cette cible. La distance utilisée est alors la somme des rangs d un individu

51 Une proposition pour l extraction de relations non prédicatives Mouna Kamel IRIT-Université Paul Sabatier Toulouse Cedex kamel@irit.fr Résumé. Les relations sémantiques généralement reconnues par les méthodes d extraction sont portées par des structures de type prédicats-arguments. Or, l information recherchée est souvent répartie sur plusieurs phrases. Pour détecter ces relations dites complexes, nous proposons un modèle de représentation des connaissances basé sur les graphes conceptuels. 1 Problématique L'Extraction d Information consiste à identifier de l'information bien précise d'un texte en langue naturelle et à la représenter sous forme structurée. Les composantes de l information recherchée sont généralement prédéfinies et circonscrites à un domaine spécifique, et les principaux travaux réalisés en matière d identification de relations sémantiques ont essentiellement concerné les relations portées par une structure de type prédicats-arguments. Les principales approches d identification de ces relations ont été basées sur l analyse syntaxique (identification du verbe et ses arguments) (Khélif, 2006), ou sur la définition de patrons lexico-syntaxiques (Aussenac et al., 2000). L étude de corpus de domaines différents montre que bonne partie de l information pertinente peut aussi être distribuée sur plusieurs phrases, par le biais de relations exprimées à l aide de variations linguistiques, comme la coréférence, l anaphore ou l ellipse. Les méthodes classiques d extraction de relations ne sont alors plus adaptées. La résolution de relations non prédicatives, et plus particulièrement d une certaine forme elliptique (formes passives où l argument agent est effacé) utilisée fréquemment, nous a conduits à proposer une représentation des connaissances du domaine considéré, à l aide du modèle des graphes conceptuels, car ce modèle est doté d opérations et offre des procédures de raisonnement (Salvat, 1997). 2 Identification de relations non prédicatives Nous avons étudié un corpus de résumés d articles scientifiques décrivant des expériences génétiques menées par des chercheurs sur un ensemble de patients porteurs d une même maladie génétique, le but étant de localiser les régions chromosomiques affectées. Une des relations pertinentes identifiées est Conditions Expérimentales qui relie l ensemble des patients observés au type d analyse subie. Dans l exemple "A study was conducted on 22 MM patients. The authors used G-banding", la relation Conditions Expérimentales ne peut être détectée par une approche classique. La mise en œuvre d une procédure de raisonnement qui établit un lien entre les auteurs (authors) et l étude (study) menée par les auteurs (authors)

52 Méthodologie de définition de e-services pour la gestion des connaissances à partir d un plateau de créativité : application au e-learning instrumental Noël Conruyt, Olivier Sébastien, David Grosser IREMIA, Université de la Réunion, 15, av. René Cassin, Saint-Denis conruyt, sebastien, grosser@univ-reunion.fr Résumé. En s appuyant sur la théorie de l activité, nous avons mis au point une méthodologie de gestion des connaissances à base de e-services sur un plateau de créativité visant à faire piloter le processus de fabrication métier par celui des usages. Nous l avons testé avec la réalisation d un e-service d apprentissage instrumental de pièces de musique à la guitare (E-guitare). Dans le contexte mondial de compétitivité, de recherche et d innovation, la conception de e-services, c est-à-dire de produits/services accessibles au travers de l Internet, nécessite un développement qui débouche sur l usage (Musso et al. (2005). En effet, dans le monde mouvant des Technologies de l Information et de la Communication (TIC), et notamment avec l émergence du Web 2.0, le progrès ne réside plus aujourd hui seulement dans l objet technologique en lui-même, mais bien dans sa capacité à intégrer des contenus variés que l on cherche à produire en co-construction avec les utilisateurs pour garantir son utilité. La gestion des connaissances se trouve donc plongée au cœur de ce processus créatif d innovation par l usage (Poulain, 2002), à la fois démocratique (von Hippel (2005)) et participatif (Tapscott et Williams (2006)). Ce type de gestion des connaissances dont le but est de trouver des solutions centrées utilisateurs ne procède pas seulement à partir de données textuelles du domaine à extraire et à traiter. Par exemple dans le domaine du e-learning instrumental, les connaissances musicales ne sont pas formalisables uniquement par du texte codifié via XML (partition de musique en musicxml, mais aussi et surtout par d autres média (son, image) qui rendent mieux compte du sens et de l intention désirée par l interprète sur les objets de la partition (notes, accords, doigtés, silences, phrasé,...). Ce sont ces objets de l interprétation humaine que nous cherchons à extraire et gérer car ils coïncident avec une vraie demande (Pachet (2004)) pour la diffusion des connaissances. La méthodologie que nous proposons s appuie sur l identification, l extraction et la conversion de ces objets multimédia sur un plateau de créativité. Ils proviennent des savoir-faire implicites des interprètes experts. Nous souhaitons les expliciter (Nonaka et Takeuchi (1995)) avec des outils appropriés en tenant compte des pratiques du domaine. Pour cela on met en œuvre des processus itératifs tant du côté de l offre (métier) que de la demande (usage) qui s appuient sur la démarche expérimentale. On combine ainsi des phases de généralisation inductive à partir d exemples (conception et élaboration du e-service), de vérification des hypothèses (expérimentation du e-service) à l aide de focus groupes (analyse qualitative) et de questionnaires (analyse semi-quantitative), et de mise en application de solutions de manière déductive (déclinaison de produits ciblés). IKBS (Conruyt et Grosser (2003))

53 Stratégies de classification non supervisée basées sur fenêtres superposées : application aux données d usage du Web Alzennyr Da Silva, Yves Lechevallier Projet AxIS, INRIA Rocquencourt Domaine de Voluceau, Rocquencourt, B.P Le Chesnay cedex France {Alzennyr.Da_Silva, Yves.Lechevallier}@inria.fr Résumé. Un problème majeur se pose dans le domaine des flux de données : la distribution sous-jacente des données peut changer sur le temps. Dans cet article, nous proposons trois stratégies de classification non supervisée basée sur des fenêtres superposées. Notre objectif est de pouvoir repérer ces changements dans le temps. Notre approche est appliquée sur un benchmark de données réelles et les conclusions obtenues sont basées sur deux indices de comparaison de partitions. Dans cet article, nous proposons trois stratégies de classification non supervisée appliquées sur fenêtres superposées. Notre objectif est de pouvoir repérer les changements de la distribution sous-jacente d un flux de donnés sur le temps. Notre approche consiste donc à fixer a priori la taille de la fenêtre et appliquer un algorithme de classification non supervisée sur les données contenues à l intérieur de la fenêtre. Nous définissons deux types de partitionnement de données sur les fenêtres : partitionnement par nombre d effectifs (fenêtre logique) et partitionnement par intervalle de temps (fenêtre de temps). L idée principale est de faire glisser la fenêtre sur le temps de telle façon que des nouvelles données soient rajoutées dans la fenêtre et par conséquence, les données les plus anciennes en soient éliminées. L action de glissement de la fenêtre sur les données est fait de telle manière à ce qu il y ait toujours une zone de chevauchement entre les deux ensembles de données contenues dans la fenêtre avant et après son glissement. Chaque fois qu une nouvelle fenêtre est définie, l algorithme de classification non supervisé est appliqué sur les données contenues dans la fenêtre, ce qui définit une partition et un ensemble de prototypes. La détection des possibles changements est faite par la comparaison de deux partitions obtenues sur le même ensemble d individus. Dans ce contexte, nous proposons trois types de comparaisons de partitions : comparaison sur les données de l intersection, comparaison sur les données de l union et comparaison sur la totalité des données

54 Une J-mesure orientée pour élaguer des modèles de chroniques Nabil Benayadi and Marc Le Goc LSIS, UMR CNRS 6168, Université Paul Cézanne Domaine Universitaire St Jérôme Les systèmes de supervision de la plupart des applications industrielles génèrent une très grande quantité d informations et les collectent dans des bases de données. Ce papier concerne la découverte de modèles de chroniques à partir de séquences d événements. Chaque événement appartient à une certaine classe. Selon l approche stochastique (Le Goc et al. (2005)), un ensemble de séquences est représenté sous la forme d une chaîne de Markov afin de l utiliser par la suite pour générer un modèle de chroniques (Le Goc et al. (2005)) sous forme de relations binaires entre classes d événements C i C o. Le nombre des relations binaires peut être très grand, par conséquent une réduction de ce nombre est nécessaire. Pour cela, nous proposons une adaptation de la J-Measure de la théorie de l information aux chaînes de Markov, la BJ-Measure, pour formuler des heuristiques d élimination d hypothèses. 2 Élagage d un modèle de chroniques Considérant la propriété d absence de mémoire de la chaîne de Markov, la relation C i C o entre deux classes C i et C o peut être considérée comme l une des quatre relations entre deux variables aléatoires binaires y = {C i, C i } et x = {C o, C o }, connectées à travers un canal binaire discret sans mémoire (Shannon (1948)), avec C i C ω {C i } et C o C ω {C o }. Les occurrences de la classe d événement C i portent de l information sur les occurrences de C o dans la séquence ω si et seulement si p(c o C i ) > p(c o ). La relation binaire entre C i et C o dépend de l écart entre p(c o ) et p(c o C i ). Nous mesurons cet écart par la formule suivante : BJM(C i C o ) = p(c o C i ) log 2 ( p(co C i ) ) + 1 p(c o ) C o p( Co C i ) log 2 ( p( Co C i ) ) (1) p( C o ) Soit S = {C i C o } un ensemble de relations binaires construites à partir de la séquence ω. Selon la propriété d absence de mémoire de la chaîne de Markov, les relations binaires contenues dans S sont indépendantes. L ensemble S est vu comme une succession de plusieurs canals binaires de transmissions sans mémoire. La BJ-Measure d un chemin M = {C i

55 C i+1 } i=0...n 1 est le produit de nombre de relations binaires et la somme des BJ-Measure de chaque relation binaire C i C i+1 de M. BJM(M) = n BJM(C i C i+1 ) (2) i=0,...,n 1 La probabilité p(m) d un chemin M = {C i C i+1 } i=0...n 1 dans une matrice de probabilités de transitions d une séquence ω peut être calculée en utilisant la relation de Chapmann- Kolmogorov. L élagage consiste à trouver un bon compromis entre la probabilité d un chemin M et sa quantité d information qui le traverse. Pour cela, nous utilisons l heuristique L(M) = p(m) BJM(M). Notre approche a été appliquée sur les séquences générées par le système à base de connaissances SACHEM. Nous nous sommes intéressés à la prédiction TGS TGS FT ω FT ω SS BD SS BD FIG. 1 Expertise (1995) FIG. 2 Relations observées en 2007 des occurrences associées à la variable appelée omega. La séquence étudiée contient 7682 occurrences de classes d événements. Le nombre des relations binaires générées est L application de l heuristique L(M) permet d élaguer l ensemble des relations afin de garder que relations binaires. Grâce à la définition de la notion de classe, nous avons construit un modèle fonctionnel en substituant chacun des identifiants de classe par la variable associée. Le graphe de la figure 2 indique les variables ayant un impact sur la variable omega. Ce graphe peut être comparé avec les connaissances a priori formulées par les experts en 1995 (cf Figure 1). Le graphe (Figure 1) donné par les connaissances des experts est inclus dans celui donné par l Approche Stochastique (figure 2) sauf en ce qui concerne le sens de la relation entre les variables FT et BD. Références Le Goc, M., P. Bouché, et N. Giambiasi (2005). Stochastic modeling of continuous time discrete event sequence for diagnosis. 16th International Workshop on Principles of Diagnosis (DX 05) Pacific Grove, California, USA. Shannon, C. (1948). A mathematical theory of communication. Bell System Technical Journal 27, Summary In this paper, we propose to adapt the Information Theory J-Measure to Markov chains, the BJ-Measure, to define heuristics to prune the set of binary relations generated by the stochastic approach

56 Extraction et validation par croisement des relations d une ontologie de domaine Lobna Karoui*, ** * Laboratoire Epitech de Recherche en Informatique Appliquée L.E.R.I.A, 24 rue Pasteur Le Kremlin Bicêtre, France **Supelec, Plateau de Moulon, Gif-sur-Yvette, France Lobna.Karoui@supelec.fr Face à de grandes quantités de documents web, notre objectif est d extraire et de valider semi-automatiquement des relations d un domaine. Dans l état de l art, l extraction des relations a été faite soit par une approche statistique, une approche linguistique ou une approche hybride. De plus, l intérêt a été toujours porté sur un voire deux types de relations. A contrario, notre objectif est d extraire des relations de différents types en combinant des analyses de textes et en considérant les caractéristiques des mots. Dans cet article, nous avons défini un algorithme contextuel de découverte de relations qui combine différentes analyses (lexicale, syntaxique et statistique) pour définir des processus complémentaires qui assurent l extraction de relations variées et pertinentes. Notre algorithme établit des opérations de croisements entre analyses afin de pouvoir valider certaines relations. Les relations valides, comme celles invalides, seront présentées à l expert du domaine mais séparément. 2 La découverte des relations La notion de contexte. Pour l extraction des relations, nous souhaitons trouver les mots qui sont reliés au mot étudié. Donc, nous cherchons des contextes qui contiennent ces mots reliés. Pour cela, nous avons défini différents contextes et nous les avons catégorisés en quatre types: le contexte structurel, le contexte linguistique (centré autour du verbe, globalement syntaxique et lexical), le contexte documentaire (paragraphe) et le contexte fenêtre (avec un degré de proximité). Notre approche utilise toutes ces analyses afin d extraire de nouvelles relations (en plus de celles existantes dans la hiérarchie) et de les valider automatiquement. L algorithme contextuel de découverte des relations. Il applique différents types d'analyses pour extraire et évaluer les relations. Il dépend de certains paramètres comme le degré de confiance (DC), NO est le pourcentage d occurrences de mots dans le corpus (NO) et FN est la fréquence normalisée des mots dans le corpus (FN). Ces paramètres sont utilisés lors du filtre statistique ainsi que la validation. Le DC doit être défini par l utilisateur vu qu il explique sa confiance en l application. Par contre, NO et FN peuvent être définis soit par l expert du domaine, soit par le système en les déduisant de la valeur de DC ou par défaut (valeur définie par le concepteur du système). Dans le cas où le système est utilisé pour calculer les valeurs de NO et FN, si la valeur de DC est supérieure à 50% leurs valeurs (par défaut) seront maintenues, sinon elles seront multipliées par deux. Notre algorithme catégorise quatre types de relations extraites : valides, invalides, déduites et étiquetées. Une relation valide est celle qui est récupérée après une opération de croisement entre analyses. Une relation invalide est celle qui n a pas été retrouvé dans deux analyses

57 Extraction et validation par croisement des relations d une ontologie de domaine Notre algorithme est composé de cinq étapes. Une première étape applique les différentes analyses pour extraire les relations. Une seconde étape applique un filtre interne pour éliminer les relations qui représentent les liaisons des mots à l intérieur des classes validées. L étape trois applique un filtre par croisement des relations résultantes des différentes analyses. Nous proposons deux types de croisements complets (qui nécessitent que la relation existe dans les deux analyses pour qu elle soit retenue) pour la première étape de validation : un croisement au sein de l analyse statistique. Ce croisement est fait entre les relations structurées et les relations paragraphes vu qu une structure telle que définie dans notre démarche (contexte structurel) n est pas systématiquement incluse dans un paragraphe. D où l intérêt de recueillir ces relations qui se trouvent dans les deux résultats de nos contextes de même nature ; un croisement hybride réservé pour les relations provenant de l analyse fenêtre par proximité et celles des analyses syntaxiques et lexicales. La quatrième étape prend en compte l ensemble des relations invalides et applique un filtre statistique. Ce dernier est fait en définissant la valeur de deux paramètres à savoir le nombre d occurrences NO et la fréquence normalisée FN. L étape 5 et 6 s occupent respectivement d établir les validations par degré de confiance et les déductions de nouvelles relations à partir de l existant et d étiqueter ces relations qu elles soient valides, invalides ou déduites. Expérimentations. Après avoir appliqué notre algorithme sur un corpus de 565 documents HTML en langue française relatif au domaine du tourisme, nous avons pu extraire: relations centrées autour du verbe (2251) ; relations globalement syntaxiques (34439) ; relations lexicales (5793) ; relations paragraphe (72476) ; relations structurelles (16966) ; relations fenêtres (206010). Par la suite, nous avons établit deux types de croisements à savoir un croisement entre les relations structurelles et paragraphes, et un second entre les relations fenêtres et lexicales. Le premier croisement nous a permis de retenir 372 relations (Hôtellerie/ hébergement, Réservation/hébergement, Camping/dormir). Quant au second croisement, nous avons pu avoir 268 relations (Catholicisme/christianisme, Ethnographie/paléontologie), sachant que dans les deux croisements nous avons supprimé certaines relations contenant des noms propres afin de minimiser le bruit. Après l étape de filtre statistique, nous n avons pas pu retenir des relations valides sur celles lexicales, globalement syntaxique et centrée autour du verbe vu que la relation la plus récurrente ne dépasse pas les 20 fois ; ce qui est largement loin de nos critères définis. Par contre, selon notre algorithme, pour les relations fenêtres (Activité/sport, Nautique/sport, Patrimoine/histoire, Plonger/sport) et structurelles (Casino/divertissement, Festival/musique, Vigne/vignoble), nous avons obtenu respectivement et relations validées. Pour les relations paragraphe, le résultat des validations a été négatif. Les relations qui n ont pas été validées tout au long de notre démarche seront les relations invalides. Celles-ci seront présentées à l expert en cas de besoin. Summary In this research, we focus on extracting relations among concepts in order to build a domain ontology. For this, we define a contextual relation discovery algorithm that applies different textual analyses in order to extract, deduce, label and validate the domain relations. Our algorithm is based on a rich contextual modelling that takes into account the document structure and strengthens the term co-occurrence selection, a use of the existent relations in the concept hierarchy and a stepping between the various extracted relations to facilitate the evaluation made by the domain experts. Our main perspective is using these relations for the concept hierarchy evaluation and enhancement

58 Ontologies et raisonnement à partir de cas : Application à l analyse des risques industriels Amjad Abou Assali, Dominique Lenne Bruno Debray Université de Technologie de Compiègne, CNRS HEUDIASYC {aabouass, dominique.lenne}@hds.utc.fr, INERIS bruno.debray@ineris.fr L analyse de risques est un processus visant à décrire les scénarios conduisant à des phénomènes dangereux et à des accidents potentiels sur une installation industrielle. Pour réaliser une analyse de risques, un expert dispose de nombreuses ressources : rapports, études de dangers, bases d accidents, etc. Ces ressources sont cependant souvent difficiles à exploiter parce qu elles ne sont pas suffisamment structurées ni formalisées. Dans le cadre du projet KMGR (Knowledge Management pour la Gestion des Risques), mené en partenariat avec l Institut National de l Environnement industriel et des RISques (INERIS), nous proposons de traiter ce problème en développant un système de recherche d information basé sur des ontologies, et de le compléter par un système de raisonnement à partir de cas (RàPC) pour tenir compte des expériences passées. 1 Ontologies et système de recherche d information Le premier objectif de ce travail est de développer une base de connaissances sur la sécurité industrielle. Cette base s appuie sur plusieurs ontologies : une ontologie de la sécurité industrielle contenant les concepts essentiels du domaine ; une ontologie plus spécifique du domaine d application (le domaine du GPL : Gaz de Pétrole Liquéfié) ; une ontologie de l analyse de risques décrivant les concepts utilisés dans une analyse de risques ; et enfin une ontologie décrivant les types de ressources dans l entreprise (rapport, outil, etc.). Le développement des ontologies s inspire de la méthodologie METHONTOLOGY (Fernandez et al., 1997), et est réalisé en lien avec plusieurs experts de la sécurité industrielle de l INERIS, avec l aide d un expert du développement d ontologies. Par ailleurs, nous proposons un système d indexation reposant sur les ontologies développées. Ce système permet d indexer les ressources par des concepts des ontologies, et du coup produire un index en RDF qui sera interrogé par le langage de requête SPARQL. Ensuite, nous développons un système de recherche d information (figure 1) qui interroge l index par le biais de requêtes SPARQL, et navigue dans les ontologies afin de répondre à la requête de l utilisateur, et de le guider en lui proposant des concepts intéressants qui aident à diriger voire affiner sa recherche

59 Ontologies et RàPC pour l analyse des risques industriels 2 Un système de raisonnement à partir de cas Nous développons un système de RàPC (Aamodt et Plaza, 1994; Renaud et al., 2007) afin d aider l expert à réaliser des analyses des risques industriels en s appuyant sur d autres analyses et expériences préalablement produites. Les ontologies développées sont intégrées à ce système, ce qui en fait l intérêt, car notre objectif est d étudier l apport du couplage entre les ontologies et le RàPC sur les systèmes d aide à l analyse des risques industriels. Les ontologies interviennent particulièrement dans les étapes d élaboration, de remémoration, et d adaptation de cas, pour améliorer la qualité des solutions proposées. FIG. 1 Système de recherche d information. Références Aamodt, A. et E. Plaza (1994). Case-Based Reasoning : Foundational Issues, Methodological Variations, and System Approaches. AI Communications 7(1), Abou Assali, A., D. Lenne, et B. Debray (2007). KoMIS : An Ontology-Based Knowledge Management System for Industrial Safety. In Proceedings of the 18th International Conference on Database and Expert Systems Applications (DEXA 2007), Regensburg, Germany. Fernandez, M., A. Gomez-Perez, et N. Juristo (1997). METHONTOLOGY : From Ontological Art towards Ontological Engineering. In Proceedings of the AAAI97 Spring Symposium Series on Ontological Engineering, USA, pp Renaud, J., B. Chebel Morello, B. Fuchs, et J. Lieber (2007). Raisonnement à Partir de Cas 1 : Conception et Configuration de Produits, Volume 1. Hermès - Lavoisier. Summary This paper presents an ongoing project that aims to develop an assistance system for risk analysis at industrial organisations. First, we aim to construct a knowledge base containing several ontologies. Second, we propose an approach to index the organization resources using ontologies, and then we develop an information retrieval system based on the ontologies and the index produced. Finally, we aim to develop a case-based reasoning system associated to the ontologies to help the expert realise risk analysis studies using existing ones

Montrer encore