Extraction et gestion des connaissances : EGC'2008
|
|
|
- Félix Côté
- il y a 10 ans
- Total affichages :
Transcription
1 Revue des Nouvelles Technologies de l Information Sous la direction de Djamel A. Zighed et Gilles Venturini Extraction et gestion des connaissances : EGC'2008 Rédacteurs invités : Fabrice Guillet (LINA, Université de Nantes) Brigitte Trousse (INRIA Sophia Antipolis-Méditerranée) Volume I CÉPADUÈS-ÉDITIONS 111, rue Vauquelin TOULOUSE France Tél. : Fax : (de l étranger ) Fax : courriel : [email protected]
2 Chez le même éditeur RNTI-Revue des Nouvelles Technologies de l'information Sous la direction de Djamel A. Zighed et Gilles Venturini n 1 : Entreposage fouille de données E1 : Mesures de qualité pour la fouille de données E2 : Extraction et gestion des connaissances EGC 2004 C1 : Classification et fouille de données E3 : Extraction et gestion des connaissances EGC 2005 B1 : 1 re Journée Francophone sur les Entrepôts de Données et l Analyse en ligne EDA 2005 E4 : Fouille de données complexes E5 : Extraction des connaissances : Etat et perspectives E6 : Extraction et gestion des connaissances EGC 2006 E7 : Visualisation en extraction des connaissances E8 : Systèmes d'information pour l'aide à la Décision en Ingénierie Système B2 : 2 re Journée Francophone sur les Entrepôts de Données et l Analyse en ligne EDA 2006 E9 : Extraction et gestion des connaissances EGC 2007 E10 : Défi fouille de textes B3 : 3 re Journée Francophone sur les Entrepôts de Données W1 : Fouille du Web A1 : Data Mining et Apprentissage Statistique : applications en assurance, banque et marketing A2 : Apprentissage artificiel et fouille de données SM1 : ISoLA 2007 Workshop On Leveraging Applications of Formal Methods, Verification and Validation Ensemble composé de 2 volumes : (volume I) (volume II) CEPAD 2008 ISBN : Le code de la propriété intellectuelle du 1 er juillet 1992 interdit expressément la photocopie à usage collectif sans autorisation des ayants droit. Or, cette pratique en se généralisant provoquerait une baisse brutale des achats de livres, au point que la possibilité même pour les auteurs de créer des œuvres nouvelles et de les faire éditer correctement serait alors menacée. Nous rappelons donc que toute reproduction, partielle ou totale, du présent ouvrage est interdite sans autorisation de l'éditeur ou du Centre français d'exploitation du droit de copie (CFC 3, rue d'hautefeuille Paris). Dépôt légal : janvier 2008 N éditeur : 81800
3 LE MOT DES DIRECTEURS DE LA COLLECTION RNTI Chères Lectrices, Chers Lecteurs, La Revue des Nouvelles Technologies de l Information a pour objectif d être un outil de communication de très grande qualité et ouvert à tous les chercheurs impliqués dans les technologies de l information. Nous continuons à faire paraître des numéros dans les thèmes liés à l Extraction de connaissances à partir des Données, à la Fouille de données et à la Gestion des connaissances, mais cette année marque une évolution dans notre revue qui ouvre plus largement sa thématique à d autres domaines de l Informatique, toujours avec les mêmes niveaux d exigence sur les numéros publiés. A ce titre, nous vous rappelons que RNTI accueille deux types de numéros (pour lesquels une procédure d évaluation à trois relecteurs est systématiquement mise en place) : des numéros à thème faisant l objet d un appel à communication. Chaque numéro à thème est édité par un ou plusieurs rédacteurs en chef invités. Un comité de programme spécifique d une quinzaine de personnes est formé à cette occasion. Si vous avez un projet éditorial vous pouvez nous le soumettre et s il est dans le créneau de RNTI vous serez désigné rédacteur invité et vous vous chargerez ensuite de manière libre et indépendante de la mise en place de la collecte, de l évaluation, de la sélection et de la publication du numéro, des actes de conférences sélectives garantissant une haute qualité des articles. Si vous présidez une conférence dans des thématiques liées aux technologies de l information, vous pouvez nous contacter. Dans le présent numéro, nous publions les papiers sélectionnés par la conférence EGC 2008 qui se tient à Sophia Antipolis du 30 janvier au 1er février Nous tenons à remercier particulièrement les organisateurs de cette conférence ainsi que l association EGC pour la confiance qu ils accordent à cette revue et nous les félicitons pour la qualité du travail accompli. Nous espérons vivement que ce numéro vous donnera à toutes et à tous une entière satisfaction. Pour tout renseignement, nous vous invitons à consulter notre site Web et à nous contacter. Djamel A. Zighed et Gilles Venturini. http :// - iii -
4
5 PRÉFACE La sélection d articles publiés dans le présent recueil constitue les actes de la huitième conférence Extraction et Gestion des Connaissances (EGC 2008) qui s est déroulée à Sophia Antipolis du 30 janvier au 1 er février Comme les précédentes éditions, ces journées francophones sont consacrées à toutes les problématiques, théories, méthodes et applications de la fouille de données, de l apprentissage, de l extraction et de la gestion de connaissances. Il s agit de rassembler les chercheurs universitaires et les acteurs d entreprises concernés par ces domaines afin de présenter des travaux de qualité, de communiquer, et de stimuler les innovations. Lors de cette huitième édition, parmi les 156 résumés déposés qui ont donné lieu à 134 soumissions d articles ou de démonstrations, ont été retenus : 42 articles en format long (environ 30% des soumissions), 27 articles en format court, 15 posters et 6 démonstrations de logiciel. Ce volume de soumissions ainsi que le taux de sélection illustrent à la fois le dynamisme de cette communauté scientifique ainsi que la qualité des travaux menés dans ce domaine. Les articles de ce numéro sont regroupés selon les sessions dans lesquelles ils ont été présentés, et dans l ordre chronologique. Ces regroupements thématiques sont, d une certaine manière, arbitraires : de nombreux autres arrangements auraient été possibles, aussi nous invitons les lecteurs à parcourir l ensemble des titres pour se faire une idée de la couverture d un domaine particulier, plutôt que de s en tenir uniquement aux intitulés des sessions. Remerciements Nous tenons à remercier tous les auteurs qui ont soumis des articles à cette conférence. Nous félicitons ceux dont la proposition a été acceptée, et nous espérons que les commentaires des relecteurs auront été constructifs et encourageants pour les autres auteurs. Nous espérons que cette conférence et ce numéro seront profitables à tous. Compte tenu du grand nombre de relectures (trois relecteurs par article donnent lieu à près de 400 relectures), nous tenons à remercier tous les membres du comité de lecture ainsi que les relecteurs additionnels pour leur travail d évaluation et les commentaires qu ils ont pu fournir aux auteurs. Nous tenons à remercier et féliciter particulièrement le comité d organisation : un grand merci à eux pour tout le temps qu ils ont consacré au succès de cette conférence. En particulier un grand merci à Hakim Hacid pour la gestion du site de soumission, Monique Simonetti pour la logistique locale, Bernard Senach et Gaëlle Leblond pour leur aide à de nombreuses tâches, Florent Masséglia pour la réalisation du logo EGC08, Sémi Gaieb pour son aide pour le site Web, Claudia Marinica pour les inscriptions, Fabien Picarougne pour la construction des actes. Merci également à Alice Marascu et Florent Masséglia pour l organisation des ateliers, Hicham Behja et Bernard Senach pour l organisation des tutoriaux et enfin Alzennyr Da Silva et Mohand-Said Hacid pour l organisation des démonstrations logicielles. Nos remerciements vont également à Marie-Claire Forgue (W3C), Jacques Lemaire (IUT Menton) pour leur soutien pour cet évènement, à Dany Sergeant, Agnès Cortell, Sophie Honnorat, Stéphanie Aubin, Yves Lechevallier, Abdelmoujib Elkhoumri et Reda Kabbaj sans oublier le personnel des services GENER (services généraux) et SEMIR (moyens informatiques) de l Inria pour leur aide avant et/ou lors de la conférence elle-même. - v -
6 Cette conférence ne pourrait voir le jour sans le soutien de l Association EGC, soutien qui s exprime de multiples manières : parution des actes, organisation locale, et dotation de deux prix attribués lors de la conférence. (consulter pour une description plus complète) Enfin, nous remercions spécialement le Centre de Recherche Inria Sophia Antipolis - Méditerranée d une part pour nous avoir offert le plaisir d inaugurer son nouvel amphithéeatre 1 et d autre part pour son soutien financier et logistique. Fabrice Guillet et Brigitte Trousse. 1 Financé en partie par la Région PACA, la Communauté d Agglomération Sophia Antipolis (CASA), le Conseil Général et l Etat. - vi -
7 Président d honneur d EGC 2008 : Osmar Zaïane, Université d Alberta, Canada. Le Comité de lecture de ce numéro est constitué des Comités de programme et de pilotage. Comité de programme d EGC 2008, sous la présidence de Fabrice Guillet : J. Akoka (CNAM, Paris, F) T. Aluja-Banet (EIO, UPC, Barcelone, E) D. Aubert (LaBRI, U. Bordeaux 1, F) M.-A. Aufaure (Supelec, Paris, F) N. Aussenac-Gilles (IRIT, U. Toulouse, F) B. Bachimont (UTC, F) J.-P. Barthès (UTC, F) N. Belkhiter (Faculté des sciences et de génie, U. Laval, C) A. Bellaachia (The George Washington U., USA) S. Ben Yahia (U. Tunis, T) S. Benbernou (LIRIS, U. Claude Bernard Lyon1, F) S. Bengio (Google Inc., Mountain View California, USA) Y. Bennani (LIPN-U. Paris 13, F) G. Berio (Dipartimento di Informatica, U. di Torino, I) L. Berti-Equille (IRISA, Rennes, F) H. Bock (Institute of Statistics, RWTH Aachen U., USA) P. Bosc (IRISA-ENSSAT, U. Rennes 1, F) F. Bouali (U. Lille 2, F) M. Boughanem (IRIT, U. Toulouse, F) J.-F. Boulicaut (LIRIS, U. lyon 1, F) M. Boullé (Frane Télécom R&D, F) O. Boussaid (ERIC, U. Lyon, F) M. Bouzeghoub (PRISM, U. Versailles, F) P. Brito (NIAAD-LIACC, U. Porto, P) S. Canu (LITIS, INSA de Rouen, F) F. Chateau (U. Lyon 2, F) M. Chavent (MAB, U. Bordeaux 1, F) F. Cloppet (CRIP5, U. Paris 5, F) M. Collard (I3S, U. Nice Sophia Antipolis, F) A. Cornuejols (LRI, U. Paris Sud, F) B. Crémilleux (GREYC, U. Caen, F) J. Darmont (ERIC, U. Lyon 2, F) F. De Marchi (LIRIS, U. lyon 1, F) S. Després (LIPN, U.Paris 13, F) E. Diday (CEREMADE, U. PARIS-DAUPHINE, F) R. Dieng-Kuntz (INRIA Sophia Antipolis - Méditerranée, F) C. Djeraba (LIFL, U. Lille 1, F) S. Faiz (LTSIRS, INSAT, T) G. Falquet (U. Genève, S) A. Magda Florea (U. Polytechnique de Bucarest, R) C. Froidevaux (LRI, U. Paris Sud, F) P. Gallinari (LIP6, U. Pierre et Marie Curie, F) J.-G. Ganascia (LIP6, U. Pierre et Marie Curie, F) P. Gancarski (LSIIT-AFD, F) F. Gandon (INRIA Sophia-Antipolis - Méditerranée, F) C. Garbay (CLIPS-IMAG, Grenoble, F) G. Gardarin (PRISM, U. Versailles Saint-Quentin, F) P. Geurts (U. Liège, B) A. Giacometti (LI, U. Tours, F) R. Gilleron (INRIA Lille, F) G. Govaert (UTC, F) C. Guinot (CERIES, U. Biométrie et Epidémiologie, F) A. Hardy (FUNDP, Namur, B) F. Jaquenet (EURISE, U. Saint-Etienne, F) A. Khenchaf (ENSIETA, Brest, F) P. Kuntz (LINA, U. Nantes, F) S. Lallich (ERIC, U. Lyon 2, F) M. Lamure (U. Lyon 1, F) L. Lancieri (France Telecom R&D, F) P. Laublet (LaLIC, U. Paris-Sorbonne, F) A. Laurent (LIRMM, Polytech Montpellier, F) A. Lazraq (ENIM, Ecole des Mines de Rabat, M) J. Le Maitre (LSIS - U. Sud Toulon-Var, F) Y. Lechevallier (INRIA Paris - Rocquencourt, F) R. Lehn (LINA, U. Nantes, F) P. Lenca (GET/ENST Bretagne, Brest, F) P. Leray (LINA, U. Nantes, F) I.-C. Lerman (IRISA, U. Rennes 1, F) S. Loiseau (LERIA, U. Angers, F) F. Masseglia (INRIA Sophia Antipolis - Méditerranée, F) E. Mephu Nguifo (CRIL, U. Artois, F) R. Missaoui (U. du Québec en Outaouais, C) A. Morin (IRISA, Rennes, F) A. Napoli (LORIA, Nancy, F) M. Noirhomme-Fraiture (FUNDP, Namur, B) J.-M. Ogier (L3i, U. Rochelle, F) N. Pasquier (I3S, U. Nice Sophia Antipolis, F) S. Pinson (LAMSADE, U. Paris Dauphine, F) P. Poncelet (LGI2P/EMA, F) F. Poulet (IRISA, Rennes, F) P. Preux (LIFL, U. Lille, F) J.-C. Régnier (Laboratoire SDP, U. Lyon 2, F) C. Reynaud (U. Paris-Sud, LRI & INRIA (Futurs), F) C. Roche (Equipe CONDILLAC, U. Savoie, F) M.-C. Rousset (LSR-IMAG, U. Grenoble 1, F) L. Saitta (U. del Piemonte Orientale, I) I. Saleh (Paragraphe, U. Paris 8, F) G. Saporta (CNAM, Chaire de Stat. Appl. Paris, F) M. Schneider (LIMOS, U. Blaise Pascal, F) M. Sebban (U. Saint-Etienne, F) F. Sèdes (IRIT, U. Toulouse 3, F) D. Simovici (U. of Massachusetts, Boston, USA) E. Ghazali Talbi (LIFL, U. Lille, F) M. Teisseire (LIRMM, Polytech Montpellier, F) F. Toumani (LIMOS, U. Clermont-Ferrand, F) S. Trausan-Matu (U. Polytechnique de Bucarest, R) F. Trichet (LINA, U. Nantes, F) B. Trousse (INRIA Sophia Antipolis - Méditerranée, F) G. Venturini (U. Tours, F) R. Verde (Facoltà di Studi Politici Jean Monnet, I) J.-P. Vert (Ecole des Mines de Paris, F) N. Vincent (Crip5, U. Paris 5, F) C. Vrain (LIFO, U. Orléans, F) J. Wijsen (U. Mons-Hainaut, B) F. Zehraoui (LAMI, U. Evry-Val d Esonne, F) K. Zreik (Paragraphe, U. Paris 8, F) - vii -
8 Comité de pilotage d EGC, sous la présidence de Djamel Zighed : Danielle Boulanger (IAE, U. Lyon 3) Henri Briand, (LINA, U. de Nantes) Régis Gras (LINA, U. de Nantes) Fabrice Guillet (LINA, U. de Nantes) Mohand-Saïd Hacid (LIRIS, U. Lyon 1) Georges Hébrail (ENST, Paris) Danièle Hérin (LIRMM, U. Montpellier 2) Yves Kodratoff (LRI, U. Paris-sud) Ludovic Lebart (ENST, Paris) Jean-Marc Petit (LIRIS, INSA Lyon) Jacques Philippé (PerfomanSe) Gilbert Ritschald (U. Genève, Suisse) Relecteurs non membres du Comité de lecture : Marie Agier, Jorge Anacleto Louça, Sujeevan Aseervatham, Alexandre Aussem, Hanane Azzag, Julien Blanchard, Alexandre Blansché, Nacim Fateh Chikhi, Etienne Cuvelier, Lisa Di Jorio, Thanh-Nghi Do, Mohamed Amir Esseghir, Frédéric Flouvat, Frédéric Fürst, Moultazem Ghazal, Allel Hadjali, Tienté Hsu, Hélène Jaudoin, Zeina Jrad, Mouna Kamel, Mustapha Lebbah, Lynda Lechani-Tamine, Stéphane Lopes, Patrick Marcel, Fabrice Muhlenbach, Olivier Pivert, Marc Plantevit, Elie Prudhomme, Cheddy Raïssi, Mathieu Roche, Paola Salle, Karen Sauvagnat, Isabelle Tellier, Fabien Torre, Sami Zghal. Comité d organisation, sous la présidence de Brigitte Trousse : Service REV - Organisation Colloques et Communication : Monique Simonetti, REV, INRIA SA - Méditerranée Agnès Cortell, REV, INRIA SA - Méditerranée Gaelle Leblond, REV, INRIA SA - Méditerranée Dany Sergeant,REV, INRIA SA - Méditerranée Services GENER et SEMIR, Inria SA - Méditerranée Equipe-Projet AxIS : Stéphanie Aubin, INRIA Paris - Rocquencourt Hicham Behja, INRIA SA - Méditerranée & ENSAM (Meknes, Maroc) Alzennyr Da Silva, INRIA Paris - Rocquencourt Abdelmoujib Elkhoumri, INRIA SA - Méditerranée & Université Hassan 1er, Settat, Maroc), France Sémi Gaïeb, INRIA SA - Méditerranée Sophie Honnorat, INRIA SA - Méditerranée Reda Kabbaj, INRIA SA - Méditerranée & Université de Fès, Maroc), France Yves Lechevallier, INRIA paris - Rocquencourt Alice Marascu, INRIA SA - Méditerranée Florent Masséglia, INRIA SA - Méditerranée Bernard Senach, INRIA SA - Méditerranée Avec la participation de : Mohand-Saïd Hacid, LIRIS, Université Lyon I Hakim Hacid, ERIC, Université Lyon 2 Claudia Marinica, LINA, Université Nantes Fabien Picarougne, LINA, Université Nantes Marie-Claire Forgue, W3C, Sophia Antipolis Jacques Lemaire, IUT Menton - viii -
9 TABLE DES MATIÈRES VOLUME I Conférences invitées Industrialiser le data Mining : enjeux et perspectives, Françoise Fogelman-Soulié... 1 Le forage de réseaux sociaux, Osmar Zaïane... 3 From Mining the Web to Inventing the New Sciences Underlying the Internet, Usama Fayyad... 5 Session Web sémantique et ontologies Extraction et exploitation des annotations contextuelles, Noureddine Mokhtari, Rose Dieng-Kuntz... 7 Vers une fouille sémantique des brevets: Application au domaine biomédical, Nizar Ghoula, Khaled Khelif, Rose Dieng-Kuntz Utilisation du Web Sémantique pour la gestion d une liste de diffusion d une CoP, Bassem Makni, Khaled Khelif, Hacène Cherfi, Rose Dieng-Kuntz Approche d annotation automatique des événements dans les articles de presse, Rim Faiz, Aymen Elkhlifi Web Content Data Mining : la classification croisée pour l analyse textuelle d un site Web, Malika Charrad, Yves Lechevallier, Gilbert Saporta, Mohamed Ben Ahmed Session Recherche d information et visualisation Recherche d information personnalisée dans les bibliothèques numériques scientifiques, Thanh-Trung Van, Michel Beigbeder Requêtes alternatives dans le contexte d un entrepôt de données génomiques, Christine Froidevaux, Frédéric Lemoine Enhancing Personal File Retrieval in Semantic File Systems with Tag-Based Context, Ba-Hung Ngo, Frédérique Silber-Chaussumier, Christian Bac Clustering Visuel Semi-Supervisé pour des systèmes en coordonnées en étoiles 3D, Loïc Lecerf, Boris Chidlovskii Les cartes cognitives hiérarchiques, Lionel Chauvin, David Genest, Stéphane Loiseau ix -
10 Session Ontologies Une mesure de similarité contextuelle pour l aide à la navigation dans un treillis, Saoussen Sakji, Marie-Aude Aufaure, Géraldine Polaillon, Bénédicte Le Grand Une approche ontologique pour automatiser le contrôle de conformité dans le domaine du bâtiment, Catherine Faron-Zucker, Anastasiya Yurchyshyna, Nhan Le Thanh, Celson Lima Sémantique et réutilisation d ontologie générique, Sylvie Després, Sylvie Szulman Gradients de prototypicalité conceptuelle et lexicale : une contribution à la pragmatisation des ontologies de domaine, Xavier Aimé, Frédéric Fürst, Pascale Kuntz, Francky Trichet Mesures Hiérarchiques pondérées pour l évaluation d un système semi-automatique d annotation de génomes utilisant des arbres de décision, Lucie Gentils, Jérôme Azé, Claire Toffano-Nioche, Valentin Loux, Anne Poupon, Jean-François Gibrat, Christine Froidevaux Méthodologie d Évaluation Intelligente des Concepts Ontologiques, Lobna Karoui, Marie-Aude Aufaure Session Flux de données Échantillonnage pour l extraction de motifs séquentiels : des bases de données statiques aux flots de données, Chedy Raïssi, Pascal Poncelet Le FIA: un nouvel automate permettant l extraction efficace d itemsets fréquents dans les flots de données, Jean-Emile Symphor, Alban Mancheron, Lionel Vinceslas, Pascal Poncelet Échantillonnage spatio-temporel de flux de données distribués, Raja Chiky, Jérôme Cubille, Alain Dessertaine, Georges Hébrail, Marie-Luce Picard Semantics of Spatial Window over Spatio-Temporal Data Stream, Yi Yu, Talel Abdessalem, Junwei Yan Délestage pour l analyse multidimensionnelle de flux de données, Sylvain Ferrandiz, Georges Hébrail Session Posters Classification des documents en réseaux petits-mondes en vue d apprentissage, Mohamed Khazri, Mohamed Tmar, Mohand Boughanem, Mohamed Abid Apport des traitements morphosyntaxiques pour l alignement des définitions par une classification SVM, Laura Diosan, Alexandrina Rogozan, Jean-Pierre Pécuchet Vers l intégration de la prédiction dans les cubes OLAP, Anouck Bodin -Niemczuk, Riadh Ben Messaoud, Sabine Loudcher Rabaséda, Omar Boussaid x -
11 Un nouveau système immunitaire artificiel pour l apprentissage non supervisé, Rachid El Meziane, Ilham Berrada, Ismail Kassou Génération de séquence résumée par une nouvelle approche basée sur le Soft Computing, Youssef Hadi, Rachid El Meziane, Rachid Oulad Haj Thami Évaluation des critères asymétriques pour les arbres de décision, Simon Marcellin, Djamel A Zighed, Gilbert Ritschard Principes d Analyse des données symboliques et application à la détection d anomalies sur des ouvrages publics, Edwin Diday Échantillonnage adaptatif de jeux de données déséquilibrés pour les forêts aléatoires, Julien Thomas, Pierre-Emmanuel Jouve, Elie Prudhomme Une proposition pour l extraction de relations non prédicatives, Mouna Kamel Méthodologie de définition de e-services pour la gestion des connaissances à partir d un plateau de créativité : application au e-learning instrumental, Noel Conruyt, David Grosser, Olivier Sebastien Stratégies de classification non supervisée sur fenêtres superposées : application aux données d usage du Web, Alzennyr Da Silva, Yves Lechevallier Une J-mesure orientée pour élaguer des modèles de chroniques, Nabil Benayadi, Marc Le Goc Extraction et validation par croisement des relations d une ontologie de domaine, Lobna karoui, Marie-Aude Aufaure Ontologies et raisonnement à partir de cas : Application à l analyse des risques industriels, Amjad Abou Assali, Dominique Lenne, Bruno Debray Classification Automatique Non supervisée de Documents Textuels basés sur Wordnet, Amine Abdelmalek, Zakaria Elberrichi, Ladjel Bellatreche, Michel Simonet, Mimoum Malki Session Démonstrations Khiops : outil de préparation et modélisation des données pour la fouille des grandes bases de données, Marc Boullé Processus d acquisition d un dictionnaire de sigles et de leurs définitions à partir d un corpus, Vladislav Matviico, Nicolas Muret, Mathieu Roche Cas d utilisation réelle de Nautilus : Calcul d indicateurs chez un opérateur mobile, Adrien Schmidt, Serge Fantino FIASCO : un nouvel algorithme d extraction d itemsets fréquents dans les flots de données, Lionel Vinceslas, Jean-Émile Symphor, Alban Mancheron et Pascal Poncelet xi -
12 Visualisation des motifs séquentiels extraits à partir d un corpus en Ancien Français, Julien Rabatel, Yuan Lin, Yoann Pitarch, Hassan Saneif, Claire Serp, Mathieu Roche, Anne Laurent Le logiciel SODAS : avancées récentes Un outil permettant d analyser et de visualiser des données symboliques, Myriam Touati, Mohamed Rahal, Filipe Afonso, Edwin Diday Session Données volumineuses Vers l exploitation de grandes masses de données, Raphaël Féraud, Marc Boullé, Fabrice Clérot, Françoise Fessant Clustering en haute dimension par accumulation de clusterings locaux, Marc-Ismael Akodjenou-Jeannin, Kave Salamatian, Patrick Gallinari Binary Block GTM : Carte auto-organisatrice probabiliste pour les grands tableaux binaires, Rodolphe Priam, Mohamed Nadif, Gérard Govaert Session Apprentissage Optimisation du Primal pour les SVM, Trinh-Minh-Tri Do, Thierry Artières Vers des Machines à Vecteurs Support "Actionnables" : Une Approche Fondée sur le Classement, Ansaf Salleb-Aouissi, Bert C. Huang, David L. Waltz Algorithmes rapides de boosting de SVM, Thanh-Nghi Do, Jean-Daniel Fekete, François Poulet Approche hybride de classification supervisée à base de treillis de Galois : application à la reconnaissance de visages, Brahim Douar, Chiraz Latiri, Yahya Slimani Pondération locale des variables en apprentissage numérique non-supervisé, Nistor Grozavu, Younès Bennani, Mustapha Lebbah Optimisation de réseaux de neurones RBF pour la régression via un algorithme évolutionnaire: RBF-Gene, Virginie Lefort, Guillaume Beslon Structure Inference of Bayesian Networks from Data: A New Approach Based on Generalized Conditional Entropy, Dan Simovici, Saaid Baraty Discretization of Continuous Features by Resampling, Taimur Qureshi, Djamel A Zighed Une nouvelle approche du Boosting face aux données réelles, Emna Bahri, Mondher Maddouri Une approche ensembliste inspirée du boosting en classification non supervisée, Romain Billot, Henri-Maxime Suchier, Stéphane Lallich xii -
13 VOLUME II Session Fouille de motifs et règles Mining Implications from Lattices of Closed Trees, Jose Luis Balcazar, Albert Bifet, Antoni Lozano Suppression des Itemsets Clés Non-Essentiels en Classification basée sur les Règles d Association, Viet Phan Luong Détection de groupes atypiques pour une variable cible quantitative, Sylvie Guillaume, Florian Guillochon, Michel Schneider Extraction d itemsets compacts, Bashar Saleh, Florent Masseglia Étude de l interaction entre variables pour l extraction des règles d influence, Leila Nemmiche Alachaher, Sylvie Guillaume Recherche adaptative de structures de régulation génétique, Mohamed Elati, Céline Rouveirol Session Données multimédia Data mining for activity extraction in video data, Jose Luis Patino, Etienne Corvee, François Bremond, Monique Thonnat Fouille de données audio pour la discrimination automatique de mots homophones, Rena Nemoto, Martine Adda-Decker, Ioana Vasilescu Recherche d images par noyaux sur graphes de régions, Philippe-Henri Gosselin, Justine Lebrun, Sylvie Philipp-Foliguet Interprétation d images basée sur une approche évolutive guidée par une ontologie, Germain Forestier, Sébastien Derivaux, Cédric Wemmert, Pierre Gançarski Une nouvelle approche pour la recherche d images par le contenu, Nguyen-Khang Pham, Annie Morin Classification adaptative de séries temporelles : application à l identification des gènes exprimés au cours du cycle cellulaire., Alpha Diallo, Ahlame Douzal, Françoise Giroud Session Fouille de séquences et graphes Visualisation et classification des parcours de vie, Nicolas S. Müller, Sylvain Lespinats, Gilbert Ritschard, Matthias Studer, Alexis Gabadinho Approches de type n-grammes pour l analyse de parcours de vie familiaux, Matthias Studer, Alexis Gabadinho, Nicolas S. Müller, Gilbert Ritschard Recherche de motifs spatio-temporels de cas atypiques pour le trafic routier urbain, Marc Joliveau, Florian De Vuyst Découverte de motifs séquentiels et règles inattendues, Dong (Haoyuan) Li, Anne Laurent, Pascal Poncelet xiii -
14 Extraction de Motifs Séquentiels Multidimensionnels Clos sans Gestion d Ensemble de Candidats, Marc Plantevit, Anne Laurent, Maguelonne Teisseire Prétraitement des bases de données de réactions chimiques pour la fouille de schémas de réactions, Frédéric Pennerath, Géraldine Polaillon, Amedeo Napoli La prise en compte de la dimension temporelle dans la classification de données, Éloïse Loubier, Bernard Dousset Session Fouille de texte Analyse exploratoire d opinions cinématographiques : co-clustering de corpus textuels communautaires, Damien Poirier, Cécile Bothorel, Marc Boullé Assignation automatique de solutions à des classes de plaintes liées aux ambiances intérieures polluées, Zoulikha Heddadji, Nicole Vincent, Séverine Kirchner, Georges Stamon Un système de vote pour la classification de textes d opinion, Michel Plantié, Mathieu Roche, Gérard Dray ExpLSA : utilisation d informations syntaxico-sémantiques associées à LSA pour améliorer les méthodes de classification conceptuelle., Nicolas Béchet, Mathieu Roche, Jacques Chauché Un modèle d espace vectoriel de concepts pour noyaux sémantiques, Sujeevan Aseervatham Intégration de la structure dans un modèle probabiliste de documents, Mathias Géry, Christine Largeron, Franck Thollard Session Classification Un algorithme de classification topographique non supervisée à deux niveaux simultanés, Guénaël Cabanes, Younès Bennani Segmentation hiérarchique des cartes topologiques, Mustapha Lebbah, Hanane Azzag Intégration de contraintes dans les cartes auto-organisatrices, Anouar BenaHassena, Khalid Benabdeslem, Fazia Bellal, Alexandre Aussem, Bruno Canitia Une nouvelle méthode divisive de classification non supervisée pour des données symboliques intervalles, Nathanaël Kasoro, André Hardy Co-classification sous contraintes par la somme des résidus quadratiques, Ruggero Gaetano Pensa, Jean-François Boulicaut Étude comparative de deux approches de classification recouvrante : Moc vs. Okm, Guillaume Cleuziou, Jacques-Henri Sublemontier xiv -
15 Session Connaissances Distribuées et ontologies Système multi-agent argumentatif pour la classification des connaissances cruciales, Imène Brigui, Inès Saad Un processus d acquisition d information pour les besoins d enrichissement des BDG, Khaoula Mahmoudi, Sami Faiz Un modèle et une algèbre pour les systèmes de gestion d ontologies, Gilles Falquet, Claire-Lise Mottaz-Jiang, Jacques Guyot La découverte de mappings dans SomeRDFS, François-Elie Calvier, Chantal Reynaud xv -
16
17 Industrialiser le data mining : enjeux et perspectives Françoise Fogelman-Soulié 1 KXEN, 25 quai Galliéni, SURESNES Cedex, France [email protected] Résumé. L informatique décisionnelle est un secteur en forte croissance dans toutes les entreprises. Les techniques classiques (reporting simple & Olap), qui s intéressent essentiellement à présenter les données, sont aujourd hui très largement déployées. Le data mining commence à se répandre, apportant des capacités de prévision à forte valeur ajoutée pour les entreprises les plus compétitives. Ce développement est rendu possible par la disponibilité croissante de masses de données importantes et la puissance de calcul dorénavant dispotant théoriques (quels algorithmes utiliser pour produire des modèles d analyses exploitant des nible. Cependant, la mise en oe uvre industrielle des projets de data mining pose des contraintes milliers de variables pour des millions d exemples) qu opérationnelles (comment mettre en production et contrôler le bon fonctionnement de centaines de modèles). Je présenterai ces contraintes issues des besoins des entreprises ; je montrerai comment exploiter des résultats théoriques (provenant des travaux de Vladimir Vapnik) pour produire des modèles robustes ; je donnerai des exemples d applications réelles en gestion de la relation client et en analyse de qualité. Je concluerai en présentant quelques perspectives (utilisation du texte et des réseaux sociaux). Mots clés : Data mining ; robustesse ; Structural Risk Minimization ; scalabilité. 1 Françoise Fogelman Soulié est Vice President Strategic Business Development chez KXEN, après avoir été Directeur Associé & Directeur de l Agence CRM de Business & Decision ; Directeur de l équipe "data warehouse, data mining" de Atos Ingéniérie ; Directeur Scientifique & Directeur Général de Mimetics. Précédemment, elle était Professeur au Laboratoire d Informatique de Paris 11 Orsay. Ancienne élève de l Ecole Normale Supérieure, elle est agrégée de mathématiques et Docteur d Etat en Informatique (réseaux neuronaux). Elle a exercé de nombreuses fonctions d expertise scientifique : membre du Bureau Exécutif du RNTL & évaluateur pour le programme Technologies logicielles de l ANR ; membre du Conseil Scientifique du Groupe France Telecom ; expert auprès de la Commission Européenne. Elle a été Président de la European Neural Network Society et membre du Board of Governors de l International Neural Network Society. Elle est auteur ou éditeur de 12 ouvrages et plus de 100 articles scientifiques. Elle a encadré une vingtaine de thèses (réseaux neuronaux). Elle est Chevalier des Palmes Académiques
18 Le forage de réseaux sociaux Osmar R. Zaïane 1 Université d Alberta, Canada [email protected] Résumé. L exploitation des réseaux sociaux pour l extraction de connaissances n est pas nouvelle. Les anthropologues, sociologues et épidémiologies se sont déjà penchés sur la question. C est probablement le succès du moteur de recherche Google qui a vulgarisé l utilisation des parcours aléatoires des réseaux sociaux pour l ordonnancement par pertinence. Plusieurs applications ont depuis vu naissance. La découverte des communautés dans les réseaux sociaux est aussi une nouvelle tendance de recherche très prisée. Durant cet exposé nous parlerons de l analyse des réseaux sociaux, la découverte de communautés, et présenterons quelques applications dont l ordonnancement dans les bases de données. 1 Osmar R. Zaïane est professeur agrégé en sciences informatiques à l université d Alberta, au Canada. Il a obtenu un DEA en électronique en 1989 à l université de Paris-Orsay, France et un MSc en informatique en 1992 à l université Laval, au Canada. Il a obtenu son doctorat en informatique en 1999 de l université Simon Fraser, au Canada sous la direction du professeur Jiawei Han. Sa thèse se concentrait sur le forage de données de la toile mondiale et l extraction de motifs des données multimédias. Aujourd hui ses intérêts de recherche sont axés autour des nouveaux algorithmes de forage de données et l application de l extraction des connaissances en médecine et le téléapprentissage. Il a des contributions en classification, classement, détection des anomalies ainsi que les règles d association. Il a publié plus de 90 articles dans des revues et conférences internationales, et a enseigné sur les six continents. Osmar Zaïane est le rédacteur en chef de l ACM SIGKDD Explorations et rédacteur associé de deux revues: Knowledge and Information Systems, An International Journal et International Journal of Internet Technology and Secured Transactions. Il a été organisateur et président du comité de programme de plusieurs conférences et ateliers internationaux liés à l extraction des connaissances, entre autre cette année la conférence IEEE International Conference on Data Mining à Omaha
19 From Mining the Web to Inventing the New Sciences Underlying the Internet Usama Fayyad 1 Yahoo!, California, USA Summary. As the Internet continues to change the way we live, find information, communicate, and do business, it has also been taking on a dramatically increasing role in marketing and advertising. Unlike any prior mass medium, the Internet is a unique medium when it comes to interactivity and offers ability to target and program messaging at the individual level. Coupled with its uniqueness in the richness of the data that is available for measurability, in the variety of ways to utilize the data, and in the great dependence of effective marketing on applications that are heavily data-driven, makes data mining and statistical data analysis, modeling, and reporting an essential mission-critical part of running the on-line business. However, because of its novelty and the scale of data sets involved, few companies have figured out how to properly make use of this data. In this talk, I will review some of the challenges and opportunities in the utilization of data to drive this new generation of marketing systems. I will provide several examples of how data is utilized in critical ways to drive some of these capabilities. The discussion will be framed with the More general framework of Grand Challenges for data mining : pragmatic and technical. I will conclude this presentation with a consideration of the larger issues surrounding the Internet as a technology that is ubiquitous in our lives, yet one where very little is understood, at the scientific level, in defining and understanding many of the basics the Internet enables : Community, Personalization, and the new Microeconomics of the web. This leads to an overview of the new Yahoo! Research organization and its aims : inventing the new sciences underlying what we do on the Internet, focusing on areas that have received little attention in the traditional academic circles. Some illustrative examples will be reviewed to make the ultimate goals more concrete. 1 Dr. Usama Fayyad is Yahoo! s executive vice president of Research & Strategic Data Solutions. He also oversees the Yahoo! Research organization that includes offices in Sunnyvale, Burbank and Berkeley, CA as well as New York, Europe, and S. America. Prior to joining Yahoo!, he co-founded and led the DMX Group, a data mining and data strategy consulting company. In early 2000, he co-founded and served as CEO of digimine Inc. (now Revenue Science, Inc.). He s professional experience also includes five years spent leading the data mining and exploration group at Microsoft Research. From 1989 to 1996 Fayyad held a leadership role at NASA s Jet Propulsion Laboratory (JPL) where his work garnered him the top research excellence award that Caltech awards to JPL scientists, as well as a U.S. Government medal from NASA. Fayyad earned his Ph.D. in engineering from the University of Michigan, Ann Arbor (1991), and also holds BSE s in both electrical and computer engineering (1984); MSE in computer science and engineering (1986); and M.Sc. in mathematics (1989). He has published over 100 technical articles in the fields of data mining and Artificial Intelligence, is a Fellow of the American Association of Artificial Intelligence, has edited two influential books on the data mining and launched and served as editor-in-chief of both the primary scientific journal in the field and the primary newsletter in the technical community published by the ACM. He regularly delivers keynotes and talks at government, industry and academic conferences around the world
20 Extraction et exploitation des annotations contextuelles Noureddine Mokhtari, Rose Dieng-Kuntz INRIA 2004 route des lucioles - BP 93 FR Sophia Antipolis cedex {Noureddine.Mokhtari, Rose.Dieng}@sophia.inria.fr Résumé Dans la perspective d offrir un web sémantique, des travaux ont cherché à automatiser l extraction des annotations sémantiques à partir de textes pour représenter au mieux la sémantique que vise à transmettre une page web. Dans cet article nous proposons une approche d extraction des annotations qui représentent le plus précisément possible le contenu d un document. Nous proposons de prendre en compte la notion de contexte modélisé par des relations contextuelles émanant, à la fois, de la structure et de la sémantique du texte. L annotation sémantique est devenue l une des approches privilégiées par les travaux sur le web sémantique. Les travaux visant à extraire semi-automatiquement ces annotations, plus particulièrement à partir de textes, ont connu ces dernières années une avancée importante. Dans ce contexte, des outils de traitement automatique de la langue naturelle (TALN) sont proposés. Ces outils reposent en général sur des méthodes linguistiques telles que la projection de patrons morpho-syntaxiques ou des méthodes statistiques (fréquence d apparition). Les méthodes de TALN peuvent être semi-automatiques (l intervention de l expert du domaine est alors requise) ou automatiques (dans ce cas, les approches proposées requièrent une certaine spécialisation dans un domaine particulier (Aussenac-Gilles et al., 2006)). Les approches utilisées jusqu'à présent reposent en général sur l extraction de termes, certaines permettent également l extraction de relations entre ces termes, mais en ignorant en général le contexte de leur apparition. Dans le cadre de cette problématique, nous proposons une approche de modélisation, d extraction et d exploitation des annotations, qui prenne en compte leurs contextes. La limite observée, concernant les approches d extraction des termes pour l annotation, a été notre principale motivation pour offrir des annotations qui représentent au mieux le contenu d un document. Nous considérons l annotation sémantique d un document comme une image par un annotateur (humain ou programme) du contenu de ce document. Cette annotation sémantique doit être exploitable par la machine et de la qualité de cette image dépend son exploitation par l application visée. Ce travail s inscrit dans le cadre du projet SEVENPRO qui a comme objectif de développer, en reposant sur des technologies et des outils qui aident à la fouille de connaissances sur un produit, des corpus de textes multimédia et sur la réalité virtuelle 3D enrichie sémantiquement. Tout d abord, dans la section 2, nous allons analyser quelques travaux sur l extraction des annotations à partir du texte. Puis dans la section 3, nous aborderons notre proposition sur la modélisation de la notion du contexte. Dans la section 4, nous proposerons notre approche - 7 -
21 Vers une fouille sémantique des brevets : Application au domaine biomédical INRIA Sophia Antipolis 2004 route des Lucioles 06902, BP93 Sophia Antipolis - France {Nizar.ghoula, Khaled.Khelif, Rose.Dieng}@sophia.inria.fr Résumé. Les brevets sont une source d'information très riche puisque ce sont des documents qui servent à décrire les inventions. L'accès aux documents de brevets en ligne est possible grâce aux efforts des offices nationaux de la propriété intellectuelle. Par ailleurs, ayant des objectifs différents, la présentation de ces documents a pris des formes variées loin d'être unifiées. Ce papier présente une méthode et un système permettant l'analyse de brevets "Patent Mining" pour générer des annotations sémantiques. L'idée principale est de pouvoir prendre en considération la structure des brevets pour pouvoir trouver un lien entre le contenu du brevet et les concepts des différentes ontologies. 1.1 Contexte Nizar Ghoula, Khaled Khelif, Rose Dieng-Kuntz Le traitement des documents de propriété intellectuelle, tels que les brevets, est important pour l industrie, les affaires et les communautés juridiques. Récemment, les communautés de recherche académiques et en particulier, les chercheurs de traitement automatique de la langue naturelle et de la recherche documentaire ont reconnu l importance du traitement des brevets. En fouillant les brevets scientifiques, nous pouvons remarquer un volume important d informations sur la biologie, les substances et les procédures médicales. En effet, l extraction des informations de ces brevets permet de donner une idée précise sur : (i) par exemple les interactions biomédicales et l effet pharmacologique résultant, et (ii) la propriété intellectuelle dans un certain contexte biologique. Durant ces dernières années, de grands efforts ont été exercés pour mettre les données relatives aux brevets sous une forme électronique et les présenter au public via les services en ligne. De nos jours, nous remarquons que ces services présentent et fournissent des structures de données hétérogènes, ce qui rend difficile à mettre en œuvre une analyse automatique des brevets. Dans ce papier, nous présentons l approche PatAnnot fondée sur les principes du web sémantique et qui se réfère aux notions de métadonnée et ontologies pour faciliter l extraction des connaissances et la recherche d informations relatives aux brevets. Ce travail rentre dans le cadre du projet européen Sealife (Schroeder et al, 2006) qui a pour objectif la réalisation d un navigateur Web sémantique pour le domaine des sciences de la vie, qui exploitera les ressources du Web en les rendant partageables, accessibles et manipulables par plusieurs utilisateurs dans différents domaines biomédicaux et ce afin de favoriser le partage des connaissances
22 Utilisation du Web Sémantique pour la gestion d une liste de diffusion d une CoP Bassem Makni, Khaled Khelif Rose Dieng-Kuntz, Hacène Cherfi INRIA Sophia Antipolis, 2004 route des Lucioles 06902, BP93 Sophia Antipolis - France {bassem.makni, khaled.khelif, rose.dieng, hacene.cherfi}@sophia.inria.fr Résumé. Cet article décrit une approche de création semi-automatique d ontologies et d annotations sémantiques à partir de messages électroniques échangés dans une liste de diffusion dédiée au support informatique. Les ressources sémantiques générées permettront d identifier les questions fréquemment posées (FAQ) à travers une recherche guidée par cette ontologie. L extraction d informations à partir de messages électroniques (mails) n a pas été très étudiée dans la communauté du TAL 1. Ceci est dû principalement à la présentation informelle des mails et à leurs faibles apports d informations. Cependant, les mails peuvent être parfois la principale source de connaissances pour une organisation ou une communauté de pratique (CoP). C est le cas 2 qui est une association ouverte à tous les enseignants exploitant les TIC 3 en Belgique durant leurs interactions avec les apprenants pour préparer leurs leçons. La communication dans cette CoP se fait essentiellement par échanges de mails sur une liste de diffusion décrivant des problèmes rencontrés. Dans le but de faciliter la navigation dans cette liste de diffusion et la recherche de solutions pour des problèmes déjà posés, nous proposons une approche de création d annotations sémantiques pour cette liste, ces annotations reposant sur une ontologie qui est elle-même extraite en partie à partir du corpus de mails. La base d annotations créée servira pour la navigation guidée par l ontologie en s appuyant sur le moteur de recherche sémantique CORESE (Corby et al., 2004). Dans ce qui suit, nous présentons l puis nous présentons un scénario d utilisation de cette ontologie avant de conclure. 2 Construction de l Afin de construire l ontologie nous optons pour une approche modulaire composée de quatre ontologies, chacune dédiée à une tâche particulière : (i) une ontologie pour les 1 Traitement Automatique des Langues 2 Association des professeurs exploitant les TIC en Belgique francophone : 3 Technologies de l information et de la communication
23 Approche d annotation automatique des événements Rim Faiz *, Aymen Elklifi ** * LARODEC, IHEC de Carthage, 2016 Carthage Présidence, Tunisie [email protected] ** LARODEC, ISG de Tunis, 2000 Le Bardo, Tunisie [email protected] Résumé. Quotidiennement, plusieurs agences de presse publient des milliers d articles contenant plusieurs événements de toutes sortes (politiques, économiques, culturels, etc.). Les preneurs de décision, se trouvent face à ce grand nombre d événements dont seulement quelques uns les concernent. Le traitement automatique de tels événements devient de plus en plus nécessaires. Pour cela, nous proposons une approche, qui se base sur l apprentissage automatique, et qui permet d annoter les articles de presse pour générer un résumé automatique contenant les principaux événements. Nous avons validé notre approche par le développement du système "AnnotEv". Acquérir de la connaissance à partir de textes est une nécessité qui s est accrue ces vingt dernières années, avec l essor considérable de la masse de documents disponibles en format électronique, qu il faut gérer afin d extraire ou de filtrer les informations pertinentes parmi toutes celles contenues dans ces documents (Faiz, 2006). A titre d exemple; les événements boursiers sont nombreux et diversifiés. Les experts de la bourse doivent analyser ces événements en un temps relativement raisonnable pour prendre des décisions importantes. Il s agit, donc, d annoter les documents présentant des événements pour pouvoir extraire ceux qui sont pertinents. C est dans ce cadre que s inscrit notre travail dont l objectif est de développer une approche qui annote automatiquement ces articles de Presse. La suite du document est organisée comme suit : nous commençons, dans la section 2, par décrire les principaux systèmes d annotations existants. Au cours de la section 3, nous présentons notre approche d annotation, qui a été validée par le système AnnotEv lequel sera présenté et évalué dans la section 4. Enfin, dans la section 5, nous présentons quelques perspectives de notre travail. 2 Présentation de quelques systèmes d annotation Plusieurs méthodes et techniques sont utilisées par les systèmes d annotations dédiés au Web sémantique telles que l Exploration Contextuelle (Desclés, 1997), les graphes conceptuels (Roussey et al, 2002), les méta-thésaurus (Khelif et al., 2004) et les indicateurs linguistiques (Muller et al., 2004). Nous pouvons citer : Le système EXCOM (Djaoua et al., 2006) utilise un ensemble d outils linguistiques qui visent à annoter un document par un ensemble de connaissances aussi bien internes
24 Web Content Data Mining : la classification croisée pour l analyse textuelle d un site Web Malika Charrad*, Yves Lechevallier** Gilbert Saporta***, Mohamed Ben Ahmed* *Laboratoire RIADI, Ecole Nationale des Sciences de l Informatique, Tunis [email protected] [email protected] **INRIA-Rocquencourt, Le Chesnay cedex [email protected] ***CNAM, 292 rue Saint-Martin, Paris cedex 03 [email protected] Résumé. Notre objectif dans cet article est l analyse textuelle d un site Web indépendamment de son usage. Notre approche se déroule en trois étapes. La première étape consiste au typage des pages afin de distinguer les pages de navigation ou pages «auxiliaires» des pages de contenu. La deuxième étape consiste au prétraitement du contenu des pages de contenu afin de représenter chaque page par un vecteur de descripteurs. La dernière étape consiste au block clustering ou la classification simultanée des lignes et des colonnes de la matrice croisant les pages aux descripteurs de pages afin de découvrir des biclasses de pages et de descripteurs. L application de cette approche au site de tourisme de Metz prouve son efficacité et son applicabilité. L ensemble de classes de pages groupés en thèmes facilitera l analyse ultérieure de l usage du site. Le Web représente aujourd hui la principale source d information. Ce gisement contenant une grande quantité de données non-structurées, distribuées et multi-medias a besoin d être maintenu, filtré et organisé pour permettre un usage efficace. Cette tâche s avère difficile à réaliser avec la large distribution, l ouverture et la forte dynamicité du Web. Par conséquent, plusieurs travaux de recherche ont tenté d analyser le contenu des sites Web et comprendre le comportement des utilisateurs de ces sites. L approche que nous proposons dans cet article se situe dans ce cadre. Notre objectif est d analyser un site Web en se basant sur le contenu et indépendamment de l usage. En d autres termes, nous cherchons à réduire la quantité d information contenue dans le site Web en un groupe de thèmes qui pourraient susciter l intérêt des internautes. Il sera par la suite possible d analyser le comportement des utilisateurs vis-à-vis de ces thèmes
25 Recherche d information personnalisée dans les bibliothèques numériques scientifiques Thanh-Trung Van, Michel Beigbeder Centre G2I/Département RIM Ecole Nationale Supérieure des Mines de Saint-Etienne 158 cours Fauriel, Saint-Etienne, FRANCE {van,mbeig}@emse.fr Résumé. Dans cet article nous présentons nos travaux sur la recherche d information personnalisée dans les bibliothèques numériques. Nous utilisons des profils utilisateurs qui représentent des intérêts et des préférences des utilisateurs. Les résultats de recherche peuvent-être re-triés en tenant compte des besoins d informations spécifiques de différentes personnes, ce qui donne une meilleure précision. Nous étudions différentes méthodes basées sur les citations, sur le contenu textuel des documents et des approches hybrides. Les résultats des expérimentations montrent que nos approches sont efficaces et applicables dans le cadre des bibliothèques numériques. La recherche d information dans les bibliothèques numériques est souvent une tâche ennuyeuse et fastidieuse. Les utilisateurs doivent répéter le processus d envoyer les requêtes, regarder les résultats et modifier les requêtes jusqu à ce qu ils trouvent les informations pertinentes. Une des raisons principales est que les requêtes des utilisateurs sont souvent courtes et donc ambiguës. Par exemple, la même requête «java» peut être formulée par une personne qui s intéresse au langage de programmation «java», et par une autre qui veut chercher des informations concernant une île en Indonésie. Cependant les moteurs de recherche renvoient le même résultat pour ces deux personnes. Même avec une plus longue requête comme «langage programmation java» ; nous ne savons pas quels types de document cet utilisateur veut chercher. Si c est un(e) programmeur(e), peut-être il/elle s intéresse aux documents techniques sur le langage Java, si c est un(e) enseignant(e), peut-être il/elle s intéresse aux tutoriels de Java pour ses cours. Le problème que nous avons mentionné peut être résolu en utilisant des techniques de personnalisation avec des profils utilisateurs. D une manière générale, nous pouvons définir un profil d utilisateur comme un ensemble structuré d informations qui décrit les intérêts et/ou les préférences de cet utilisateur. Le travail de Amato et Straccia (1999) est parmi les premiers travaux consacrés à définir un modèle de représentation de profil utilisateur dans les bibliothèques numériques, leur modèle est un modèle multidimensionnel dans lequel le profil utilisateur se compose de plusieurs
26 Requêtes alternatives dans le contexte d un entrepôt de données génomiques Christine Froidevaux, Frédéric Lemoine LRI, CNRS UMR 8623, Université Paris Sud 11, France {chris,lemoine}@lri.fr, Résumé. Afin d aider les biologistes à annoter des génomes, ce qui nécessite l analyse, le croisement, et la comparaison de données provenant de sources diverses, nous avons conçu un entrepôt de données de génomique microbienne. Nous présentons la structure globale flexible de l entrepôt et son architecture multi-niveaux et définissons des correspondances entre ces niveaux. Nous introduisons ensuite la notion de requête alternative et montrons comment le système peut construire l ensemble des requêtes alternatives à une requête initiale. Pour cela, nous indroduisons un mécanisme d interrogation qui repose sur l architecture multi-niveaux, et donnons un algorithme de calcul des requêtes alternatives. Avec l entrée dans l ère post-génomique, l avancée du séquençage de génomes et l utilisation de plus en plus massive d expériences à haut débit produisent une quantité gigantesque de données biologiques. La conception de systèmes de gestion de données pour stocker et interroger cette information devient cruciale, en particulier dans le domaine de l annotation fonctionnelle des génomes, qui consiste en l attribution d une fonction biologique aux produits de chaque gène. Cette tâche est indispensable pour savoir quels gènes sont impliqués dans certains processus (e.g la pathogénicité pour les génomes microbiens). C est dans ce contexte que nous avons conçu l entrepôt de données génomiques Microbiogenomics 1, dont l objectif est de rassembler des données de génomique microbienne, pour l annotation fonctionnelle (ou la ré-annotation) de génomes microbiens (Lemoine et al., 2007). Pour réaliser cette tâche d annotation, les biologistes ont besoin d une grande variété de données (telles que des données fonctionnelles, d homologie, de voies métaboliques, etc.) qui se trouvent dans diverses sources de données dispersées sur le web. Leur travail consiste à naviguer dans les sources de données, trouver des gènes / protéines homologues à leurs gènes / protéines d étude, comparer les données qui proviennent de ces différentes sources et finalement prendre une décision quant à la fonction de leurs protéines d intérêt. Notre objectif est de pouvoir effectuer des calculs sur les données, ainsi que d appliquer des techniques de fouille de données telles que l extraction de règles d associations. C est pourquoi nous avons choisi une architecture d entrepôt de données, bien adaptée à ces tâches. Notre entrepôt est spécifique et ne suit pas la définition classique d un entrepôt de données de 1 http ://microbiogenomics.u-psud.fr
27 Enhancing Personal File Retrieval in Semantic File Systems with Tag-Based Context Hung Ba Ngo * **, Frédérique Silber-Chaussumier *, Christian Bac* * Institut National des Télécommunications-France, ** Cantho University-Vietnam {hung.ngo_ba, frederique.silber-chaussumier, christian.bac}@int-edu.eu Abstract. Recently, tagging systems are widely used on the Internet. On desktops, tags are also supported by some semantic file systems and desktop search tools. In this paper, we focus on personal tag organization to enhance personal file retrieval. Our approach is based on the notion of context. A context is a set of tags assigned to a file by a user. Based on tag popularity and relationships between tags, our proposed algorithm creates a hierarchy of contexts on which a user can navigate to retrieve files in an effective manner. Nowadays, tagging systems such as (Delicious) are widely used on the Internet. These tagging systems enable users to add keywords (or tags) to Internet resources without relying on a controlled vocabulary. On the desktop, tags are also supported by some semantic file systems and desktop search tools. Users in LFS (Padioleau, 2005), for example, can manually assign tags to a Jpeg file to annotate the names of persons in that photo for later retrieval. With tags, users are flexible in describing their opinions and interests on files (or resources). As a result, users personal files are classified per tags and each user has a personal vocabulary of tags. Users then can retrieve files using logical expressions of tags. By default, tagging systems are more suitable for file retrieval using querying than browsing. However, experiments in personal information management (Barreau et al., 1995), and (Khoo et al., 2007) show that most users prefer browsing than querying (logical search) as retrieving their files from a desktop. That is the reason why recently tagging systems such as Delicious on web or LFS (Padioleau, 2005) and TagFS (Bloehdorn et al., 2006) on desktop concentrate on tag organization to help users to browse tags for file retrieval. We continue to enhance personal file retrieval in tagging systems with context-based searching. A context in our approach is a set of tags assigned to a file (or resource) by a user. Based on tag popularity and relationships between tags, our proposed algorithm creates a hierarchy of contexts on which a user can navigate to retrieve files in an effective manner. In this paper, we first present the interesting techniques for tag organization in section 2; introduce tagbased context and how to enhance tagging systems with context-based searching in section 3. Our algorithm for creating a Directed Acyclic Graph of Tags (DAGoT) based on tag popularity and relationship of tags is in section 4. This DAGoT is used to organize contexts into a hierarchical structure so that we can enhance personal file retrieval with context-based searching. An implementation and experimental results using real data are presented in section 5. Our conclusion and perspectives are in the last section
28 Clustering Visuel Semi-Supervisé pour des systèmes en coordonnées en étoiles 3D Loïc Lecerf, Boris Chidlovskii Xerox Research Centre Europe 6, chemin de Maupertuis, Meylan, France Résumé. Dans cet article, nous proposons une approche qui combine les méthodes statistiques avancées et la flexibilité des approches interactives manuelles en clustering visuel. Nous présentons l interface Semi-Supervised Visual Clustering (SSVC). Sa contribution principale est l apprentissage d une métrique de projection optimale pour la visualisation en coordonnées en étoiles ainsi que pour l extension 3D que nous avons développée. La métrique de distance de projection est apprise à partir des retours de l utilisateur soit en termes de similarité/dissimilarité entre les items, soit par l annotation directe. L interface SSVC permet, de plus, une utilisation hybride dans laquelle un ensemble de paramètres sont manuellement fixés par l utilisateur tandis que les autres paramètres sont déterminés par un algorithme de distance optimale. Obtenir un clustering efficace et de haute qualité sur des données de grande taille est un problème majeur pour l extraction des connaissances. Il existe une demande de plus en plus importante pour des techniques flexibles et efficaces de clustering capables de s adapter à des jeux de données de structure complexe. Un ensemble de données est typiquement représenté dans un tableau composé de N items (lignes) et d dimensions (colonnes). Un item représente un événement ou une observation, alors qu une dimension peut-être un attribut ou une caractéristique de l item. Dans un mode semi-supervisé ou supervisé, une partie ou tous les items peuvent être annotés par une classe. Les méthodes de clustering tentent de partitionner les items en groupes avec une mesure de similarité. Un ensemble de données peut être grand en termes de nombre de dimensions, nombre d éléments, ou les deux. L approche classique est basée sur des algorithmes de clustering, comme les K-moyennes, le clustering spectral ou hiérarchique ainsi que leurs multiples variantes (Hastie et al., 2001). Il existe cependant plusieurs inconvénients connus à ces méthodes. Premièrement, il n est pas toujours facile de déterminer, visualiser et valider les clusters de forme irrégulière. Plusieurs algorithmes sont efficaces pour trouver des clusters dans des formes elliptiques (donc convenant aux distributions normales multidimensionnelles), mais peuvent échouer à reconnaître des clusters de forme complexe. Deuxièmement, les algorithmes existant sont automatiques, ils excluent toute intervention de l utilisateur dans le processus jusqu à la fin de l algorithme
29 Les cartes cognitives hiérarchiques Lionel Chauvin, David Genest, Stéphane Loiseau LERIA - Université d Angers 2 boulevard Lavoisier Angers Cedex 01 {lionelc,genest,loiseau}@info.univ-angers.fr Résumé. Une carte cognitive fournit une représentation graphique d un réseau d influence entre des concepts. Les cartes cognitives de dimensions importantes ont l inconvénient d être difficiles à appréhender, interpréter et exploiter. Cet article présente un modèle de cartes cognitives hiérarchiques permettant au concepteur d effectuer des regroupements de concepts qui sont ensuite utilisés dans un mécanisme permettant à l utilisateur d obtenir des vues partielles et synthétiques d une carte. Introduction Une base de données de grande taille est difficile à appréhender dans sa totalité. Pour palier ce problème, diverses techniques ont été créées afin de fournir des vues partielles ou d effectuer des regroupements de données par thèmes. De façon similaire il est difficile de comprendre une base de connaissances. Plus une base de connaissance est grande, plus le nombre de connaissances utilisables afin d effectuer une déduction est important. A partir d un certain nombre l humain ne peut plus évaluer toutes les connaissances mises en jeu dans une déduction. Il est donc nécessaire de diviser l ensemble des étapes d une déduction par paquets et de fournir à l humain une évaluation de chaque paquet. Cette évaluation peut être imprécise mais facilite la compréhension en donnant l idée générale. Pour notre étude nous nous intéressons à un modèle graphique de gestion de connaissances appelé cartes cognitives (Tolman, 1948). Une carte cognitive représente un réseau d influences entre concepts. Une influence est une relation de causalité entre deux concepts. L effet de l influence d un concept sur un autre peut être représenté de manière numérique ou symbolique. Ce type de représentation fournit un bon support à la communication entre humains dans le but d effectuer une analyse d un système complexe. Les cartes cognitives ont été utilisées dans de nombreux domaines tels que la biologie (Tolman, 1948)(Touretzky et Redish, 1995), l écologie (Celik et al., 2005)(Poignonec, 2006), la sociologie (Poignonec, 2006). Un mécanisme d inférence des influences dans une carte cognitive peut être défini, ce qui en fait un outil d aide à la décision. Ce type d outils a été utilisé par exemple en politique et en économie (Axelrod, 1976)(Cossette, 1994). La représentation informatique d une carte cognitive et la mise en oeuvre d un calcul automatique de l inférence est relativement simple. L objectif de ce travail est de faciliter la compréhension et l exploitation de cartes cognitives de grandes tailles. Pour cela nous présentons un modèle de cartes cognitives permettant à l utilisateur d obtenir des vues partielles et synthétiques d une carte
30 Une mesure de similarité contextuelle pour l'aide à la navigation dans un treillis Saoussen Sakji*, Marie-Aude Aufaure*,** Géraldine Polaillon*, Bénédicte Le Grand***, Michel Soto*** *Supélec Computer Science department plateau du Moulon 3, rue Joliot Curie F Gif sur Yvette Cedex {Saoussen.Sakji, Marie-Aude.Aufaure, ** INRIA Paris-Rocquencourt Domaine de Voluceau Rocquencourt B.P. 105 F Le Chesnay Cedex ***Laboratoire d Informatique de Paris 6 104, av du P dt Kennedy F Paris {Benedicte.Le-Grand, Michel.Soto}@lip6.fr Résumé. La recherche d information et la navigation dans les pages web s avèrent complexes du fait du volume croissant des données et de leur manque de structure. La formalisation conceptuelle d un contexte associé à une ontologie rend possible l amélioration de ce processus. Nous définissons un contexte conceptuel comme étant l association d un treillis de concepts construit à partir de pages web avec des ontologies. La recherche et la navigation peuvent alors s effectuer à plusieurs niveaux d abstraction : le niveau des données, le niveau conceptuel et le niveau sémantique. Cet article s intéresse essentiellement au niveau conceptuel grâce à une représentation par les treillis de concepts des documents selon les termes qu ils ont en commun. Notre objectif est de proposer une mesure de similarité permettant à l utilisateur de mieux naviguer dans le treillis. En effet, une bonne interprétation du treillis devrait passer par un choix rigoureux des concepts, objets, relations et propriétés les plus intéressants. Pour faciliter la navigation, il faut pouvoir indiquer à l utilisateur les concepts les plus pertinents par rapport au concept correspondant à sa requête ou pouvoir lui proposer un point de départ. L originalité de notre proposition réside dans le fait de considérer un lien sémantique entre les concepts du treillis, basé sur une extension des mesures de similarité utilisées dans le cadre des ontologies, afin de permettre une meilleure exploitation de ce treillis. Nous présentons les résultats expérimentaux de l application de cette mesure sur des treillis construits à partir de pages web dans le domaine du tourisme. L objectif de nos travaux est de faciliter la recherche d information dans des pages Web par l utilisation conjointe de treillis de Galois et d ontologies, qui constitue ce que nous appelons un «contexte conceptuel». Les regroupements conceptuels fournis par les treillis, associés aux liens sémantiques de l ontologie, permettent d améliorer la recherche d information en fournissant des niveaux de navigation plus abstraits et complémentaires
31 Une approche ontologique pour automatiser le contrôle de conformité dans le domaine du bâtiment Anastasiya Yurchyshyna* **, Catherine Faron-Zucker*, Nhan Le Thanh*, Celson Lima**, * I3S, Université de Nice Sophia-Antipolis, CNRS 930 route des Colles, BP 145, Sophia Antipolis, France {Catherine.Faron-Zucker, Nhan.Le-Thanh}@unice.fr ** CSTB, 290 route des Lucioles, BP 209, Sophia Antipolis, France {celson.lima, anastasiya.yurchyshyna}@cstb.fr Résumé. Cet article présente la méthode et le système C3R pour vérifier de façon semi-automatique la conformité d un projet de construction par rapport à des normes du bâtiment. Les projets de construction sont représentés par des graphes RDF et les normes par des requêtes SPARQL ; le processus de contrôle consiste en l appariement des requêtes et des graphes. Son efficacité repose sur l acquisition de connaissances ontologiques et sur un processus d extraction de connaissances guidé par ce but spécifique de contrôle de conformité qui prend en compte les connaissances ontologiques acquises. Elle repose ensuite sur des méta-connaissances acquises auprès des experts du CSTB qui permettent de guider le contrôle lui-même : les requêtes représentant les normes sont annotées et organisées selon ces annotations. Ces annotations sont également utilisées dans les interactions avec l utilisateur de C3R pour expliquer les résultats du processus de validation, en particulier en cas d échec. Dans le domaine du bâtiment, une masse croissante de normes régissent l exécution des projets de construction (e.g. bâtiments publics, maisons individuelles) et de nombreuses initiatives 1 sont lancées pour fournir des services électroniques de régulation. Un des objectifs généraux en est l automatisation du contrôle de la conformité d un projet de construction par rapport à un ensemble de normes techniques du bâtiment en vigueur. Cela constitue le cadre de notre travail au CSTB 2 et nous proposons ici un modèle de contrôle de conformité. Les projets de construction sont maintenant communément décrits dans le modèle IFC 3, un modèle orienté objet développé par l IAI 4 pour faciliter l interopérabilité dans le domaine de la construction. Il est pourvu d une syntaxe ifcxml 5 ; des données ifcxml peuvent être automatiquement générées par les outils de COA dédiés à l architecture ou par les convertis OntoGov, INTELCITIES, TERREGOV, QUALEG 2005, e-power, ISTforCE Centre Scientifique et Technique du Bâtiment, Industry Foundation Classes International Alliance for Interoperability
32 Sémantique et Réutilisation d ontologie générique Sylvie Després, Sylvie Szulman LIPN, UMR7030 Univ. Paris 13 [email protected] despres LIPN, UMR7030 Univ. Paris 13 [email protected] szulman Résumé. Dans ce papier, nous enrichissons la méthode Terminae de construction d ontologie à partir de textes en proposant une semi-automatisation de la construction du modèle conceptuel. Nous présentons un algorithme permettant la conceptualisation d un terme en s appuyant sur les informations linguistiques contenues dans l ontologie générique de référence. Cet article présente une extension à la méthode de construction d ontologie à partir de textes Terminae Aussenac-Gilles et al. (2008). Lors de la création d une nouvelle ontologie, nous proposons de réutiliser une ontologie générique de référence afin de faciliter la phase de conceptualisation des termes d un corpus. Une ontologie générique de référence (traduction du terme core ontology) couvre un domaine composite (par exemple le droit) comportant de nombreux sous domaines (droit public, privé, européen, etc.). A ce titre, une telle ontologie constitue un cadre unifié pour la construction d ontologies de domaine composite puisqu elle décrit les concepts communs à l ensemble des sous-domaines. La réutilisation constitue actuellement un point central de l ingénierie des ontologies soulevant des questions complexes. De nombreux travaux sont en cours dans ce domaine Euzenat et al. (2004), Noy (2004b), Shvaiko et Euzenat (2005), Predoiu et al. (2005), Bach (2006), Safar et al. (2007). Toutefois, peu de travaux exploitent la distinction entre les différents types d ontologies et leur articulation. En effet, parmi les concepts de l ontologie générique, certains jouent un rôle de pivot entre les ontologies des sous-domaines et permettent d ancrer l ontologie en cours de construction. Le processus d alignement proposé exploite également des informations lexicales et sémantiques de l ontologie de référence. Dans le paragraphe 2, nous situons notre approche de la réutilisation d ontologies et son intégration dans la méthode Terminae. Le paragraphe 3 détaille l algorithme d alignement sémantique. Puis quelques exemples illustrent les premières expérimentations faites dans le domaine juridique. Enfin, nous concluons en discutant les apports et les limites de la méthode adoptée
33 Gradients de prototypicalité conceptuelle et lexicale Xavier Aimé, Frédéric Fürst, Pascale Kuntz, Francky Trichet LINA - Laboratoire d Informatique de Nantes Atlantique (CNRS-FRE 2729) Équipe COD - Connaissances & Décision 2 rue de la Houssinière BP Nantes Cedex 03 [email protected], [email protected] LARIA - Laboratoire de Recherche en Informatique d Amiens (CNRS-FRE 2733) UPJV, 33 rue Saint Leu Amiens Cedex 01 [email protected] Société TENNAXIA 19 rue de Réaumur Paris [email protected] Résumé. Longtemps les ontologies ont été limitées à des domaines scientifiques et techniques, favorisant au passage l essor du concept de «connaissances universelles et objectives». Avec l émergence et l engouement actuel pour les sciences cognitives, couplés à l application des ontologies à des domaines relatifs aux Sciences Humaines et Sociales (SHS), la subjectivité des connaissances devient une dimension incontournable qui se doit d être intégrée et prise en compte dans le processus d ingénierie ontologique (IO). L objectif de nos travaux est de développer la notion d Ontologie Pragmatisée Vernaculaire de Domaine (OPVD). Le principe sous-jacent à de telles ressources consiste à considérer que chaque ontologie est non seulement propre à un domaine, mais également à un endogroupe donné, doté d une pragmatique qui est fonction tant de la culture que de l apprentissage et de l état émotionnel du dit endogroupe. Cette pragmatique, qui traduit un processus d appropriation et de personnalisation de l ontologie considérée, est qualifiée à l aide de deux mesures : un gradient de prototypicalité conceptuelle et un gradient de prototypicalité lexicale. D un point de vue linguistique, la pragmatique s intéresse aux éléments du langage dont la signification ne peut être comprise qu en fonction d un contexte d interprétation donné. Dans le cadre des ontologie de domaine (qui sont des spécifications formelles de conceptualisations partagées Gruber (1993)), il s agit d enrichir la sémantique formelle intrinsèque à une ontologie de domaine (OD) à l aide d éléments caractéristiques d un contexte de création ou d usage
34 Mesures hiérarchiques pondérées pour l évaluation d un système semi-automatique d annotation de génomes utilisant des arbres de décision L. Gentils, J. Azé, C. Toffano-Nioche, V. Loux, A. Poupon, J-F. Gibrat, C. Froidevaux LRI UMR 8623 CNRS, Univ. Paris-Sud 11 F Orsay France (Lucie.Gentils,Claire.Toffano-Nioche,Jerome.Aze,Christine.Froidevaux)@lri.fr MIG INRA, Domaine de Vilvert Jouy-en-Josas Cedex France (Valentin.Loux,Jean-Francois.Gibrat)@jouy.inra.fr, IBBMC UMR 8619 CNRS, Univ. Paris-Sud 11 F Orsay France [email protected], Résumé. L annotation d une protéine consiste, entre autres, à lui attribuer une classe dans une hiérarchie fonctionnelle. Celle-ci permet d organiser les connaissances biologiques et d utiliser un vocabulaire contrôlé. Pour estimer la pertinence des annotations, des mesures telles que la précision, le rappel, la spécificité et le Fscore sont utilisées. Cependant ces mesures ne sont pas toujours bien adaptées à l évaluation de données hiérarchiques, car elles ne permettent pas de distinguer les erreurs faites aux différents niveaux de la hiérarchie. Nous proposons ici une représentation formelle pour les différents types d erreurs adaptés à notre problème. Aujourd hui de nombreux génomes séquencés sont disponibles du fait du développement continu des technologies à haut débit et des procédures expérimentales 1. Les experts biologistes jouent un rôle central dans l analyse et l annotation de cette quantité massive de données brutes. Pour annoter un nouveau génome, ils doivent intégrer plusieurs types d informations en provenance de sources variées, ce qui prend entre 12 et 18 mois à une équipe de 2 à 4 personnes pour un petit génome bactérien contenant environ 2000 gènes. Pour faire face au déluge des nouvelles données génomiques, le processus d annotation doit être le plus automatisé possible. Dans le contexte du projet RAFALE 2, nous proposons aux biologistes utilisant la plate-forme AGMIAL 3, un système semi-automatique d annotation fonctionnelle de protéines. Nous proposons un système semi-automatique car le processus est collaboratif : pour chaque protéine, une annotation est suggérée par le système et les biologistes décident de l annotation finale. 1 http :// 2 http :// 3 http ://genome.jouy.inra.fr/agmial
35 Méthodologie d Evaluation Intelligente des Concepts Ontologiques Lobna Karoui*, Marie-Aude Aufaure* *Supelec, Plateau de Moulon, Gif-sur-Yvette {Lobna.Karoui, Marie-Aude.Aufaure}@supelec.fr Résumé. Un des problèmes majeurs dans la gestion des ontologies est son évaluation. Cet article traite l évaluation des concepts ontologiques qui sont extraits de pages Web. Pour cela, nous avons proposé une méthodologie d évaluation des concepts basée trois critères révélateurs : «le degré de crédibilité»; «le degré de cohésion» et «le degré d éligibilité». Chaque critère correspond à un apport de connaissance pour la tâche d évaluation. Notre méthode d évaluation assure une évaluation qualitative grâce aux associations de mots ainsi qu une évaluation quantitative par le biais des trois degrés. Nos résultats et discussions avec les experts et les utilisateurs ont montré que notre méthode facilite la tâche d évaluation. L évaluation d une ontologie est une tâche difficile. Ceci explique l absence de méthodes d évaluation standard ou de mesures d évaluation servant à valider l ontologie. Dans cet article, nous focalisons notre intérêt sur l évaluation des concepts de l ontologie de domaine (appelés concepts ontologiques) qui sont extraits des pages Web. Nous travaillons sur les documents HTML écrits en français, dans le domaine du tourisme. Dans un travail précédent, nous avons défini un contexte structurel qui tient compte du document HTML et développé un algorithme de clustering afin de bien rassembler les mots sémantiquement proches (Karoui et al, 2006). Le résultat de ce travail était constitué de classes de mots pour lesquelles les experts ont du réaliser une lourde tâche d évaluation et d étiquetage. Pour aider ces derniers et faciliter l interprétation sémantique de ces classes (concepts), nous avons défini une méthode d évaluation basée sur trois critères révélateurs. Ces derniers sont le degré de crédibilité, le degré de cohésion et le degré d éligibilité. Le degré de crédibilité exploite deux types de contextes : un contexte linguistique et un contexte documentaire. En se basant sur ces deux types de contextes, nous calculons le degré de crédibilité associé à chaque classe de mots et à chaque contexte. Le degré de cohésion calcule le degré de rapprochement des mots d une classe en utilisant les documents du web. Le degré d éligibilité sélectionne ou suggère le mot de la classe qui peut être son concept ou qui peut orienter le raisonnement vers le futur concept approprié. Dans ce qui suit, nous détaillerons ces critères ainsi que leur rôle. 2 Les critères révélateurs de l évaluation intelligente des concepts Les critères révélateurs assistent l expert du domaine durant la tâche d évaluation. Ces critères sont : le degré de crédibilité: le caractère de ce qu on croit ; le degré de cohésion: le caractère d une chose dont toutes ses parties sont réunies avec une relation logique entre ses éléments et sans aucune contradiction ; le degré d éligibilité : le caractère d un mot qui com
36 Echantillonnage pour l extraction de motifs séquentiels : des bases de données statiques aux flots de données Chedy Raïssi,, Pascal Poncelet LIRMM, 161 rue Ada,34392 Montpellier Cedex 5, France [email protected], EMA-LGI2P, Parc Scientifique Georges Besse, Nîmes Cedex, France pré[email protected] Résumé. Depuis quelques années, la communauté fouille de données s est intéressée à la problématique de l extraction de motifs séquentiels à partir de grandes bases de données en considérant comme hypothèse que les données pouvaient être chargées en mémoire centrale. Cependant, cette hypothèse est mise en défaut lorsque les bases manipulées sont trop volumineuses. Dans cet article, nous étudions une technique d échantillonnage basée sur des réservoirs et montrons comment cette dernière est particulièrement bien adaptée pour résumer de gros volumes de données. Nous nous intéressons ensuite à la problématique plus récente de la fouille sur des données disponibles sous la forme d un flot continu et éventuellement infini ("data stream"). Nous étendons l approche d échantillonnage à ce nouveau contexte et montrons que nous sommes à même d extraire des motifs séquentiels de flots tout en garantissant les taux d erreurs sur les résultats. Les différentes expérimentations menées confirment nos résultats théoriques. La problématique de l extraction de motifs séquentiels dans de grandes bases de données intéresse la communauté fouille de données depuis une dizaine d années et différentes méthodes ont été développées pour extraire des séquences fréquentes. L extraction de tels motifs est toutefois une tâche difficile car l espace de recherche considéré est très grand. Afin de gérer au mieux cet espace de recherche, différentes stratégies ont été proposées. Les plus traditionnelles utilisent une approche à la Apriori Srikant et Agrawal (1996) et diffèrent principalement par les structures de données utilisées (vecteurs de bits, arbres préfixés,...). Les approches les plus récentes considèrent, quant à elles, des projections multiples de la base de données selon le principe de pattern-growth proposé dans Pei et al. (2001) et évitent ainsi de générer des candidats. Outre ces différentes stratégies, les propositions les plus efficaces considèrent comme hypothèse que la base de données peut être chargée directement en mémoire centrale. Cependant, avec le développement des nouvelles technologies, ces dernières se trouvent de plus en plus mises en défaut dans la mesure où la quantité de données manipulées est trop volumineuse et qu il devient irréaliste de stocker l intégralité de la base en mémoire centrale. Le développement des nouvelles technologies permet également de générer de très grands volumes de données issues de différentes sources : trafic TCP/IP, transactions financières, en
37 Le FIA: un nouvel automate permettant l extraction efficace d itemsets fréquents dans les flots de données Jean-Émile S, Alban M, Lionel V ymphor ancheron inceslas et Pascal Poncelet GRIMAAG, Université des Antilles et de la Guyane, Martinique, France. {je.symphor;alban.mancheron;lionel.vinceslas}@martinique.univ-ag.fr EMA-LG2IP/site EERIE, Parc Scientifique Georges Besse, Nîmes Cedex, France. [email protected] Résumé. Le FIA (Frequent Itemset Automaton) est un nouvel automate qui permet de traiter de façon efficace la problématique de l extraction des itemsets fréquents dans les flots de données. Cette structure de données est très compacte et informative, et elle présente également des propriétés incrémentales intéressantes pour les mises à jour avec une granularité très fine. L algorithme développé pour la mise à jour du FIA effectue un unique passage sur les données qui sont prises en compte tout d abord par batch (i.e., itemset par itemset), puis pour chaque itemset, item par item. Nous montrons que dans le cadre d une approche prédictive et par l intermédiaire de la bordure statistique, le FIA permet d indexer les itemsets véritablement fréquents du flot en maximisant le rappel et en fournissant à tout moment une information sur la pertinence statistique des itemsets indexés avec la P -valeur. L extraction d itemsets fréquents est une problématique de recherche qui intéresse la communauté fouille de données depuis plus d une dizaine d années et intervient pour la recherche de règles d association, de motifs séquentiels ou encore d itemsets maximaux. Les premiers à traiter cette question furent Agrawal et Srikant (1994), ils ont été suivis en ce sens par Han et al. (2000). Traditionnellement, les différents algorithmes proposés dans la littérature reposent sur des structures de données de type arbre ou encore treillis (e.g. : A-priori (Agrawal et Srikant, 1994), F P-growth (Han et al., 2000),... ). La problématique de recherche de motifs (i.e., une généralisation des itemsets) apparaît dans des domaines aussi variés que la bioinformatique ou la fouille de textes. En ce qui concerne ce dernier, de nouvelles structures de données, basées sur des automates sont apparues afin d extraire les sous-séquences communes à une ensemble de textes (Troníček, 2002). Par exemple, Hoshino et al. (2000) ont introduit, un nouvel automate déterministe et acyclique : le SA (Subsequence Automaton) qui permet de reconnaître toutes les sous-séquences d un ensemble de textes. L un des problèmes principaux auxquels doit faire face une approche d extraction de motifs est de disposer de structures qui soient suffisamment compactes et informatives afin de minimiser l explosion combinatoire liée à d importants espaces de recherche. En effet, l applicabilité des algorithmes
38 Echantillonnage spatio-temporel de flux de données distribués Raja Chiky, Jérôme Cubillé, Alain Dessertaine, Georges Hébrail, Marie-Luce Picard GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS - Département Informatique et Réseaux 46 rue Barrault, Paris Cedex 13 [email protected] EDF R&D - Départements ICAME et OSIRIS 1, Avenue du Général de Gaulle, Clamart [email protected] Résumé. Ces dernières années, sont apparues de nombreuses applications, utilisant des données potentiellement infinies, provenant de façon continue de capteurs distribués. On retrouve ces capteurs dans des domaines aussi divers que la météorologie (établir des prévisions), le domaine militaire (surveiller des zones sensibles), l analyse des consommations électriques (transmettre des alertes en cas de consommation anormale),... Pour faire face à la volumétrie et au taux d arrivée des flux de données, des traitements sont effectués à la volée sur les flux. En particulier, si le système n est pas assez rapide pour traiter toutes les données d un flux, il est possible de construire des résumés de l information. Cette communication a pour objectif de faire un premier point sur nos travaux d échantillonnage dans un environnement de flux de données fortement distribués. Notre approche est basée sur la théorie des sondages, l analyse des données fonctionnelles et la gestion de flux de données. Cette approche sera illustrée par un cas réel : celui des mesures de consommations électriques. 1 Motivations Les entrepôts de données sont de plus en plus alimentés par des flux de données provenant d un grand nombre de capteurs distribués. Malgré l évolution des nouvelles technologies de traitement et de stockage des données, il reste difficile voire impossible de conserver la totalité de l information. Pour faire face à cette inflation, de nombreux travaux (Aggarwal, 2007; Babcock et al, 2002; Muthukrishnan, 2005) ont été menés ces dernières années sur la gestion et l analyse de flux de données : un flux de données est défini comme une séquence continue, potentiellement infinie, de n-uplets (d enregistrements) ayant tous la même structure. L ordre d arrivée des n-uplets n est pas contrôlé, et les données, de par l importance de leur volume et de leur débit d arrivée, ne peuvent pas exhaustivement être stockées sur disque : les données passent, et doivent être traitées à la volée
39 Semantics of Spatial Window over Spatio-Temporal Data Stream Yi Yu,, Talel Abdessalem CIMS center, University of Tongji Shanghai, China Ecole Nationale Supérieure des Télécommunications LTCI - UMR CNRS , rue Barrault, Paris - France [email protected] Résumé. Dans les systèmes DSMS (Data Stream Management Systems), les données en entrée sont infinies et les requêtes sur celles-ci sont actives tout le temps. Dans le but de satisfaire ces caractéristiques, le fenêtrage temporel est largement utilisée pour convertir le flux infini de données sous forme de relations finies. Mais cette technique est inadaptée pour de nombreuses applications émergentes, en particulier les services de localisation. De nombreuses requêtes ne peuvent pas être traitées en utilisant le fenêtrage temporel, ou seraient traitées plus efficacement à l aide d un fenêtrage basé sur l espace (fenêtrage spatial). Dans cet article, nous analysons la nécessité d un fenêtrage spatial sur des flux de données spatio-temporels, et proposons, sur la base du langage de requêtes CQL (Continuous Query Language), une syntaxe et une sémantique associées au fenêtrage spatial. Data stream management systems (DSMS) have emerged to meet the needs of processing continuous changing, unbounded data and real-time responses. The applications include stock quoting, auction processing, network flow monitoring, moving objects monitoring [Abdessalem et al. (2007), Moreira et al. (2000)], etc. In these cases, the common features consist in : 1- the data sources are infinite and real-time changing, 2- queries over data have to produce continuous responses. To cope with the first feature, the window concept is proposed. The idea consists in transforming unbounded data stream into bounded data tables, then queries can be processed as in a traditional database system. For the second feature, query evaluation methods should be executed continuously resulting in a real-time changing of the response. As we mentioned above, window techniques are proposed for solving two issues in data stream processing : infinite data sources and continuous query. In current DSMS, the windowing operation is done using the timestamps of the input data (i.e. temporal attributes). For example, in a network traffic monitoring application it is not possible to store and analyze online the whole input data. We can just continuously monitor the situation for a bounded time interval,
40 Délestage pour l analyse multidimensionnelle de flux de données Sylvain Ferrandiz, Georges Hébrail GET / Télécom Paris 46, rue Barrault F Paris Cedex 13 [email protected] [email protected] Résumé. Dans le contexte de la gestion de flux de données, les données entrent dans le système à leur rythme. Des mécanismes de délestage sont à mettre en place pour qu un tel système puisse faire face aux situations où le débit des données dépasse ses capacités de traitement. Le lien entre réduction de la charge et dégradation de la qualité des résultats doit alors être quantifié. Dans cet article, nous nous plaçons dans le cas où le système est un cube de données, dont la structure est connue a priori, alimenté par un flux de données. Nous proposons un mécanisme de délestage pour les situations de surcharge et quantifions la dégradation de la qualité des résultats dans les cellules du cube. Nous exploitons l inégalité de Hoeffding pour obtenir une borne probabiliste sur l écart entre la valeur attendue et la valeur estimée. 1 La gestion de flux de données Les avancées de l électronique et de l informatique enrichissent continuellement la pratique de la récolte et de la gestion des données. La constante est l accroissement des capacités de traitement, tant au niveau de l acquisition que du stockage et de l accès aux données. Mais lorsque l information doit être extraite instantanément de données récoltées continuellement, le modèle relationnel basé sur des tables atteint ses limites. C est là qu interviennent les flux de données. Un flux de données est une suite de tuples ayant tous la même structure. Cette structure est représentée par un schéma, comprenant le nom des champs du tuple et leur type. La différence entre un flux et une table est le caractère ordonné des tuples. L ordre est souvent déterminé par un champ d agencement (typiquement la date, mais pas nécessairement). On entre dans le cadre de la gestion de flux dès lors que les données du flux n ont pas vocation à être stockées, les données nécessitent un traitement immédiat, les requêtes sont exécutées continuellement (i.e. les flux de données donnent naissance à d autres flux de données). La gestion de flux de données repose sur un modèle "data push" : les données se présentent d elles-mêmes, à leur propre rythme. En conséquence, le système ne maîtrise pas et ne connaît
41 Classification de documents en réseaux petits mondes en vue d apprentissage Khazri Mohamed*, Tmar Mohamed**, Mohand Boughanem***, Abid Mohamed* *Ecole Nationale d'ingénieurs de Sfax, Route de Soukra, 3038, Sfax [email protected] [email protected] **Institut Supérieur d'informatique et du Multimédia de Sfax, 3018, Sfax [email protected] ***Institut de Recherche en Informatique de Toulouse, route de Narbonne, 31000, Toulouse, France [email protected] Les systèmes de recherche d'information préconisent une fonctionnalité très intéressante voire indispensable lors de tout processus de recherche : il s'agit de la reformulation automatique de la requête. Cette fonctionnalité permet de rétablir les choix de l'utilisateur dans la perspective de retrouver plus de documents qui répondent à son besoin en information. Il est à noter à ce niveau que le besoin en information de l'utilisateur est très vague : l'utilisateur ne sait en général pas ce qu'il cherche. Par ailleurs, il peut tolérer un résultat initial imprécis sous réserve de l'améliorer par feedback Rocchio (1971). Faire recours à de nouvelles méthodes d'apprentissage est alors devenu une nécessité. Plusieurs modèles qui ont été auparavant délaissés, tels que la classification, sont repris en vu d'améliorer l'apprentissage en recherche d'information. Nous proposons dans ce papier une méthode d apprentissage en faisant appel aux réseaux petits mondes (small worlds en anglais, Watts (1999)). 2 Notre Approche Les propriétés des réseaux petits mondes paraissent intéressantes dans les problèmes de classification. D'autant plus que ces propriétés sont valuées. Comme application à la recherche d'information, nous présumons qu'un ensemble de documents peut constituer des réseaux petits mondes pour moins qu'ils parlent du même sujet, et qu'une idée peut être transmise d'un document à un autre document si les auteurs partagent le même intérêt. Nos objectifs pour l'intégration des small worlds en recherche d'information ont deux effets : un effet de construction des small worlds par le bais de la classification; et un effet d'estimation de pertinence sur d autres documents. En partant de l hypothèse suivante : «une classe est raisonnable si elle admet certaines propriétés : celles des small worlds». Le premier effet va simplement faire une construction de small worlds de documents homogènes (pertinents ou non pertinents). Pour ce faire, nous proposons trois stratégies : une stratégie de construction de graphes de documents (1), une stratégie de propagation des liens (2), et une stratégie de construction des classes des documents (3). Pour la stratégie (3) nous utiliserons une méthode de classification hiérarchique, et l identification du nombre de classes dépend de la qualité de classification et de la nature de
42 Classification des documents en réseaux petits mondes en vue d apprentissage classes construites. A chaque itération nous calculons une valeur d inertie intra-classe qui permet de quantifier l homogénéité de la classification. Pour des classes réellement construites les coefficients de clustérisation et les distances moyennes montrent que les classes construites admettent les propriétés des small worlds. En partant de l hypothèse suivante : «une classe est un small worlds, et qu'une classe homogène (constituée de documents pertinents ou non pertinents) peut être utilisée comme moyen efficace pour bien constituer l'estimation des scores d'autres documents», le deuxième effet consiste à estimer la pertinence pour d autres documents. Pour traduire la pertinence pour un document il suffit d identifier la classe à laquelle il appartient et de juger de sa pertinence en fonction de la nature de la classe. Ce document est jugé pertinent si la classe résultat contient plus de documents pertinents que de documents non pertinents et est jugé non pertinent si non, 3 Conclusion Nous avons présenté dans cet article une approche statistique de classification des documents. L'approche consiste à définir un nouveau concept d'apprentissage. L'apprentissage consiste à construire des classes qui préservent les propriétés des réseaux petits mondes. Nous admettons que les classes préservant ces propriétés sont des estimateurs de pertinences d'autres documents. L'approche que nous avons proposée consiste à considérer tous les critères pouvant intervenir dans le jugement de l'utilisateur et de leur affecter les meilleurs poids pour que la pertinence utilisateur soit proche de la pertinence système. Les poids des critères considérés sont ajustés par apprentissage. Chaque poids traduit l'intérêt porté par l'utilisateur à celui-ci. Les poids relatifs aux termes peuvent servir de moyen de construction de requête. Nous envisageons de tester l'approche sur une base réelle de documents afin de mesurer l'apport des réseaux petits mondes à la recherche d'information. Nous envisageons également de tester la reformulation de la requête en se basant sur les poids des critères. Avec l effet petit monde, nous envisageons d autres méthodes telles que les méthodes d ordonnancement (ranking effect). Références Watts, D.J. (1999). Small Worlds. Princeton university press. Princeton. Rocchio, J. (1971). Relevance feedback in information retrieval. SMART retrieval-system: experiments in automatic document processing, Summary This paper presents a statistical approach to classify a corpus of documents. The corpus is represented by a graph where nodes are represented by the documents and links are defined by some criteria. The classification aims to build homogenous small worlds (containing as much as possible only relevant documents or non relevant documents).these classes are used to estimate the scores of other documents
43 Apport des traitements morpho-syntaxiques pour l alignement des définitions par une classification SVM Laura Dioşan,, Alexandrina Rogozan, Jean-Pierre Pécuchet LITIS (EA 4108) - INSA Rouen, France Babeş Bolyai University, Computer Science Department, Cluj Napoca, Romania [email protected], [email protected], [email protected] Résumé. Cet article propose une méthode d alignement automatique de définitions destinée à améliorer la fusion entre des terminologies spécialisées et un vocabulaire médical généraliste par un classifieur de type SVM (Support Vecteur Machine) et une représentation compacte et pertinente d un couple de définitions par concaténation d un ensemble de mesures de similarité, afin de tenir compte de leur complémentarité, auquelle nous ajoutons les longueurs de chacune des définitions. Trois niveaux syntaxiques ont été investigués. Le modèle fondé sur un apprentissage à partir des groupes nominaux de type Noms-Adjectifs aboutit aux meilleures performances. Les systèmes de recherche d informations reposent sur une terminologie spécifique d un domaine d application que seuls les experts possèdent. En effet, les utilisateurs naïfs utilisent un langage généraliste pour formuler leurs requêtes. Pour qu un système de recherche puisse répondre efficacement aux requêtes de ces derniers, il devrait pouvoir tirer parti des liens sémantiques entre des concepts véhiculés dans le langage généraliste et dans le langage spécialisé. Une des tâches du projet VODEL est de réaliser un alignement automatique de définitions, c est-à-dire de mettre en correspondance des définitions associées à un même concept, mais ayant des vedettes différentes. Le cadre choisi étant celui du domaine médical, les ressources terminologiques de spécialité sont tirées du thésaurus MeSH et du dictionnaire VIDAL, alors que le vocabulaire généraliste est représenté par des définitions appartenant à l encyclopédie Wikipédia et au réseau sémantique LDI de Memodata 1. Aligner deux définitions revient à résoudre efficacement un problème de classification binaire supervisée. Notre modèle d alignement passe par deux étapes : premièrement, une représentation compacte des définitions et deuxièmement, une classification supervisée de couples de définitions. Chaque définition a été représentée par un sac des mots, après un traitement linguistique (segmentation, lemmatisation et étiquetage morpho-syntaxique) permettant de filtrer les mots vides et de ne garder que les noms (N), les noms et les adjectifs (NA), et respectivement les noms, les adjectifs et les verbes (NAV). Nous proposons une représentation compacte et pertinente d un couple de définitions par concaténation d un ensemble de mesures de similarité classiques (Matching, Dice, Jaccard, Overlap, Cosine), afin de tenir compte de leur complémentarité, auquel nous ajoutons les longueurs de chacune des définitions. Nous proposons un alignement des terminologies par un classifieur de type SVM (Séparateur à Vaste 1 Le corpus de définitions a été réalisé dans le cadre du projet VODEL par G. Lortal, I. Bou Salem et M. Wang
44 Vers l intégration de la prédiction dans les cubes OLAP Anouck Bodin-Niemczuk, Riadh Ben Messaoud Sabine Loudcher Rabaséda, Omar Boussaid Laboratoire ERIC, Université Lumière Lyon 2 5 avenue Pierre Mendès-France, Bron Cedex {abodin rbenmessaoud}@eric.univ-lyon2.fr { sabine.loudcher omar.boussaid}@univ-lyon2.fr L analyse en ligne OLAP (On Line Analytical Processing) soutient les entrepôts de données dans le processus d aide à la décision. Cependant, il n existe pas d outils pour guider l utilisateur dans l exploration, ni pour approfondir l analyse vers l explication et la prédiction. Dans un processus décisionnel, un utilisateur peut vouloir anticiper la réalisation d évènements futurs. Le couplage de la fouille de données avec la technologie OLAP permet d assister l utilisateur dans cette tâche pour l extraction de nouvelles connaissances. Nous discernons une dichotomie entre les travaux étudiés pour la prédiction dans l OLAP. D un côté, Chen et al. (2006) intègrent un processus complet de fouille de données pour l élaboration d un modèle de prédiction. D un autre côté, Sarawagi et al. (1998) intègrent parfaitement le modèle dans l environnement OLAP. La combinaison des deux approches permettrait une réelle intégration de la prédiction à l analyse en ligne. Nous proposons un cadre de prédiction OLAP fondé à la fois sur la philosophie OLAP et sur la fouille de données. Via une technique de type arbre de régression, l utilisateur peut prédire la valeur de la mesure d un nouveau fait selon un contexte d analyse défini par ses soins. Nous nous plaçons dans le cadre du "What if analysis" où le procédé de projection dans l avenir illustre une démarche centrée sur l utilisateur OLAP. Nous utilisons un processus complet d apprentissage automatique et exploitons les résultats obtenus dans le cube de données OLAP. Nous réalisons un premier pas vers un cadre de prédiction OLAP en y associant les arbres de régression. Notre démarche se résume de la manière suivante : Le point de départ est un contexte d analyse C (sous-cube) avec n faits OLAP observés selon la mesure quantitative M q, défini par l utilisateur au sein d un cube de données C. Pour la construction et la validation du modèle, le contexte d analyse est segmenté en deux : 70% des faits servent à l apprentissage et 30% à l évaluation du modèle. Les critères d évaluation sont le taux d erreur moyen et la réduction de l erreur. Soit R(X Y ; S; σ) une règle de décision obtenue dans le modèle. X est une conjonction et/ou disjonction de modalités. Y est la valeur moyenne prédite pour la mesure M q sachant X. S est le support de la règle et σ est l écart-type de M q dans l ensemble d apprentissage vérifiant X. Pour exploiter les règles dans l environnement OLAP nous procédons ainsi : pour intégrer la règle R(X Y, S, σ) dans le sous-cube C, on affecte à la cellule c vide qui vérifie X, la valeur prédite Y. Les agrégats à un niveau hiérarchique supérieur peuvent alors êtres calculés en y intégrant les valeurs prédites aux niveaux inférieurs. Afin de valoriser le
45 Vers l intégration de la prédiction dans les cubes OLAP modèle dans OLAP, nous utilisons des indicateurs visuels aidant l interprétation des résultats par l utilisateur. Avec une nuance de couleur il distingue les valeurs prédites des faits originels. Nous avons expérimenté notre proposition sur un jeu de données médicales relatif au dépistage du cancer du sein (Digital Database for Screening Mammography 1 ). Après modélisation selon un schéma en étoile et définition d un contexte d analyse nous avons faits agrégés. Nous utilisons l algorithme d apprentissage AID (Automatic Interaction Detection) pour construire un arbre de régression. L erreur moyenne est de 0,11 et la réduction de l erreur est de 0,64. Le modèle peut donc être exploité avec précautions. Dans le cadre du "What if analysis", nous répondons à la question suivante : À combien de régions suspectes doit-on s attendre si on a un patient âgé de 50 à 54 ans présentant une pathologie maligne de type calcifications amorphes et si l indice d évaluation de la part du médecin est de 3 sachant que la subtilité de l évaluation est de niveau 2 et que l examen est réalisé avec un scanner de type laser lumineux? Sur 6 dimensions, 2 sont retenues par le modèle comme étant explicatives : l indice d évaluation du médecin et le type de scanner. Le nombre de régions suspectes prédit est en moyenne de 2,77. Notre approche de couplage de l OLAP avec des méthodes de prédiction montre ici une grande partie de son potentiel. Nos travaux ouvrent diverses perspectives de recherche. Nous souhaitons étendre les modalités d exploitation du modèle de prédiction dans l OLAP. Nous pensons notamment aux cas où l arbre de régression ne renvoie pas un modèle fiable à la vue des critères de validité définis. Nous souhaitons aussi prendre en compte le nombre de faits sur lequel repose la prédiction. En effet, les valeurs de mesure prédites sont souvent indiquées pour des agrégats de faits, leur nombre permettrait à l utilisateur d aller plus loin dans son analyse. Ceci apporterait aussi une première piste dans le cas où l utilisateur souhaite explorer un niveau d agrégation plus fin considérant les prédictions réalisées aux niveaux supérieurs. Références Chen, B.-C., R. Ramakrishnan, J. W. Shavlik, et P. Tamma (2006). Bellwether Analysis : Predicting Global Aggregates from Local Regions. In Proceedings of the 32 nd International Conference on Very Large Data Bases (VLDB 06), Seoul, Korea, pp ACM Press. Sarawagi, S., R. Agrawal, et N. Megiddo (1998). Discovery-driven Exploration of OLAP Data Cubes. In Proceedings of the 6 th International Conference on Extending Database Technology (EDBT 98), Valencia, Spain, pp Springer. Summary In order to enrich the decision-making process, we propose to couple OLAP and data mining with a complete machine learning process. We extend OLAP to prediction capabilities. We use regression trees to predict the measure values of new data aggregates. 1 http ://marathon.csee.usf.edu/mammography/database.html
46 Un nouveau système immunitaire artificiel pour l apprentissage non supervisé Rachid Elmeziane, Ilham Berrada et Ismail Kassou Laboratoire Al Khawarizmi- ENSIAS- BP 713- Agdal Rabat- Maroc {meziane, iberrada, kassou}@ensias.ma Résumé. Nous proposons dans ce papier un nouveau système immunitaire artificiel (SIA) appelé système NK, pour la détection de comportement du soi non soi avec une approche non supervisée basée sur le mécanisme de cellule NK (Naturel Killer). Dans ce papier, le système NK est appliqué à la détection de fraude en téléphonie mobile. 1 Contexte Dans le but de résoudre des problèmes complexes du monde réel dans des domaines différents tels que l'optimisation, la détection d'anomalies ou la robotique, des heuristiques inspirées de mécanismes naturels ont été exploitées avec succès. Plusieurs chercheurs se sont intéressés aux systèmes immunitaires biologiques (SIB) comme un nouveau paradigme de l intelligence artificielle et ont développé des applications industrielles en ordonnancement, en robotique, ou en détection d intrusion. Néanmoins, peu de travaux ont traité la problématique de la détection de fraude de comportement en télécommunications. Dans ce papier, on propose un nouveau système immunitaire artificiel (SIA) pour la détection du comportement du soi non soi avec une approche non supervisée basée sur le mécanisme SIB dit inné de cellule NK. Un tel système diffère des SIA existants qui se basent sur le mécanisme supervisé adaptatif de SIB des cellules T et B (Garrett 2005). 2 Présentation du système NK proposé L algorithme de notre système NK, décrit dans le tableau TAB1, comporte quatre phases qui concernent la reconnaissance et l'extraction de modèles d instances puis leur transformation en signaux d inhibition et d activation. La dernière phase concerne la détection de la présence de comportements anormaux sur la base de l analyse des densités spectrales ou de filtrage des signaux. Notons ici que la terminologie signal utilisée correspond à un signal discret à temps discret et que l entrée de l algorithme est une série chronologique vectorielle. L algorithme du système NK élaboré a été testé sur des données simulées de instances de télécommunication, relatives aux trafics de certains usagers chez un intermédiaire, et qui sont infectées par un comportement frauduleux pour les instances entre et et dont la proportion représente 0.01% de l'échantillon. Les résultats obtenus sont satisfaisants car, malgré la proportion très faible des opérations frauduleuses dans l échantillon, notre système NK a réussi à les détecter (cf. FIG. 3) et à identifier les instances de comportements frauduleux (cf. FIG. 1 et FIG. 2). Ces mêmes résultats seront comparés avec
47 Génération de séquence résumé par une nouvelle approche basée sur le Soft Computing Youssef Hadi,, Rachid El Meziane Rachid Oulad Haj Thami, Laboratoire GSCM_LRIT, Faculté des Sciences, Université Mohamed V Agdal B.P Rabat, Maroc [email protected], Laboratoire SI2M, Equipe WiM, ENSIAS, Université Mohamed V Souissi B.P. 713 Rabat-Agdal, Maroc [email protected] ENSIAS, Université Mohamed V Souissi, B.P. 713 Rabat-Agdal, Maroc [email protected] Résumé. Cet article propose une approche d abstraction des séquences vidéo basée sur le soft computing. Etant donné une longueur cible du condensé vidéo, on cherche les segments vidéo qui couvrent le maximum du visuel de la vidéo originale en respectant la longueur du condensé. 1 La génération des séquences résumées proposée La génération de résumé vidéo est une technique alternative prometteuse utilisée dans l indexation et la recherche vidéo (Truong et Venkatesh, 2007). L objectif de cet article est de proposer une approche de génération des séquences résumées utilisant le soft computing vue son efficacité dans les systèmes tolérant l imprécision et l incertitude (Zadeh, 1956). Etant donné une longueur cible du condensé vidéo, on veut calculer les segments vidéo qui couvrent le maximum du visuel en respectant la longueur du condensé. Les segments vidéo sont représentés par des images clés et décrites par un histogramme de couleur. L histogramme est un outil très ordinaire pour résumer visuellement la distribution d un échantillon de données. Pour maximiser le visuel on doit maximiser la présence de l information de la couleur et sa distribution. Ce pendant, le problème revient à maximiser l occurrence et la distribution du visuel représenté par l information de couleur du contenu vidéo. En effet, l occurrence et la distribution de ce contenu visuel représente des variables linguistiques, c.-à-d. "l occurrence est maximale" et "la distribution est maximale". L occurrence et la distribution représentent deux ensembles flous qui nécessitent une détermination de leur fonction d appartenance. Dans notre proposition, nous segmentons les séquences vidéo en plans (shots) comme unité de base en utilisant une transformation de couleur RGB réversible comme une représentation du contenu vidéo (Hadi et al., 2006b). Après, nous sélectionnons les images représentatives (keyframes) à partir des plans vidéo on se basant sur l estimation du mouvement local (Essannouni et al., 2006). L algorithme d extraction des images représentatives utilisé est basé sur un
48 Évaluation des critères asymétriques pour les arbres de décision Simon Marcellin Djamel A. Zighed Gilbert Ritschard Université Lumière Lyon 2 {abdelkader.zighed,simon.marcellin}@univ-lyon2.fr Université de Genève [email protected] Résumé. Pour construire des arbres de décision sur des données déséquilibrées, des auteurs ont proposés des mesures d entropie asymétriques. Le problème de l évaluation de ces arbres se pose ensuite. Cet article propose d évaluer la qualité d arbres de décision basés sur une mesure d entropie asymétrique. L apprentissage supervisé sur données déséquilibrées fait l objet de nombreux travaux (Provost (2000)). Pour le cas des arbres de décision, différents auteurs ont proposé d utiliser des mesures d entropie prenant en compte l asymétrie pour la recherche du meilleur éclatement. Nous avons ainsi proposé une axiomatique permettant de définir une famille de mesures asymétriques (Zighed et al. (2007)). Comment évaluer la qualité des arbres construits avec de telles mesures? En effet, les critères de performances globaux (comme le taux d erreur) ne prennent pas en compte l asymétrie des classes. Ceux qui évaluent les performances du modèle sur une seule classe sont tributaires de la règle d affectation d une classe dans chaque feuille. Or, dans le cas de données déséquilibrées, la règle majoritaire utilisée habituellement ne convient pas. Nous proposons donc une méthodologie et une évaluation des arbres construits avec une entropie asymétrique. 2 Méthodes d évaluation Nous avons retenu deux méthodes pour évaluer les arbres de décisions asymétriques : les courbes ROC et les graphes rappel / précision. Les courbes ROC permettent d évaluer la structure des arbres indépendamment du déséquilibre des classes (Provost et Fawcett (1997)). Les graphes rappel / précision permettent quant à eux d évaluer les performances du modèle sur une classe, en faisant varier la règle d affectation. Ces deux méthodes permettent ainsi de tenir compte des deux problèmes cités en introduction
49 Principes d Analyse des données symboliques et application à la détection d anomalies sur des ouvrages publics E. Diday *, C. Crémona**, F. Goupil*, F. Afonso***, M. Rahal* *CEREMADE Paris Dauphine, Place du Mal de Lattre de Tassigny Paris Cedex 16 (goupil, diday, ** Laboratoire Central des Ponts et Chaussées Paris. ***SYROKKO - 6, rue Ambroise Jacquin Fontenay-en-Parisis [email protected] Résumé. L analyse des données Symboliques a pour objectif de fournir des résultats complémentaires à ceux fournis par la fouille de données classique en créant des concepts issus de données simples ou complexes puis en analysant ces concepts par des descriptions symboliques où les variables expriment la variation des instances de ces concepts en prenant des valeurs intervalle, histogramme, suites, munies de règles et de taxonomies, etc. On appelle «concept», une entité qui se définit par un croisement de catégories. L objet de l ADS est d analyser des ensembles de concepts décrits par des variables symboliques. Ces variables sont non seulement à valeur numérique ou qualitative mais aussi à valeur intervalle, histogramme, loi de probabilité, fonction, ensemble de valeurs etc., afin de tenir compte de la variation des valeurs prises par les individus de l extension de chaque concept. L ADS et son logiciel SODAS comportent deux étapes : la première consiste à construire la description des concepts à partir de celle des individus, la seconde consiste à analyser le tableau de données symboliques ainsi créé en étendant les méthodes de la Statistique ou du Data Mining aux concepts considérés comme unités statistiques de plus haut niveau. Nous illustrons ces deux étapes en montrant trois avantages de l ADS : i) on peut étudier les bonnes unités statistiques à un niveau de généralisation voulu par l utilisateur ; ii) on réduit la taille des données en considérant comme unités d étude, des classes plutôt que les individus ; iii) on réduit le nombre de variables du fait qu elles sont à valeur symbolique (par exemple, à valeur «histogramme» plutôt qu à valeur «fréquence d une catégorie» ou à valeur intervalle plutôt qu à valeur «borne d intervalle»). On utilise pour cela le logiciel SODAS (voir l ouvrage collectif issu du projet européen ASSO d EUROSTAT : Diday, Noirhomme (2007)). 2 Description Les données fournies par le LCPC (Laboratoire Central des Ponts et Chaussées) sont constituées d un ensemble de 14 TGV qui en passant à une température donnée sur un pont déclenchent des signaux de 9 capteurs répartis à différents endroits du pont (voir la figure 1). En entrée, on dispose d un tableau de données symboliques qui contient dans la case (i, j) le
50 Echantillonnage adaptatif de jeux de données déséquilibrés pour les forêts aléatoires Julien Thomas,, Pierre-Emmanuel Jouve, Elie Prudhomme Société Fenics Lyon, France. Université Lumière Lyon 2, Laboratoire ERIC. Résumé. Dans nombre d applications, les données présentent un déséquilibre entre les classes. La prédiction est alors souvent détériorée pour la classe minoritaire. Pour contourner cela, nous proposons un échantillonnage guidé, lors des itérations successives d une forêt aléatoire, par les besoins de l utilisateur. Introduction Les jeux de données déséquilibrés constituent un problème important de l apprentissage supervisé. Or la plupart des modèles sont conçus pour des données équilibrées. Leur utilisation sur des données déséquilibrées conduit souvent à une mauvaise prédiction de la classe minoritaire. Pourtant, cette situation se retrouve régulièrement dans la pratique (Détection de pannes (Pazzani et al., 1994), textmining, aide aux diagnostics médicaux...). Ces applications ont besoin de disposer de méthodes capables de prédire la classe minoritaire avec des performances en adéquation avec les attentes de l utilisateur. L évantail des solutions existantes vont de l échantillonnage (Japkowicz, 2000; Chawla et al., 2002), à la construction d un modèle de prédiction spécifique à la classe d intérêt, en passant par l utilisation de matrices de coût (Pazzani et al., 1994; Kubat et al., 1998). FUNSS L idée de FUNSS (Fitting User Needs Sampling Strategy) est de traduire le besoin en rappel pour la classe minoritaire en terme de marge de décision entre les individus de chaque classe. Les individus minoritaires (positifs) sont entourés par une quantité importante d individus majoritaires (négatifs) qui empèchent le classifieur de les apprendre correctemment. Pour augmenter le rappel, une solution consiste à choisir des individus négatifs éloignés des individus positifs. A l inverse, pour augmenter la précision, il suffit de garder les individus négatifs proches des individus positifs. FUNSS reprend ce principe en modifiant l échantillonnage réalisé au cours des forêts aléatoires en un échantillonnage dirigé. A chaque tirage avec remise, le processus est le suivant : si l individu est positif, il est intégré dans le nouvel échantillon ; sinon un groupe de n individus négatifs est tiré ainsi qu un individu positif. L individu négatif du groupe qui est soit le plus proche, soit le plus éloigné de l individu positif est intégré dans le nouvel échantillon. Chaque échantillon de la forêt aléatoire est donc l occasion d augmenter ou de diminuer le rappel pour atteindre une valeur fixée par l utilisateur. Pour cela, le rappel de la forêt est estimé à chaque nouvel arbre à l aide des individus out-of-bag. S il est en dessous du rappel désiré, l échantillonnage suivant sélectionne des individus négatifs éloignés. Dans le cas contraire, les individus négatifs proches sont favorisés. Enfin pour déterminer l individu le plus proche d une cible, les individus sont ordonnés pour chaque attribut sur leur proximité à cette cible. La distance utilisée est alors la somme des rangs d un individu
51 Une proposition pour l extraction de relations non prédicatives Mouna Kamel IRIT-Université Paul Sabatier Toulouse Cedex [email protected] Résumé. Les relations sémantiques généralement reconnues par les méthodes d extraction sont portées par des structures de type prédicats-arguments. Or, l information recherchée est souvent répartie sur plusieurs phrases. Pour détecter ces relations dites complexes, nous proposons un modèle de représentation des connaissances basé sur les graphes conceptuels. 1 Problématique L'Extraction d Information consiste à identifier de l'information bien précise d'un texte en langue naturelle et à la représenter sous forme structurée. Les composantes de l information recherchée sont généralement prédéfinies et circonscrites à un domaine spécifique, et les principaux travaux réalisés en matière d identification de relations sémantiques ont essentiellement concerné les relations portées par une structure de type prédicats-arguments. Les principales approches d identification de ces relations ont été basées sur l analyse syntaxique (identification du verbe et ses arguments) (Khélif, 2006), ou sur la définition de patrons lexico-syntaxiques (Aussenac et al., 2000). L étude de corpus de domaines différents montre que bonne partie de l information pertinente peut aussi être distribuée sur plusieurs phrases, par le biais de relations exprimées à l aide de variations linguistiques, comme la coréférence, l anaphore ou l ellipse. Les méthodes classiques d extraction de relations ne sont alors plus adaptées. La résolution de relations non prédicatives, et plus particulièrement d une certaine forme elliptique (formes passives où l argument agent est effacé) utilisée fréquemment, nous a conduits à proposer une représentation des connaissances du domaine considéré, à l aide du modèle des graphes conceptuels, car ce modèle est doté d opérations et offre des procédures de raisonnement (Salvat, 1997). 2 Identification de relations non prédicatives Nous avons étudié un corpus de résumés d articles scientifiques décrivant des expériences génétiques menées par des chercheurs sur un ensemble de patients porteurs d une même maladie génétique, le but étant de localiser les régions chromosomiques affectées. Une des relations pertinentes identifiées est Conditions Expérimentales qui relie l ensemble des patients observés au type d analyse subie. Dans l exemple "A study was conducted on 22 MM patients. The authors used G-banding", la relation Conditions Expérimentales ne peut être détectée par une approche classique. La mise en œuvre d une procédure de raisonnement qui établit un lien entre les auteurs (authors) et l étude (study) menée par les auteurs (authors)
52 Méthodologie de définition de e-services pour la gestion des connaissances à partir d un plateau de créativité : application au e-learning instrumental Noël Conruyt, Olivier Sébastien, David Grosser IREMIA, Université de la Réunion, 15, av. René Cassin, Saint-Denis conruyt, sebastien, [email protected] Résumé. En s appuyant sur la théorie de l activité, nous avons mis au point une méthodologie de gestion des connaissances à base de e-services sur un plateau de créativité visant à faire piloter le processus de fabrication métier par celui des usages. Nous l avons testé avec la réalisation d un e-service d apprentissage instrumental de pièces de musique à la guitare (E-guitare). Dans le contexte mondial de compétitivité, de recherche et d innovation, la conception de e-services, c est-à-dire de produits/services accessibles au travers de l Internet, nécessite un développement qui débouche sur l usage (Musso et al. (2005). En effet, dans le monde mouvant des Technologies de l Information et de la Communication (TIC), et notamment avec l émergence du Web 2.0, le progrès ne réside plus aujourd hui seulement dans l objet technologique en lui-même, mais bien dans sa capacité à intégrer des contenus variés que l on cherche à produire en co-construction avec les utilisateurs pour garantir son utilité. La gestion des connaissances se trouve donc plongée au cœur de ce processus créatif d innovation par l usage (Poulain, 2002), à la fois démocratique (von Hippel (2005)) et participatif (Tapscott et Williams (2006)). Ce type de gestion des connaissances dont le but est de trouver des solutions centrées utilisateurs ne procède pas seulement à partir de données textuelles du domaine à extraire et à traiter. Par exemple dans le domaine du e-learning instrumental, les connaissances musicales ne sont pas formalisables uniquement par du texte codifié via XML (partition de musique en musicxml, mais aussi et surtout par d autres média (son, image) qui rendent mieux compte du sens et de l intention désirée par l interprète sur les objets de la partition (notes, accords, doigtés, silences, phrasé,...). Ce sont ces objets de l interprétation humaine que nous cherchons à extraire et gérer car ils coïncident avec une vraie demande (Pachet (2004)) pour la diffusion des connaissances. La méthodologie que nous proposons s appuie sur l identification, l extraction et la conversion de ces objets multimédia sur un plateau de créativité. Ils proviennent des savoir-faire implicites des interprètes experts. Nous souhaitons les expliciter (Nonaka et Takeuchi (1995)) avec des outils appropriés en tenant compte des pratiques du domaine. Pour cela on met en œuvre des processus itératifs tant du côté de l offre (métier) que de la demande (usage) qui s appuient sur la démarche expérimentale. On combine ainsi des phases de généralisation inductive à partir d exemples (conception et élaboration du e-service), de vérification des hypothèses (expérimentation du e-service) à l aide de focus groupes (analyse qualitative) et de questionnaires (analyse semi-quantitative), et de mise en application de solutions de manière déductive (déclinaison de produits ciblés). IKBS (Conruyt et Grosser (2003))
53 Stratégies de classification non supervisée basées sur fenêtres superposées : application aux données d usage du Web Alzennyr Da Silva, Yves Lechevallier Projet AxIS, INRIA Rocquencourt Domaine de Voluceau, Rocquencourt, B.P Le Chesnay cedex France {Alzennyr.Da_Silva, Yves.Lechevallier}@inria.fr Résumé. Un problème majeur se pose dans le domaine des flux de données : la distribution sous-jacente des données peut changer sur le temps. Dans cet article, nous proposons trois stratégies de classification non supervisée basée sur des fenêtres superposées. Notre objectif est de pouvoir repérer ces changements dans le temps. Notre approche est appliquée sur un benchmark de données réelles et les conclusions obtenues sont basées sur deux indices de comparaison de partitions. Dans cet article, nous proposons trois stratégies de classification non supervisée appliquées sur fenêtres superposées. Notre objectif est de pouvoir repérer les changements de la distribution sous-jacente d un flux de donnés sur le temps. Notre approche consiste donc à fixer a priori la taille de la fenêtre et appliquer un algorithme de classification non supervisée sur les données contenues à l intérieur de la fenêtre. Nous définissons deux types de partitionnement de données sur les fenêtres : partitionnement par nombre d effectifs (fenêtre logique) et partitionnement par intervalle de temps (fenêtre de temps). L idée principale est de faire glisser la fenêtre sur le temps de telle façon que des nouvelles données soient rajoutées dans la fenêtre et par conséquence, les données les plus anciennes en soient éliminées. L action de glissement de la fenêtre sur les données est fait de telle manière à ce qu il y ait toujours une zone de chevauchement entre les deux ensembles de données contenues dans la fenêtre avant et après son glissement. Chaque fois qu une nouvelle fenêtre est définie, l algorithme de classification non supervisé est appliqué sur les données contenues dans la fenêtre, ce qui définit une partition et un ensemble de prototypes. La détection des possibles changements est faite par la comparaison de deux partitions obtenues sur le même ensemble d individus. Dans ce contexte, nous proposons trois types de comparaisons de partitions : comparaison sur les données de l intersection, comparaison sur les données de l union et comparaison sur la totalité des données
54 Une J-mesure orientée pour élaguer des modèles de chroniques Nabil Benayadi and Marc Le Goc LSIS, UMR CNRS 6168, Université Paul Cézanne Domaine Universitaire St Jérôme Les systèmes de supervision de la plupart des applications industrielles génèrent une très grande quantité d informations et les collectent dans des bases de données. Ce papier concerne la découverte de modèles de chroniques à partir de séquences d événements. Chaque événement appartient à une certaine classe. Selon l approche stochastique (Le Goc et al. (2005)), un ensemble de séquences est représenté sous la forme d une chaîne de Markov afin de l utiliser par la suite pour générer un modèle de chroniques (Le Goc et al. (2005)) sous forme de relations binaires entre classes d événements C i C o. Le nombre des relations binaires peut être très grand, par conséquent une réduction de ce nombre est nécessaire. Pour cela, nous proposons une adaptation de la J-Measure de la théorie de l information aux chaînes de Markov, la BJ-Measure, pour formuler des heuristiques d élimination d hypothèses. 2 Élagage d un modèle de chroniques Considérant la propriété d absence de mémoire de la chaîne de Markov, la relation C i C o entre deux classes C i et C o peut être considérée comme l une des quatre relations entre deux variables aléatoires binaires y = {C i, C i } et x = {C o, C o }, connectées à travers un canal binaire discret sans mémoire (Shannon (1948)), avec C i C ω {C i } et C o C ω {C o }. Les occurrences de la classe d événement C i portent de l information sur les occurrences de C o dans la séquence ω si et seulement si p(c o C i ) > p(c o ). La relation binaire entre C i et C o dépend de l écart entre p(c o ) et p(c o C i ). Nous mesurons cet écart par la formule suivante : BJM(C i C o ) = p(c o C i ) log 2 ( p(co C i ) ) + 1 p(c o ) C o p( Co C i ) log 2 ( p( Co C i ) ) (1) p( C o ) Soit S = {C i C o } un ensemble de relations binaires construites à partir de la séquence ω. Selon la propriété d absence de mémoire de la chaîne de Markov, les relations binaires contenues dans S sont indépendantes. L ensemble S est vu comme une succession de plusieurs canals binaires de transmissions sans mémoire. La BJ-Measure d un chemin M = {C i
55 C i+1 } i=0...n 1 est le produit de nombre de relations binaires et la somme des BJ-Measure de chaque relation binaire C i C i+1 de M. BJM(M) = n BJM(C i C i+1 ) (2) i=0,...,n 1 La probabilité p(m) d un chemin M = {C i C i+1 } i=0...n 1 dans une matrice de probabilités de transitions d une séquence ω peut être calculée en utilisant la relation de Chapmann- Kolmogorov. L élagage consiste à trouver un bon compromis entre la probabilité d un chemin M et sa quantité d information qui le traverse. Pour cela, nous utilisons l heuristique L(M) = p(m) BJM(M). Notre approche a été appliquée sur les séquences générées par le système à base de connaissances SACHEM. Nous nous sommes intéressés à la prédiction TGS TGS FT ω FT ω SS BD SS BD FIG. 1 Expertise (1995) FIG. 2 Relations observées en 2007 des occurrences associées à la variable appelée omega. La séquence étudiée contient 7682 occurrences de classes d événements. Le nombre des relations binaires générées est L application de l heuristique L(M) permet d élaguer l ensemble des relations afin de garder que relations binaires. Grâce à la définition de la notion de classe, nous avons construit un modèle fonctionnel en substituant chacun des identifiants de classe par la variable associée. Le graphe de la figure 2 indique les variables ayant un impact sur la variable omega. Ce graphe peut être comparé avec les connaissances a priori formulées par les experts en 1995 (cf Figure 1). Le graphe (Figure 1) donné par les connaissances des experts est inclus dans celui donné par l Approche Stochastique (figure 2) sauf en ce qui concerne le sens de la relation entre les variables FT et BD. Références Le Goc, M., P. Bouché, et N. Giambiasi (2005). Stochastic modeling of continuous time discrete event sequence for diagnosis. 16th International Workshop on Principles of Diagnosis (DX 05) Pacific Grove, California, USA. Shannon, C. (1948). A mathematical theory of communication. Bell System Technical Journal 27, Summary In this paper, we propose to adapt the Information Theory J-Measure to Markov chains, the BJ-Measure, to define heuristics to prune the set of binary relations generated by the stochastic approach
56 Extraction et validation par croisement des relations d une ontologie de domaine Lobna Karoui*, ** * Laboratoire Epitech de Recherche en Informatique Appliquée L.E.R.I.A, 24 rue Pasteur Le Kremlin Bicêtre, France **Supelec, Plateau de Moulon, Gif-sur-Yvette, France [email protected] Face à de grandes quantités de documents web, notre objectif est d extraire et de valider semi-automatiquement des relations d un domaine. Dans l état de l art, l extraction des relations a été faite soit par une approche statistique, une approche linguistique ou une approche hybride. De plus, l intérêt a été toujours porté sur un voire deux types de relations. A contrario, notre objectif est d extraire des relations de différents types en combinant des analyses de textes et en considérant les caractéristiques des mots. Dans cet article, nous avons défini un algorithme contextuel de découverte de relations qui combine différentes analyses (lexicale, syntaxique et statistique) pour définir des processus complémentaires qui assurent l extraction de relations variées et pertinentes. Notre algorithme établit des opérations de croisements entre analyses afin de pouvoir valider certaines relations. Les relations valides, comme celles invalides, seront présentées à l expert du domaine mais séparément. 2 La découverte des relations La notion de contexte. Pour l extraction des relations, nous souhaitons trouver les mots qui sont reliés au mot étudié. Donc, nous cherchons des contextes qui contiennent ces mots reliés. Pour cela, nous avons défini différents contextes et nous les avons catégorisés en quatre types: le contexte structurel, le contexte linguistique (centré autour du verbe, globalement syntaxique et lexical), le contexte documentaire (paragraphe) et le contexte fenêtre (avec un degré de proximité). Notre approche utilise toutes ces analyses afin d extraire de nouvelles relations (en plus de celles existantes dans la hiérarchie) et de les valider automatiquement. L algorithme contextuel de découverte des relations. Il applique différents types d'analyses pour extraire et évaluer les relations. Il dépend de certains paramètres comme le degré de confiance (DC), NO est le pourcentage d occurrences de mots dans le corpus (NO) et FN est la fréquence normalisée des mots dans le corpus (FN). Ces paramètres sont utilisés lors du filtre statistique ainsi que la validation. Le DC doit être défini par l utilisateur vu qu il explique sa confiance en l application. Par contre, NO et FN peuvent être définis soit par l expert du domaine, soit par le système en les déduisant de la valeur de DC ou par défaut (valeur définie par le concepteur du système). Dans le cas où le système est utilisé pour calculer les valeurs de NO et FN, si la valeur de DC est supérieure à 50% leurs valeurs (par défaut) seront maintenues, sinon elles seront multipliées par deux. Notre algorithme catégorise quatre types de relations extraites : valides, invalides, déduites et étiquetées. Une relation valide est celle qui est récupérée après une opération de croisement entre analyses. Une relation invalide est celle qui n a pas été retrouvé dans deux analyses
57 Extraction et validation par croisement des relations d une ontologie de domaine Notre algorithme est composé de cinq étapes. Une première étape applique les différentes analyses pour extraire les relations. Une seconde étape applique un filtre interne pour éliminer les relations qui représentent les liaisons des mots à l intérieur des classes validées. L étape trois applique un filtre par croisement des relations résultantes des différentes analyses. Nous proposons deux types de croisements complets (qui nécessitent que la relation existe dans les deux analyses pour qu elle soit retenue) pour la première étape de validation : un croisement au sein de l analyse statistique. Ce croisement est fait entre les relations structurées et les relations paragraphes vu qu une structure telle que définie dans notre démarche (contexte structurel) n est pas systématiquement incluse dans un paragraphe. D où l intérêt de recueillir ces relations qui se trouvent dans les deux résultats de nos contextes de même nature ; un croisement hybride réservé pour les relations provenant de l analyse fenêtre par proximité et celles des analyses syntaxiques et lexicales. La quatrième étape prend en compte l ensemble des relations invalides et applique un filtre statistique. Ce dernier est fait en définissant la valeur de deux paramètres à savoir le nombre d occurrences NO et la fréquence normalisée FN. L étape 5 et 6 s occupent respectivement d établir les validations par degré de confiance et les déductions de nouvelles relations à partir de l existant et d étiqueter ces relations qu elles soient valides, invalides ou déduites. Expérimentations. Après avoir appliqué notre algorithme sur un corpus de 565 documents HTML en langue française relatif au domaine du tourisme, nous avons pu extraire: relations centrées autour du verbe (2251) ; relations globalement syntaxiques (34439) ; relations lexicales (5793) ; relations paragraphe (72476) ; relations structurelles (16966) ; relations fenêtres (206010). Par la suite, nous avons établit deux types de croisements à savoir un croisement entre les relations structurelles et paragraphes, et un second entre les relations fenêtres et lexicales. Le premier croisement nous a permis de retenir 372 relations (Hôtellerie/ hébergement, Réservation/hébergement, Camping/dormir). Quant au second croisement, nous avons pu avoir 268 relations (Catholicisme/christianisme, Ethnographie/paléontologie), sachant que dans les deux croisements nous avons supprimé certaines relations contenant des noms propres afin de minimiser le bruit. Après l étape de filtre statistique, nous n avons pas pu retenir des relations valides sur celles lexicales, globalement syntaxique et centrée autour du verbe vu que la relation la plus récurrente ne dépasse pas les 20 fois ; ce qui est largement loin de nos critères définis. Par contre, selon notre algorithme, pour les relations fenêtres (Activité/sport, Nautique/sport, Patrimoine/histoire, Plonger/sport) et structurelles (Casino/divertissement, Festival/musique, Vigne/vignoble), nous avons obtenu respectivement et relations validées. Pour les relations paragraphe, le résultat des validations a été négatif. Les relations qui n ont pas été validées tout au long de notre démarche seront les relations invalides. Celles-ci seront présentées à l expert en cas de besoin. Summary In this research, we focus on extracting relations among concepts in order to build a domain ontology. For this, we define a contextual relation discovery algorithm that applies different textual analyses in order to extract, deduce, label and validate the domain relations. Our algorithm is based on a rich contextual modelling that takes into account the document structure and strengthens the term co-occurrence selection, a use of the existent relations in the concept hierarchy and a stepping between the various extracted relations to facilitate the evaluation made by the domain experts. Our main perspective is using these relations for the concept hierarchy evaluation and enhancement
58 Ontologies et raisonnement à partir de cas : Application à l analyse des risques industriels Amjad Abou Assali, Dominique Lenne Bruno Debray Université de Technologie de Compiègne, CNRS HEUDIASYC {aabouass, dominique.lenne}@hds.utc.fr, INERIS [email protected] L analyse de risques est un processus visant à décrire les scénarios conduisant à des phénomènes dangereux et à des accidents potentiels sur une installation industrielle. Pour réaliser une analyse de risques, un expert dispose de nombreuses ressources : rapports, études de dangers, bases d accidents, etc. Ces ressources sont cependant souvent difficiles à exploiter parce qu elles ne sont pas suffisamment structurées ni formalisées. Dans le cadre du projet KMGR (Knowledge Management pour la Gestion des Risques), mené en partenariat avec l Institut National de l Environnement industriel et des RISques (INERIS), nous proposons de traiter ce problème en développant un système de recherche d information basé sur des ontologies, et de le compléter par un système de raisonnement à partir de cas (RàPC) pour tenir compte des expériences passées. 1 Ontologies et système de recherche d information Le premier objectif de ce travail est de développer une base de connaissances sur la sécurité industrielle. Cette base s appuie sur plusieurs ontologies : une ontologie de la sécurité industrielle contenant les concepts essentiels du domaine ; une ontologie plus spécifique du domaine d application (le domaine du GPL : Gaz de Pétrole Liquéfié) ; une ontologie de l analyse de risques décrivant les concepts utilisés dans une analyse de risques ; et enfin une ontologie décrivant les types de ressources dans l entreprise (rapport, outil, etc.). Le développement des ontologies s inspire de la méthodologie METHONTOLOGY (Fernandez et al., 1997), et est réalisé en lien avec plusieurs experts de la sécurité industrielle de l INERIS, avec l aide d un expert du développement d ontologies. Par ailleurs, nous proposons un système d indexation reposant sur les ontologies développées. Ce système permet d indexer les ressources par des concepts des ontologies, et du coup produire un index en RDF qui sera interrogé par le langage de requête SPARQL. Ensuite, nous développons un système de recherche d information (figure 1) qui interroge l index par le biais de requêtes SPARQL, et navigue dans les ontologies afin de répondre à la requête de l utilisateur, et de le guider en lui proposant des concepts intéressants qui aident à diriger voire affiner sa recherche
59 Ontologies et RàPC pour l analyse des risques industriels 2 Un système de raisonnement à partir de cas Nous développons un système de RàPC (Aamodt et Plaza, 1994; Renaud et al., 2007) afin d aider l expert à réaliser des analyses des risques industriels en s appuyant sur d autres analyses et expériences préalablement produites. Les ontologies développées sont intégrées à ce système, ce qui en fait l intérêt, car notre objectif est d étudier l apport du couplage entre les ontologies et le RàPC sur les systèmes d aide à l analyse des risques industriels. Les ontologies interviennent particulièrement dans les étapes d élaboration, de remémoration, et d adaptation de cas, pour améliorer la qualité des solutions proposées. FIG. 1 Système de recherche d information. Références Aamodt, A. et E. Plaza (1994). Case-Based Reasoning : Foundational Issues, Methodological Variations, and System Approaches. AI Communications 7(1), Abou Assali, A., D. Lenne, et B. Debray (2007). KoMIS : An Ontology-Based Knowledge Management System for Industrial Safety. In Proceedings of the 18th International Conference on Database and Expert Systems Applications (DEXA 2007), Regensburg, Germany. Fernandez, M., A. Gomez-Perez, et N. Juristo (1997). METHONTOLOGY : From Ontological Art towards Ontological Engineering. In Proceedings of the AAAI97 Spring Symposium Series on Ontological Engineering, USA, pp Renaud, J., B. Chebel Morello, B. Fuchs, et J. Lieber (2007). Raisonnement à Partir de Cas 1 : Conception et Configuration de Produits, Volume 1. Hermès - Lavoisier. Summary This paper presents an ongoing project that aims to develop an assistance system for risk analysis at industrial organisations. First, we aim to construct a knowledge base containing several ontologies. Second, we propose an approach to index the organization resources using ontologies, and then we develop an information retrieval system based on the ontologies and the index produced. Finally, we aim to develop a case-based reasoning system associated to the ontologies to help the expert realise risk analysis studies using existing ones
60 SOM pour la Classification Automatique Non supervisée de Documents Textuels basés sur Wordnet Abdelmalek Amine *, Zakaria Elberrichi *, Michel Simonet **, Mimoun Malki * * Laboratoire EEDIS, Département d informatique, UDL, Sidi bel Abbes Algérie [email protected], [email protected], [email protected] ** Laboratoire TIMC-IMAG, IN3S, Université Joseph Fourier, Grenoble - France [email protected] Résumé. Dans cet article, nous proposons la méthode des SOM (cartes autoorganisatrices de Kohonen) pour la classification non supervisée de documents textuels basés sur les n-grammes. La même méthode basée sur les synsets de WordNet comme termes pour la représentation des documents est étudiée par la suite. Ces combinaisons sont évaluées et comparées. Mettre en œuvre l une des méthodes de classification non supervisée consiste en premier lieu à choisir une manière de représenter les documents (Sebastiani, 2002) ; dans un second temps il faut choisir une mesure de similarité, et en dernier lieu choisir un algorithme de classification que l'on va mettre au point à partir des descripteurs et de la métrique choisis. Tout document d j sera transformé en un vecteur de poids w kj des termes t k. La majorité des méthodes, pour calculer le poids w kj, sont axées sur une représentation vectorielle des textes de type TF-IDF (Sebastiani, 2002), qui attribue un poids d autant plus fort que le terme apparaît souvent dans le document et rarement dans le corpus complet. Il existe différentes approches pour la représentation des documents. Typiquement, la similarité entre documents est estimée par une fonction calculant la distance entre les vecteurs de ces documents. Plusieurs mesures de similarité ont été proposées (Jones & Furnas, 1987). Parmi ces mesures on peut citer la distance du cosinus. L algorithme SOM (Kohonen & al, 2000) a été depuis longtemps proposé et appliqué dans le domaine de la classification des documents textuels. Cependant, les combinaisons entre SOM et représentation conceptuelle de textes d une part, SOM et représentation basée sur les n-grammes d autre part n ont pas été beaucoup étudiées. 2 Expérimentations, résultats et évaluation Les données utilisées dans nos expérimentations sont issues des textes du corpus Reuters Dans l approche basée sur les n-grammes, on compte les fréquences des n- grammes trouvés. Dans l approche conceptuelle, on remplace les termes par les concepts qui leur sont associés dans l ontologie de références lexicales Wordnet (Miller, 1990). Cette représentation nécessitera deux étapes : la première est le «mapping» des termes dans des concepts et le choix de la stratégie de «merging», la deuxième est l application d une stratégie de désambiguïsation. On choisit la stratégie «Concept seulement», où il s agit de
61 Khiops: outil de préparation et modélisation des données pour la fouille des grandes bases de données Marc Boullé 2 avenue Pierre Marzin [email protected], Résumé. Khiops est un outil de préparation des données et de modélisation pour l apprentissage supervisé et non supervisé. L outil permet d évaluer de façon non paramétrique la corrélation entre tous types de variables dans le cas non supervisé et l importance prédictive des variables et paires de variables dans le cas de la classification supervisée. Ces évaluations sont effectuées au moyen de modèles de discrétisation dans le cas numérique et de groupement de valeurs dans le cas catégoriel, ce qui permet de rechercher une représentation des données efficace au moyen d un recodage des variables. L outil produit également un modèle de scoring pour les tâches d apprentissage supervisé, selon un classifieur Bayesien naif avec sélection de variables et moyennage de modèles. L outil est adapté à l analyse des grandes bases de données, avec des centaines de milliers d individus et des dizaines de milliers de variables, et a permis de participer avec succès à plusieurs challenges internationaux récents. Présentation de l outil La phase de préparation des données est particulièrement importante dans le processus de fouille de données (Pyle, 1999). Elle est critique pour la qualité des résultats, et consomme typiquement de l ordre de 80% du temps d une étude de fouille de données. Dans le cas de la fouille de données à France Télécom, le contexte industriel impose des contraintes telles que le potentiel des données collectées dans les systèmes d information est largement sous-utilisé. L outil Khiops intègre les travaux sur les modèles en grille (Boullé, 2006, 2007a,b) et les diffuse dès qu ils ont atteint une maturité suffisante. Dans le cas univarié, un modèle en grille s apparente à une discrétisation pour une variable numérique et à un groupement de valeurs pour une variable catégorielle. Dans le cas multivarié, chaque variable est partitionnée en intervalles ou groupes de valeurs selon sa nature numérique ou catégorielle. L espace complet des données est alors partitionné en une grille de cellules résultant du produit cartésien des partition univariées. Ces modèles permettent alors une estimation non paramétrique de densité conditionnelle dans le cas supervisé et jointe dans le cas non supervisé. La granularité optimale de la grille des données est recherchée en appliquant une approche Bayesienne de la sélection de modèles et en exploitant des algorithmes sophistiqués d optimisation combinatoire
62 Processus d acquisition d un dictionnaire de sigles et de leurs définitions à partir d un corpus Vladislav Matviico, Nicolas Muret, Mathieu Roche LIRMM, Université Montpellier 2 - CNRS UMR5506, [email protected] Résumé. Le logiciel présenté dans cet article s appuie sur une approche d acquisition de sigles à partir de données textuelles. De nombreux domaines comme la biologie ou la médecine voient naître chaque jour de nouveaux termes et abréviations, notamment des sigles. Un sigle est un ensemble de lettres initiales servant d abréviation, par exemple "RATP" peut être associé à la définition (aussi appelée expansion) "Régie Autonome des Transports Parisiens". Nos travaux ont consisté à développer un logiciel afin de faciliter l acquisition ou l enrichissement de dictionnaires en extrayant automatiquement, à partir de diverses sources, les sigles et leur(s) définition(s). Une fois ces dictionnaires constitués, l approche AcroDef que nous avons proposée dans (Roche et Prince (2007)) consiste à établir la définition pertinente d un sigle présent dans un document. Dans ces documents, la définition n est pas toujours présente d où la difficulté du traitement. Dans ce contexte, il est donc essentiel d avoir à disposition un dictionnaire adapté, ce qui justifie les travaux présentés dans cet article. De nombreuses méthodes pour extraire les sigles et leur(s) définition(s) ont été développées (Larkey et al. (2000); Okazaki et Ananiadou (2006)). La plupart des approches de détection de sigles dans les textes s appuient sur l utilisation de marqueurs spécifiques associés à des heuristiques adaptées. Certains travaux récents (Okazaki et Ananiadou (2006)) consistent à associer ces approches à des mesures statistiques spécifiques pour améliorer la qualité des méthodes d acquisition de dictionnaires. L approche que nous avons développée se compose de deux étapes successives qui sont détaillées dans la section 2. 2 Acquisition d un dictionnaire sigles/définitions Notre méthode qui consiste à extraire les candidats sigles/définitions s appuie sur la présence de marqueurs (parenthèses, crochets). Deux situations peuvent alors être considérées : 1. Le sigle se situe avant la définition qui se trouve entre les marqueurs (les parenthèses dans le cas le plus courant). Exemple : "... S.I.G. (Solde Intermédiaire de Gestion)..." 2. La définition se trouve avant le sigle qui se trouve entre les marqueurs. Exemple : "... les Systèmes d Informations Géographiques (SIG)...". Dans ce cas, la taille de la définition est pour le moment indéterminable. Il est ainsi nécessaire de la définir arbitrairement en fonction du nombre de lettres composant le sigle. Nous avons expérimentalement fixé cette taille à trois fois le nombre de lettres composant le sigle
63 Cas d utilisation réelle de Nautilus : calculs d indicateurs chez un opérateur télécom Adrien Schmidt, Serge Fantino Squid Solutions 83, rue de Paris Boulogne-Billancourt [email protected] [email protected] Résumé. Nautilus est un logiciel d analyse de bases de données. Le but de cette application est de généraliser l utilisation de données clients au sein des entreprises. Elle facilite l accès aux données en permettant de visualiser et manipuler les données du SGBD sous forme de concepts métiers. Elle inclut un générateur de requêtes SQL et un outil de gestion de tâches désignées pour l agrégation de grands volumes de données. Le principe de fonctionnement est basé sur l'enchaînement de phases permettant la création des données d analyse : importation des métadonnées du SGBD ; construction d un dictionnaire de des concepts métiers ; spécification des champs à calculer. Les différents traitements tels que les jointures et l alimentation des tables sont optimisés afin de rendre l application utilisable sur des SGBD d entreprise. Nautilus est un outil d analyse de bases de données qui facilite la préparation de données agrégées et formatées mises à disposition des outils de datamining et de restitution. Nautilus est bâti autour d un système d abstraction des données couplé à un moteur de requêtes. L application modélise l environnement de données en construisant une pile de métadonnées, permettant de visualiser, documenter, et de manipuler des données du SGBD sous la forme de concepts métiers (produits, trafic, revenus, segment, etc.). Ce système de paramétrage est relié à un générateur de requêtes SQL et un gestionnaire des tâches conçus pour l agrégation de volumes importants de données. Nautilus permet ainsi de produire de manière rapide et fiable de grands volumes de données d analyse «à l intérieur» des SGBD, sans nécessiter d extractions de données. De ce fait, Nautilus remplace avantageusement les scripts et les datamarts métiers créés ad hoc tant pour les performances que la sécurité. Nautilus, disponible depuis mai 2007, est développé sous la forme de plug-in Eclipse. La construction de jeux de données avec Nautilus se déroule en deux étapes : - Modélisation des données du SGBD ; - Construction des indicateurs
64 FIASCO : un nouvel algorithme d extraction d itemsets fréquents dans les flots de données Lionel VINCESLAS, Jean-Émile SYMPHOR, Alban MANCHERON et Pascal PONCELET GRIMAAG, Université des Antilles et de la Guyane, Martinique, France. {lionel.vinceslas,je.symphor,alban.mancheron}@martinique.univ-ag.fr, EMA-LG2IP/site EERIE, Parc Scientifique Georges Besse, Nîmes Cedex, France. [email protected] Résumé. Nous présentons dans cet article un nouvel algorithme permettant la construction et la mise à jour incrémentale du FIA θ 1 : FIASCO. Notre algorithme effectue un seul passage sur les données et permet de prendre en compte les nouveaux batches, itemset par itemset et pour chaque itemset, item par item. Le FIA θ est un nouvel automate qui permet de traiter de façon efficace la problématique de l extraction des itemsets fréquents dans les flots de données. FIASCO est l algorithme qui permet de construire et de mettre à jour le FIA θ en effectuant un seul passage sur les données. Notre objectif dans cet article est de présenter et d illustrer par l expérimentation l applicabilité et le passage à l échelle de FIASCO dans le cas des flots de données. 2 FIASCO (Frequent Itemset Automaton Stepwise Construction Operator) Le FIA θ est un automate déterministe et acyclique, ce qui nous permet d établir une relation d ordre sur ses états (notée ). De par cette relation d ordre, nous introduisons un algorithme en deux passes pour la construction de cet automate, en utilisant des bits positions : FIASCO2. Cet algorithme utilise les propriétés d Apriori afin d optimiser sa construction, ce qui le rend efficace dans le cas d une base de données (cf. section 3). Nous proposons aussi un algorithme en une passe (FIASCO1), pour les flots de données, permettant de mettre à jour incrémentalement le FIA θ, item par item, avec une phase d élagage en utilisant un support statistique. 3 Expérimentations Les expérimentations ont été réalisées sur les jeux de données 2 kosarak et T10I4D100K, sur une machine munie d un bi-processeur AMD ATHLON bits, avec 1Go de RAM. 1 Le FIA θ est présenté comme article long à EGC 08 2 disponibles à l URL
65 Visualisation des motifs séquentiels extraits à partir d un corpus en Ancien Français Julien Rabatel, Yuan Lin, Yoann Pitarch, Hassan Saneifar, Claire Serp, Mathieu Roche, Anne Laurent LIRMM, Université Montpellier 2 - CNRS UMR5506, {mroche,laurent}@lirmm.fr Université Montpellier 3, [email protected] Résumé. Cet article présente une interface permettant de visualiser des motifs séquentiels extraits à partir de données textuelles en Ancien Français. Les travaux présentés dans cet article répondent aux besoins d une experte médiéviste souhaitant découvrir des connaissances nouvelles dans un corpus de textes écrits en Ancien Français. Les connaissances extraites à partir de ce corpus sont sous forme de motifs séquentiels. Dans notre contexte, un motif séquentiel est une suite ordonnée d itemsets (phrases). Un itemset est un ensemble d items (mots). Par exemple, le motif <(chevalier dam)(roi)> extrait à partir de notre corpus signifie que, souvent, les mots "chevalier" et "dam" apparaissent ensemble au sein d une même phrase avant l apparition de "roi" dans une phrase suivante. Ceci permet aux experts d analyser, sans a priori, les mots et enchaînements de mots qui apparaissent dans un même contexte, mettant ainsi en relief des associations susceptibles d apporter des connaissances nouvelles à un expert. Notons que dans l étude actuellement menée, l experte médiéviste souhaite plus particulièrement découvrir des motifs séquentiels faisant intervenir des mots propres à la parenté. Les différentes étapes et fonctionnalités de notre logiciel sont décrites dans la section suivante. 2 Processus d extraction des motifs séquentiels La première étape du prétraitement des données textuelles consiste à appliquer le Tree Tagger de Schmid (1994) qui possède des règles et des lexiques adaptés à l Ancien Français. Ce système apporte des informations grammaticales aux différents mots du texte (par exemple, étiquettes "adjectif", "nom", etc). Les mots qui sont davantage porteurs de sens tels que les noms peuvent alors être filtrés. Par ailleurs, l utilisation du Tree Tagger permet de lemmatiser les mots du corpus. Après ce prétraitement, l extraction des motifs séquentiels à partir des données textuelles peut s effectuer à l aide de la méthode SPaC (Sequential PAtterns for Text Classification) qui est décrite dans (Jaillet et al. (2006)). Un thème pouvant être privilégié par l utilisateur (dans notre cas la parenté), notre logiciel permet de n extraire que des motifs relatifs à cette thématique au travers d une liste de
66 Le logiciel SODAS : avancées récentes Un outil pour analyser et visualiser des données symboliques Myriam Touati, Mohamed Rahal, Filipe Afonso, Edwin Diday CEREMADE Paris Dauphine, Place du Mal de Lattre de Tassigny Paris Cedex 16 (touati, rahal, afonso, Le logiciel public SODAS, issu de deux projets européens (9 pays participants) soutenu par EUROSTAT: SODAS et ASSO, est un logiciel d Analyse de Données Symboliques qui permet de construire puis d exploiter des unités statistiques à un niveau de généralité supérieur à celui des individus usuels en les représentant par des variables dites «symboliques» prenant en compte leur variation interne. Ainsi ces variables sont à valeur numériques ou qualitatives mais plus généralement à valeur intervalle, histogrammes, suite de valeurs, etc. Ce logiciel est sans cesse amélioré et de nouvelles fonctions y sont ajoutées au fur et à mesure de nos recherches. Nous nous proposons donc de vous exposer l amélioration des méthodes de classification (SCLUST), d interprétation et de caractérisation de classes (DSTAT) et de visualisation et classification pyramidale (HIPYR, PYR2D et PYR3D). Ces nouveaux modules ont été développés dans le cadre de l ANR SEVEN pilotée par EDF (Clamart). SCLUST est une méthode de classification par Nuées Dynamiques étendue aux données symboliques intervalles et histogrammes. La dernière version de ce module, améliore l exécution dans le cas d un nombre important de variables de type histogramme (plus de 100). D autre part, en plus des fichiers attribuant à chaque individu sa classe et décrivant les classes obtenues, des fichiers sur les inerties inter-classes, intra-classes et totales sont fournis en sortie. Ces fichiers permettent l étude et la visualisation de la qualité et de la caractérisation des classes obtenues ainsi que la sélection des variables discriminantes. Le module DSTAT est formé d un ensemble de méthodes de statistiques descriptives spécifiquement adaptées à des données «symboliques». Elles permettent d interpréter et de décrire graphiquement ces données. Une option de ce module permet d afficher la variation des fréquences de chaque modalité d une variable à valeur histogramme donnée (fig. 1). Une autre option permet de caractériser un concept par les modalités les plus caractéristiques (fig. 2). L option BIPLOT du module DSTAT permet de visualiser le tableau croisant deux variables histogrammes (fig. 3). Le module de classification ascendante hiérarchique et pyramidale HIPYR (appellation SODAS) construit une pyramide (resp. hiérarchie) sur un ensemble de données symboliques et/ou numériques, il permet de caractériser les classes résultantes en les organisant sous forme de paliers et offre donc une représentation en classes recouvrantes et empiétantes permettant de découvrir des ordres et sous ordres dans une population. Dans le cadre du projet ANR SEVEN, C. Jacquemin et F. Vernier de l équipe AMI (CNRS-LIMSI) ont coordonné la réalisation d'une interface intuitive de visualisation et d'accès aux données, de sélection et d'annotation de classes, et de report des informations numériques pertinentes des visualisation des pyramides 2D et 3D (voir fig. 4 un premier aperçu). Les améliorations du logiciel SODAS ont permis d enrichir l analyse de données symboliques aussi bien du point de vue des interprétations statistiques que visuelles. Ces nouveaux modules vont être intégrés dans la plateforme interactive SEVEN
67 Vers l'exploitation de grandes masses de données Raphaël Féraud, Marc Boullé, Fabrice Clérot, Françoise Fessant France Télécom R&D, avenue Pierre Marzin, Lannion Contact : [email protected] Résumé : Une tendance lourde depuis la fin du siècle dernier est l'augmentation exponentielle du volume des données stockées. Cette augmentation ne se traduit pas nécessairement par une information plus riche puisque la capacité à traiter ces données ne progresse pas aussi rapidement. Avec les technologies actuelles, un difficile compromis doit être trouvé entre le coût de mise en œuvre et la qualité de l'information produite. Nous proposons une approche industrielle permettant d'augmenter considérablement notre capacité à transformer des données en information grâce à l'automatisation des traitements et à la focalisation sur les seules données pertinentes. Mots clés : fouille de données, grande volumétrie, sélection de variables, sélection d'instances. Selon Fayyad et al (1996), le Data Mining est un processus non-trivial d'identification de structures inconnues, valides et potentiellement exploitables dans les bases de données. Plusieurs intervenants industriels ont proposé une formalisation de ce processus, sous la forme d'un guide méthodologique nommé CRISP-DM pour CRoss Industry Standard Process for Data Mining, voir Chapman et al (2000). Le modèle CRISP-DM (FIG 1) propose de découper tout processus Data Mining en six phases: 1. La phase de recueil des besoins fixe les objectifs industriels et les critères de succès, évalue les ressources, les contraintes et les hypothèses nécessaires à la réalisation des objectifs, traduit les objectifs et critères industriels en objectifs et critères techniques, et décrit un plan de résolution afin d'atteindre les objectifs techniques. 2. La phase de compréhension des données réalise la collecte initiale des données, en produit une description, étudie éventuellement quelques hypothèses à l'aide de visualisations et vérifie le niveau de qualité des données. 3. La phase de préparation des données consiste en la construction d'une table de données pour modélisation (Pyle, 1999; Chapman et al, 2000). Nous nous y intéressons plus particulièrement par la suite. 4. La phase de modélisation procède à la sélection de techniques de modélisation, met en place un protocole de test de la qualité des modèles obtenus, construit les modèles et les évalue selon le protocole de test. 5. La phase d'évaluation estime si les objectifs industriels ont été atteints, s'assure que le processus a bien suivi le déroulement escompté et détermine la phase suivante
68 Clustering en haute dimension par accumulation de clusterings locaux Marc-Ismaël Akodjènou-Jeannin, Kavé Salamatian Patrick Gallinari 104, avenue du Président Kennedy Paris {Marc-Ismael.Akodjenou, Kave.Salamatian, Résumé. Le clustering est une tâche fondamentale de la fouille de données. Ces dernières années, les méthodes de type cluster ensembles ont été l objet d une attention soutenue. Il s agit d agréger plusieurs clusterings d un jeu de données afin d obtenir un clustering "moyen". Les clusterings individuels peuvent être le résultat de différents algorithmes. Ces méthodes sont particulièrement utiles lorsque la dimensionalité des données ne permet pas aux méthodes classiques basées sur la distance et/ou la densité de fonctionner correctement. Dans cet article, nous proposons une méthode pour obtenir des clusterings individuels à faible coût, à partir de projections partielles du jeu de données. Nous évaluons empiriquement notre méthode et la comparons à trois méthodes de différents types. Nous constatons qu elle donne des résultats sensiblement supérieurs aux autres. Le clustering consiste à découvrir automatiquement des groupes ("clusters") présents dans le jeu de données. Une littérature abondante existe sur le sujet (une revue des principales méthodes peut être trouvée dans Rui et Wunsch (2005)). Nous nous plaçons ici dans le cadre des "cluster ensembles" (Strehl et Ghosh (2002)). Les "cluster ensembles" sont une sorte de méta-clustering : à partir de plusieurs clusterings du même jeu de données, on déduit un clustering "moyen" (Strehl et Ghosh (2002)). Plusieurs alternatives ont été proposées pour trouver le clustering moyen (méthodes agglomératives, ou basées sur des graphes). Indépendamment de la méthode de synthèse choisie, il est clair que le clustering moyen dépend fortement de la qualité et de la diversité de chaque clustering individuel (Fern et Brodley (2003)). Par exemple, agréger plusieurs clusterings issus de l algorithme K-means avec des initialisations différentes atténuera les erreurs particulières dues à chaque clustering individuel ; cependant cela ne permettra pas de contourner les limitations fondamentales de l algorithme (clusters de forme sphérique, sensibilité à la dimension...). La situation idéale pour les cluster ensembles est celle où les clusterings individuels sont variés, de bonne qualité et obtenus à faible coût. L idée explorée par Topchy et al. (2003) est d obtenir ces clusterings individuels en projetant le jeu de données sur une direction aléatoire, et en faisant un clustering simple sur la
69 Binary Block GTM : Carte auto-organisatrice probabiliste pour les grands tableaux binaires Rodolphe Priam, Mohamed Nadif, Gérard Govaert LMA Poitiers, UMR CNRS 6086, Université de Poitiers, BP 30179, Futuroscope Chasseneuil Cedex, France [email protected] CRIP5, Université Paris Descartes, 45 rue des Saints-Pères, Paris, France [email protected] Heudiasyc, UMR CNRS 6599, Université de Technologie de Compiègne, BP 20529, Compiègne Cedex, France [email protected] Résumé. Ce papier présente un modèle génératif et son estimation permettant la visualisation de données binaires. Notre approche est basée sur un modèle de mélange de lois de Bernoulli par blocs et les cartes de Kohonen probabilistes. La méthode obtenue se montre à la fois parcimonieuse et pertinente en pratique. Bien que les méthodes d analyse factorielle soient très puissantes et contribuent efficacement à la visualisation des données, les grands échantillons nécessitent de nouvelles méthodes mieux adaptées. En effet, les algorithmes de décomposition matricielle rencontrent leurs limites sur les grands tableaux numériques ; en outre, la construction de nombreux plans de projection, du fait des grandes dimensions, rend la tâche d interprétation difficile pour recouper les informations disséminées sur ces plans. Finalement une grande quantité de données implique une grande quantité d informations à synthétiser et des relations complexes entre individus et/ou variables étudiés. Il est alors possible, dans ce contexte, d utiliser les cartes de Kohonen ou cartes auto-organisatrices (SOM) (Kohonen, 1997) qui sont des méthodes de classification automatique utilisant une contrainte de voisinage sur les classes pour conférer un sens topologique aux partitions obtenues. La carte auto-organisatrice originelle peut être vue comme une variante de l algorithme des k-means (MacQueen, 1967) intégrant une contrainte d ordre topologique sur les centres. Lorsque la matrice des données x est définie sur un ensemble I d objets (lignes, observations) et un ensemble J de variables (colonnes, attributs), différentes approches de classification automatique sont utilisées et la plupart des algorithmes proposés concerne généralement un des deux ensembles. Ces algorithmes peuvent être modélisés par différentes approches. Celle qui a suscité le plus d intérêt ces dernières années est incontestablement l approche modèle de mélange (McLachlan et Peel, 2000). Dans ce cadre, il a été proposé diverses versions probabilistes de SOM telles que dans (Lebbah et al., 2007; Verbeek et al., 2005; Luttrell, 1994)
70 Optimisation du Primal pour les SVM Trinh-Minh-Tri Do, Thierry Artières LIP6, Université Pierre et Marie Curie 104 avenue du Président Kennedy, Paris, France {Trinh-Minh-Tri.Do, Résumé. L apprentissage de SVM par optimisation directe du primal est très étudié depuis quelques temps car il ouvre de nouvelles perspectives notamment pour le traitement de données structurées. Nous proposons un nouvel algorithme de ce type qui combine de façon originale un certain nombre de techniques et idées comme la méthode du sous-gradient, l optimisation de fonctions continues non partout différentiables, et une heuristique de shrinking. Les Machines à Vecteurs de Support (SVM) sont une méthode très populaire d apprentissage supervisé pour la classification et la régression. Dans sa forme la plus simple pour la classification bi-classes, cette méthode est basée sur un classificateur linéaire séparant deux ensembles de points par un hyperplan. L idée originale est de trouver un hyperplan séparant "au mieux" les points par la maximisation de la marge entre l hyperplan séparateur et les points dans la base d apprentissage. Cette formulation conduit à un problème d optimisation d une fonction convexe sous des contraintes linéaires. Récemment des extensions de cette technique de base et de l approche de maximisation de la marge ont été proposées pour le traitement de données structurées comme les séquences, les arbres etc (Tsochantaridis et al., 2004). La méthode originale de Vladimir Vapnik pour résoudre le problème d optimisation avec contraintes des SVMs consiste à introduire des multiplicateurs de Lagrange pour chaque contrainte, et d optimiser le problème dual équivalent. Cet algorithme est coûteux en temps et en mémoire. Par exemple, l espace mémoire nécessaire (la matrice noyau est de taille N au carré, si N est le nombre d exemples). Ces caractéristiques de complexité rendent difficile l emploi de machines à vecteurs support et plus généralement de méthodes de maximisation de la marge dans certaines situations, lorsque l on traite des données structurées ou bien lorsque l on dispose de très grandes quantités de données d apprentissage. Plusieurs voies ont été suivies pour dépasser les problèmes posés par l optimisation dans ce cadre. Certains travaux ont porté sur l optimisation efficace du dual, par le contrôle du nombre de contraintes actives (Joachims, 2006), ou par la décomposition du problème d apprentissage (Osuna et al., 1997). Dans ce dernier cas, l algorithme SMO ou SVMLight par exemple, on ne s intéresse à une itération donnée qu à un nombre limité de variables actives. Des travaux plus récents ont porté sur l optimisation directe de la forme primale par l usage de la fonction hinge(z)=max(0,z). Cela permet de se ramener à un problème d optimisation sans contraintes où la fonction objectif est convexe. La difficulté de ces dernières approches
71 Vers des Machines à Vecteurs de Support Actionnables : Une Approche Fondée sur le Classement Ansaf Salleb-Aouissi Bert C. Huang David L. Waltz Center for Computational Learning Systems Columbia University, New York, NY {ansaf@ccls, bert@cs, waltz@ccls}.columbia.edu Résumé. Une des principales critiques que l on puisse faire aux Séparateurs à Vaste Marge (SVM) est le manque d intelligibilité des résultats. En effet, il s agit d une technique boite noire qui ne fournit pas d explications ni d indices quant aux raisons d une classification. Les résultats doivent être pris tels quels en faisant confiance au système qui les a produits. Pourtant selon notre expérience pratique, les experts du domaine préfèrent largement une méthode d apprentissage avec explications et recommandation d actions plutôt qu une boite noire, aussi performante et prédictive soit-elle. Dans cette thématique, nous proposons une nouvelle approche qui consiste a rendre les SVM plus actionnables. Ce but est atteint en couplant des modèles de classement des résultats des SVM à des méthodes d apprentissage de concepts. Nous présentons une application de notre méthode sur diverses données dont des données médicales concernant des patients de l athérosclérose. Nos résultats empiriques semblent très prometteurs et montrent l utilité de notre approche quant à l intelligibilité et l actionnabilité des résultats produits par SVM. Mots clés : Séparateurs à Vaste Marge (SVM), classement, apprentissage de règles, actionnabilité. Durant la dernière décade, les machines à vecteurs de support (ou Séparateurs à Vaste Marge : SVM) ont connu un immense succès, principalement comme puissants classifieurs. Cependant, une des principales limitations des SVM est le manque d intelligibilité des résultats. En effet, les SVM ne produisent pas d explications ni d indices quant aux raisons d une classification et les résultats produits doivent être pris tels quels, en faisant confiance au système. Nous proposons de rendre les SVM actionnables en classant (ordonnant) les exemples, pas seulement en les classifiant. En effet, les moyens d action sont la plupart du temps limités, ce qui ne permet d agir que sur une petite partie des exemples de la population. De plus, le classement peut être très utile pour tamiser les exemples d apprentissage afin de ne garder que les exemples réellement importants, représentatifs des classes. L idée sous-jacente de notre
72 Algorithmes rapides de boosting de SVM Thanh-Nghi Do*, Jean-Daniel Fekete*, François Poulet** *Equipe Aviz, INRIA Futurs, LRI Bât.490, Université Paris Sud Orsay Cedex { **IRISA TexMex, Université de Rennes I Campus de Beaulieu, Rennes Cedex [email protected] Résumé. Les algorithmes de boosting de Newton Support Vector Machine (NSVM), Proximal Support Vector Machine (PSVM) et Least-Squares Support Vector Machine (LS-SVM) que nous présentons visent à la classification de très grands ensembles de données sur des machines standard. Nous présentons une extension des algorithmes de NSVM, PSVM et LS-SVM, pour construire des algorithmes de boosting. A cette fin, nous avons utilisé un terme de régularisation de Tikhonov et le théorème Sherman-Morrison- Woodbury pour adapter ces algorithmes au traitement d ensembles de données ayant un grand nombre de dimensions. Nous les avons ensuite étendus par construction d algorithmes de boosting de NSVM, PSVM et LS-SVM afin de traiter des données ayant simultanément un grand nombre d individus et de dimensions. Les performances des algorithmes sont évaluées sur des grands ensembles de données de l UCI comme Adult, KDDCup 1999, Forest Covertype, Reuters et RCV1-binary sur une machine standard (PC-P4, 2,4 GHz, 1024 Mo RAM). Les algorithmes de Séparateurs à Vaste Marge proposés par (Vapnik, 1995) et les méthodes de noyaux permettent de construire des modèles précis et deviennent des outils de classification de données de plus en plus populaires. On peut trouver de nombreuses applications des SVM (réf. comme la reconnaissance de visages, la catégorisation de textes ou la bioinformatique. Cependant, les SVM demandent la résolution d un programme quadratique dont le coût de calcul est au moins d une complexité égale au carré du nombre d individus de l ensemble d apprentissage et la quantité de mémoire nécessaire les rend impossible à utiliser sur de grands ensembles de données à l heure actuelle (Lyman et al., 2003). Il y a besoin de permettre le passage à l échelle des SVM pour traiter de grands ensembles de données sur des machines standard. Une heuristique possible pour améliorer l apprentissage des SVM est de décomposer le programme quadratique en une série de plus petits problèmes (Boser et al, 1992), (Chang et al, 2003), (Osuna et al, 1997), (Platt, 1999). Au niveau de la mise en œuvre,
73 Approche hybride de classification à base de treillis de Galois: application à la reconnaissance de visages Brahim Douar, Chiraz Latiri, Yahya Slimani Unité de recherche URPAH - Faculté des Sciences de Tunis [email protected], [email protected], [email protected] Résumé. La recherche dans le domaine de la reconnaissance de visages profite des solutions obtenues dans le domaine de l apprentissage automatique. Le problème de classification de visages peut être considéré comme un problème d apprentissage supervisé où les exemples d apprentissage sont les visages étiquetés. Notre article introduit dans ce contexte une nouvelle approche hybride de classification qui utilise le paradigme d apprentissage automatique supervisé. Ainsi, en se basant sur le fondement mathématique des treillis de Galois et leur utilisation pour la classification supervisée, nous proposons un nouvel algorithme de classification baptisé CITREC ainsi que son application pour la reconnaissance de visages. L originalité de notre approche provient de la combinaison de l analyse formelle de concepts avec les approches de classification supervisée à inférence bayésienne ou à plus proches voisins. Une validation expérimentale est décrite sur un benchmark du domaine de la reconnaissance de visages. Remerciements : Ce travail est partiellement soutenu par le projet Franco-Tunisien Utique 05G1412, "Fouille de données et Parallélisme". et contexte général Savoir déterminer de manière à la fois efficace et exacte l identité d un individu est devenu un problème critique dans notre société. En matière de sécurité, la biométrie ne cesse d apporter des solutions de plus en plus efficaces. Elle consiste à identifier une personne à partir de ses caractéristiques physiques ou comportementales. Le visage, les empreintes digitales, l iris, etc, sont des exemples de caractéristiques physiques. La voix, l écriture, le rythme de frappe sur un clavier, etc, sont des caractéristiques comportementales. Dans la littérature récente, les recherches portent sur plusieurs problématiques de l identification biométrique, et surtout sur la reconnaissance de visages qui s avère une méthode, d une part, simple pour l utilisateur puisqu une brève exposition devant une caméra permet de l identifier ou de l enregistrer dans le système et d autre part, la reconnaissance de visages n est pas encore un problème résolu comme l ont montré les évaluations conduites par NIST 1 (Phillips et al., 2003). 1 NIST : National Institute of Standards and Technology
74 Pondération locale des variables en apprentissage numérique non-supervisé 1 Nistor Grozavu, Younès Bennani, Mustapha Lebbah LIPN - CNRS UMR Université Paris 13 99, avenue J-B. Clément, Villetaneuse {Prenom.Nom}@lipn.univ-paris13.fr Résumé. Dans cet article, nous proposons une nouvelle approche de pondérations des variables durant un processus d apprentissage non supervisé. Cette méthode se base sur l algorithme «batch» des cartes auto-organisatrices. L estimation des coefficients de pondération se fait en parallèle avec la classification automatique. Ces pondérations sont locales et associées à chaque référent de la carte auto-organisatrice. Elles reflètent l importance locale de chaque variable pour la classification. Les pondérations locales sont utilisées pour la segmentation de la carte topologique permettant ainsi un découpage plus riche tenant compte des pertinences des variables. Les résultats de l évaluation montrent que l approche proposée, comparée à d autres méthodes de classification, offre une segmentation plus fine de la carte et de meilleure qualité. La taille des données peut être mesurée selon deux dimensions, le nombre de variables et le nombre d'observations. Ces deux dimensions peuvent prendre des valeurs très élevées, ce qui peut poser un problème lors de l'exploration et l'analyse de ces données. Pour cela, il est fondamental de mettre en place des outils de traitement de données permettant une meilleure compréhension des données. La réduction des dimensions est l'une des plus vieilles approches permettant d'apporter des éléments de réponse à ce problème. Les méthodes qui nous intéressent dans ce papier sont celles qui permettent de faire à la fois de la réduction de dimension et la classification non supervisée de données en utilisant les cartes autoorganisatrices (SOM : Self-organizing Map). Celles-ci sont souvent utilisées parce qu'elles sont considérées à la fois comme outils de visualisation et de partitionnement non supervisé de différents types de données. Elles permettent de projeter les données sur des espaces discrets qui sont généralement en deux dimensions. Plusieurs extensions des cartes autoorganisées ont été dérivées du premier modèle original proposé par Kohonen (Kohonen, 1 Ce travail a été réalisé dans le cadre du projet Infom@gic du Pôle de Compétitivité Cap Digital (Image, Multimedia and Vie numérique)
75 Optimisation incrémentale de réseaux de neurones RBF pour la régression via un algorithme évolutionnaire : RBF-Gene Virginie L efort, Guillaume Beslon Laboratoire ERIC, Université Lumière Lyon 2, 5 avenue Pierre Mendès-France, Bron Cedex, France, [email protected] Laboratoire LIRIS, UMR 5205 CNRS, Bâtiment Blaise Pascal, INSA de Lyon, Villeurbanne Cedex FRANCE, [email protected] Résumé. Les réseaux de neurones RBF sont d excellents régresseurs. Ils sont cependant difficiles à utiliser en raison du nombre de paramètres libres : nombre de neurones, poids des connexions,... Des algorithmes évolutionnaires permettent de les optimiser mais ils sont peu nombreux et complexes. Nous proposons ici un nouvel algorithme, RBF-Gene, qui permet d optimiser la structure et les poids du réseau, grâce à une inspiration biologique. Il est compétitif avec les autres techniques de régression mais surtout l évolution peut choisir dynamiquement le nombre de neurones et la précision des différents paramètres. Les réseaux de neurones supervisés sont d excellents régresseurs permettant à la fois de classer des données ou de trouver des relations entre des entrées et des sorties (régression). Cependant ils sont bien souvent durs à mettre en œuvre de part le nombre important de paramètres. L utilisation d algorithmes évolutionnaires (en particulier les algorithmes génétiques) permet de faciliter la mise en œuvre de ces réseaux, en définissant leur structure ou les poids des connexions. Grâce à une inspiration fortement biologique, nous proposons un nouvel algorithme, RBF-Gene, qui permet une optimisation incrémentale d un réseau RBF (structure et connexions) de manière efficace. 2 Algorithmes évolutionnaires et réseaux de neurones Dans un réseau de neurones chaque neurone réalise un traitement simple et ce sont le nombre de neurones et leur connectivité qui vont faire toute la puissance du réseau. Dans les réseaux de neurones dits "en couche", le réseau est constitué de trois sous-ensembles de neurones : les neurones d entrée, les neurones cachés (complètement connectés aux neurones d entrée ou, si le réseau possède plus d une couche cachée, à la couche précédente) et les neurones de sortie connectés à la dernière couche de neurones cachés. Les réseaux RBF (Poggio et Girosi, 1989), pour Radial Basis Function, sont des réseaux à une couche cachée dont les neurones cachés utilisent une fonction de transfert gaussienne tandis que les neurones de sortie réalisent une "simple" somme pondérée des réponses des
76 Structure Inference of Bayesian Networks from Data: A New Approach Based on Generalized Conditional Entropy Dan A. Simovici, Saaid Baraty Univ. of Massachusetts Boston, Massachusetts 02125, USA {dsim,sbaraty}@cs.umb.edu Abstract. We propose a novel algorithm for extracting the structure of a Bayesian network from a dataset. Our approach is based on generalized conditional entropies, a parametric family of entropies that extends the usual Shannon conditional entropy. Our results indicate that with an appropriate choice of a generalized conditional entropy we obtain Bayesian networks that have superior scores compared to similar structures obtained by classical inference methods. A Bayesian Belief Network (BBN) structure is a directed acyclic graph which represents probabilistic dependencies among a set of random variables. Inducing a BBN structure for the set of attributes of a dataset is a well known problem and a challenging one due to enormity of the search space. The number of possible BBN structures grows super-exponentially with respect to the number of the nodes. In Cooper and Herskovits (1993), where the K2 heuristic algorithm is introduced, a measure of the quality of the structure is derived based on its posterior probability in presence of a dataset. An alternative approach to compute a BBN structure is based on the Minimum Description Length principle (MDL) first introduced in Rissanen (1978). The algorithms of Lam and Bacchus (1994) and Suzuki (1999) are derived from this principle. We propose a new approach to inducing BBN structures from datasets based on the notion of β-generalized entropy (β-ge) and its corresponding β-generalized conditional entropy (β- GCE) introduced in Havrda and Charvat (1967) and axiomatized in Simovici and Jaroszewicz (2002) as a one-parameter family of functions defined on partitions (or probability distributions). The flexibility that ensues allows us to generate BBNs with better scores than published results. One important advantage of our approach is that, unlike Cooper and Herskovits (1993) it is not based on any distributional assumption for developing the formula. 2 Generalized Entropy and Structure Inference The set of partitions of a set S is denoted by PART(S). The trace of a partition π on a subset T of S is the partition π T = {T B i i I and T B i } of T. The usual order between set partitions is denoted by. It is well-known that (PART(S), ) is a bounded
77 Discretization of Continuous Features by Resampling Taimur Qureshi, D.A.Zighed University of Lyon 2 - Lab ERIC 5, Avenue Pierre Mendès France, Bron Cedex - France taimur.qureshi, [email protected] Résumé. Les arbres de décision sont largement utilisés pour générer des classificateurs à partir d un ensemble de données. Le processus de construction est une partitionnement récursif de l ensemble d apprentissage. Dans ce contexte, les attributs continus son discrétisés. Il s agit alors, pour chaque variable à discrétiser de trouver l ensemble des points de coupure. Dans ce papier nous montrons que la recherche des ces points de coupure par une méthode de ré-échantillonnage, comme le BOOTSTRAP conduit à des meilleurs résultats. Nous avons testé cette approche avec les méthodes principales de discrétisation comme MDLPC, FUS- BIN, FUSINTER, CONTRAST, Chi-Merge et les résultats sont systématiquement meilleurs en utilisant le bootstrap. Nous exposons ces principaux résultats et ouvrons de nouvelles pistes pour la construction d arbres de décision. In the process of knowledge discovery from a raw data set, we first preprocess the data to remove noise and handle missing data fields. Then data transformation, such as the reduction of the number of variables and the discretization of attributes defined on a continuous domain, is often performed, which is later provided to a data mining algorithm. One of the most important and complex issues in data mining is related to the transformation process such as discretization which consists of converting numerical data into symbolic or discrete form. Kusiak [9] emphasized that the quality of knowledge discovery from a data set can be enhanced by discretization because many of the knowledge discovery techniques are very sensitive to size of data in terms of complexity. Thus, the choice of discretization technique has important consequences on the induction model used such as CART [2]. In addition, numerical value ranges are not easy enough for evaluation functions to handle in a nominal domain ; for example, the original versions of the popular machine learning algorithms ID3 could be used only for categorical data and Quinlan [11] had to transform continuous ones into discrete values in his C4.5 decision tree learner. Many real-world classification algorithms are hard to solve unless the continuous attributes are discretized. It is hard to determine the intervals for a discretization of numerical attributes that has an infinite number of candidates. A simple discretization procedure divides the range of a continuous variable into equal-width intervals or equal-frequency intervals. Fayyad et al. [6] suggested a class dependent algorithm which reduce the number of attributed values maintaining the relationship between the class and attribute values. Liu et al. [10] classified discretization methods from
78 Une nouvelle approche du boosting face aux données bruitées Emna Bahri, Mondher Maddouri Laboratoire Eric, Université Lyon 2, 5 avenue Pierre Mendes France, Bron Cedex [email protected], INSAT, zone urbaine la charguia II Tunis, 1002 Tunisie [email protected], Résumé. La réduction de l erreur en généralisation est l une des principales motivations de la recherche en apprentissage automatique. De ce fait, un grand nombre de travaux ont été menés sur les méthodes d agrégation de classifieurs afin d améliorer, par des techniques de vote, les performances d un classifieur unique. Parmi ces méthodes d agrégation, le boosting est sans doute le plus performant grâce à la mise à jour adaptative de la distribution des exemples visant à augmenter de façon exponentielle le poids des exemples mal classés. Cependant, en cas de données fortement bruitées, cette méthode est sensible au surapprentissage et sa vitesse de convergence est affectée. Dans cet article, nous proposons une nouvelle approche basée sur des modifications de la mise à jour des exemples et du calcul de l erreur apparente effectuées au sein de l algorithme classique d AdaBoost. Une étude expérimentale montre l intérêt de cette nouvelle approche, appelée Approche Hybride, face à AdaBoost et à BrownBoost, une version d AdaBoost adaptée aux données bruitées. Générale L émergence des bases de données modernes qui présentent d énormes capacités de stockage et de gestion, associée à l évolution des systèmes de transmission et des techniques d acquisition automatique des données contribuent à la construction d une masse de données qui dépasse de loin les capacités humaines à les traiter. Ces données sont des sources d informations pertinentes qui nécessitent des outils de synthèse et d interprétation. Les recherches se sont orientées vers des systèmes d intelligence artificielle puissants permettant l extraction des informations utiles et aidant à la prise des décisions. Pour une meilleure synthèse et interprétation, la fouille de données ou data mining est née en puisant ses outils au sein de la statistique, de l intelligence artificielle et des bases de données. La méthodologie du data mining offre la possibilité de construire un modèle de prédiction d un phénomène à partir d autres phénomènes plus facilement accessibles, qui lui sont liés, en se basant sur le processus d extraction des connaissances à partir des données qui n est qu un processus de classification intelligente des données. Cependant, le modèle construit peut parfois engendrer des erreurs
79 Une approche ensembliste inspirée du boosting en classification non supervisée Romain Billot,,, Henri-Maxime Suchier, Stephane Lallich Université Lyon 2, Laboratoire ERIC, 5 avenue Pierre Mendès-France, Bron Cedex, France Laboratoire d Ingénierie Circulation Transports (LICIT),INRETS-ENTPE 25 Avenue François Mitterand Case 24, Bron Cedex, France Laboratoire de Mathématiques Appliquées aux Systèmes (MAS), Ecole Centrale Paris, Châtenay-Malabry- France Laboratoire informatique, Agrocampus Rennes, 65 rue de Saint-Brieuc, CS Rennes Cedex - France Contacts : [email protected], [email protected], [email protected] Résumé. En classification supervisée, de nombreuses méthodes ensemblistes peuvent combiner plusieurs hypothèses de base afin de créer une règle de décision finale plus performante. Ainsi, il a été montré que des méthodes comme le bagging ou le boosting pouvaient se révéler intéressantes, tant dans la phase d apprentissage qu en généralisation. Dès lors, il est tentant de vouloir s inspirer des grands principes d une méthode comme le boosting en classification non supervisée. Or, il convient préalablement de se confronter aux difficultés connues de la thématique des ensembles de regroupeurs (correspondance des classes, agrégation des résultats, qualité) puis d introduire l idée du boosting dans un processus itératif. Cet article propose une méthode ensembliste inspirée du boosting, qui, à partir d un partitionnement flou obtenu par les c-moyennes floues (fuzzy-c-means), va insister itérativement sur les exemples difficiles pour former une partition dure finale plus pertinente. Il est courant de séparer le domaine de l apprentissage automatique en deux domaines distincts. D un coté, l apprentissage supervisé désigne un cadre où les exemples sont reliés à une information relative à leur classe, à un concept. Les méthodes supervisées produisent par la suite, à partir d une base d exemples d apprentissage pour lesquels la classe est connue, une règle de décision visant à prédire la classe de nouvelles observations. Cette règle de décision, appellée aussi classifieur ou hypothèse, peut être considérée géométriquement comme une hypersurface séparant les exemples représentés dans un espace multidimensionnel
Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining
Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining Mostafa HANOUNE*, Fouzia BENABBOU* *Université Hassan II- Mohammedia, Faculté des sciences
Entreposage de données complexes pour la médecine d anticipation personnalisée
Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée
Présentation de la majeure ISN. ESILV - 18 avril 2013
Présentation de la majeure ISN ESILV - 18 avril 2013 La Grande Carte des Métiers et des Emplois Sociétés de service Entreprises Administrations Grand- Public Sciences Utiliser Aider à utiliser Vendre APPLICATIONS:
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax [email protected],
Apprentissage Automatique
Apprentissage Automatique Introduction-I [email protected] www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
TRAVAUX DE RECHERCHE DANS LE
TRAVAUX DE RECHERCHE DANS LE DOMAINE DE L'EXPLOITATION DES DONNÉES ET DES DOCUMENTS 1 Journée technologique " Solutions de maintenance prévisionnelle adaptées à la production Josiane Mothe, FREMIT, IRIT
Hervé Couturier EVP, SAP Technology Development
Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud
Introduction au datamining
Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des
Ingénierie et gestion des connaissances
Master Web Intelligence ICM Option Informatique Ingénierie et gestion des connaissances Philippe BEAUNE [email protected] 18 novembre 2008 Passer en revue quelques idées fondatrices de l ingénierie
SMU MEDITERRANEAN. SOUTH MEDITERRANEAN UNIVERSITY Première Université Anglophone en Tunisie (Depuis 2002)
SMU SOUTH MEDITERRANEAN UNIVERSITY Première Université Anglophone en Tunisie (Depuis 2002) MEDITERRANEAN institute OF TECHNOLOGY The Unique English-Speaking Engineering School in Tunisia 'Masters in Systems
Introduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet pierre.morizet@utc.
Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux www.hds.utc.fr/~pmorizet [email protected] Plan Motivations Débouchés Formation UVs spécifiques UVs connexes Enseignants
Une méthode d apprentissage pour la composition de services web
Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia [email protected],
Liste des établissements adhérant à Worldcat
Liste des établissements adhérant à Worldcat ILN Dénomination 002 Université de Provence Aix-Marseille 1 003/157 Université de la Méditerranée Aix-Marseille 2 004 Université Paul Cézanne Aix-Marseille
Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech
Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech Le dispositif L Institut suisse de brainworking (ISB) est une association
Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs
Le Futur de la Visualisation d Information Jean-Daniel Fekete Projet in situ INRIA Futurs La visualisation d information 1.Présentation 2.Bilan 3.Perspectives Visualisation : 3 domaines Visualisation scientifique
Cécile MAUNIER. Maître de Conférences Sciences de Gestion Responsable pédagogique - Master 1 Marketing, Vente TITRES UNIVERSITAIRES
Cécile MAUNIER Maître de Conférences Sciences de Gestion Responsable pédagogique - Master 1 Marketing, Vente IAE REUNION 24 avenue de la Victoire CS 92003 Saint Denis Cedex 09 ( : 02 62 47 99 01 E- mail
L évaluation de la qualité d un dispositif d apprentissage en ligne. Quelles traces mobiliser? Comment les interpréter?
L évaluation de la qualité d un dispositif d apprentissage en ligne. Quelles traces mobiliser? Comment les interpréter? François GEORGES (LabSET ULg) Séminaire Be-ODL 18 novembre 2013 1 Plan La qualité
MSO MASTER SCIENCES DES ORGANISATIONS GRADUATE SCHOOL OF PARIS- DAUPHINE. Département Master Sciences des Organisations de l'université Paris-Dauphine
MSO MASTER SCIENCES DES ORGANISATIONS GRADUATE SCHOOL OF PARIS- DAUPHINE Département Master Sciences des Organisations de l'université Paris-Dauphine Mot du directeur Le département «Master Sciences des
29 écoles d Ingénieurs publiques post bac
acoustique aéronautique agroalimentaire Terminales S devenez Ingénieur automobile biologie électronique énergie environnement finance génie civil informatique 29 écoles d Ingénieurs publiques post bac
REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION
REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION THÈSE N O 2388 (2001) PRÉSENTÉE AU DÉPARTEMENT D'INFORMATIQUE ÉCOLE POLYTECHNIQUE FÉDÉRALE
SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL
SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL AGENDA 14:15-14:30 Bienvenue & Introduction Jérôme Berthier et Manuel Fucinos 14:30-14:45 Le concept de la Data Viz et
Industrial Phd Progam
Industrial Phd Progam Catalan Government: Legislation: DOGC ECO/2114/2012 Modification: DOGC ECO/2443/2012 Next: Summary and proposal examples. Main dates March 2013: Call for industrial Phd projects grants.
Digital Marketing : 14 et 15 septembre 2015. Retargeting : Garder le contact avec son audience
Programme Digital : 14 et 15 septembre 2015 Jour 1 - lundi 14 septembre 2015 8.00 Accueil & Inscription 9.00 Retargeting : Garder le contact avec son audience Aurélie Lemaire, Responsable mkgt Bing Ads
Pour chaque projet est indiqué son titre, le ou les laboratoires participants ainsi que le coordinateur
Pour chaque projet est indiqué son titre, le ou les laboratoires participants ainsi que le coordinateur ARROWS Structures de données avec pointeurs sûres : une approche déclarative de leur spécification
OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE
OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE «Journée Open Data» 5 Novembre 2013 Présenté par : Imen Megdiche Directeur de thèse : Pr. Olivier Teste (SIG-IRIT) Co-directeur de thèse : Mr. Alain
IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21
IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances
Bourses d excellence pour les masters orientés vers la recherche
Masters de Mathématiques à l'université Lille 1 Mathématiques Ingénierie Mathématique Mathématiques et Finances Bourses d excellence pour les masters orientés vers la recherche Mathématiques appliquées
Volume 6 n 1/2010 JANVIER-MARS 2010. Les Cahiers. du Numérique. au concept 2.0. sous la direction de Luc Quoniam Patrick Zimbardo
JANVIER-MARS 2010 Les Cahiers du Numérique Volume 6 n 1/2010 Les Cahiers Du web 2.0 du Numérique au concept 2.0 sous la direction de Luc Quoniam Patrick Zimbardo JANVIER-MARS 2010 Les Cahiers du Numérique
Forthcoming Database
DISS.ETH NO. 15802 Forthcoming Database A Framework Approach for Data Visualization Applications A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of
Plan de cours ADM 992C Page 1. École des sciences de la gestion Département de management et technologie Université du Québec à Montréal
Plan de cours ADM 992C Page 1 École des sciences de la gestion Département de management et technologie Université du Québec à Montréal ADM-992C LES TECHNOLOGIES D'AIDE À LA PRISE DE DÉCISION DANS LES
Chapitre 9 : Informatique décisionnelle
Chapitre 9 : Informatique décisionnelle Sommaire Introduction... 3 Définition... 3 Les domaines d application de l informatique décisionnelle... 4 Architecture d un système décisionnel... 5 L outil Oracle
Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.
Grégoire de Lassence 1 Grégoire de Lassence Responsable Pédagogie et Recherche Département Académique Tel : +33 1 60 62 12 19 [email protected] http://www.sas.com/france/academic SAS dans
L INRIA, institut français des STIC. (en Île-de-France) 24 septembre 2009
1 L INRIA, institut français des STIC (en Île-de-France) 24 septembre 2009 Institut National de Recherche en Informatique et en Automatique 2 Institut dédié aux Sciences et Technologies de l Information
Prior to joining L'Oréal, he spent 11 years working for various Pharmaceutical companies.
CAILLAUD Frédéric Directeur du Licensing L'ORÉAL Frédéric Caillaud joined L'Oréal in 1994 as Director of the Licensing and Business Development Department in charge of negotiating alliances, licensing
Classification Automatique de messages : une approche hybride
RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,
CURRICULUM VITAE PARCOURS PROFESSIONNEL
CURRICULUM VITAE Adresses professionnelles : Institut d Administration des Entreprises de l Université de Toulon Campus de La Garde - Bâtiment Z - Av. de l Université - BP 20132 83957 La Garde Cedex Tél
FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis
FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis Joseph Salmon Télécom ParisTech Jeudi 6 Février Joseph Salmon (Télécom ParisTech) Big Data Jeudi 6 Février 1 / 18 Agenda Contexte et opportunités
Bigdata et Web sémantique. les données + l intelligence= la solution
Bigdata et Web sémantique les données + l intelligence= la solution 131214 1 big data et Web sémantique deux notions bien différentes et pourtant... (sable et silicium). «bigdata» ce n est pas que des
CURRICULUM VITAE. Informations Personnelles
CURRICULUM VITAE Informations Personnelles NOM: BOURAS PRENOM : Zine-Eddine STRUCTURE DE RATTACHEMENT: Département de Mathématiques et d Informatique Ecole Préparatoire aux Sciences et Techniques Annaba
www.machpro.fr : Machines Production a créé dès 1995, le site internet
www.machpro.fr : www.machpro.fr Machines Production a créé dès 1995, le site internet www.machpro.fr destiné à fournir aux lecteurs de la revue et aux mécanautes un complément d'information utile et régulièrement
THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.
École Doctorale d Informatique, Télécommunications et Électronique de Paris THÈSE présentée à TÉLÉCOM PARISTECH pour obtenir le grade de DOCTEUR de TÉLÉCOM PARISTECH Mention Informatique et Réseaux par
Formation continue. Ensae-Ensai Formation Continue (Cepe)
CertifiCat de data scientist Formation continue Ensae-Ensai Formation Continue (Cepe) CertifiCat de data scientist La demande de data scientists est croissante mais peu de formations existent. Ce certificat
Les Entrepôts de Données
Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations
Évaluation des logiciels et autres réalisations
DOCUMENT D ANALYSE DE LA COMMISSION D ÉVALUATION DE L INRIA Évaluation des logiciels et autres réalisations Préparé par David Margery, Jean-Pierre Merlet, Cordelia Schmid, Agnès Sulem, Paul Zimmermann
Master Informatique Aix-Marseille Université
Aix-Marseille Université http://masterinfo.univ-mrs.fr/ Département Informatique et Interactions UFR Sciences Laboratoire d Informatique Fondamentale Laboratoire des Sciences de l Information et des Systèmes
Jean-François Boulicaut & Mohand-Saïd Hacid
e siècle! Jean-François Boulicaut & Mohand-Saïd Hacid http://liris.cnrs.fr/~jboulica http://liris.cnrs.fr/mohand-said.hacid Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205
Introduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
2013-2014 Dr. Prosper Bernard Tel: 514-987-4250 // portable 514-910-2085 [email protected] [email protected]
Département de management et technologie École de Sciences de la gestion Université du Québec à Montréal Dr Prosper M Bernard 514-987-4250 MBA 8400 + MBA 8401 STATISTIQUES et THÉORIE DE LA DÉCISION 2013-2014
Formation Actuaire Data Scientist. Programme au 24 octobre 2014
Formation Actuaire Data Scientist Programme au 24 octobre 2014 A. Eléments logiciels et programmation Python 24h Objectif : Introduction au langage Python et sensibilisation aux grandeurs informatiques
MSO MASTER SCIENCES DES ORGANISATIONS GRADUATE SCHOOL OF PARIS- DAUPHINE. Département Master Sciences des Organisations de l'université Paris-Dauphine
MSO MASTER SCIENCES DES ORGANISATIONS GRADUATE SCHOOL OF PARIS DAUPHINE Département Master Sciences des Organisations de l'université ParisDauphine Mot du directeur Le département «Master Sciences des
The space to start! Managed by
The space to start! Managed by ESA Business Incubation Centers (ESA BICs) : un programme de soutien à la création d entreprises L Agence Spatiale Européenne (ESA) dispose d un programme de transfert de
Dafoe Présentation de la plate-forme UIMA
Laboratoire d Informatique de l université Paris-Nord (UMR CNRS 7030) Institut Galilée - Université Paris-Nord 99, avenue Jean-Baptiste Clément 93430 Villetaneuse, France 11 juillet 2007 Plates-formes
numéro 212 mars 2011 Dossier Les relations siège-filiales dans les multinationales Sous la direction de Ulrike Mayrhofer
numéro 212 mars 2011 SOMMAIRE 9 Ont contribué à ce numéro 13 Le couple DG-DRH à l épreuve des démarches compétences Bruno Henriet, Cathy Krohmer 29 Technologie polyfonctionnelle et compétences des acteurs.
July 1, 2013. Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, 2013 1 / 15
Mastère Spécialisé Big Data Stéphan Clémençon Télécom ParisTech July 1, 2013 Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, 2013 1 / 15 Agenda Contexte et Opportunité Les grandes lignes
La solution idéale de personnalisation interactive sur internet
FACTORY121 Product Configurator (summary) La solution idéale de personnalisation interactive sur internet FACTORY121 cité comme référence en «Mass Customization» au MIT et sur «mass-customization.de» Specifications
Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.
2 jours : Mardi 15 et mercredi 16 novembre 2005 de 9 heures 30 à 17 heures 30 Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining. Madame, Monsieur, On parle
Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar [email protected]
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar [email protected] Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Must Today s Risk Be Tomorrow s Disaster? The Use of Knowledge in Disaster Risk Reduction
Must Today s Risk Be Tomorrow s Disaster? The Use of Knowledge in Disaster Risk Reduction Website: https://dce.yorku.ca/crhn/ Submission information: 11th Annual Canadian Risk and Hazards Network Symposium
UNIV. LA ROCHELLE (IUT) Référence GALAXIE : 4099
UNIV. LA ROCHELLE (IUT) Référence GALAXIE : 4099 Numéro dans le SI local : 0135 Référence GESUP : Corps : Professeur des universités Article : 46-1 Chaire : Non Section 1 : 27-Informatique Section 2 :
Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux
Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux Plan Objectifs Débouchés Formation UVs spécifiques UVs connexes Enseignants et partenaires Structure générale des études à l UTC Règlement
Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman [email protected]
Le Web, l'entreprise et le consommateur Françoise Soulié Fogelman [email protected] Forum "Quel futur pour le Web" Lyon, mardi 21 septembre 2010 THE DATA MINING AUTOMATION COMPANY TM Agenda Le Web un
Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le
Qui je suis Innovation Utilisation des réseaux sociaux pour le data mining Business & Decision Françoise Soulié Fogelman [email protected] Atos KDD_US CNAM Séminaire de Statistique appliquée
Servir ses utilisateurs sans bureau d accueil physique
Servir ses utilisateurs sans bureau d accueil physique Retour d expérience au Service IST d Inria Grenoble-Rhône-Alpes Gaëlle Rivérieux 2 juillet 2013 Introduction Quelques mots sur Inria Le service IST
Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013
Cube de textes et opérateur d'agrégation basé sur un modèle vectoriel adapté Text Cube Model and aggregation operator based on an adapted vector space model Lamia Oukid, Ounas Asfari, Fadila Bentayeb,
En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne
Présentation du produit SAP s SAP pour les PME SAP BusinessObjects Business Intelligence, édition Edge Objectifs En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille
TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes
TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes Mohamed Moussaoui,Wajdi Dhifli,Sami Zghal,Engelbert Mephu Nguifo FSJEG, Université de Jendouba,
L'intelligence d'affaires: la statistique dans nos vies de consommateurs
L'intelligence d'affaires: la statistique dans nos vies de consommateurs Jean-François Plante, HEC Montréal Marc Fredette, HEC Montréal Congrès de l ACFAS, Université Laval, 6 mai 2013 Intelligence d affaires
Services à la recherche: Data Management et HPC *
Services à la recherche: Data Management et HPC * Pierre-Yves Burgi et Jean-François Rossignol Division informatique (DINF) * HPC = High-Performance Computing Réunion CIF Sciences du 6.12.11 1/19 Contenu
INAUGURATION Labex SIGNALIFE 30 Avril 2013
INAUGURATION Labex SIGNALIFE 30 Avril 2013 Réseau d innovation sur les voies de signalisation en sciences du vivant Network for Innovation on Signal Transduction Pathways in Life Sciences TUTELLES et PARTENAIRES
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences
La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1
La Geo-Business Intelligence selon GALIGEO avec ESRI 2005 session «Décisionnel» 26/10/2005 1 La Business Intelligence : Une Définition La Business intelligence permet l utilisation des données opérationnelles
RESUME DESCRIPTIF DE LA CERTIFICATION (FICHE OPERATIONNELLE METIERS)
RESUME DESCRIPTIF DE LA CERTIFICATION (FICHE OPERATIONNELLE METIERS) Intitulé (cadre 1) Master Droit Economie Gestion, mention Management des Systèmes d Information, spécialité Management et Technologies
BIG Data et R: opportunités et perspectives
BIG Data et R: opportunités et perspectives Guati Rizlane 1 & Hicham Hajji 2 1 Ecole Nationale de Commerce et de Gestion de Casablanca, Maroc, [email protected] 2 Ecole des Sciences Géomatiques, IAV Rabat,
Marie Curie Individual Fellowships. Jean Provost Marie Curie Postdoctoral Fellow, Institut Langevin, ESCPI, INSERM, France
Marie Curie Individual Fellowships Jean Provost Marie Curie Postdoctoral Fellow, Institut Langevin, ESCPI, INSERM, France Deux Soumissions de Projet Marie Curie International Incoming Fellowship Finance
FRENCH BUSINESS SCHOOLS - EDUNIVERSAL SELECTIONS 2008
FRENCH BUSINESS SCHOOLS - EDUNIVERSAL SELECTIONS 2008 AUDIENCIA NANTES School of Management 8 Route de la Jonelière B.P. 31222 44312 Nantes Cedex 3 France +33 2 40 37 34 34 +33 2 40 37 34 07 http://www.audencia.com/
Architecture client riche Evolution ou révolution? Thomas Coustenoble IBM Lotus Market Manager
Architecture client riche Evolution ou révolution? Thomas Coustenoble IBM Lotus Market Manager IBM Workplace : permettre aux personnes de communiquer, de partager l information, quel que soit le terminal
ISTEX, vers des services innovants d accès à la connaissance
ISTEX, vers des services innovants d accès à la connaissance Synthèse rédigée par Raymond Bérard, directeur de l ABES, à partir du dossier de candidature d ISTEX aux Initiatives d excellence et des réunions
BI2 : Un profil UML pour les Indicateurs Décisionnels
BI2 : Un profil UML pour les Indicateurs Décisionnels Sandro Bimonte Irstea, TSCF, 9 Av. Blaise Pascal, 63178, Aubière, France [email protected] Thème de Recherche MOTIVE www.irstea.fr 2 Plan Motivations
CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012
CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE Edition 2012 AGENDA Qui sommes nous? Présentation de Keyrus Keyrus : Expert en formations BI Nos propositions de formation 3 modes de formations Liste des
Exemple PLS avec SAS
Exemple PLS avec SAS This example, from Umetrics (1995), demonstrates different ways to examine a PLS model. The data come from the field of drug discovery. New drugs are developed from chemicals that
Big Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université
20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT
20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà
Le Master Mathématiques et Applications
Le Master Mathématiques et Applications Franck BOYER [email protected] Institut de Mathématiques de Marseille Aix-Marseille Université Marseille, 20 Mai 2014 1/ 16 Structure générale Vue d ensemble
Francoise Lee. www.photoniquequebec.ca
Francoise Lee De: Francoise Lee [[email protected]] Envoyé: 2008 年 11 月 17 日 星 期 一 14:39 À: 'Liste_RPQ' Objet: Bulletin #46 du RPQ /QPN Newsletter #46 No. 46 novembre 2008 No. 46 November
Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services
69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard
Observatoire des discriminations Avril 2006. Olivier, Gérard et Mohammed ont-ils les mêmes chances de faire carrière?
Observatoire des discriminations Avril 2006 Jean-François Amadieu En collaboration avec Sylvain Giry Olivier, Gérard et Mohammed ont-ils les mêmes chances de faire carrière? -Une analyse des enquêtes emploi
DESCRIPTIF DE MODULE S5 GSI
Option SIM DESCRIPTIF DE MODULE S5 GSI : Gouvernance et Systèmes d Information COORDONNATEUR DU MODULE : Département : Ce module a pour but d enseigner les méthodes, les règles et les pratiques nécessaires
La diversité culturelle en question (s)
1 Université de Versailles-St-Quentin-en-Yvelines Colloque international organisé par la Chaire Jean Monnet et le service culturel de l Université La diversité culturelle en question (s) 14 et 15 novembre
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion [email protected],
Thales Services, des systèmes d information plus sûrs, plus intelligents www.thalesgroup.com
, des systèmes d information plus sûrs, plus intelligents www.thalesgroup.com Thales, leader mondial des hautes technologies Systèmes de transport, Espace, Avionique, Opérations aériennes, Défense terrestre,
Préparer un état de l art
Préparer un état de l art Khalil DRIRA LAAS-CNRS, Toulouse Unité de recherche ReDCAD École Nationale d ingénieurs de Sfax Étude de l état de l art? Une étude ciblée, approfondie et critique des travaux
Accélérer l agilité de votre site de e-commerce. Cas client
Accélérer l agilité de votre site de e-commerce Cas client L agilité «outillée» devient nécessaire au delà d un certain facteur de complexité (clients x produits) Elevé Nombre de produits vendus Faible
Entrepôt de données 1. Introduction
Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de
Le cinquième chapitre
Le cinquième chapitre Objectif : présenter les supports matériels ou immatériels permettant d'étayer cette nouvelle approche de la fonction maintenance. I. Evolution du domaine technique - Différents domaines
Suivi de cohortes 2011-2014
1 2 3 4 ANNEE BAC 2012-2013 2013-2014 SUISSE Université de Lausanne Faculté Sces politiques et sociales helor 1 ère année IUT 2 Grenoble L1 Carrières juridiques HEC Montreal Année préparatoire au helor
BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS
Quatrième colloque hypermédias et apprentissages 275 BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Anne-Olivia LE CORNEC, Jean-Marc FARINONE,
Intelligence Economique - Business Intelligence
Intelligence Economique - Business Intelligence Notion de Business Intelligence Dès qu'il y a une entreprise, il y a implicitement intelligence économique (tout comme il y a du marketing) : quelle produit
MABioVis. Bio-informatique et la
MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID
Méthodologie de conception des Systèmes d Aide à l Exploitation des Simulateurs d Entraînement
Méthodologie de conception des Systèmes d Aide à l Exploitation des Simulateurs d Entraînement Michelle Joab LIP6 Systèmes d Aide à la Décision et à la Formation (SYSDEF) Université Pierre-et-Marie Curie
