Thème des travaux : Contributions à la Recherche d Information Contextuelle à Large Échelle et à l Extraction des Connaissances



Documents pareils
CURRICULUM VITAE. Informations Personnelles

IT203 : Systèmes de gestion de bases de données. A. Zemmari zemmari@labri.fr

Application de K-means à la définition du nombre de VM optimal dans un cloud

Master CCI. Compétences Complémentaires en Informatique. Livret de l étudiant

4.2 Unités d enseignement du M1

INGENIERIE DES SYSTEMES INFORMATIQUES - PARCOURS : MOBILITE ET CLOUD COMPUTING

Introduction aux bases de données

Etude d Algorithmes Parallèles de Data Mining

Bases de données Cours 1 : Généralités sur les bases de données

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

SMU MEDITERRANEAN. SOUTH MEDITERRANEAN UNIVERSITY Première Université Anglophone en Tunisie (Depuis 2002)

Une méthode d apprentissage pour la composition de services web

Cours Bases de données

SUPPLEMENT AU DIPLOME

Chambre 222, Bâtiment A, village universitaire PESSAC - FRANCE rim.boussaada@u-bordeaux4.fr

Systèmes d information et bases de données (niveau 1)

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

GPC Computer Science

CQP Développeur Nouvelles Technologies (DNT)

Curriculum Vitae 1 er février 2008

Université Abou-Bekr Belkaid Tlemcen Faculté des Sciences Economiques et de Gestion. BENBOUZIANE Mohamed

Préparer un état de l art

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

Master Informatique Aix-Marseille Université

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Information utiles. webpage : Google+ : digiusto/

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Bases de données avancées Introduction

Introduction aux Bases de Données

SCIENCES POUR L INGENIEUR

Les Bases de Données et l Objet Introduction

UFR d Informatique. FORMATION MASTER Domaine SCIENCES, TECHNOLOGIE, SANTE Mention INFORMATIQUE

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Laboratoire 4 Développement d un système intelligent

Nebil JEMLI. Ingénieur en Génie Logiciel. Technologue en Informatique

Cours Base de données relationnelles. M. Boughanem, IUP STRI

UE 8 Systèmes d information de gestion Le programme

Master Energie spécialité Energie électrique

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Faculté des Sciences Mathématiques, Physiques et Naturelles de Tunis

Bases de données et environnements distribués Chapitre I : Architecture logicielle technologies de developpement en environnement

Présentation de la majeure ISN. ESILV - 18 avril 2013

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e :

Bruno ASDOURIAN Lecteur en Sciences de la Communication et des Médias Université de Fribourg Suisse

Sujet de thèse CIFRE RESULIS / LGI2P

Big Data et Graphes : Quelques pistes de recherche

Présentation du module Base de données spatio-temporelles

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

ANALYSTE PROGRAMMEUR DIPLÔME D ÉTABLISSEMENT

Conception des bases de données : Modèle Entité-Association

Licence Professionnelle en Statistique et Informatique Décisionnelle (S.I.D.)

CURRICULUM VITAE. Lieu d Exercice : Faculté des sciences Economique et Des Sciences de Gestion Université D Oran Es-Sénia Algérie

Info0804. Cours 6. Optimisation combinatoire : Applications et compléments

Semestre 1. Objectifs Approfondissement de l environnement Java et de son interface de programmation d applications : réseaux, et processus.


ECTS CM TD TP. 1er semestre (S3)

Alimenter un entrepôt de données par des données issues de services web. Une approche médiation pour le prototype DaWeS

Big Data et Graphes : Quelques pistes de recherche

CURRICULUM VITAE FORMATION. 2001/2002 : Thèse ès sciences de gestion, option marketing, à l IAE de Dijon, Université de Bourgogne :

Programme «Analyste Programmeur» Diplôme d état : «Développeur Informatique» Homologué au niveau III (Bac+2) (JO N 176 du 1 août 2003) (34 semaines)

RTDS G3. Emmanuel Gaudin

Devenez un véritable développeur web en 3 mois!

Organisation du parcours M2 IR Les unités d enseignements (UE) affichées dans la partie tronc commun sont toutes obligatoires, ainsi que le stage et

Plan de cours ADM 992C Page 1. École des sciences de la gestion Département de management et technologie Université du Québec à Montréal

Bases de données. Chapitre 1. Introduction

Change the game with smart innovation

Hervé Couturier EVP, SAP Technology Development

Université Libre de Tunis

Évaluation d une architecture de stockage RDF distribuée

Évaluation des logiciels et autres réalisations

ISTEX, vers des services innovants d accès à la connaissance

Programmation d'agents intelligents Vers une refonte des fils de raisonnement. Stage de fin d'études Master IAD 2006

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Cloud Computing - présentation d un outil complet

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Bases de données relationnelles : Introduction

CARTOGRAPHIE DES STRUCTURES DE RECHERCHE EN STIC

Programmes des classes préparatoires aux Grandes Ecoles

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

TRAVAUX DE RECHERCHE DANS LE

Débouchés professionnels : des perspectives multiples. Conditions d accès : La formation à L INPT :

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

Formula Negator, Outil de négation de formule.

UNIVERSITÉ DE LORRAINE Master MIAGE (Méthodes Informatiques Appliquées à la Gestion des Entreprises)

Machines virtuelles Cours 1 : Introduction

GUIDE DE CONSTITUTION DE DOSSIER EN VUE DE LA RECONNAISSANCE ET/OU DE L EQUIVALENCE DES DIPLOMES, TITRES ET GRADES DE L ENSEIGNEMENT SUPERIEUR

PROGRAMME DETAILLE. Parcours en première année en apprentissage. Travail personnel CC + ET réseaux

Chapitre 9 : Informatique décisionnelle

Rappel sur les bases de données

FORMATION. 2001/2002 : Thèse ès sciences de gestion, option marketing, à l IAE de Dijon, Université de Bourgogne :

DESCRIPTIF DE MODULE S5 GSI

Hébergement MMI SEMESTRE 4

Pascal Forget 2310, Avenue Notre-Dame Québec, (Québec) Canada, G2E 3G5 Tél. (418) Fax (418)

LICENCE : INFORMATIQUE GENERALE

Transcription:

Khedija AROUR BOUABID Docteur en Informatique Maître-Assistante Institut National des Sciences Appliquées et de Technologie de Tunis Membre du laboratoire LIPAH Thème des travaux : Contributions à la Recherche d Information Contextuelle à Large Échelle et à l Extraction des Connaissances Décembre 2014

État Civil Nom et prénom : AROUR BOUABID Khedija Date et lieu de naissance : 03/03/1965 à Tunis, Tunisie Nationalité : Tunisienne Situation familiale : Mariée, trois enfants Adresse personnelle : 16, Rue la Corniche 2083, El Ghazalla, Ariana, Tunisie Tel : (+216) 71 866 139 - (+216) 98 442 572 Adresse professionnelle : Département de Génie Informatique et de Mathématiques Institut National des Sciences Appliquées et de Technologie de Tunis Centre Urbain Nord BP 676-1080 Tunis Cedex, Tunisie Tel : (+216) 71 703 829 poste 1013 Fax : (+216) 71 704 329 E-mail : khedija.arour@issatm.rnu.tn E-mail : khedija.arour@planet.tn Arabe : Lu, écrit, parlé. Français : Lu, écrit, parlé. Anglais : Lu, écrit, parlé. Langues

Activités professionnelles 3 Formation et diplômes 1996 Décembre 1996 Thèse de doctorat en Informatique (Faculté des Sciences de Tunis, Université Tunis ElManar) Mention Très Honorable Titre de la thèse "Extraction et Organisation des Fichiers de Signatures pour une Base de Données Rectangulaire" 1992 Ingénieur en Informatique, (Faculté des Sciences de Tunis), Juillet 1992 Titre du Mémoire "Conception d un système de gestion de bases de données réparties" 1986 Baccalauréat section Math-Sciences (Lycée Rue de Pacha Tunis), Juillet 1986 Activités professionnelles Septembre 2002-Présent Octobre 2000-Septembre 2002 Septembre 1997-Octobre 2000 Octobre 1992-Septembre 1997 Maître-Assistante à l Institut National des Sciences Appliquées et de Technologie de Tunis Maître-Assistante à l Institut Supérieur des Sciences Appliquées et de Technologie de Mateur Assistante à l Institut Préparatoire aux Études d Ingénieurs de Mateur Ingénieur en Informatique à la Faculté des Sciences de Tunis

Activités Pédagogiques

Activités pédagogiques 5 Activités pédagogiques Enseignement J ai commencé ma carrière d enseignante au niveau de l enseignement supérieur en septembre 1997 en tant qu assistante à l Institut Préparatoire aux Études d accès au cycle d Ingénieurs de Mateur. J ai intégré le corps des maîtres-assistants en 2001 à l Institut Supérieur des Sciences Appliquées et de Technologie de Mateur (ISSATM), puis à partir de 2002 à l Institut National des Sciences Appliquées et de Technologie de Tunis (INSAT). J ai enseigné en tant que vacataire, successivement, dans les institutions suivantes : FST (1999-2010), ISI (2008-2010) et ISI Gabes (Décembre 2008). Mes enseignements ont couvert différents cycles, à savoir : Préparatoire, Maîtrise, Licence, Ingénieur, DESS et Mastère de recherche. Le tableau ci-dessous synthétise mes activités d enseignement durant la période 1997-2014.

Activités pédagogiques 6 Années Modules Niveau Lieu Type Volume Enseignement Horaire 2012-2014 Systèmes à Large Échelle 5 ème Année INSAT Cours 22h50 et Cloud Computing Ingénieur TP 15h00 2011-2014 Architectures et 4 ème Année INSAT Cours 11h25 Algorithmique parallèles Ingénieur TD 11h25 TP 15h00 2009-2014 Algorithmique 3 ème Année INSAT Cours 22h50 Avancée Ingénieur 2005-2014 Programmation 2 ème Année INSAT Cours 22h50 Orientée Objet Préparatoire TD 22h50 2008-2011 Systèmes à Large Échelle 5 ème Année INSAT Cours 30h00 Ingénieur 2007-2011 Data Mining Mastère FST Cours 16h00 parallèle M2 2006-2010 Complexité 3 ème Année INSAT Cours 15h00 des algorithmes Ingénieur TD 15h00 2004-2010 Architectures et 5 ème Année INSAT Cours 15h00 Algorithmique parallèles Ingénieur TD 15h00 2002-2005 Fichiers et 2 ème Année INSAT Cours 22h50 Bases de Données Préparatoire TD 22h50 1999-2002 Fichiers et Licence ISSATM cours 22h50 Bases de Données TD 22h50 2001-2002 Algorithmique 1 ère année INSAT Cours 22h50 et programmation MPI TD 30h00 2000-2004 Systèmes 3 ème Année FST TD/TP 39h00 d exploitation Ingénieur / Maîtrise 1997-2002 Langage Maple 1 ère année IPEIM Cours Intégré 15h00 Préparatoire TP 15h00 Table 2 Tableau synoptique de mes enseignements

Activités pédagogiques 7 Premier cycle Intitulé : Algorithmique et programmation Auditoire : 1 ère année MPI (INSAT) Volume horaire : 22H50 Cours, 30H00 TD Période : Semestre 2 Description : Ce module introduit des notions algorithmiques (actions et objets élémentaires, schémas conditionnels, schémas itératifs, etc.) avec une initiation à la programmation procédurale en utilisant le langage C. Après une introduction sur l historique du langage C, nous présentons les types de base ainsi que les opérateurs du langage C. Ensuite, nous étudions le passage des différents schémas algorithmiques vers le langage C. La structure de tableau est ensuite abordée et sa connexion avec la notion de pointeur est explicitée. La dernière partie de ce module aborde l aspect programmation modulaire via la structuration d un programme en fonctions. L accent est mis, dans cette partie, sur les différents modes de passage de paramètres. Plan (défini en 1997 par une commission de mise en place du plan d études de l IN- SAT) 1. Introduction à la programmation 2. Structures de données élémentaires 3. Transformation des schémas algorithmiques 4. Les procédures et les fonctions 5. Les tableaux, les pointeurs et les structures complexes 6. Les algorithmes de tri Références bibliographiques J. Courtin. Initiation à l algorithmique et aux structures de données. Dunod, Paris, 1994. B.W. Kernighan & D.M. Ritchie. Le langage C. 2 ème édition, Masson, 2000. Intitulé : Langage Maple Auditoire : 1 ère année MPI (IPEIM) Volume horaire : 15H00 Cours, 15H00 TD Période : Semestre 2 Description : Le but de ce module est de faire une présentation, aussi exhaustive que possible, du logiciel de calcul formel Maple. Les systèmes de calculs formels sont des systèmes qui ont révolutionné les méthodes de travail des scientifiques. C est donc un moyen pour les étudiants comme pour les chercheurs de programmer des calculs sans trop de difficultés. Grâce aux fonctions qu il intègre, Maple permet d effectuer des calculs en précision quelconque, des résolutions d équations, des tracés de courbes ou de surfaces, de l algèbre linéaire, etc. Il intègre aussi un langage de programmation (tests, boucles, procédures et fonctions) permettant de créer ses propres outils. Plan (défini par une commission nationale) 1. Introduction et présentation générale de Maple 2. Syntaxe et représentation des données 3. Affectation 4. Fonctions et expressions 5. Les objets de Maple 6. Programmation sous Maple

Activités pédagogiques 8 7. Programmation structurée sous Maple Références bibliographiques D. Krob et S. Legros. Le système Maple : Introduction au calcul symbolique et aux mathématiques expérimentales. International Thomson Publishing, France, 1996. Jack M. Cornil et P. Testud. Maple V Release 4 : Introduction raisonnée à l usage de l étudiant, de l ingénieur et du chercheur. Springer, 1997. Intitulé : Fichiers et bases de données Auditoire : 2 ème année du cycle préparatoire en informatique industrielle et automatique (INSAT) Volume horaire : 22H50 Cours, 30H00 TD Période : Semestre 1 Description : Après une introduction à la terminologie des fichiers et des bases de données ainsi que les fonctionnalités des SGF et des SGBD, nous abordons la modélisation d un schéma de base de données via le modèle Entité-Association (EA). Avant d aborder l implantation en modèle relationnel, nous nous intéressons à la normalisation du schéma d une base de données. Dans le cadre du modèle relationnel, nous introduisons la notion de langage de définition de données. L aspect interrogation d une base de données relationnelle, via le langage SQL, constitue la dernière partie de ce module. Plan (défini en 1997 par une commission de mise en place du plan d études de l IN- SAT) 1. Concepts généraux sur les fichiers 2. Représentation des enregistrements 3. Organisations des fichiers 4. Concepts généraux des bases de données et des systèmes de gestion de bases de données 5. Modèle Entité-Association (EA) 6. Normalisation 7. Implantation d une base de données selon le modèle relationnel (a) La partie structurelle : les relations (b) Le langage de définition de données (DDL) (c) Les règles de normalisation (d) Traduction / transformation du modèle EA en modèle relationnel 8. Le langage SQL Références bibliographiques J.D. Ullman. Principles of Database systems. Second Edition, Computer Science Press, 1982. G. Gardarin. Bases de données relationnelles. Eyrolles, 1985. C. Date. An introduction to Database systems. Volume 1, 4 th edition, Addison-Wesley, 1986. A. Meier. Introduction pratique aux bases de données relationnelles. Springer, 2002. Intitulé : Programmation Orientée Objet Auditoire : 2 ème Année cycle préparatoire Génie Logiciel (INSAT) Volume horaire : 22H50 Cours, 22H50 TD Période : Semestre 1

Activités pédagogiques 9 Description : Ce module a pour objectif de situer le paradigme orienté objet (OO) par rapport au paradigme procédural et d enseigner les principes de la programmation orientée objet (encapsulation, héritage et polymorphisme). Il propose d explorer les différentes notions de l orienté objet indépendamment des langages de programmation. Par la suite, nous présentons et comparons la façon dont plusieurs langages orientés objets, à savoir C++, Java, Smalltalk et Python, supportent les différents concepts du paradigme orienté objet. Plan (défini en 2009 par une commission de renouvellement du plan d études de l INSAT) 1. Conception de systèmes d information avec le paradigme objet 2. Notions de classe, d objet, de méthode, de propriété et de constructeurs 3. Surcharge 4. Héritage (a) Le polymorphisme (b) Les classes abstraites (c) Les interfaces 5. Relations entre classes (a) Associations (b) Cardinalités et contraintes d association (c) Composition et agrégation 6. Typage dynamique en OO 7. Clonage en OO Références bibliographiques C. Horstman. JAVA concepts. Wiley, 2004. E. B. Koffman & P. A. Wolfgang. Objects, Abstraction, Data Structures and Design using Java 5.0. Wiley, 2 nd edition, 2005. H. Bersini. La programmation orientée objet : Cours et exercices en UML 2 avec Java 5, C# 2, C++, Python, PHP 5 et LINQ. Eyrolles, 2008.

Activités pédagogiques 10 Deuxième cycle Intitulé : Architectures et Algorithmique Parallèles Auditoire : 4 ème année cycle Ingénieur en Génie logiciel (GL4) et 5 ème année cycle Ingénieur en Réseau et Télécommunication (RT5) (INSAT) Volume horaire : 11H25 Cours, 11H25 TD et 15H00 TP (pour les GL4) Période : Semestre 1 pour les RT5 et Semestre 2 pour les GL4 Description : Ce module présente les concepts et techniques de l algorithmique parallèle, en relation étroite avec le modèle d architecture considéré. Il vise également à décrire la pratique de la programmation parallèle. Une étude des mesures et d analyse de performance ainsi que la mise en œuvre d algorithmes parallèles avec envoi de messages et utilisation de variables partagées sont considérées. Plan (défini en 2009 par une commission de renouvellement du plan d études de l INSAT) 1. Introduction au parallélisme 2. Classification des architectures parallèles 3. Sources du parallélisme 4. Méthodologie de parallélisation d algorithmes séquentiels 5. Applications : cas des algorithmes de tri, multiplication matricielle Références bibliographiques P. Kuonen. La programmation parallèle, Notes de cours EPFL, 2006. A. Legrand & Y. Robert. Algorithmique Parallèle : Cours et Exercices Corrigés. Dunod, 2003. R. Chandra, R. Menon, L. Dagum, D. Kohr, D. Maydan & J. McDonald. Parallel Programming in OpenMP. Morgan Kaufmann, 2000. D. E. Culler. Parallel Computer Architecture : A Hardware/Software Approach. Morgan Kaufmann, 1999. M. Cosnard & D. Trystram. Algorithmes et Architectures Parallèles. InterEditions, 1993. Intitulé : Complexité des algorithmes (défini en 1997 par une commission de mise en place du plan d études de l INSAT) Auditoire : 3 ème année Ingénieur Génie Logiciel (INSAT) Volume horaire : 30H00 Cours Intégré Période : Semestre 2 Description : La résolution efficace de problèmes exige la conception d algorithmes adéquats. L évaluation des performances de ces derniers est donc primordiale. L objectif de ce module concerne l analyse de la complexité des algorithmes, qu ils soient itératifs ou récursifs. Plan 1. Introduction 2. Concepts de base 3. Notations de Landau 4. Calcul de complexité : cas des algorithmes itératifs 5. Calcul de complexité : cas des algorithmes récursifs 6. Algorithmes exacts et d approximation

Activités pédagogiques 11 Références bibliographiques L. Gérard. Algorithmique combinatoire - Méthodes constructives. Dunod, 1994. C. Pair, R. Mohr & R. Schott. Construire les algorithmes. Dunod, 1988. D. Krob. Algorithmique et Structures des Données. Ellipses, 1989. A. V. Aho, J. E. Hopcroft et J. D. Ullman. The Design and Analysis of Computer Algorithms, Addison Wesley, 1974. Intitulé : Algorithmique avancée Auditoire : 3 ème année Ingénieur Génie Logiciel (INSAT) Volume horaire : 22H50 Cours Période : Semestre 2 Description : Ce module est un approfondissement des concepts et techniques de l algorithmique vus en première année. De nombreux algorithmes et techniques seront présentés et étudiés, de façon à bien comprendre leur conception et leur analyse. Une double problématique de l algorithmique sera envisagée : trouver une méthode de résolution exacte ou approchée d un problème donné. Plan (défini en 2009 par une commission de renouvellement du plan d études de l INSAT) 1. Structures de données avancées 2. La récursivité, le paradigme «diviser pour régner» 3. Analyse des algorithmes de type «diviser pour régner» 4. Algorithmes gloutons 5. Programmation dynamique 6. Backtracking 7. Branch and Bound Références bibliographiques E. E.Horowitz, S. Sahni & S. Rajasekaran. Computer Algorithms. Computer Science Press, 1998. L. Gérard. Algorithmique combinatoire - Méthodes constructives. Dunod, 1994. C. Pair, R. Mohr et R. Schott. Construire les algorithmes. Dunod, 1988. D. Krob. Algorithmique et Structures des Données. Ellipses, 1989. E. Donald Knuth. Sorting and searching. The Art of Computer Programming. Addison Wesley, 1973. Intitulé : Systèmes à Large Échelle et Cloud Computing Auditoire : 5 ème année cycle Ingénieur en Génie logiciel (GL5) Volume horaire : 22H50 Cours, 15H00 TP Période : Semestre 1 Description : L objectif de ce module est de présenter les principes des systèmes distribués à large échelle, tels que les systèmes pair-à-pair et le cloud. Partant des applications pair-à-pair existantes, nous discutons des problèmes posés par la mise en œuvre de telles applications : routage, choix des pairs, agrégation des résultats, etc. Ensuite, nous présentons différentes solutions à ces problèmes, en considérant aussi bien les réseaux non-structurés que les réseaux structurés. La deuxième partie de ce module se concentre sur le Cloud Computing. À partir du concept de

Activités pédagogiques 12 virtualisation, les principaux types de Cloud sont présentés à travers les offres de fournisseurs de Cloud. En complément, un ensemble de travaux pratiques sera réalisé sur différents environnements (Peersim, NS2, Xen, VmWare, OpenStack), le déploiement d applications sur Google App Engine et/ou sur Windows AZURE. Plan (défini en 2009 par une commission de renouvellement du plan d études de l INSAT) 1. Définitions et caractéristiques des systèmes à large échelle 2. Les défis des systèmes à large échelle 3. Les systèmes Pair-à-Pair (P2P) Caractéristiques des systèmes P2P Les modèles d architectures des systèmes P2P Protocoles de routage pour les systèmes P2P 4. Le Cloud Computing La virtualisation Définition du cloud computing Apports et problématiques des Clouds Les différentes couches d un Cloud Modèles de Clouds Études et applications sur différentes plates-formes de Cloud Références bibliographiques F. Borko & E. Armando. Handbook of Cloud Computing. Springer Science & Business Media, 2010. J. Rhoton. Cloud Computing Explained : Implementation Handbook for Enterprises. Recursive Press, 2010. P. H. Feiler, K. Sullivan, K. C. Wallnau, R. P. Gabriel & J. B. Goodenough. Ultra- Large-Scale Systems : The Software Challenge of the Future. Software Engineering Institute, 2006. Troisième cycle Au niveau des enseignements de 3 ème cycle et en collaboration avec le Pr. Sadok Ben Yahia de la FST, j ai assuré le cours "Data Mining Parallèle" dans le cadre du Mastère de Recherche en Informatique (option Génie Logiciel) de la Faculté des Sciences de Tunis. J ai dispensé ce même module à l ISI Tunis dans le cadre du Mastère de Recherche en Informatique (option Génie Logiciel). Intitulé : Data mining parallèle Auditoire : 1 ère Année Mastère en Informatique (FST et ISI) Volume horaire : 16H00 Cours Période : Semestre 2 Description : L objectif de ce module est de présenter les défis des algorithmes de fouille de données. En effet, les algorithmes de découverte de règles associatives se caractérisent par leur aspect itératif, ce qui leur confère une complexité exponentielle. Plusieurs approches cherchent à améliorer les performances de ces algorithmes. En effet, tout en profitant des avancées du calcul parallèle, plusieurs algorithmes parallèles de découverte de règles associatives ont été développés.

Activités pédagogiques 13 Plan (Préparé par moi même) 1. Data Mining séquentiel : problèmes de performance 2. Data Mining Haute Performance : Techniques et algorithmes 3. Algorithmes de fouille de données sur les machines multi-cœurs et les machines à base de GPU Références bibliographiques M. J. A. Berry & G. S. Linoff. Data Mining Techniques : For Marketing, Sales, and Customer Relationship Management. Wiley, 2004. J. M. Adamo. Data Mining for Association Rules and Sequential Patterns : Sequential and Parallel Algorithms. Springer, 2001. M. J. Zaki & C. Ho. Large-Scale Parallel Data Mining. Lecture Notes in Computer Science, Springer, 2000. Activités d encadrement pédagogique Années PFE Ingénieur PFE Technicien Mini-Projets Mastère spécialisé /Maîtrise 1995 - Présent > 100 > 50 > 50 2

Charges administratives et pédagogiques 14 Charges administratives et pédagogiques 1. Membre des jurys de soutenance des Projets de Fin d études (Ingénieur, Licence) du Département Génie Informatique et Mathématiques de l INSAT (depuis l année universitaire 2002-2003). 2. Membre de la commission de passage au cycle ingénieur à l INSAT (année universitaire 2013-2014). 3. Présidente du Jury d examen de la section Génie Logiciel (GL5) à l INSAT (années universitaires 2007-2008, 2008-2009, 2009-2010, 2010-2011, 2013-2014). 4. Présidente de Jury d examen de la section Génie Logiciel (GL4) à l INSAT (années universitaires 2012-2014). 5. Membre la commission de Mastères de recherche de la FST (depuis l année universitaire 2009-2010). 6. Membre invité des jurys de soutenances de mémoires de Mastères de recherche de la FST (depuis l année universitaire 2009-2010). 7. Membre de la commission de renouvellement du plan d études Génie Logiciel (cycle ingénieur) de l INSAT (année universitaire 2009-2010). 8. Membre de la commission de recrutement des experts et assistants contractuels au Département Génie Informatique et Mathématiques de l INSAT (années universitaires 2005-2006, 2006-2007). 9. Membre de la commission nationale de recrutement des Technologues en Informatique (années universitaires 2005-2006 et 2008-2009).

Charges administratives et pédagogiques 15 Activités de recherche

Activités de recherche 16 Résumé des activités de recherche Initiées en 1992, mes activités de recherche ont été menées au sein de deux laboratoires de recherche : le Laboratoire en Informatique, Algorithmique, Programmation et Heuristique (LIPAH) de la Faculté des Sciences de Tunis dont je suis membre, et le Laboratoire d Informatique et des Systèmes Industriels (LISI) de l Institut National des Sciences Appliquées et de Technologie de Tunis. Après ma thèse, l ensemble de mes activités de recherche se subdivise en deux grands axes que nous allons détailler ci dessous. Ces axes portent sur la Recherche d Information à Large Échelle et l Extraction de Connaissances. Chaque axe est articulé autour d un certain nombre de thématiques. Durant ma thèse, j ai travaillé sur la définition et la conception d une méthode d indexation à base de fichiers de signatures et la décomposition rectangulaire, pour faciliter l accès à l information. Travail de thèse : Extraction et organisation de fichiers de signatures pour une base de données rectangulaires (1992-1996) Le travail de ma thèse de doctorat a porté sur l étude des méthodes d indexation des bases de documents. En effet, le problème de recherche d information a pris de nouvelles orientations avec l apparition des bases de données non formatées, qui se caractérisent par des formes variables de l information stockée. À travers mes travaux de thèse, nous avons proposé une approche de structuration des données, pour ensuite définir une représentation intermédiaire facilitant l accès et la recherche de ces données. La méthode de fichiers de signatures est une méthode d accès qui est utilisée pour chercher ou manipuler ces données. Le principal facteur qui a motivé nos recherches est le coût d accès aux bases de données volumineuses et aux bases de données intégrées [?]. Pour maîtriser ce coût d accès, nous avons utilisé le concept de fichiers de signature [?]. Un fichier de signatures est un mécanisme de filtrage permettant de réduire la quantité des données manipulées lors de l évaluation de requêtes. Ainsi, à l aide des signatures, nous pouvons obtenir une représentation condensée d un ensemble des données. Cette représentation nous permettra, lors d une recherche, de ne pas explorer l ensemble de données dans son intégralité. À cet égard, nous avons défini une approche de décomposition rectangulaire des bases de données, pour structurer les informations afin d explorer les liens qui existent entre les rectangles [?]. Pour cela, nous avons fait les propositions suivantes : Mise en place d une stratégie de structuration d une base de données relationnelle ou documentaire. Cette stratégie est basée essentiellement sur la décomposition rectangulaire [?,?]. Définition et implantation d une méthode d accès aux données [?]. Utilisation de plusieurs niveaux de filtrage. La structuration rectangulaire que nous avons proposée nous a permis de : Réduire le nombre de fausses alarmes. Cette réduction provient du fait que la signature est calculée sur un nombre réduit de valeurs (domaine d un rectangle). Le nombre de signatures élémentaires, regroupées pour former la signature globale, est moins important, et ainsi les poids des signatures du filtre sont réduits. Réduire l espace de recherche. L utilisation des signatures permet d avoir un niveau de filtrage qui minimise le nombre de rectangles à examiner lors du processus de recherche. Choisir les poids des signatures et les tailles des rectangles. Aucune restriction n est imposée pour uniformiser aussi bien la taille des rectangles (cardinalité), que leurs poids. La nature de la classification a permis de minimiser le poids des signatures associées.

Activités de recherche 17 Travail post-thèse : Contributions à la recherche d information à large échelle (à partir de 1999) À partir des années 2000, mes travaux de recherche se sont orientés vers le domaine de la Recherche d Information, avec un double objectif à savoir tenir compte d une part de l utilisateur et de ses spécificités, et le passage à l échelle, d autre part. Devant la dimension des larges volumes de données, il est devenu impossible (sauf pour certains cas spécifiques) de stocker les gros volumes de données de manière centralisée. Le recours à des systèmes distribués avec l usage de serveurs, est donc devenu une nécessité. Ainsi, un système de recherche d information se trouve composé de deux entités : des clients et des serveurs. Cette vision a créé un déséquilibre entre ces deux entités, dans le sens où toute la charge (stockage et traitement) est assurée par une seule entité, à savoir le serveur. Pour rétablir un équilibre entre ces deux entités, les systèmes à large échelle ont été et sont fortement utilisés. Parmi ces systèmes, nous trouvons en particulier, les systèmes pairà-pair (P2P) non structurés. Ces systèmes se distinguent des environnements distribués classiques par le fait qu aucune entité ne détient une vision globale de la totalité du système. Une des applications caractéristique de ces systèmes est la Recherche d Information à Large Échelle (RILE), dont l une des plus importantes variantes est la Recherche d Information dans un contexte P2P (RIP2P). D une manière générale, la Recherche d Information à Large Échelle (RILE), induit deux acteurs principaux, à savoir l utilisateur du système et le Système de Recherche d Inforamtion (SRI). Concernant l utilisateur, son principal souci est d avoir l information la plus appropriée et la plus adéquate à ses besoins dans un délai raisonnable. Par contr, un SRI doit faire face à plusieurs contraintes, comme : l hétérogénéité des collections et des données, la localisation des données, le passage à l échelle, la diversité des modèles et des méthodes de recherche et le coût de leur mise en œuvre. Cependant, il faut noter que ces contraintes sont orthogonales par rapport aux soucis de l utilisateur. En effet, le problème clé est comment un système aussi ouvert que large peut satisfaire l utilisateur aussi bien d un point de vue de l efficience que d efficacité?. Ainsi, nous sommes faces à plusieurs défis dont les principaux : Le passage à l échelle : l obstacle du passage à l échelle est d autant plus difficile à franchir qu il concerne simultanément le volume de données à manipuler, les sources très largement distribuées et les besoins en information qui sont très exigeants. La performance : ce défis constitue un point particulièrement difficile qui justifie le recours à de lourds investissements de la part des acteurs du domaine. Le degré d autonomie : une autonomie doit être accordée aux utilisateurs, malgré l ouverture du système où aucune entité centrale ne détient une vision globale. Ces défis sont à la base de la définition de notre problématique de recherche sur la RILE, qui concerne la mise en place d une synergie entre les techniques classiques de RI et les techniques d extraction de connaissances utilisées pour la "contextualisation" de la recherche. La plupart des Systèmes de Recherche d Information à Large Échelle (SRILE) traitent les requêtes des utilisateurs de manière identique sans tenir compte de leurs spécificités. Ils sont beaucoup plus préoccupés par rendre, le plus rapidement possible, une réponse aux utilisateurs. L hypothèse sous-jacente de notre proposition est qu au fur et à mesure des interactions des utilisateurs avec le système, cette synergie permettra de découvrir des connaissances sur les utilisateurs qui peuvent être utiles au système de recherche d information. Ainsi, notre intérêt pour la recherche d information à large échelle nous a donc conduit à intégrer les connaissances sous forme de profils (les intérêts) utilisateurs

Activités de recherche 18 représentant son contexte. L idée de base est que les profils des utilisateurs jouent un rôle important dans le succès de la Recherche d information (RI) puisqu ils modélisent et représentent les contextes et les besoins réels des utilisateurs [?,?,?]. De notre point de vue, une telle démarche s inscrit dans une double problématique : (i) définir les algorithmes adéquats pour la fouille de corpus de grandes tailles en prenant en compte le problème d adaptation et d optimisation du processus d extraction de profils sans recourir à une globalisation de l information ; et, (ii) le déploiement des connaissances découvertes dans des applications réelles manifestant des besoins et des défis différents, telles que la recherche d information contextuelle. En effet, l intérêt des approches de data mining est de mieux comprendre les utilisateurs, caractériser les interactions entre les différents objets manipulés. Ainsi, pour capter les profils des utilisateurs, des algorithmes d extraction de connaissances sont exploités. Notre soucis est de considérer le profil comme une corrélation entre plusieurs objets manipulés lors des recherches antérieures et considérer plusieurs profils représentant le même utilisateur dont le but est d être plus efficace en recherche d information. À travers ces travaux, nous visons deux objectifs essentiels : (i) augmenter l efficacité et l efficience de toute opération de recherche d information dans le cadre d un système à Large Échelle ; et, (ii) améliorer les performances des méthodes d Extraction des Connaissances. Comme le montre la Figure 1, nos travaux de recherche se déclinent par des investigations diverses réparties en deux axes : la Recherche dinformation Contextuelle (RIC) et l Extraction de Connaissances. Où d une part, l extraction de connaissances sera au service de la contextualisation en recherche d information et d autre part les connaissances peuvent impacter Impact la qualité de la recherche d information. Dans le premier axe, nous avons abordé trois thématiques : la modélisation d un contexte, son exploitation et enfin son évaluation. Extraction de Connaissances Modélisation Exploitation Évaluation Structure de Données Parallélisation Figure 1 Cadre de recherche et positionnement des contributions Dans le second axe, nous nous sommes intéressés à la problématique de l extraction des connaissances. Nous comptons exploiter les techniques d extraction de connaissances pour générer les profils utilisateurs qui seront utilisés dans tout processus de la RILE. Notre objectif principal consiste à proposer des solutions

Activités de recherche 19 pouvant accélérer le processus de génération des profils utilisateurs, en agissant à la fois sur la réduction de l espace de recherche (utilisation de structures de données condensées) que sur l exploitation des potentialités offertes par les nouveaux supports d exécution (les processeurs multi-cœurs et graphiques). Nos principales contributions par rapport aux deux axes présentés ci-dessus peuvent être résumées comme suit : 1. Axe 1 : Recherche d Information Contextuelle Proposition d une approche de modélisation de profils utilisateurs pour générer leurs contextes. Adaptation du modèle proposé dans différents processus de recherche d information à large échelle. Mise en place d un protocole d évaluation de ce type de systèmes à large échelle et d un mécanisme d évolution des profils utilisateurs. 2. Axe 2 : Extraction des connaissances Amélioration des performances des algorithmes d extraction de connaissances par la proposition de structures de données adéquates. Amélioration des performances des algorithmes d extraction de connaissances, en exploitant les potentialités de calcul des nouvelles architectures des processeurs. Axe 1 : Recherche d information contextuelle La recherche d information distribuée contextuelle constitue un domaine d investigation en perpétuelle évolution, où nous assistons à une très forte introduction de la technologie P2P. Les réseaux P2P constituent l une des infrastructures les plus prometteuses dans le développement des solutions distribuées, puisqu ils proposent un partage économique des ressources d information. Toutefois, la recherche P2P est révélatrice de nouveaux problèmes relatifs à la dynamicité des pairs dans ces réseaux, au passage à l échelle, à l hétérogénéité, à l absence de la centralisation et à l autonomie [?,?]. Les pairs se connectent et se déconnectent à volonté du réseau, ce qui donne une forte dynamicité à la structure du réseau. De plus, la recherche d information en contexte P2P n a pas connu une évolution quant aux techniques d indexation de contenu, sa distribution sur les différents pairs, sa localisation et sa sélection, et par conséquent sur la combinaison de résultats provenant des différents pairs sélectionnés. Nos travaux s inscrivent précisément dans le courant de la recherche d information contextuelle, visant l adaptation du processus de recherche d information aux spécificités des utilisateurs. Cette spécificité porte sur l utilisateur, qui est au centre de l activité de recherche d information, par le biais de son profil ou de ses intérêts. L objectif est de mettre en place des techniques permettant d intégrer la notion de contexte utilisateur (son profil) à différents niveaux d un processus de Recherche d Information (RI). Premièrement, en amont du processus de RI, en construisant une représentation, qui soit la plus fidèle possible aux intérêts de l utilisateur. Deuxièmement, en aval, en personnalisant l information trouvée aux besoins et préférences de l utilisateur. Une problématique importante, qui est par ailleurs peu traitée dans la littérature, reste l évolution de profils des utilisateurs par rapport à leurs recherches, afin qu ils restent représentatifs de leurs comportements, qu ils ne deviennent pas omnipotents, et plus généralement qu ils ne dégradent pas l efficacité et l efficience d un SRI, mais plutôt les améliorent. Pour répondre à cette problématique, nos recherches se sont orientées vers une approche de gestion de profils utilisateurs et de leur évolution, en étudiant notamment les conséquences de la modification des profils sur les performances globales d un SRI. Les propositions que nous avons faites et qui prennent en compte des éléments des profils utilisateurs, s inscrivent majoritairement dans un type d approche qui consiste à étendre les traitements de RI. De nou-

Activités de recherche 20 velles données liées aux contextes sont exploitées mais les traitements restent identiques pour toutes les recherches effectuées. Un autre type d approche cherche cependant à modifier les traitements appliqués. Ces travaux se déclinent par des investigations diverses, focalisées sur la clarification et la formalisation des besoins en information, ainsi que sur la modélisation du contexte de recherche selon différentes dimensions. Ensuite, comme un modèle n est viable que lorsqu il est reconnu efficace selon des normes et méthodologies d évaluation standardisées, nous avons proposé la mise en place d un cadre d évaluation d un SRILE [?,?]. La prise en compte du contexte dans les SRI implique à la fois d identifier puis de modéliser les différents aspects du contexte. Les problèmes que nous avons abordé dans le cadre de cet axe sont : Proposition d un modèle contextuel pour la RILE [?]. Exploitation et adaptation de ce modèle dans les deux phases importantes de la RILE, à savoir la sélectivité des meilleures collections (i.e. le routage) [?,?,?] et l agrégation des résultats [?]. Définition d un cadre d évaluation permettant la validation de nos contributions dans le domaine [?]. Proposition de mécanismes d évolution des profils utilisateurs [?]. Axe 2 : Extraction des Connaissances Il s agit de proposer des méthodes et des techniques capables de traiter de grandes masses de données (traces de navigation) pour extraire de la connaissance dans des délais raisonnables pour les utilisateurs et les exploiter d une manière efficace dans une ou plusieurs phases de la RI. L usage général des techniques de fouille de traces de navigation (fichiers logs), dans des applications réelles, ne pourra se faire que si les deux exigences suivantes sont satisfaites : (i) proposer des approches avec un niveau d efficacité assez élevé du point de vue structure de données et algorithmique ; et, (ii) intégrer les approches proposées dans le processus de RILE. De ce fait, nous nous sommes focalisés sur la proposition d approches d extraction de connaissances en agissant d une part, sur la définition de nouvelles structures de données compactes, et sur l adaptation algorithmique aux nouvelles architectures des processeurs multi-cœurs et les processeurs GPU, d autre part. Ainsi, le choix de la structure de données la plus adéquate possible est fondamental puisque celleci influe sur les performances de l algorithme adopté. Le besoin de disposer de structures compactes a motivé de nombreux chercheurs qui ont proposé de nouvelles structures, notamment pour réduire les accès disque. Deux grandes classes de structures émergent : les structures de données pour la représentation de la base initiale et les structures de données pour la génération et le stockage des données intermédiaires candidats (comme les candidats pour les algorithmes classiques d extraction des connaissances). Notre principale contribution au niveau de cette thématique de cet axe, se présente par la définition de nouvelles structures binaires et arborescentes de représentation condensée d une base initiale, sans avoir recours à la représentation les données intermédiaires [?,?,?]. Dans ce travail, nous discutons de la conception et de l utilisation des nouvelles structures de données compactes pour améliorer l efficacité de l exploitation des motifs intéressants (comme les itemsets fréquents) en réponse à plusieurs problèmes clés à savoir : Réduire le nombre des entrées/sorties. Éviter les structures intermédiaires dans la génération des fréquents. Avoir des structures capables de traiter des faibles valeurs de contraintes (faible support). Mettre en place des structures adéquates aux nouveaux supports d exécution. La deuxième thématique de cet axe de recherche porte sur la parallélisation des algorithmes d extraction des connaissances. En effet, suite à l augmentation et à la diversité des données disponibles et l expansion des supports de stockage, les algorithmes séquentiels d extraction des connaissances se sont avérés