Curriculum Vitae Dr. Julien Aligon 1
Table des matières 1 Profil Général 3 1.1 Cursus.................................... 3 1.2 Expérience professionnelle......................... 4 1.3 Compétences techniques.......................... 4 2 Activités d Enseignement 4 2.1 Aperçu des actitivités............................ 4 2.2 Détails des enseignements......................... 6 2.3 Autres activités d enseignement...................... 9 3 Activités de Recherche 9 3.1 Introduction................................. 9 3.2 Contexte Général de ma Thèse...................... 10 3.2.1 Définitions de Mesures de Similarité à Trois Niveaux...... 11 3.2.2 Proposition d un Système de Recommandation de Sessions OLAP, basé sur des Mesures de Similarité................. 11 3.2.3 Définitions de Mesures de Qualité pour la Recommandation de Sessions OLAP........................... 12 3.3 Perspectives de recherche de ma thèse................... 13 3.3.1 Un Outil pour l Aide à la Conception de Sessions........ 13 3.3.2 Un Benchmark pour les sessions OLAP.............. 15 3.3.3 Adaptation du Système de Recommandation dans d autres contextes 15 3.4 Personnalisation de requêtes OLAP.................... 15 3.4.1 Extraction de règles d association................. 15 3.4.2 Filtrage des règles.......................... 16 3.4.3 Traduction des règles en préférences................ 16 3.5 Extraction de Motifs Fréquents Appliquée aux Données de Renault... 16 3.6 Perspectives de travail sur la Fouille de Traces Utilisateurs....... 17 3.7 Autres activités de recherche........................ 19 4 Publications 21 A Pièces jointes au dossier 23 2
1 Profil Général 1.1 Cursus 2010/2013 Doctorat de l Université François Rabelais Tours, spécialité informatique, Similaritybased Recommendation of OLAP Sessions. Thèse réalisée au Laboratoire Informatique (LI, EA 6300, équipe BDTLN), soutenue le 13 décembre 2013 (Mention Très Honorable). 2008/2010 Master Système d Information et Analyse Décisionnelle (SIAD) de l Université François Rabelais Tours (Mention Assez Bien). Stage de recherche réalisé au Laboratoire Informatique (LI, EA 6300, équipe BDTLN) de l Université François Rabelais Tours 2005/2008 Licence Informatique de l Université François Rabelais Tours (Mention Assez Bien) 2005 Baccalauréat Scientifique (Mention Assez Bien), Lycée Saint- Joseph, Vendôme (41) 3
1.2 Expérience professionnelle depuis mars 2015 Post-Doctorat au LINA (Laboratoire Informatique de Nantes), équipe DUKe. Il s agit, à l aide de techniques de fouille de données, d extraire les informations pertinentes issues de données textuelles rattachées à des objets du patrimoine français. Ces données sont hébergées par la société TOPIC-TOPOS et sont consultables sur un site internet public. L objectif, à terme, est de pouvoir recommander des objets du patrimoine à des utilisateurs du site. sept. 2014 - févr. 2015 Ingénieur de Recherche, à l Université François Rabelais Tours. 2013-2014 ATER à temps complet (192 heures équivalent TD), à l Université François Rabelais Tours. 2010-2013 Doctorant Contractuel à Charge d enseignement (DCACe, Bourse Ministérielle, 192 heures équivalent TD), à l Université François Rabelais Tours. Jan-Fév 2012 Juil-Aout 2009 Stage de recherche de quatre semaines au Lucentia Research Group de l Université d Alicante (Espagne), encadré par le Pr. Juan Trujillo. Ce stage a permis d initier une approche pour résumer et naviguer entre des logs de requêtes OLAP. 100 heures d enseignement auprès des détenus de la maison d arrêt de Blois afin de leur faire valider le B2I (Brevet Informatique et Internet), dans le cadre d un stage non obligatoire en Master 1 SIAD. 1.3 Compétences techniques Calculs parallèles et distribués Formation à Hadoop/MapReduce Fouille de données Fouille de traces, extraction de règles d association/séquences fréquentes, mesures de similarités, clustering etc. Décisionnel Entrepôts de données, OLAP, Reporting, API Mondrian Langage de programmation Java, Java EE, PHP, Javascript Méthodologie UML, Design Pattern 2 Activités d Enseignement 2.1 Aperçu des actitivités Mes trois années de doctorat et mon année d ATER à temps complet m ont permis d enseigner au département Informatique de l Antenne Universitaire de Blois sur 4
sur toutes les années de Licence (L1, L2, L3, L3 Professionnelle Qualité et Sécurité des Système d Information (QSSI)) mais aussi sur toutes les années de Master (M1, M2 Système d Information et Aide à la Décision (SIAD)) ainsi qu en Master 2 BI (Business Intelligence, formation en anglais). Une bonne partie de mes enseignements est consacrée au langage objet Java mais également aux entrepôts de données et plus généralement aux bases données. Le tableau présenté ci-dessous récapitule l ensemble des enseignements effectués entre 2010 et 2014 pour chaque année d étude. Année 2013-2014 : ATER TP TD CM Eq. TD Méthodologie : ateliers pédagogiques - L1 Maths-Info 24 16 Structures de données et de programme - L1 Maths-Info 30 30 Génie Logiciel - L1 Maths-Info 8 8 Tutorat personnalisé - L1 Maths-Info 1 1 Conception Objet - L2 Info 20 16 37.5 Développement Objet - L3 Info 28 8 31 Complexité et graphes - L3 Info 8 10 23 Bases de données - L3 Pro QSSI 18 12 Modélisation Multidimensionnelle - M1 SIAD 8 5.5 Projet Décisionnel - M1 SIAD 19 19 Entrepôts de données & analyse en ligne - M2 SIAD 6 4 Intégration et qualité des données - M2 SIAD 4 2 7 Année 2012-2013 : DCACe TP TD CM Eq. TD Méthodologie : ateliers pédagogiques - L1 Maths-Info 10 10 Structures de données et de programme - L1 Maths-Info 7 8 15 Tutorat personnalisé - L1 Maths-Info 1 1 Conception Objet - L2 Info 6 2 9 Bases de données - L3 Pro QSSI 18 18 Entrepôts de données & analyse en ligne - M2 SIAD 6 6 Intégration et qualité des données - M2 SIAD 4 2 7 Année 2011-2012 : DCACe TP TD CM Eq. TD Méthodologie : ateliers pédagogiques - L1 Maths-Info 16 16 Structures de données et de programme - L1 Maths-Info 10 10 Tutorat personnalisé - L1 Maths-Info 1 1 Conception Objet - L2 Info 8 2 11 Bases de données - L3 Pro QSSI 12 12 Entrepôts de données & analyse en ligne - M2 SIAD 4 2 6 Data Warehouses - M2 BI 4 2 6 Année 2010-2011 : DCACe TP TD CM Eq. TD Méthodologie : ateliers pédagogiques - L1 Maths-Info 16 16 Structures de données et de programme - L1 Maths-Info 18 18 Logique pour l informatique - L2 Info 4 4 Conception Objet - L2 Info 10 10 ECS - L2 Info 16 16 Total : 384 5
Le détail de chacune des activités est donné Section 2.2. D un point de vu factuel, on peut résumer que, globalement, j ai eu à réaliser 90% des TPs, 65% des TDs et 33% des CMs. 2.2 Détails des enseignements Méthodologie : ateliers pédagogiques - L1 Maths-Info - 58 h éq. TD Pendant mes quatre années d enseignement, j ai eu la responsabilité de l enseignement de la méthodologie en L1 Mathématiques-Informatique. Cet enseignement a pour objectif de fournir aux étudiants de L1 les bons réflexes de programmation au travers d un projet Java encadré sur chaque séance. Dans un soucis de lier les concepts vus en mathématiques et en programmation Java, j ai proposé aux étudiants d implémenter des algorithmes simples de chiffrement. Afin de rendre également ce projet plus ludique, j ai créé une application graphique permettant aux étudiants de facilement manipuler les algorithmes qu ils ont programmés. Cela permet aussi de montrer aux étudiants que l interaction avec un programme informatique ne se réalise pas qu avec une simple console. Structures de données et de programme - L1 Maths-Info - 73 h éq. TD Sous la responsabilité du Dr. Mohamed Taghelit, j ai eu la charge d enseigner pendant les quatre dernières années la gestion des fichiers en Java aux L1 Mathématiques- Informatique. D autres concepts nécessaires à la bonne compréhension de la gestion des fichiers sont également abordés comme le principe des hiérarchies des classes, ou bien le gestionnaire d exception en Java. J ai également participé à l élaboration des sujets d examen ainsi qu à leurs corrections. Génie Logiciel - L1 Maths-Info - 8 h éq. TD Sous la responsabilité du Pr. Thomas Devogele, j ai eu la charge d enseigner des TDs sur les bonnes pratiques de débogage auprès des L1 Mathématiques-Informatique, pour l année 2013-2014. Logique pour l informatique - L1 Maths-Info - 4 h éq. TD Sous la responsabilité du Pr. Jean-Yves Antoine, j ai assuré deux séances de TD auprès des L2 Informatique (en 2010-2011) concernant la programmation logique à l aide de l outil SWI- Prolog. L objectif pour les étudiants concernant ces TDs est de mettre en pratique les concepts théoriques du cours, que sont notamment la déduction et la récursivité. J ai également participé à l élaboration des sujets d examen ainsi qu à leurs corrections. Tutorat personnalisé - L1 Maths-Info - 3 h éq. TD J ai eu en charge pendant ces trois dernières années, sous la responsabilité du Pr. Jean-Yves Antoine, de tutorer 4 à 6 étudiants dont le parcours dans le secondaire pouvait laisser prévoir de grandes difficultés en L1 Mathématiques-Informatique. J ai donc été amené à avoir plusieurs rendez-vous tout au long de l année avec chacun d eux pour repérer leurs difficultés, répondre à leurs inquiétudes mais également leur conseiller des voies de réorientation. 6
ECS - L2 Maths-Info - 16 h éq. TD Cet enseignement réalisé en 2010-2011 a pour but de fournir des connaissances avancées en Java et Web pour les étudiants de L2 Informatique, ayant pour projet de finir leur formation de licence informatique à l étranger (programme ECS). J ai notamment abordé avec les étudiants les concepts de threads pour la programmation Java ainsi que le langage de script PHP pour le Web. Les étudiants ont eu à réaliser un mini-projet pour chacun de ces concepts. Conception Objet - L2 Info- 67.5 h éq. TD Sous la responsabilité du Pr. Thomas Devogele, j ai eu en charge d enseigner les concepts de base en interface graphique Java (API SWING) auprès des L2 Informatique entre les années 2010 et 2014. Une grande partie de cette charge a été consacrée à l encadrement d un projet que j ai rédigé. Ce projet demande aux étudiants d ajouter une interface graphique à un précédent projet assuré par le Pr. Thomas Devogele. J ai également participé à l élaboration des sujets d examen ainsi qu à leurs corrections. Pour l année 2013-2014, cet enseignement a été entièrement assuré sous ma responsabilité. Développement Objet - L3 Info - 31 h éq. TD Cet enseignement a été porté sous la responsabilité conjointe du Dr. Chedlia Chakroun et de moi-même auprès des L3 Informatique pour l année 2013-2014. J ai eu notamment en charge d enseigner des concepts poussés, en Java, que sont : les Threads, l API native de Base de Données et l utilisation d une API externe pour la réalisation de statistiques graphiques (JF reechart). J ai réalisé l ensemble des cours (à l exception des Threads) et TPs. Les étudiants ont également eu à réaliser un projet, que j ai rédigé, demandant à construire une application graphique (utilisant l API Swing) et permettant de lancer des requêtes SQL sur une base de données, dont les résultats sont renvoyés à l utilisateur. Diverses statistiques doivent être également produites, portant notamment sur les requêtes passées (stockées dans un log), et affichant par exemple le nombre de tuples en fonction du temps. Complexité et Graphes - L3 Info - 23 h éq. TD Cet enseignement a été porté sous la responsabilité conjointe du Dr. Chedlia Chakroun et de moi-même auprès des L3 Informatique pour l année 2013-2014. J ai eu notamment en charge d enseigner une partie des concepts de complexité (les différentes classes de complexité, les problèmes NP-complet, les réductions polynomiales, la programmation dynamique) mais aussi des concepts de théorie des graphes (problème du voyageur du commerce, problème du sac à dos). J ai eu également à élaborer un projet sur la réalisation et la comparaison de différentes implémentations relatives au problème du voyageur de commerce (approche optimale, gloutonne et empirique). Bases de données - L3 Pro QSSI - 42 h éq. TD Sous la responsabilité du Pr. Thomas Devogele (et précédemment le Dr. Veronika Peralta), j ai eu en charge l ensemble des TPs de bases de données pour les L3 QSSI. L objectif des ces TPs est d appliquer les concepts vus en cours, à travers l utilisation d une base de données Oracle 11g. Les étudiants doivent notamment créer une base à partir d un schéma de base de données vu précédemment en TD, en prenant notamment en compte les contraintes 7
d intégrité possibles. Ils ont également à créer des vues matérialisées ainsi qu à interroger le dictionnaire Oracle. Une fois la base de données créée, ils ont à exprimer plusieurs requêtes en SQL, de difficultés croissantes, où sont notamment abordés les concepts de jointure et de groupement. Chaque TP étant noté, j ai eu la charge de corriger chacun d entre eux. Projet Décisionnel - M1 SIAD - 19 h éq. TD Sous la responsabilité du Dr. Veronika Peralta, j ai participé au suivi de projet d étude des Master 1 SIAD pour l année 2013-2014. L objectif de ce projet était de développer une application d aide au suivi des étudiants et de l analyse de leurs réussites, à destination des enseignants du département informatique. Le coeur de ce projet était notamment de construire un entrepôt de données, intégrant différentes informations sur les étudiants, et permettant donc de naviguer parmi ces données. J ai eu notamment en charge d évaluer la partie veille technologique et surtout la partie gestion de projet (diagramme de Gantt, analyse des risques) des différents groupes d étudiants, pour chaque phase du projet. Chaque fin de phase donnait également lieu à une soutenance en anglais que j évaluais pour partie. Modélisation Multidimensionnelle - M1 SIAD - 5.5 h éq. TD Sous la responsabilité du Dr. Veronika Peralta, j ai au en charge les TPs de modélisation multidimensionnelle auprès des Master 1 SIAD pour l année 2013-2014. Ces TPs reprennent, en partie, ceux effectués dans l enseignement Entrepôts de données & analyse en ligne pour les M2 SIAD entre les années 2011-2013 (les concepts de base en modélisation multidimensionnelle sont désormais abordés dès le Master 1). Plus particulièrement, il s agit ici de faire pratiquer par les étudiants la mise en place de schémas multidimensionnels. Entrepôts de données & analyse en ligne - M2 SIAD - 16 h éq. TD Sous la responsabilité du Dr. Veronika Peralta et du Dr. Patrick Marcel, j ai eu en charge les TPs d analyse en ligne auprès des M2 SIAD pendant ces trois dernières années. Au cours de ces TPs, j ai abordé avec les étudiants la mise en place de schémas multidimensionnels en utilisant l outil Schema Workbench (Pentaho) pour une utilisation avec le serveur OLAP Mondrian (Pentaho). Les étudiants ont eu également à optimiser un entrepôt de données, préalablement construit, en utilisant l outil Aggregation Designer (Pentaho), et permettant de matérialiser les agrégats intéressants (qui réduiront le temps d exécution d une requête OLAP). J ai également eu l opportunité de réaliser des TPs autour des stratégies de stockage pour les bases de données relationnelles (orientées ligne, avec Oracle et colonne avec MonetDB) hébergeant des entrepôts de données. Les étudiants devaient lancer les même requêtes OLAP sur ces deux types de bases de données, comparer leurs temps d exécution, et étudier l impact de la création d index, pour la stratégie orientée ligne, vis à vis de l orientée colonne. J ai aussi participé à l élaboration, le suivi, ainsi qu à la correction des projets. Ces projets, renouvelés chaque année, sont systématiquement basés sur des données réelles provenant de différents organismes. En l occurence, j ai participé, pour l année 2012-2013, à plusieurs réunions avec l Observatoire de l Economie et des Territoires de Loir-et-Cher pour aboutir à l obtention de données pertinentes à analyser. 8
Intégration et qualité des données - M2 SIAD - 14 h éq. TD Sous la responsabilité du Dr. Veronika Peralta, j ai eu notamment en charge les TPs d intégration et de qualité des données entre les années 2011-2014. La qualité et l intégration des données se sont faites par l utilisation des outils proposés par Talend, à partir des données brutes issues du projet Entrepôts de données & analyse en ligne. A noter que j ai également assuré les TPs d intégration et de qualité des données pour l année 2011-2012 (intégré dans la formation Entrepôts de données & analyse en ligne), qui a notamment donné lieu à l élaboration d un tutoriel en anglais pour l utilisation de l ETL proposé par Oracle (OWB) à destination des étudiants. Data Warehouses - M2 BI - 6 h éq. TD Cet enseignement qui s est déroulé en 2011-2012 (sous la responsabilité du Dr. Veronika Peralta et du Dr. Patrick Marcel), reprend les même objectifs décrits pour les enseignements Entrepôts de données & analyse en ligne ainsi que Intégration et qualité des données des M2 SIAD. La différence notable est que chaque TP que j ai assuré devait se dérouler en anglais (autant sur la rédaction des sujet, qu à l oral) puisque cette formation était proposée aux anglophones. 2.3 Autres activités d enseignement Voici décrit ci-dessous les activités complémentaires auxquelles j ai participé : Visite de stage en entreprise pour un étudiant de L3 QSSI Evaluation des stages de L3 (écrit + oral) Séminaire sur le doctorat et la recherche auprès des L1 et L3 Séminaire de recherche auprès des M2 SIAD Promotion de l enseignement supérieur et du département informatique auprès des lycéens de la ville de Vendôme (41) Participation à des forums lycéens sur Blois (41) Participation aux portes ouvertes de l Université François-Rabelais Tours 3 Activités de Recherche 3.1 Introduction Mes travaux de recherche effectués lors des cinq dernières années s articulent très clairement autour de la thématique Masse de données et, plus particulièrement, sur l analyse de traces utilisateurs et les systèmes de recommandations. Mes travaux de thèses, développés Section 3.2, portent sur la problématique de recommandation de séquences de requêtes, dans un contexte multidimensionnel (OLAP) au travers de techniques par filtrage collaboratif. Pendant mes années de doctorat, j ai également été amené à travailler sur la personnalisation de requêtes OLAP, développé Section 3.4. En outre, ces travaux de recherche m ont aussi amenés à travailler dans un contexte international, à de multiples reprises, avec une équipe italienne de l université de Bologne (Prof. Stefano Rizzi et Matteo Golfarelli). Dans le cadre de mes perspectives de thèse, j ai aussi été amené à implémenter intégralement, en langage Java, une appli- 9
cation d assistance à la composition de requêtes et de sessions OLAP (détaillé Section 3.3.1). Mes travaux issus de mon poste d ingénieur de recherche, et détaillés Section 3.5, portent sur l extraction de motifs fréquents, sur plateforme Hadoop, à partir de logs web de configurations de voitures fournis par la société Renault. En particulier, la liste de mes publications est disponible Section 4. 3.2 Contexte Général de ma Thèse Les travaux de recherche de ma thèse portent sur l aide à la conception de sessions d analyse dans les bases de données multidimensionnelles. Plus particulièrement, l OLAP (On-Line Analytical Processing) est le paradigme principal pour accéder aux données multidimensionnelles dans les entrepôts de données. L OLAP fournit notamment un ensemble d opérations qui transforment une requête multidimensionnelle en une autre, de sorte que les requêtes OLAP sont normalement formulées sous la forme de séquences appelées Sessions OLAP. Alors qu il est universellement reconnu que les outils OLAP ont un rôle clé dans l exploration souple et efficace des cubes multidimensionnels dans les entrepôts de données, il est aussi communément admis que le nombre important d agrégations et sélections possibles, qui peuvent être exploités sur les données, peut désorienter l expérience utilisateur. Ainsi, mon travail porte sur la problématique de recommandation de requêtes, en collaboration avec une équipe de recherche des professeurs Stefano Rizzi et Matteo Golfarelli de l université de Bologne (Italie). Une des suppositions de l approche est que toute la séquence de requêtes OLAP est une valeur en soi car il donne à l utilisateur une vue différente et complémentaire de l information. Pour cette raison, nous proposons une approche dont le but est de recommander une séquence de requêtes OLAP. En cohérence avec les approches de filtrage collaboratif, l objectif est de réutiliser les sessions passées réalisées par d autres utilisateurs. Ainsi, le système de recommandation est composé de trois phases dont la première sélectionne un ensemble de recommandations possibles parmi les sessions passées (phase de Selection), puis les classes (phase de Ranking) et finalement adapte la meilleure recommandation au contexte de la session courante (phase de T ailoring). Pour prendre en compte les sessions précédentes dans le système de recommandation, nous proposons de définir des mesures de similarité entre les sessions. Ces mesures de similarité sont utilisées lors des phases de Selection et Ranking en respectant l aspect séquentiel des sessions. La comparaison des sessions OLAP est fondée sur des besoins spécifiques afin de proposer des mesures de similarité entre les sessions, adaptées au contexte OLAP. Ces exigences ont conduit à proposer une approche à deux niveaux, comprenant une mesure de similarité entre les requêtes et une mesure de similarité entre séquences (basée sur l algorithme de Smith-Waterman pour aligner des sous-séquences). Pour évaluer la pertinence du système de recommandation et des mesures de similarité, un ensemble de mesures de qualité est proposé (tels que l adaptation, la nouveauté, l évidence, etc.), définies à partir de critères de qualité exprimés dans le cadre de la recommandation de sessions. Bien évidemment, le système de recommandation, mais aussi les propositions de mesures de similarité doivent pouvoir être testés à partir de sessions 10
passées. Mes travaux ont donc mené également à proposer un ensemble de générateurs de logs synthétiques pour tester le système et les mesures. Des logs réels ont aussi été obtenus pour montrer que l approche est efficace à partir d analyse diverses. En outre, les évaluations ont montré que le système de recommandation est capable de proposer des sessions pertinentes, bien adapté au contexte de la session courante, tout en étant informative pour l utilisateur. Les détails des différents travaux de recherche énumérés dans cette section, à savoir les définitions de mesures de similarités à trois niveaux, le système de recommandation mais aussi la définition de critères de qualité pour les recommandations, sont disponibles Sections 3.2.1, 3.2.2 and 3.2.3. 3.2.1 Définitions de Mesures de Similarité à Trois Niveaux Le système de recommandation proposé repose uniquement sur l utilisation de l expression de requête saisie par l utilisateur, notamment pour des raisons d efficacité en terme de temps de calcul. Ainsi la définition de requête repose sur un modèle basé sur des fragments et est composé de trois éléments à savoir : le group-by set (correspondant aux niveaux d analyses choisis pour chaque hiérarchie disponible sur un cube de données), l ensemble des prédicats de sélections et l ensemble des mesures (permettant de réaliser des agrégations). La mesure de similarité entre requêtes doit par conséquent prendre en compte cette définition. Pour cela, cette mesure combine une mesure de similarité par type d éléments du modèle de requête. La similarité entre group-by set repose principalement sur les distances entre les niveaux des hiérarchies, au travers du treillis des group-by set. La similarité entre ensemble de prédicats de sélections repose à la fois sur les distances entre niveaux de prédicats mais aussi sur les différences de valeurs de sélections. La similarité entre ensemble de mesures repose sur l utilisation classique de l Index de Jaccard. Plusieurs similarités entre sessions ont été proposées pour ce travail, intégrant la mesure de similarité entre requêtes. En particulier, chacune de ces propositions est une extension au contexte de l OLAP de mesures classiques disponibles en Recherche d Information tels que le Coefficient de Dice, TF-IDF, la Distance de Levenshtein, et l alignement de sous-séquences. Ces différentes propositions ont été comparées entre elles par des tests subjectifs (auprès d étudiants et de chercheurs) et objectifs (en produisant différents types de comportements de sessions similaires). Les résultats ont très clairement montrés que l alignement de sous-séquences (basé sur l algorithme de Smith- Waterman) surpassait toutes les autres mesures. Plusieurs similarités entre groupes de sessions sont aussi proposées, intégrant la mesure de similarité entre sessions. Chacune de ces mesures est une extension de mesures classique tels que l Accuracy (basé sur la précision et le rappel), la distance de Hausdorff et l index de Jaccard. 3.2.2 Proposition d un Système de Recommandation de Sessions OLAP, basé sur des Mesures de Similarité Le système de recommandation proposé est composé des trois phases suivantes : 11
1. La phase de Selection identifie dans un log un ensemble de sessions constituant des futures pertinents pour la session courante. 2. La phase de Ranking détermine parmi ces sessions, celle dont une sous-séquence sera une recommandation de base. 3. La phase de T ailoring adapte la recommandation de base à la session courante. En particulier, la phase de Selection identifie l ensemble des sessions pertinentes en comparant chaque session du log avec la session courante. Pour ce faire, la mesure de similarité, basé sur l alignement de séquences, est utilisée de telle sorte qu un alignement avec la fin des requêtes de la session courante et le début des requêtes des sessions du log sera avantagé. Ainsi, la séquence de requêtes suivant la sous-séquences de la session du log alignée sera considéré comme une possible recommandation. La phase de Ranking affecte un score pour chaque session obtenue dans la phase précédente. L idée est de spécifier un score important pour les sessions incluant des requêtes retrouvées fréquemment parmi les autres sessions proches, pour une même position dans la séquence de requête. L extension de l alignement de sous-séquences est ici aussi utilisée. La phase de T ailoring cherche à adapter le contexte de la recommandation ayant le meilleure score de la phase de Ranking avec le contexte de la session courante. Pour cela, deux types de règles d association sont extraites. Le premier extrait les règles à partir de la session courante et de la session du log incluant la recommandation. En effet, l idée est de pouvoir trouver quels sont les fragments de requêtes fréquemment associées entre ces deux sessions. Ainsi, les fragments de la recommandation correspondant à des fragments de corps de règles sont remplacées par des fragments de session courante, situées en tête de règle. Le second type de règle identifie les invariant de la session courante en cherchant les associations fréquentes entre fragments de ses différentes requêtes. Ainsi si un fragment de la recommandation correspond à un fragment de corps de règle, alors le fragment de tête pourra être ajouté. Finalement, le système de recommandation fourni à l utilisateur des recommandations synthétisé, à partir de sessions passées. 3.2.3 Définitions de Mesures de Qualité pour la Recommandation de Sessions OLAP Un ensemble de mesures de qualités sont définie pour vérifier la qualité des recommandations produite par le système. Six mesures de qualités sont proposées, telles que Relevance, F oresight, N ovelty, Adaptation et Obviousness et Accuracy. La mesure de Relevance est simplement le score obtenu pendant la phase de Ranking. La mesure de F oresight indique à quel point la dernière requête de la session courante est loin de la première requête de la session recommandée. La mesure de N ovelty identifie comment la session recommandée est distante des sessions du log. La mesure d Adaptation cherche à savoir à quel point la session recommandée est bien adaptée au contexte de la session courante en terme de fragments. La mesure d Obviousness indique la proportion de requêtes, de la session recommandée, retrouvée à l identique dans le session courante. La mesure d Accuracy, classique dans les techniques centrée utilisateur pour 12
mesurer la qualité d un système, cherche à savoir si la session recommandée est proche de celle attendue. Les tests réalisés à partir de ces mesures, notamment basés sur des logs synthétiques et réels en utilisant le principle de la validation croisée, ont montrée que les recommandation fournies sont très proches de la session courante en terme d Adaptation et de F oresight, et proposent très peu de requêtes identiques à la session courante (Obviousness) et semblent informatives pour l utilisateur (N ovelty). En particulier, les tests d Accuracy ont montré que la phase de T ailoring améliorait sensiblement les résultats en terme de précision et et rappel, notamment pour des logs incluant des sessions très éparses. 3.3 Perspectives de recherche de ma thèse 3.3.1 Un Outil pour l Aide à la Conception de Sessions Quand un utilisateur commence tout juste à réaliser sa session, le système de recommandation ne peut généralement pas proposer de requêtes puisque peu de requêtes sont disponibles. Le problème de Démarrage à Froid, bien connu dans le contexte de la recommandation, pourrait être en partie évité grâce à des techniques de résumé (que j ai développé dans [10] et [8]). En effet, l idée serait qu un utilisateur puisse explorer les requêtes passées dans le but d identifier des requêtes intéressantes. Mais puisque la taille d un log de requêtes est très importante, l utilisateur pourrait être submergé par la quantité d information disponible. Ainsi, seules les requêtes les plus pertinentes du log seraient présentées à l utilisateur, sous une forme organisée, et dont des opérateurs de navigation permettraient de les explorer facilement. Une première expérience a été réalisée dans [7] et présente un outil OLAP (nommé F alseto pour Former AnalyticaL Sessions for less Tedious Olap ) permettant d assister un utilisateur à la composition de requêtes et de sessions, à l aide de fonctionnalités holistiques. En effet, l utilisateur a la possibilité de résumer, naviguer, lancer des requêtes et réutiliser des sessions passées. Dans les détails, cet outil est basé sur un framework incluant : un langage d édition de requêtes OLAP permettant d ajouter/supprimer un élément (group-by set, conditions de sélections, mesures), mais aussi d opérateur de navigation similaires à ceux que l on peut traditionnellement trouver en OLAP (drill-down, roll-up, slice-and-dice) un langage de manipulation de logs incluant cinq opérateurs, inspirés de l algèbre relationnel, que sont la sélection σ, le groupement/aggrégation π, la jointure, l union et la différence \. Cette relation de spécialisation est ainsi à la base du système de résumé permettant d en avoir un aperçu fidèle, mais concis. En outre, l utilisateur a la possibilité d utiliser des fonctionnalités holistiques, implémentés dans F alseto, permettant de : fouiller dans les logs : l outil implémente deux versions de l opérateur de sélection σ θ,s. En fonction d une session s, le système permet de filtrer le log à l aide d une fonction θ qui peut être soit une mesure de similarité (l implémentation est basé 13
sur l extension de Smith-Waterman, comme décrit Section 3.2.1) ou une relation de spécialisation entre sessions. La relation de spécialisation entre sessions, elle même basé sur une relation de spécialisation entre requêtes (voir [8] pour plus de détails), permet de facilement décrire des groupes de requêtes ou de sessions à différents niveaux de détails. résumer et navigation dans les logs : l outil implémente l opérateur de groupement/aggregation π θ (s, s ) pour naviguer dans un log de manière conviviale. En effet, à l aide de techniques de clustering, des paires de sessions similaires sont formés et l opérateur π θ (s, s ) permet de les aggréger afin d en avoir une vue plus générale (à l aide de la relation de spécialisation décrite ci-dessus). recevoir des recommandations : le système de recommandation proposé pendant ma thèse est inclus dans cet outil (voir Section 3.2). Figure 1 Interface utilisateur de l outil F alseto Puisque cet outil repose sur l exploitation de logs, une collecte de sessions d analyse a aussi été conduite auprès d étudiants de Master. A cette fin, un protocole de récolte de sessions a été proposé et plusieurs questionnaires, avec un nombre limité de questions, construits autour d un même cube de données, ont été distribués aux étudiants afin de conduire eux-mêmes leurs analyses. Cet ensemble de sessions obtenues a ensuite permis de valider les différentes approches proposées. L implémentation et les éléments nécessaires au fonctionnement de l outil sont disponibles à l adresse suivante : http://vega.info.univ-tours.fr:29082/tea/. La Figure 1 donne un aperçu de l interface utilisateur. 14
3.3.2 Un Benchmark pour les sessions OLAP Pour mener et simuler des tests, il semble important d avoir à disposition une plateforme de référence pour vérifier la qualité de sessions d analyse sur un cube de données. En effet, bien que la qualité des données soit un domaine largement étudié, la qualité des processus d interrogation de bases de données ne l ai pas encore. Ainsi, la proposition de facteurs de qualité pour les requêtes et sessions d analyse pourrait permettre le développement d une plateforme vérifiant et validant des approches centrées utilisateurs. Plus précisément, cette plateforme pourrait mesurer dans quelles proportions les approches sont efficaces en terme de pertinence des réponses, d effort fourni pour effectuer l analyse OLAP etc. En outre, cela supposerait d étendre la définition de session en la complétant par le plus d information possibles, tel que les opérations OLAP. 3.3.3 Adaptation du Système de Recommandation dans d autres contextes Puisque d autres domaines, autres que l OLAP, sont aussi confrontés au problème de séquences complexes, il semble intéressant d adapter le système de recommandation à ces contextes. Par exemple, dans le contexte de la fouille de données, les séquences complexes peuvent être vues comme des séquences de tâches de fouilles de données. Bien évidemment, la similarité de sessions à deux-niveaux doit être adaptée à chaque domaine spécifique. 3.4 Personnalisation de requêtes OLAP Le but de la personnalisation est de fournir une information pertinente à un utilisateur ou groupes d utilisateurs avec la meilleure interaction possible. Dans le contexte OLAP, la personnalisation semble bénéfique, parce que les requêtes peuvent être très complexes et peuvent retourner un nombre important de données. Dans le but de rendre l expérience utilisateur la plus agréable possible, une approche proactive de personnalisation de requêtes a été proposée. Cette approche associe un langage de requête basé sur MDX pour exprimer des préférences et des techniques de fouille de données pour annoter automatiquement une requête courante. En premier lieu, les requêtes MDX, effectué par un utilisateur donné et stockées dans un log, sont fouillés pour en extraire un ensemble de règles d associations qui reflètent les clauses de requêtes fréquentes (détaillé Section 3.4.1). Puis, selon une requête utilisateur spécifique, un sous-ensemble de règles pertinentes et valides est sélectionné (détaillé Section 3.4.2). Finalement, les règles sélectionné sont traduites en une préférence qui est utilisé pour annoter la requête de l utilisateur (détaillé Section 3.4.3). 3.4.1 Extraction de règles d association Pour des raisons d efficacité, la phase d extraction de règles d association est réalisé off-line, avant que la session de requêtes courante ne commence. Cette phase consiste à exécuter un algorithme de fouille de données sur chaque log de requête utilisateur pour en extraire un ensemble R de règles d association, dont les valeurs de support et confiance sont au dessus d un certain seuil. 15
3.4.2 Filtrage des règles Quand l utilisateur est en train d écrire sa requête MDX q, un sous-ensemble de règles R q R est sélectionné. Chaque règle dans R q est pertinente, c est à dire que son antécédent correspond à un élément de la requête q, et valide, c est à dire que la préférence pourrait être traduite dans q pour ordonner les faits retournés par q. Afin d exprimer une complexité de préférences désirée, l utilisateur a la possibilité de choisir un nombre α (entier positif) de préférences. A partir de R q, un ensemble d éléments F α de requêtes est généré de manière à ce que α préférences soient incluses dans l expression de préférence général. 3.4.3 Traduction des règles en préférences Chaque fragment de F α est traduit en un constructeur de base de préférence. Les constructeurs résultants sont ensuite unis et composés, par l utilisation de l opérateur de Pareto, en une expression de préférence p. Ensuite, la requête q est annotée avec l expression de préférence p, traduite à l aide du moteur de préférence mymdx 1, et exécutée. 3.5 Extraction de Motifs Fréquents Appliquée aux Données de Renault Ce travail s est effectué en étroite collaboration entre les sociétés Cyrès (spécialisé dans les structures Hadoop, basé sur le site de Tours), Renault (site de Le Plessis- Robinson) ainsi que les équipes OC (spécialisé dans l optimisation et l ordonnancement) et BDTLN (pour la partie fouille de données) du laboratoire informatique de l université de Tours. Plus précisément, les travaux de ce projet portent sur l extraction de motifs fréquents, sur plateforme Hadoop, à partir de logs web fournis par Renault. En particulier, ces logs contiennent les différentes étapes des utilisateurs configurant une nouvelle voiture au travers du site internet de Renault. L objectif principal est de trouver des motifs fréquents, mais pertinents, permettant d identifier et de décrire des usages pour un modèle de voiture particulier (par exemple, étudier les configurations de voiture les plus demandées). Un premier travail a été d identifier, dans la littérature, des algorithmes de fouille de motifs fréquents adaptés au contexte MapReduce. Classiquement, l objectif de la plupart de ces propositions est de répondre au problème qu est l équilibre de la charge de traitement. Notamment, deux algorithmes efficaces, à savoir BigFim et DistEclat 2, sont proposés. Dist-Eclat utilise un équilibre de charge basé sur un top-k de motifs fréquents générés par l algorithme classique Eclat. Eclat se basant sur une base de données verticale et sur l utilisation de TID-list (liste de transactions se rapportant aux items), 1. Preference-Based Datacube Analysis with myolap, Paolo Biondi and Matteo Golfarelli and Stefano Rizzi, ICDE 2011 2. Frequent Itemset Mining for Big Data, Sandy Moens, Emin Aksehirli and Bart Goethals, Big Data 2013 16
l exécution sous MapReduce peut être efficace si le volume de ces TID-list reste limité. Quant à BigFim, celui-ci équilibre la charge par un top-k de motifs fréquents générés par l utilisation de l algorithme Apriori. L avantage ici est de ne pas avoir à gérer des TID-list. Mais Apriori étant très coûteux, l exécution peut être ralenti si le top-k à explorer est trop important. Ainsi, ces deux algorithmes ont été utilisés dans le cadre de ce projet pour fouiller les logs de configuration. Bien évidemment, et préalablement à tout travail de fouille, un travail de découpage et filtrage des logs a été effectué. En particulier, un travail a été réalisé sur l extraction de sessions à partir des séquences de configuration présentes dans les logs. Ainsi les sessions utilisateurs considérées comme triviales (par exemple, seulement une ou deux requêtes sont présentes) ont permis de filtrer logs initiaux, améliorant ainsi leur qualité. Concernant le problème de la pertinence des motifs fréquents extraits, mais bien que classique dans le domaine de la fouille de données, un travail de filtrage des motifs a également été entrepris. En effet, au vu de la masse de motifs extraits, il est essentiel d en diminuer le nombre et de se focaliser sur les items les plus pertinents pour Renault. Ainsi, la première étape a été de se focaliser sur les motifs clos. En effet, un motif étant clos lorsqu il n a pas le même support que tout super-motif, il permet de définir une représentation condensée et sans perte de l information. Une seconde étape a été de filtrer les singletons possédant une valeur de support très élevée et qui n apportent aucune valeur ajoutée aux motifs extraits. Par exemple, il est facilement compréhensible que Renault considère comme triviale une configuration de voiture incluant un volant à gauche (en France, bien sûr). Le même principe a aussi été effectué pour des ensembles d items très fréquents. Un autre travail, en cours, est d identifier des motifs émergeants à l aide de mesures originales de taux de croissance et de taux d inattendu. L idée est d extraire des motifs fréquents à partir d un ensemble de configurations dites initiales (typiquement les configurations proposées par Renault lors d une première connexion sur le configurateur de voiture) et d un autre ensemble de configurations finales (la voiture désirée par l utilisateur). La comparaison, pour un même motif donné entre ces deux classes de configurations, permet d obtenir un ensemble de motifs émergeants à l aide des mesures de taux de croissance et d inattendu. Plus particulièrement, le taux de croissance d un motif donné est basé sur les différences de support entre les deux classes considérées. Le taux d inattendu est, quant à lui, calculé à partir des taux de croissance des partitions du motif considéré. L extraction de ces motifs émergeant s est, pour l instant, limité à un jeu de données raisonnable (dû à une complexité exponentielle de l algorithme d extraction de motifs émergeants) Le passage à l échelle, à l aide de techniques MapReduce, est à l étude. 3.6 Perspectives de travail sur la Fouille de Traces Utilisateurs Au vu des logs fournis par Renault, différentes pistes restent à explorer. Parmi celles ci, un objectif est de comprendre les usages de configuration de voiture au fil du temps : cela suppose de pouvoir extraire des motifs émergeants pour différentes périodes de temps. 17
D autres objectifs concernent l étude des séquences utilisateurs. L extraction de séquences fréquentes permettrait d identifier des cycles possibles de configurations, afin de savoir si les utilisateurs suivent bien un ordre de configuration de voiture supposé. Dans un soucis d améliorer l interaction avec l utilisateur, on pourrait également chercher à identifier les configurations trop complexes et réfléchir ainsi aux moyens à mettre en place pour faciliter la configuration d une nouvelle voiture. Bien évidemment, comme pour l extraction de motifs fréquents, la masse de données à traiter est très volumineuse. Cela implique donc de paralléliser, au mieux, les tâches de fouille de séquences. Etrangement, et au mieux de nos connaissances, il semble que peu de travaux traitent du problème de l adaptation de l extraction de séquences fréquentes au contexte Map/Reduce. Ainsi, un travail en cours est de proposer un algorithme de fouille de séquences, basé sur l algorithme classique de PrefixSpan, adapté à Hadoop. Une autre tâche viserait à établir un état de l art sur les langages de haut niveau (tels que Pig Latin) utilisés au dessus de Hadoop pour conduire des tâches d exploration de données. Cela permettra par la suite de proposer un nouveau langage pour y inclure des fonctionnalités de fouille de données, en particulier d extraction de motifs locaux. 18
3.7 Autres activités de recherche Séminaire à l étranger : Présentation d un projet de recherche sur la navigation parmi les requêtes OLAP passées, ainsi que de mes travaux de thèse au Lucentia Research Group, Université d Alicante (Espagne), Janvier 2012. Séminaires doctorants : Présentation de mon sujet de thèse, LI, Tours, 20 Mai 2011 (en anglais). Présentation du papier [5], LI, Tours, 17 Février 2012 (en anglais). Présentation du papier [9], LI, Tours, 28 Juin 2013 (en anglais). Séminaire interne : Présentation d algorithmes d extraction de motifs fréquents sur plateforme Hadoop, LI, Tours, 12 Décembre 2014. Ecoles d été : Web Intelligence 2010 (WI 2010), Le Web centré sur l utilisateur, Saint-Germain- Au-Mont-d Or, 5 au 9 juillet 2010, France. First European Business Intelligence Summer School (ebiss 2011), July 3-8 2011, Ecole Centrale Paris, France. Comité : Membre du comité d organisation des 9ème Journées Francophone sur les Entrepôts de Données et l Analyse en Ligne (EDA), 13 et 14 juin 2013, Blois, France. (Mise en place du site web et du module d inscription) Membre du comité de programme de la session démonstration des 10ème Journées Francophone sur les Entrepôts de Données et l Analyse en Ligne (EDA), 05 et 06 juin 2014, Vichy, France. Responsable de sessions : Responsable de la session Query P rocessing and P hysical Design, Atelier International DOLAP 2014, Shanghaï, Chine. Relectures d articles (en tant que relecteur additionnel) : CIIA 2011 : Third International Conference on Computer Science and its Applications, Saida, Algeria, December 13-15, 2011. EGC 2011 : 11ème Conférence Internationale Francophone sur l Extraction et la Gestion des Connaissances, 25 au 29 janvier 2011, Brest, France. ICWIT 2012 : 4th International conference on Web and Information Technologies, Sidi Bel Abbes, Algeria, April 29-30, 2012. MoRe-BI 2012 : 2nd International Workshop on Modeling and Reasoning for Business Intelligence, Florence, Italy, October 17, 2012. EGC 2013 : 13ème Conférence Internationale Francophone sur l Extraction et la Gestion des Connaissances, 29 janvier - 01 février 2013, Toulouse, France. 19
EDA 2013 : 9ème Journée Francophone sur les Entrepôts de Données et l Analyse en Ligne, 13 et 14 juin 2013, Blois, France. ER 2013 : 32nd International Conference on Conceptual Modeling, November 11-13, 2013, Hong Kong. Dawak 2014 : 16th International Conference on Data Warehousing and Knowledge Discovery, September 1-5, 2014, Munich, Germany. EDA 2015 : 11ème Journée Francophone sur les Entrepôts de Données et l Analyse en Ligne, 2 et 3 avril 2015, Bruxelles, Belgique. Nomination : Nominé pour le prix du meilleur papier académique [11]. 20
4 Publications Les publications indiquées ci-dessous ont toutes été soumises à un comité de lecture (à l exception de [8] qui est un papier invité). Références Thèse de doctorat [1] Julien Aligon. Similarity-based Recommendation of OLAP Sessions Université François Rabelais Tours, 2013. Journaux [2] Julien Aligon, Enrico Gallinucci, Matteo Golfarelli, Patrick Marcel and Stefano Rizzi. A collaborative filtering approach for recommending OLAP sessions. In DSS (Decision Support Systems), Volume 69, January 2015, Pages 20-30. 2015. (Facteur d Impact : 2.036 en 2013) [3] Julien Aligon, Matteo Golfarelli, Patrick Marcel, Stefano Rizzi and Elisa Turricchia. Similarity Measures for OLAP Sessions. In KAIS, Volume 39, Number 2. 2014. (Facteur d Impact : 2.225 en 2011 et 2.008 en 2010) Disponible en version on-line : http://link.springer.com/article/10.1007% 2Fs10115-013-0614-1#page-1 Chapitre de livre [4] Julien Aligon, Patrick Marcel and Elsa Negre. Summarizing and querying logs of OLAP queries. In Advances in Knowledge Discovery and management, vol. 3 (AKDM-3), post-proceedings of EGC 2011, Studies in Computational Intelligence, Springer. 2013. Conférences internationales [5] Julien Aligon, Matteo Golfarelli, Patrick Marcel, Stefano Rizzi and Elisa Turricchia. Mining Preferences from OLAP Query Logs for Proactive Personalization. In Proc. 15th East European Conference Advances in Databases and Information Systems, ADBIS 2011. LNCS. September 2011. [6] Julien Aligon, Patrick Marcel and Elsa Negre. A Framework for Summarizing a Log of OLAP queries. 1st International Conference on Machine and Web Intelligence, ICMWI 2010, special track on OLAP and Datawarehouse. IEEE. October 2010. 21
Ateliers internationaux [7] Julien Aligon, Kamal Boulil, Patrick Marcel and Veronika Peralta. A Holistic Approach to OLAP Sessions Composition : The Falseto Experience. In Proceedings of the 17th International Workshop on Data Warehousing and OLAP, DOLAP 2014, Shanghai, China, November 3-7, 2014. November 2014. [8] Julien Aligon, Dominique Li, Patrick Marcel and Arnaud Soulet. Towards a logical framework for OLAP query log manipulation. In Proc. 6th International Workshop on Personalized Access, Profile Management, and Context Awareness in Databases, PersDB 2012. August 2012. (invited paper). Conférences nationales [9] Julien Aligon. Gathering Real OLAP Analysis Sessions : A Feedback. In Proc. 9èmes journées francophones sur les Entrepôts de Données et l Analyse en ligne, EDA 2013. June 2013. (papier court, 21 soumissions, 29% acceptées en version courte). [10] Julien Aligon and Patrick Marcel. Summarizing former sessions for user-centric OLAP. In Proc. 8èmes journées francophones sur les Entrepôts de Données et l Analyse en ligne, EDA 2012. June 2012. (17 soumissions, 35% acceptées en version longue) [11] Julien Aligon, Patrick Marcel and Elsa Negre. Résumés et interrogations de logs de requêtes OLAP. In Proc. 11ème Conférence Internationale Francophone sur l Extraction et la Gestion des Connaissances, EGC 2011. Janvier 2011. (131 soumissions, 26% acceptées en version longue) Travaux Annexes [12] Julien Aligon, Matteo Golfarelli, Patrick Marcel, Stefano Rizzi and Elisa Turricchia. OLAP session exercices. http://www.julien.aligon.fr/recherche/ similarityform.aspx. [13] Julien Aligon, Matteo Golfarelli, Patrick Marcel, Veronika Peralta and Stefano Rizzi. Questionnaires et Résultats pour les logs réels. http://www.julien. aligon.fr/index.php/research-activities/real-olap-logs/. 22
A Pièces jointes au dossier Voici les pièces ajoutées à ce dossier : copie du rapport de soutenance de ma thèse, copie des rapports de pré-soutenance de thèse de doctorat de Mme Marie-Aude Aufaure et M. Olivier Teste, lettre de recommandation de MM. Arnaud Giacometti et Patrick Marcel, directeurs de ma thèse, lettre de recommendation de M. Thomas Devogele, directeur du département informatique de l UFR Sciences et Techniques de l université de Tours, lettre de recommendation de M. Jean-Yves Antoine, directeur de la Licence informatique du département informatique de l UFR Sciences et Techniques de l université de Tours, lettre de recommendation de Mme Béatrice Bouchou Markhoff, responsable de la Licence Pro Qualité Sécurité des Systèmes d Information de l IUT de Blois, lettre de recommandation de M. Stefano Rizzi, professeur à l université de Bologne (Italie), lettre de recommandation de M. Juan C. Trujillo, professeur à l université de Alicante (Espagne). 23
IJNIVERSITE DE TOTJRS 60 Rue du Plat d'etain BP 12050 37020 - TOI.JRS CEDEX 1 Recherche et Etudes Doctorales Tél : 02 47 36 66 75 Fax. :02 47 36 65 62 RAPPORT DE SOUTENANCE DE THESE (à retourner, signé de chaque membre du jury, dans les meilleurs délais) DIPLOME DE DOCTORAT NOM &Prénom du candidat : Julien ALIGON Date de Soutenance : 13 Décembre 2013 NOM du Président de jury : S-t"e- /"ry-., / Rizz-l \ Le travail présenté par M. fulien Aligon s'attaque à un problème important et actuel, à savoir la recommandation dàns les systèmes OLAP. Ce problème est réputé difficile compte-tenu de la cor-nplexité pour les utilisateurs de poser les bonnes requêtes lors de sessions d'analyse. Le candidat a présenté les principaux aspects de ses contributions, à savoir le cadre générique de recommandation, ainsi qu'une batterie complète de tests pour l'évaluer. Le jury a apprécié la clarté du discours et le souci du candidat de présenter ses principales et importantes contributions de manière didactique. Etant donnée l'intérêt du jury pour ce sujet et les perspectives qui y sont reliées, la présentation du candidat a suscité de nombreuses questions et discussions. A travers ses réponses, le candidat a démontré sa connaissance vaste du sujet. Ainsi, le jury a décidé unanimement de décerner à M. fulien Aligon le titre de Docteur en informatiquà d" l'urrirr"rsité François Rabelais Tours, avec la mention très honorable' fuô "-T ^Ie- S «itz, Ch-\ R*,v;,
Rapport sur le manuscrit de thèse de Julien Aligon Similarity- Based Recommendation of OLAP Sessions La problématique de cette thèse est relative à la recommandation de séquences de requêtes OLAP, appelées sessions OLAP, de manière à guider un utilisateur dans le processus d analyse des données stockées dans un entrepôt. Après une introduction générale de la problématique et des contributions de la thèse, le document est organisé en quatre chapitres principaux, suivis d'un chapitre de perspectives et de conclusion. Le chapitre 1 dresse un état de l'art sur la fouille de données d usage dans le contexte des systèmes de recommandation. Le chapitre 2 présente la modélisation des requêtes, des sessions et logs, puis propose des mesures de similarité entre ces objets modélisés. Le chapitre 3 présente le système de recommandation, au cœur de ce travail de thèse. Les expérimentations, subjectives et objectives, portant à la fois sur des données synthétiques et des données réelles, font l objet du chapitre 4. Enfin, le chapitre 5 est consacré aux perspectives de ce travail et à la conclusion. Le chapitre 1 est consacré à l état de l art sur l analyse de l usage dans le contexte de la recommandation de requêtes dans les bases de données et les entrepôts de données, ainsi que sur les similarités au niveau des requêtes et des sessions. Une description synthétique et illustrée des systèmes de recommandation, de leur évaluation ainsi que les techniques pour la recommandation de séquences est tout d abord présentée. L état de l art se poursuit avec la recommandation dans les bases de données et entrepôts de données, en soulignant dès le départ les spécificités de ces systèmes par rapport aux approches classiques de recommandation. Des mesures de similarité ainsi que leur utilisation pour la comparaison de requêtes sont décrites. Une étude critique de ces approches aurait été intéressante pour introduire les apports du travail présenté. Ce chapitre est bien organisé, clair et didactique, et se conclut par une discussion sur les besoins pour la recommandation de sessions OLAP basée sur la similarité, faisant l objet de ce travail de thèse, en insistant notamment sur la nécessité de prendre en compte les séquences de requêtes.
Le chapitre 2 présente le modèle des requêtes, sessions et logs utilisé dans cette thèse. Une approche à trois niveaux est ensuite définie pour comparer les logs OLAP, basée sur la comparaison des requêtes dont dépend la comparaison des sessions puis des logs. Le modèle de requêtes est un modèle pivot au niveau intentionnel. Les mesures de similarité au niveau requêtes sont décrites. Les mesures de similarité entre sessions sont des mesures classiques adaptées au contexte spécifique de l OLAP. Enfin, la similarité entre logs OLAP est brièvement abordée. Ce chapitre est bien formalisé, bien qu il soit parfois difficile pour le lecteur de voir comment ces différentes mesures peuvent être appliquées. Le chapitre 3 est dédié à la présentation du système de recommandation de sessions OLAP basées sur la similarité. Après une introduction générale du système, les trois phases le composant sont détaillées, à savoir les phases de sélection, de classement et d adaptation. La première phase consiste à sélectionner les sous- sessions dans les logs qui sont alignées avec la session courante de l utilisateur. L exemple donné permet au lecteur de bien comprendre cette première phase de sélection des requêtes futures possibles par rapport à la session de requêtes en cours. La phase de classement consiste à sélectionner la séquence de requêtes à laquelle est associé le meilleur score parmi celles obtenues en résultat de la phase précédente. Enfin, la phase d adaptation consiste à modifier ou à ajouter des fragments aux requêtes, et est basée sur des règles d association. Ce chapitre est clair et présente un exemple cohérent illustrant chacune des phases. Le chapitre 4 aborde la problématique de la qualité du système de recommandation. Les tests ont été effectués sur des logs synthétiques, et des logs générés par des étudiants. L obtention de logs réels est difficile puisque ces données sont en général stratégiques pour les entreprises. Ce chapitre présente tout d abord une méthode pour obtenir des logs synthétiques à partir de patrons prédéfinis. La méthodologie suivie pour obtenir des logs réels, à l aide de questionnaires destinés à des étudiants, est ensuite détaillée, et les logs obtenus sont analysés. Le nombre de sessions obtenues (logs synthétiques et logs réels) est assez peu élevé (200 sessions dans le premier cas, 145 sessions dans le second cas). Des tests subjectifs et objectifs ont été effectués sur la base respectivement des logs réels et des logs synthétiques. L aspect temps- réel est abordé mais nécessitera de faire appel à des techniques distribuées dans un contexte où le nombre de sessions à comparer est élevé. Des mesures de qualité ont été calculées et ont montré que le système est capable de faire des recommandations de sessions de qualité. Enfin, le chapitre 5 résume les contributions et spécificités des travaux de recherche de Monsieur Aligon et met en lumière un ensemble de perspectives à court terme dont le développement d une plate- forme pour valider les approches centrées utilisateur ainsi que l adaptation des travaux proposés à d autres contextes tels que les séquences dans les tâches de fouille de données. L aspect passage à l échelle aurait pu être discuté dans les perspectives, de même que l exploitation possible des résultats de ces travaux par rapport
aux avancées des éditeurs de logiciels de Business Intelligence, notamment sur l aspect collaboratif. Ce travail a le mérite d avoir exploré un domaine important et actuel, relatif à l'étude à la recommandation dans les systèmes OLAP compte- tenu de la complexité pour les utilisateurs de poser les bonnes requêtes lors de sessions d analyse des données. La définition bien formalisée du système de recommandation proposé, les expérimentations réalisées et la validation par des tests subjectifs et objectifs des travaux proposés sont indéniablement des points forts. Les résultats obtenus sont significatifs et ont fait l objet de publications d excellente qualité. En conclusion, et compte- tenu du travail effectué et de son intérêt indéniable, je suis très favorable pour que la thèse de Monsieur Julien Aligon soit soutenue en vue de l obtention du diplôme de Docteur de l'université François Rabelais de Tours. Fait à Chatenay- Malabry, le 25 Novembre 2013 Marie- Aude Aufaure Professeur de l Ecole Centrale Paris, Responsable de l équipe Business Intelligence Laboratoire MAS
RAPPORT sur le mémoire de thèse «Similarity-Based Recommendation of OLAP Sessions» présenté par Monsieur Julien Aligon pour obtenir le titre de Docteur en informatique de l université François Rabelais de Tours I. CONTEXTE Le mémoire présenté par Monsieur Julien Aligon, intitulé «Similarity-Based Recommendation of OLAP Sessions» traite d une problématique difficile qui consiste à recommander des sessions OLAP dans les entrepôts de données multidimensionnelles. L approche des entrepôts de données consiste à collecter de grandes masses de données utiles aux décideurs pour les organiser de sorte à supporter efficacement les processus d analyse en ligne (OLAP). Les données entreposées sont généralement structurées de manière multidimensionnelle afin d offrir un espace de navigation simplifié tout en assurant la validité des manipulations de données. Les décideurs naviguent au sein de l espace multidimensionnel par une succession de requêtes, formant une séquence d opérations OLAP (ou session OLAP). Les travaux présentés dans ce mémoire s'inscrivent dans ce contexte. L objet essentiel du mémoire consiste à définir une approche de recommandation de sessions OLAP dans un contexte de filtrage collaboratif. Les travaux présentés développent un système de recommandation basé sur plusieurs mesures de similarités adaptées au contexte OLAP. II. CONTRIBUTIONS Le mémoire rédigé, en langue anglaise, est organisé en une introduction, 4 chapitres d étude et de proposition, et une conclusion, que nous analysons successivement. Le chapitre d'introduction présente clairement le contexte et les contributions des travaux de recherche qu a menés Monsieur Julien Aligon. Dans le chapitre suivant (chapitre 1) une étude de l état de l art est menée. Ce chapitre étudie dans un premier temps de manière claire et illustrée les techniques utilisées par les systèmes de recommandation de page Web. Dans un second temps, est dressé un panorama approfondi des travaux menés sur les systèmes de recommandation dans les bases de données et les entrepôts de données. Le chapitre se termine par une discussion mettant en relief les lacunes des travaux existants notamment dans le contexte de la recommandation de 1
sessions. Quatorze exigences que devrait remplir un système de recommandation en OLAP sont identifiées. Ce chapitre expose l'important travail d'étude que Monsieur Julien Aligon a mené durant sa thèse. J ai particulièrement apprécié dans cette étude les tableaux de synthèse qui offrent une vision claire et une analyse comparative intéressante des principaux travaux. Ils montrent la connaissance et la maîtrise du candidat de ces domaines de recherche. Monsieur Julien Aligon a pris soin d illustrer par des exemples clairs et pédagogiques les nombreuses techniques de recommandation étudiées, permettant ainsi au lecteur de bien comprendre les approches existantes. À partir du chapitre qui suit (chapitre 2), l auteur entre dans le cœur de ces propositions. Monsieur Julien Aligon définit de manière formalisée les concepts sur lesquels s'appuient ses recherches. Dans un premier temps, le candidat définit le modèle de données ainsi que les modèles de requêtes, de sessions et de logs. Dans un second temps, ce chapitre se poursuit par la définition d un ensemble de mesures de similarité structurées en trois niveaux interdépendants : similarité entre logs, similarité entre sessions et similarité entre requêtes. Ce qui est très intéressant dans ce chapitre est l effort de formalisation du contexte de la recommandation de sessions OLAP permettant ainsi de définir un cadre adapté au contexte OLAP pour l utilisation de mesures de similarités. Ce chapitre témoigne de la grande rigueur dont fait preuve le candidat. Monsieur Julien Aligon y démontre en outre de bonnes qualités de pédagogue en illustrant ces propos d'exemples ciblés accompagnant chacune des définitions, permettant ainsi au lecteur d'appréhender facilement les fondements théoriques de cette thèse. Le chapitre suivant (chapitre 3) présente le système de recommandation SROS («Similarity-based Recommendation of OLAP Sessions») basé sur une mesure de similarité entre sessions. Le système fonctionne en trois phases. Une première phase permet d aligner les sessions du log sur la session courante tout en identifiant les recommandations potentielles. La seconde phase classe les recommandations suivant la densité des requêtes similaires dans les sessions du log. Enfin la troisième phase adapte à la session courante la recommandation ayant le meilleur score. La rédaction de ce chapitre reste encore une fois émaillée de nombreux exemples illustrant simplement les notions formalisées et les problèmes attaqués. Notamment, une étude de cas qui sert d illustration y est présentée. Le dernier chapitre (chapitre 4) détaille les expérimentations effectuées visant à valider les propositions. Face à la difficulté de disposer de données issues de l industrie, un double protocole d expérimentations est mis en place Monsieur Julien Aligon. L auteur utilise dans un premier temps des données artificiellement générées. Il consolide dans un second temps les résultats obtenus en confrontant son approche à des données conçues par des étudiants de Masters. Dans ce chapitre, le candidat fait preuve de qualités scientifiques avérées. Il y démontre la parfaite rigueur avec laquelle il a su valider son approche avec le soucis de la mise en place d une démarche à la fois pragmatique et rigoureuse. Les résultats tant sur le plan de l efficacité que de la pertinence y sont discutés, et apparaissent comme intéressants. 2
Le mémoire se termine par un dernier chapitre de conclusion. Après un résumé des travaux menés, Monsieur Julien Aligon présente plusieurs perspectives pouvant être données à ses recherches (démarrage à froid, construction de benchmarks...) III. CONCLUSION En conclusion, je considère le travail de Monsieur Julien Aligon comme une excellente contribution scientifique. Tout au long du mémoire, Monsieur Julien Aligon fait preuve d'une connaissance approfondie et d'une grande maîtrise du domaine des systèmes de recommandation en OLAP. Le système de recommandation de sessions OLAP construit sur un processus en 3 phases est innovant. Il s'avère à la fois simple et efficace dans sa capacité à recommander des sessions OLAP. Les concepts théoriques développés sont bien menés, clairement présentés et illustrés d'exemples bien choisis. La solution développée est largement expérimentée en suivant un protocole scientifique rigoureux. Les résultats de ces expérimentations sont analysés et discutés, démontrant ainsi la maîtrise atteinte par le candidat. Enfin, les travaux de Monsieur Julien Aligon ont fait l objet de publications scientifiques dans des manifestations scientifiques nationales et internationales d un bon niveau de sélection. Pour l'ensemble de ces raisons, je suis donc tout à fait favorable à la soutenance des travaux de recherche de Monsieur Julien Aligon en vue de l'obtention du grade de Docteur en Informatique. Fait à Toulouse, le 28 Novembre 2013 Olivier TESTE Professeur des Universités IRIT (UMR 5505), Université Toulouse 2 3
! Lettre de recommandation Je soussigné, Arnaud Giacometti, Professeur en Informatique, directeur adjoint du Département d Informatique de l UFR Sciences et Techniques de Tours, ai fait connaissance de M. Julien ALIGON lors de son arrivée dans notre département en 2006. Il y arrivait pour préparer une licence d informatique. Toujours dans notre département, il prépara ensuite un master dans le domaine de l informatique décisionnelle, puis une thèse de doctorat que j ai co-encadrée avec M. Patrick MARCEL. M. Julien ALIGON a brillamment soutenu sa thèse de doctorat le 13 décembre 2013. Le travail réalisé par M. Julien ALIGON au cours de sa thèse de doctorat s attaquait à un problème important et actuel, à savoir la recommandation de requêtes et sessions dans les systèmes OLAP. Ce problème est réputé difficile du fait de la complexité pour les utilisateurs de poser les bonnes requêtes lors de sessions d analyse. Dans ce contexte, M. Julien ALIGON a à la fois réussi à proposer un cadre générique de recommandation, à développer un système permettant d évaluer ses propositions, et à les tester de manière très méthodique sur des jeux de données synthétiques et réels. Enfin, ses travaux ont été publiés dans des conférences et revues internationales de très bons niveaux. Pendant ses trois années de doctorats, M. Julien ALION a également démontré sa capacité à participer à des travaux de recherche dans un contexte international, en particulier dans le cadre d une collaboration entre notre équipe de recherche et l Université de Bologne en Italie ; grâce à Julien ALIGON, cette relation a abouti à des publications conjointes, à la fois dans une conférence (ADBIS 2011) et deux revues internationales (KAIS 2014, DSS 2015). Pendant son doctorat, Julien ALIGON a enfin été invité par le Professeur Juan Trujillo de l'université de Alicante (Espagne) à passer quatre semaines dans son laboratoire. Toujours dans notre équipe, pour une période de six mois (de septembre 2014 à février 2015), Julien ALIGON a poursuivi ses travaux de recherche dans le cadre d un projet FEDER, en partenariat avec les sociétés CYRES et RENAULT. Ce projet vise à développer un langage d extraction de connaissances dans un environnement Hadoop. Il a permis à Julien ALIGON de renforcer ses compétences dans le domaine de l extraction de motifs locaux et de se familiariser à la programmation MapReduce. Julien ALIGON nous quittera début mars 2015 pour débuter un postdoc au sein de l équipe DUKe du LINA. Je terminerai par souligner les qualités humaines de M. Julien ALIGON, sa gentillesse et grande disponibilité, éléments particulièrement importants dans la vie d un département et d un laboratoire de recherche. Ainsi, M. Julien ALIGON a toujours participé aux réunions de notre équipe pédagogique, mais aussi aux réunions de l équipe BdTln (Bases de données et Traitement des langues) du Laboratoire d Informatique de Tours. Enfin, il s est régulièrement impliqué dans des soutenances de projets et de stages, dans l organisation de manifestations telles que les journées portes ouvertes ou forums étudiants. Antenne Universitaire, 3 pl. Jean-Jaurès, 41000 Blois Tel : 02.54.55.21.08 Fax : 02.54.55.21.32 email : arnaud.giacometti@univ-tours.fr url : www.info.univ-tours.fr
! En conclusion, M. Julien ALIGON a démontré durant ces dernières années des compétences indiscutables dans les domaines de l enseignement, de la recherche et de la participation à la vie d un laboratoire et d un département. Pour toutes ces raisons, je suis heureux de recommander très favorablement sa candidature à un poste de Maître de conférences. Blois, le 13 février 2015 Pr. Arnaud GIACOMETTI Email : arnaud.giacometti@univ-tours.fr Tel : +33 2.54.55.21.14 Antenne Universitaire, 3 pl. Jean-Jaurès, 41000 Blois Tel : 02.54.55.21.08 Fax : 02.54.55.21.32 email : arnaud.giacometti@univ-tours.fr url : www.info.univ-tours.fr
Patrick Marcel Université François Rabelais Tours Laboratoire d Informatique Département Informatique 3 place Jean Jaurès 41000 Blois Tél. : 02 54 55 21 55 Email : patrick.marcel@univ- tours.fr Blois, le 16 décembre 2013. J ai le plaisir de recommander Julien Aligon, qui a terminé en 2013 son travail de doctorat sous ma direction et celle de Arnaud Giacometti. Je connais Julien depuis ses années de licence au département informatique du campus de Blois, que Julien a poursuivies en Master SIAD. Durant toute sa formation, Julien a toujours obtenu des résultats très satisfaisants, le classant parmi les meilleurs éléments de sa promotion. Il a notamment fini son Master en quatrième position, sur une promotion de trente inscrits, et je me suis donc réjoui lorsqu il a accepté de travailler sur un sujet que j avais proposé, dans le cadre de son stage de fin d étude. Son travail de stage a fait l objet d une publication dans les actes de la conférence EGC 2011, dont Julien a assuré la présentation, et qui a ensuite été étendue pour les post- actes internationaux de EGC. Lors de sa thèse de doctorat, Julien a travaillé sur l aide à la composition de session d analyse dans les bases de données multidimensionnelles, et en particulier sur la recommandation de requêtes OLAP. Ce travail a été principalement développé en collaboration avec l Université de Bologne (l équipe des professeurs Stefano Rizzi et Matteo Golfarelli), collaboration dont Julien a été un acteur essentiel. Il continue actuellement à en développer certains aspects, ce qui témoigne de son implication sur le sujet. Durant ses trois années de thèse, j ai pu apprécier sa motivation, son dévouement et sa grande capacité de travail. C était un réel plaisir de travailler avec lui. Les résultats obtenus lors de sa thèse, théoriques et expérimentaux, se sont notamment traduits par de très bonnes publications tant au niveau international que national. Je sais en outre qu il s acquitte de sa charge d enseignement avec le même sérieux et la même motivation que pour ses travaux de recherche. C est donc sans aucune réserve, et très chaleureusement, que je soutiens sa candidature à un poste de maître de conférences. Patrick Marcel Maître de conférences HDR
Blois, le 13/12/2013 UFR de Sciences et Techniques Département d informatique Objet : Recommandation de Monsieur Julien Aligon Monsieur Julien Aligon enseigne au département d informatique de l UFR de Sciences et techniques de l Université François Rabelais (site de Blois), depuis maintenant trois ans et demi. Il a été doctorant contractuel à charge d enseignement (64 heures équivalent TD par an) et est maintenant sur un poste d ATER temps plein. Julien a enseigné de la licence 1 d informatique au master (Systèmes d'information et Analyse Décisionnelle) et master international (Information Technologies for Business Intelligence). Il a su en fonction de chaque public, adapter ses cours et proposer des enseignements très pédagogiques. Il s est très bien inséré dans l équipe d enseignants. Il est très disponible aussi bien vis-à-vis des étudiants pour répondre aux questions que de ses collègues afin d améliorer la cohérence entre les différents cours et participer aux réunions pédagogiques. Il a enseigné un spectre de matières très différentes. En licence, il a participé activement à de nombreux enseignements autour de la programmation, des bases de données et de l algorithmique (récursivité, gestion de fichiers, gestion de structures, conception objet). Ces cours d un point de vue pratique ont donné lieu à de nombreux TP en Java ou autour du SGBD Oracle. Il a entre autres développé entièrement la partie autour de la bibliothèque graphique Swing. Il a aussi abordé des cours plus théoriques comme les fondements de la complexité, la théorie des graphes. Il a su aussi appliquer ses compétences acquises en recherche pour participer à des cours sur les entrepôts de données & analyse en ligne. Ces derniers ont été donnés en langue française et en langue anglaise. Pour toutes ces raisons, je pense que Julien ferait un très bon enseignant-chercheur. Thomas Devogele, Directeur du département informatique Signature Thomas Devogele Professeur des Universités Université François Rabelais Tours UFR de Sciences et Techniques Département d informatique Site de Blois 3, place Jean Jaurès 41 000 Blois Tél. : 02 54 55 21 52
Blois, le 16 mars 2014 Jean-Yves ANTOINE Professeur en informatique, Directeur de la Licence S&T mention Informatique Centre Universitaire de Blois, 3 pl. Jean Jaurès, F-41000 Blois Tel : (+33) 2 54 55 21 11 Mel : Jean-Yves.Antoine@univ-tours.fr Avis sur la candidature de Mr Julien ALIGON aux fonctions d enseignant-chercheur en informatique A qui de droit, Professeur en informatique à l Université François-Rabelais de Tours, je dirige actuellement la mention informatique de la Licence Sciences et Technologies de notre établissement. Doctorant au sein de notre laboratoire d informatique, Julien ALIGON intervient depuis plusieurs années dans cette licence, initialement en qualité de DCCE puis d ATER pour cette année 2013-2014. Julien assure en particulier des enseignements d algorithmique et de projet au sein de la licence 1 mathématiques-informatique dont je suis le directeur des études. Je pense donc pouvoir porter un jugement très fiable sur ses qualités d enseignant. Notre département informatique souffrant d un sous-encadrement significatif, Julien ALIGON s est vu confier des responsabilités pédagogiques sans doute plus importantes qu à l accoutumée. Il a ainsi souvent eu la charge complète (cours, TD, TP) d unités d enseignement de licence pour lesquelles il a dû développer un matériel pédagogique adéquat. Certains de ses enseignements ont relevé de connaissances de base en licence informatique (algorithmique par exemple). Dans ce cas, la gageure à laquelle il a du faire face concernait la prise en compte des publics très hétérogènes de licence 1 ère année. Dans d autres cas, Julien s est atelé à des cours plus pointus, comme la théorie de la complexité demandant un effort de pédagogie accru face à un public souvent rétif face à de tels sujets. Dans tous les cas, Julien s est attaché avec succès aux missions d enseignement qui lui ont été confiées. Il a en effet toujours fait montre de sérieux et de pertinence de ses interventions. En particulier, je me félicite de son implication dans les enseignements de première année de licence : je ne compte plus le nombre des échanges qu il a initiés avec moi sur cette année d étude. Tous témoignaient à la fois de son intérêt aïgu pour la réussite des étudiants, mais également de son souci de garder un niveau d exigence important dans cette année difficile, à la fois en termes de connaissances acquises par les étudiants mais également de comportement. Ce jugement positif concerne l ensemble des enseignements assurés par Julien. L évaluation des enseignements par les étudiants montrent ainsi qu il est un intervenant apprécié. Les avis qualitatifs joints à ces évaluations, de même que mes discussions avec les délégués, mettent l accent sur la clarté de ses explications et sur sa disponibilité. Les travaux de doctorat de Julien, réalisés au sein du laboratoire LI, sont relativement éloignés de mes thématiques de recherche. Je ne me permettrai donc pas de porter de jugement sur ses activités de recherche. J ai toutefois été amené à discuter, à sa demande, des aspects ergonomiques de la recommandation dans les systèmes d aide à la décision. Ces échanges m ont laissé l impression d un chercheur ouvert et curieux, qui disposait déjà d un grand recul sur les orientations et limites de sa discipline. Ce sentiment a été confirmé par les retours positifs que j ai pu entendre lors de sa soutenance de thèse. Ses qualités d enseignant me montrent en tous cas qu il serait un collègue apprécié au sein de l équipe pédagogique qui l accueillerait. Celle-ci ne pourrait par ailleurs que se réjouir de ses grandes qualités humaines. Je recommande donc sans hésitation la candidature de Julien ALIGON sur des postes de Maître de Conférences en informatique. Jean-Yves ANTOINE
- RECOMMANDATION -! Je soussignée, Béatrice BOUCHOU MARKHOFF, maître de conférences HDR au Laboratoire d Informatique (LI EA6300) de l'université François Rabelais de Tours, responsable de la Licence Pro Qualité Sécurité des Systèmes d Information (LP QSSI), coopération entre l UFR Sciences et Techniques et l IUT de Blois, connais M. Julien ALIGON depuis sa 2 ème année de licence d informatique, qu il a effectuée, ainsi que son master, au département informatique de l UFR Sciences et Techniques. Il a ensuite été sélectionné pour une bourse de thèse, qui s est déroulée dans mon équipe de recherche (Bases de données et Traitement automatique des langues naturelles). M. Julien ALIGON a été moniteur puis ATER, il est en particulier intervenu dans la LP QSSI dans le module de bases de données de l UE «socle de connaissances» et c est à ce titre particulier que je le recommande. Cette UE a pour objet de mettre à niveau l ensemble des étudiants, d horizons divers, dans les domaines des réseaux, systèmes d exploitation et bases de données, socles des enseignements de la spécialité de la licence. Cette UE nécessite rigueur, fermeté mais aussi souplesse, face à un public hétérogène qui n est pas enclin d entrée de jeu à investir sur les concepts fondamentaux des domaines où ils auront pourtant la responsabilité de garantir un bon niveau de qualité et de sécurité. M. Julien ALIGON a très clairement démontré qu il a ces qualités (rigueur, fermeté et souplesse) durant les 3 années où il a assuré les travaux pratiques de bases de données, avec pédagogie, alliant exigence et beaucoup de disponibilité envers les étudiants. Il a démontré également sa capacité d adaptation et de collaboration active à des organisations pédagogiques et administratives très différentes puisque la LP QSSI est rattachée administrativement à l IUT de Blois. Je soulignerai également les qualités humaines de M. Julien ALIGON, sa participation positive à toutes les réunions pédagogiques et aux conseils de perfectionnement, sa disponibilité et sa bonne humeur constantes, éléments particulièrement importants dans le quotidien d une équipe pédagogique comme d une équipe de recherche. En conclusion, M. Julien ALIGON a fait la preuve de compétences indiscutables dans le domaine de l enseignement et de la participation à l administration de formations. Pour toutes ces raisons je suis heureuse de recommander très favorablement sa candidature à un poste de maître de conférences. Blois, le 22 mars 2014 Béatrice BOUCHOU MARKHOFF Tel : +33 2.54.55.21.36 Antenne Universitaire, 3 pl. Jean-Jaurès, 41000 Blois Tel : 02.54.55.21.08 Fax : 02.54.55.21.32 email : beatrice.bouchou@univ-tours.fr url : www.info.univ-tours.fr
Bologna, March 24 2014 I ve been working with Julien Aligon since 2011 in the context of a research project on OLAP personalization carried out in collaboration with the University of Tours. In this framework, together with prof. Matteo Golfarelli and prof. Patrick Marcel, we worked on OLAP preferences, on similarity between OLAP queries and sessions, and on recommendation of OLAP queries. This joint work brought to the following two publications: 1. J. Aligon, M. Golfarelli, P. Marcel, S. Rizzi, E. Turricchia. Similarity Measures for OLAP Sessions. To appear in Knowledge and Information Systems, 2013. 2. J. Aligon, M. Golfarelli, P. Marcel, S. Rizzi, E. Turricchia. Mining Preferences from OLAP Query Logs for Proactive Personalization. Proceedings 15th East-European Conference on Advances in Databases and Information Systems (ADBIS 2011), Vienna, Austria, pp. 84-97, 2011. and to the paper J. Aligon, E. Gallinucci, M. Golfarelli, P. Marcel, S. Rizzi. Recommending OLAP Sessions. which we just submitted to the Decision Support Systems journal of Elsevier. During all our collaboration, Julien worked out the research theme assigned to him autonomously and with precision, introducing several significant original contributions. Overall, I could appreciate Julien s gifts of driving force and professional skill. He also showed attention to details, as well as good capabilities of autonomous decision making and timely reporting to deadlines. In winter 2013, I ve been a member of the committee for Julien s PhD examination at the University of Tours. The thesis was very interesting and well-written and documented. During the examination Julien was brilliant and capable of explaining well all the complex facets of his work. Overall, I have a positive opinion of Julien from a professional point of view. Sincerely, prof. Stefano Rizzi ALMA MATER STUDIORUM - UNIVERSITÀ DI BOLOGNA VIALE RISORGIMENTO 2-40136 BOLOGNA - ITALY - TEL. +39 051 20123456 - FAX +39 051 200000