CURRICULUM VITAE DARIO COLAZZO. Maître de Conférences HdR à l Université Paris Sud

Transcription

1 CURRICULUM VITAE DARIO COLAZZO Maître de Conférences HdR à l Université Paris Sud Faculté des Sciences d Orsay Laboratoire de Recherche en Informatique (LRI) Unité associée au CNRS (UMR 8623) Table des matières 1 Etat Civil 2 2 Titres Universitaires 2 3 Parcours 2 4 Enseignement 3 5 Administration et responsabilités liées à la recherche Responsabilités au sein du laboratoire Projets Comités de programme et activités de relecture Organization de conférences Comités de sélection et expertises Encadrement Jury de thèses Collaborations Recherche 9 7 Publications Chapitres de livres Articles dans des revues internationales avec comité de lecture Articles dans des conférences internationales avec comité de lecture Articles dans des workshops internationaux avec comité de lecture Articles dans des revues nationales avec comité de lecture Articles dans des conférences nationales avec comité de lecture Tutoriaux Soumissions en cours et articles en préparation

2 1 Etat Civil Nom : Colazzo Prénom : Dario Date de naissance : 12 juillet 1970 Lieu de naissance : Oberdiessbach (Suisse) Nationalité : Italienne Situation familiale : Pacsé, un enfant (20/11/2010) Adresse : 46 Résidence Courdimanche, Les Ulis Téléphone : (bureau) / (portable) Messagerie électronique : colazzo@lri.fr Web : http :// colazzo 2 Titres Universitaires 2011 Habilitation à Diriger des Recherche, Université Paris-Sud, spécialité Informatique, Schemas for safe and efficient XML processing, soutenue le 8/9/2011 devant le jury : Angela BONIFATI (PR, Université des Sciences et Technologies de Lille, rapporteur) Nicole BIDOIT-TOLLU (PR, Université Paris Sud, marraine) Alain DENISE (PR, Université Paris Sud, président) Denis LUGIEZ (PR, Université de Provence, rapporteur) Philippe RIGAUX (PR, Conservatoire National des Arts et Métiers, examinateur) Victor VIANU (PR, UC San Diego, rapporteur) 2004 Thèse de Doctorat, Université de Pise (Italie), spécialité Informatique, Path Correctness for XML Queries : Characterization and Static Type Checking soutenue le 28/4/2004 devant le jury : Simonetta BALSAMO (PR, Università Ca Foscari di Venezia, examinateur) Mary FERNANDEZ (Dr, ATT Labs - Research, NJ - USA, rapporteur) Giorgio GHELLI (PR, Université de Pise, directeur) Haruo HOSOYA (Dr, University of Tokyo - Japan, rapporteur ) Luigi MANCINI (PR, Università Sapienza - Roma, examinateur) Simone MARTINI (PR, Université de Bologna, examinateur) 1998 Thèse de Master en Informatique, Université de Pise, Inclusione tra tipi ricorsivi nel sistema Kernel Fun, effectuée sous la direction de Giorgio Ghelli. Mention : 110/110 e lode. 3 Parcours 2010 Depuis mars 2010, membre des équipes BD et OAK (équipe mixte INRIA/Université Paris Sud) Depuis septembre 2005, Maître de Conférences à l Université de Paris Sud, membre de l équipe Bases de Données du LRI (Laboratoire de Recherche en Informatique), UMR 8623 du CNRS De mai 2004 à juillet 2005, post-doc à l Université de Paris 11. Membre de l équipe Bases de Données du LRI (Laboratoire de Recherche en Informatique) UMR 8623 du CNRS De Janvier 2003 à Avril 2004, post-doc au Département d Informatique de l Université de Venice, dans le cadre du projet de recherche européen Models and Types for Security in Mobile Distributed Systems Contract IST (MyThS).

3 2002 Novembre-Décembre Chercheur visiteur, École Normale Supérieure de Paris, Équipe Langages de Programmation De Février 1999 à Décembre Doctorat au Département d Informatique de l Université de Pise, et membre de l équipe Bases de Données Titulaire d un contrat de recherche, au Département d Informatique de l Université de Pise, dans le cadre du projet de recherche italien Fibonacci Membre du personnel responsable de l Ufficio Informatica e Centro Elaborazione Dati del Comando Regione Carabinieri Toscana, Italie (service militaire). 4 Enseignement En tant qu enseignent-chercheur à l Université de Paris Sud, depuis 2005 j effectue un service d enseignement de 192 heures par an en moyenne, avec une prise en charge importante de cours. Mes sujets principaux d enseignement sont les bases de données relationnelles, semi-structurées (XML) et multidimensionnelles (OLAP). En particulier, j ai été responsable du cours d introduction aux bases de données relationnelles en DEUST pendant 6 années, je suis responsable de deux cours de Bases de Données Avancées à Polytech (ex IFIPS), d un cours de Tuning de Bases de Données Relationnelles en Master Professionnel et MIAGE. Je suis également co-responsable avec Ioana Manolescu du cours Données semi-structurées et XML : langages et optimisation en Master Recherche, et avec Nicole Bidoit- Tollu du cours Bases de données distribuées en Master Informatique première année. Pour le futur, je compte continuer mes activités d enseignement dans le domaine des bases de données. Je compte en particulier m investir dans l enseignement de nouvelles technologies pour le traitement et l analyse de grande masses de données (NoSQL, NewSQL, MapReduce, etc.). J effectue déjà des enseignements dans ce domaine dans le cadre du cours Bases de données distribuées en Master première année. Je suis également intéressé par des enseignements concernant les langages de programmation (aspects fondamentaux, programmation objet, programmation fonctionnelle). J ai acquis les compétences pour ce type d enseignement tout au long de mes activités de recherche (portants souvent sur des aspects de la théorie des langages de programmation) et de mes activités d enseignement effectuées pendant la période thèse/post-doc en Italie (période ). Mes activités pédagogiques sont détaillées dans le Tableaux 1. Les enseignements sont regroupés par domaine. Les durées des cours magistraux CM, travaux dirigés TD et pratiques TP sont indiquées en équivalent heures TD. Concernant les enseignements en Italie (période ), le niveau (Licence, Master, etc.) correspondant au système Français est indiqué. Les mots clés concernant le contenu des cours par domaine sont indiqués ci-dessous. Structures de données, algorithmique, programmation : array, listes, piles, files, arbres, graphes, tables de hachage, algorithmes de tri, techniques de visite des arbres et graphes, programmation en Java : types primitifs, structures de contrôles, méthodes, classes, héritatage, gestion des exceptions. Architectures : représentation de l information, opérations arithmétiques, algèbre booléenne, circuits logiques, niveaux d abstractions, CPU, langage assembler, structure de l ALU, automates, synthèse de circuits séquentiels. Bases de données : modèle relationnel, modèle E/A, conception, contraintes d intégrité, formes normales, algèbre relationnelle, SQL. Bases de données avancées : implémentation couche physique, stockage, gestion du buffer, indexation, plan d exécutions, optimisation, tuning de requêtes, conception du schéma physique, gestion de la concurrence (centralisée et distribuée) 2PL, Time-Stamps, niveaux d isolation, reprise sur panne, algorithmes ARIES,

4 bases de données multidimensionnelles, architecture d un entrepôt de données, requêtes OLAP, Cloud, MapReduce, Hadoop. Bases de données semi-structurées : XML, langages de schéma (DTD, XML Schema), requêtes et mises à jour XQuery, XSLT, systèmes de types pour la sûreté et optimisation des requêtes et mises à jour XML. TABLE 1 Enseignements en détail Domain Intitulé CM/TD/TP -N.bre heures Niveau Années Structures de données, algorithmique, programmation Introduction à la Programmation TP 20h L1 (Université de Pise) 2001 Algorithmique et structures de données TP 40h L2 (Université de Pise) 2001,2002 Introduction à l informatique : architectures, algorithmique et structures de données CM 40h FC (Université de Venise) 2003 Architecture Architecture des ordinateurs TD 18h L2 (Université de Venise) 2003 Bases de Données Bases de Données CM 30h - TD 20h FC (DSNet Italia, entreprise) 2000 Bases de Données TD 30h - TD 30h FC (Telecom Italia, entreprise) 2000 Bases de Données CM 30h - TD 20h FC (Université de Pise) 2001 Bases de Données et Web CM 40h - TD 20h - TP 20h FC (Université de Pise) 2002 Bases de Données (soutien) TD 18h L3 2005,2006 Bases de Données CM 37h M2 CCI 2006 Remise à niveaux bases de données CM 18h - TD 16h - TP 16h M2 IST 2008, 2009 Introduction aux bases de données CM 162h - TD 48h - TP 6h DEUST AMRL ,20011 Bases de données CM 72h IFIPS FC, FA 2008,2009 Bases de données TD 14h - TP 6h Polytech (ex IFIPS) 2011,2012 Bases de données, remise à niveau CM 9h - TD 8h M2 Resaux et Tel Bases de Données Avancées SGBD : implementation TD 24h M2 MIAGE 2005,2006 SGBD : implementation CM 12h M2 Pro 2007 SGBD : tuning CM 88h - TD 12h M2 Pro - MIAGE ,2011,2012 Bases de données avancées : implémentation et tuning CM 213h - TD 18h - TP 12h Polytech FA , 2011,2012 Bases de données dimensionnelles et OLAP TD 25h M2 Miage CFA 2011 Bases de données distribuées et Cloud CM 36h - TD 24h M1 Informatique 2011,2012 Bases de Données Semi-structurées Sureté, Intégrité et Securité des Données CM 9h M2 Recherche 2005 Données semi-structurées et XML : langages et optimisation CM 18h M2 Recherche 2010, 2011 XML et gestion de l information sur internet TD 75h M2 Pro XML et programmation internet CM 18h M2 Réseaux Tel TABLE 2 Abréviations utilisées dans la Table 1 AMRL CCI FA FC IST Assistant Micro Réseaux et Logiciels Compétence Complémentaire en Informatique Formation par l apprentissage Formation Continue Information Système et Technologie 5 Administration et responsabilités liées à la recherche 5.1 Responsabilités au sein du laboratoire Membre du bureau de la CCSU du LRI (depuis mai 2010). Membre de la commission bibliothèque du LRI (depuis janvier 2010). Responsable Apogée pour le Département d Informatique (septembre aout 2010). Membre de la commission matériel du LRI (depuis 2008). Membre nommé du conseil de laboratoire du LRI ( ).

5 Organisation et participation aux portes ouvertes de l Université Paris-Sud pour le Département d Informatique (2006 et 2007). Membre de l équipe d organisation de la Fête de la Science porte ouverte au LRI et participation à cet événement avec des séminaires sur les technologies d Internet et du Web (2006, 2007, 2012). 5.2 Projets Projet : TraLaLa - XML Transformation Languages : logic and applications Durée : Type : ACI MASSES DE DONNÉES Rôle : membre. Le projet se propose d étudier les aspects de traitement, d interrogation et de manipulation de grandes masses de données lorsque celles-ci sont disponibles au format XML. L intéret est plus précisément aux aspects langages de programmation et langages de requêtes. L ambition est de couvrir de manière intégrée un large spectre de problématiques : de celles liées aux aspects langages, jusqu aux aspects traitant l accessibilité des données, en passant par les problématiques liées à la compilation du filtrage, l optimisation physique, la vérification du sous-typage, et les modèles d exécution pour le streaming. Depuis mon arrivée dans l équipe BD du LRI, j ai contribué activement à ce projet avec plusieurs séminaires au cours des réunions semestrielles, et plusieurs publications. Projet : WebStand Durée : Type : ANR jeunes chercheuses et jeunes chercheurs. Rôle : responsable de site. L objectif de ce projet ANR est d analyser les problèmes théoriques qui sont à la base de l utilisation des données semi-structurées dans les sciences sociales. Le projet réunit des laboratoires d informatique et un de sociologie : PRiSM (Benjamin Nguyen), LRI (Dario Colazzo), GEMO (Ioana Manolescu) et LEST (Antoine Vion). Le but du projet est de créer une plate-forme pour les sociologues combinant les outils traditionnels de la sociologie avec les nouvelles techniques de gestion de bases de données XML. Dans ce projet, je me suis occupé en particulier de problèmes d optimisation de requêtes et de mises à jour des données XML. Projet : Codex - Efficiency, Dynamicity and Composition for XML : Models, Algorithms and Systems Durée : Type : ANR Programme Domaines Emergents (DEFIS). Rôle : responsable de site. Le projet se propose comme objectif d étendre les frontières des technologies basées sur XML dans trois directions. La première direction concerne l étude des langages, algorithmes, et le développement de prototypes pour une manipulation efficace de données XML. La deuxième direction concerne la définition et l étude de nouveaux modèles pour la description et le contrôle des évolutions dynamiques de collections de données XML temporelles. Enfin, la troisième direction concerne le développement de nouvelles théories, nouveaux modèles formels et prototypes pour la composition efficace de programmes et schémas XML. Dans ce projet je suis intervenu dans le premier et deuxième axe. Projet : Europa - Efficient cloud-based data management Durée : 2012, 2013 Type : Projet KIC EIT ICT Labs Rôle : responsable de site pour le LRI. Le projet Europa se propose comme objectif de développer des techniques pour la gestion efficace de grandes masses de données dans le Cloud via parallélisme massif. Dans ce contexte, l objectif du noeud Français (INIRIA Saclay - Université Paris Sud) est de développer des techniques d indexation pour le traitement de données semi structurées (XML et RDF) dans le Cloud. Le projet a été renouvelé pour 2013 avec l objectif de concevoir des techniques d optimisation multi-requêtes pour XML dans le Cloud, et des techniques de partitionnement pour l évaluation en parallèle de requêtes RDF.

6 Dans ce projet j interviens sur les aspects indexation et optimisation multi-requêtes. Projet : Datalyse - Entrepôt Intelligent pour Big Data hétérogènes Durée : Type : Investissements d Avenir, Développement de l Economie Numérique Rôle : responsable de l axe Langages. Le projet Datalyse concerne les d applications qui exploitent les Big Data hétérogènes pour en extraire de la valeur via analyse de données. Le projet se propose de développer des outils pour la réalisation d entrepôts intelligents capables de traiter différents types de Big Data à la demande, et de produire des processus d analyse (les datalyseurs) dont la sémantique est spécifiée par les développeurs d applications. Ces outils ont pour objectif de permettre le prototypage efficace d applications Big Data. Le projet réunit plusieurs organismes publiques de recherches, laboratoires (CNRS, INRIA, LIG, LIFL, LIRMM, LRI) et partenaires industrielles (EOLAS, Groupe Mousquetaires, Hurence). Dans ce projet j interviens dans les axes modèle de données, stockage, indexation et langages déclaratifs. 5.3 Comités de programme et activités de relecture Membre de comités de programme PODS ACM International Conference on Management of Data, Salt Lake City, USA. ICDE IEEE International Conference on Data Engineering, Washington, USA. SEBD th Italian Symposium on Advanced Database Systems, Maratea, Italy, ADC nd Australasian Database Conference, Perth, Australia, Workshop on Updates in XML. In conjunction with EDBT/ICDT 2010, Lausanne, Switzerland. EDBT th International Conference on Extending Database Technology, Lausanne, Switzerland. BDA èmes journées Bases de Données Avancées, Toulouse, France. DataX International Workshop on Database Technologies for Handling XML Information on the Web (colocated with EDBT and ICDT). WebDB th International Workshop on the Web and Databases (colocated with ACM SIGMOD/ PODS 2007), Beijing, China. IADC rd International Advanced Database Conference. (Special Track on Advances in Querying Non- Conventional Data Sources), San Diego, California, USA. BDA èmes Journées Bases de Données Avancées, Lille, France. Activités de relecture effectuées Lecteur pour les conférences : IEEE International Conference on Data Engineering (ICDE), Australasian Database Conference (ADC), International Conference on Extending Database Technology (EDBT), Web Information Systems Engineering (WISE), Web and Database (WebDB), Rewriting Techniques and Applications (RTA), Programming Language Technologies for XML (PlanX), International Advanced Database Conference (IADC), Principle of Programming Languages (POPL), Static Analysis Symposium (SAS), Logic in Computer Science (LICS), International Conference and Symposium on Logic Programming, International Conference on Very Large Data Base (VLDB), Data Base Programming Languages (DBPL), APPIA-GULP-PRODE Joint Conference on Declarative Programming, International Conference on Functional Programming (ICFP), European Symposium on Programming (ESOP), European Conference for Object-Oriented Programming (ECOOP), Sistemi Evoluti per Basi di Dati (SEBD, conf. italienne), Bases de Données Ancancée (BDA), International Symposium on Logic-based Program Synthesis and Transformation (LOPSTR). Lecteur pour les journaux : ACM Transactions on Internet Technology (TOIT), Journal of Applied Logic on Automated Specification and Verification of Web Systems (JAL-WWV), Data & Knowledge Engineering (DKE), Information and Computation (IC), ACM Transactions on Programming Languages and Systems (TOPLAS), World Wide Web Journal (WWWJ), Journal of Functional Programming (Cambridge University Press), Journal of Digital Information Management, Theory of Computer Systems (Springher), Journal of Systems and Software (Elsevier).

7 5.4 Organization de conférences Membre du comité d organization de Principles, Logics and Implementations of high-level programming languages (PLI2001), Firenze, Comités de sélection et expertises Comités de sélection Poste de MCF BQR 1234 (27), LRI, Orsay, Poste de MCF 0670 (27), LIG/ENSIMAG, Grenoble, Poste de MCF 542 (27), CNAM, Paris, Poste de MCF 0674 (27), ENSIMAG Grenoble, Expertises Une expertise CIFRE pour l ANRT, Encadrement Encadrement de stages de Master Damian Bursztyn (2013) : Stage de M2R Université de Buenos Aires (Argentine) de mars 2013 à septembre Titre : Take What You Need : Efficiently Querying Semantic Web Data Charge d encadrement : 33%, co-encadrement avec François Goasdoué (MdC HdR UPSUD) et Ioana Manolescu (DR INRIA). Federico Ulliana (2008/2009) : Stage de M2R-Erasmus (Univ. de Venise (Italie)/ Univ. Paris-Sud) d octobre 2008 à avril Titre : A Formal Study of a Type System for XQuery Optimization Charge d encadrement : 100% Dimitris Kampas ( 2009) : Stage de Master Recherche Franco-Hellénique. Titre : Efficient XML validation Charge d encadrement : 50%, co-encadrement avec Nicole Bidoit (PR PSUD) Noor Malla (2008) : Stage de M2R (Univ. Paris-Sud) de juin à septembre 2008 Titre : Shape analysis of types inferred by a type system for XQuery Charge d encadrement : 100% Sharareh Shahinpour (2008) : Stage de M2R (Univ. Paris-Sud) d avril à septembre 2008 Titre : Typage de requḙtes XQuery avec opérateurs de navigation en arrière et horizontaux Charge d encadrement : 100% Sofiane Ait Adda (2008) : Stage de M2R (Univ. Paris-Sud) d avril à septembre 2008 Titre : Comparaison et analyse de la précision et complexité de plusieurs systèmes de types pour XQuery Charge d encadrement : 100% Encadrement de Thèses Jesús CAMACHO-RODRIGUEZ (depuis octobre 2011) : Titre : Cloud-based management of Web data Charge d encadrement : 50%, co-encadrement avec Ioana Manolescu (DR INRIA) Publications : [WI-2, CI-1, CI-5]

8 Alexandra ROATIS (depuis octobre 2011) : Titre : Efficient evaluation of SPARQL queries with OLAP extensions Charge d encadrement : 33%, co-encadrement avec François Goasdoué et Ioana Manolescu. Federico Ulliana (octobre décembre 2012) : Titre : Type Based Access Analysis for XML queries and updates Charge d encadrement : 67%, co-encadrement avec Nicole Bidoit. Publications : [WI-3, CI-4, CN-2] Amine Baazizi ( septembre septembre 2012) : Titre : XML temporal management Charge d encadrement : 50%, co-encadrement avec Nicole Bidoit. Publications : [CN-1, CI-7, CI-8] Marina Sahakyan (octobre novembre 2011 ) : Co-tutelle avec l Armènie. Titre : Type based XML update optimisation Charge d encadrement : 50%, co-encadrement avec Nicole Bidoit. Publications : [WI-4, CI-8, CN-4] Noor Malla (novembre septembre 2012) : Titre : XML optimization through parallelisation. Charge d encadrement : 67%, Co-encadrement avec Nicole Bidoit. Publications : [CI-2, CI-3] 5.7 Jury de thèses Membre de jury de thèse Bogdan Butnaru. Optimizations of XQuery in peer-to-peer distributed XML databases. Université de Versailles, 12/04/2012. Rapporteur de thèse LE Dung Xuan Thi, Semantic transformations for XML queries Macquarie University, Australia, 20/09/ Collaborations Collaborations nationales avec Benjamin Nguyen (Université de Versailles St-Quentin), François-Xavier Dudouet (Université de Paris-Dauphine), Antoine Vion (Université de la Mediterranée), Ioana Manolescu (INRIA Saclay) et Pierre Senellart (ENST-ParisTech), dans le cadre du projet WebStand. Collaborations internationales avec avec Michele Bugliesi (Université de Venise), Silvia Crafa (Université de Padova), Giovanna Guerrini (Université de Genova), Giorgio Ghelli (Université de Pisa), Marco Mesiti (Université de Milano), et Carlo Sartiani (Université de la Basilicata).

9 6 Recherche Mes activités de recherche portent sur les thèmes suivants : 1. Systèmes de types pour bases de données objet. 2. Systèmes de types pour bases de données XML. 3. Systèmes de types pour la sécurité et modèles formels pour la concurrence. 4. Logique multimodale hybride pour XML. 5. Analyse statique pour la correction des systèmes pair-à-pair XML. 6. Gestion efficace des données XML par les moteurs main-memory. 7. Analyse d indépendance entre requêtes et mises à jour XML. 8. Analyse multidimensionnelle des données RDF. 9. Gestion efficace des données du Web sur le Cloud. Cette liste est conforme à l ordre chronologique de mes activités. Les dernières thématiques [6-9] concernent des activités en cours. La suite de cette section est organisée de la façon suivante : la description de mes activités est repartie en deux périodes, celle concernant mes thèses (master et doctorat) et mon post-doc à l Université de Venise (période ), et celle concernant mes activités menées au LRI (période ). Pour chaque thème, les publications sont indiquées tout au début de la description respective. Période Systèmes de types pour bases de données objet [CI-20, RI-8] Pendant le développement de ma Tesi Di Laurea, sous la supervision de Giorgio Ghelli, mes activités de recherche ont porté sur des problématiques liées au système de type de Fibonacci, un langage de programmation pour bases de données orientées objet, qui a été développé par l équipe bases de données de l Université de Pise. En particulier, j ai etudié des problèmes relatifs au sous-typage des types récursifs avec polymorphisme paramétrique, qui sont des mécanismes caractéristiques de Fibonacci. D un point de vue formel, ma contribution a conduit à la définition et à l étude formelle d un algorithme, correct et complet, de sous-typage pour une extension avec types récursifs du système Kernel Fun. Il s agit d une extension, avec quantification limitée, du système F défini par Jean-Yves Girard et John C. Reynolds. Un tel système est classiquement utilisé pour l étude théorique des langages de programmation orientés objet. La définition d un tel algorithme de sous-typage a permis de montrer qu il est impossible d étendre directement aux types du deuxième ordre (avec polymorphisme paramétrique) les techniques introduites dans [2] pour le soustypage des types du premier ordre. Entre autre, la recherche effectuée, a identifié des propriétés au sujet de la gestion des noms des variables de type qui permettent une implémentation efficace de l algorithme proposé [CI-20]. Ce travail a été prolongé pendant mon doctorat, avec un développement formel plus complet, et une preuve de transitivité de la relation de sous-typage induite par l algorithme [RI-8]. Systèmes de types pour bases de données XML [WI-7, WI-8, CI-18, RI-7, RI-9] À partir de ma deuxième année d études de doctorat, conformément à la nouvelle ligne de recherche de l équipe de bases de données de l Université de Pise, je me suis occupé de la conception et étude formelle des langages de requêtes pour bases de données semi-structurées et XML. Ma principale contribution a été la définition d une nouvelle notion de type correctness pour des langages de requêtes basés sur XPath et XQuery, qui sont actuellement les principaux langages de requêtes pour XML [WI-7, CI-18]. J ai ainsi défini et étudié un système de typage, que j ai prouvé correct et (pour un vaste ensemble de types) complet. En outre, j ai prouvé que pour un vaste ensemble de requêtes, l algorithme de typage défini a une complexité linéaire [RI-7] Pendant la même période, j ai collaboré aux activités de recherche consacrées à la définition du langage TQL (Tree Query Language), un langage de requêtes pour données semi-structurées, basé sur une logique modale spatiale définie [6], et dérivée de la partie spatiale de l Ambient Logic [8]. Dans ce cadre j ai étudié des sous-ensembles de TQL capables d exprimer des schémas à la DTD et des requêtes XQuery [WI-8].

10 Pendant mon doctorat, j ai collaboré avec le Centro di Ricerche Informatiche per i Beni Culturali della Scuola Normale Superiore di Pisa (CRIBECU) 1 à des activités de recherche pour la définition et la réalisation du langage typé Tequyla-TX, un langage de requêtes textuelles pour de gros documents XML. Ma contribution a conduit à la définition et typage de mécanismes de requêtes basées sur le contenu (char and word based) et sur la structure (path based) des documents [RI-9]. En fin 2002, pendant ma visite à l ENS, en collaboration avec Giuseppe Castagna et Alain Frisch nous avons étendu l approche de path correctness étudiée dans ma thèse au langage CDuce, un langage de programmation pour XML basé sur le pattern matching. Cette collaboration a posé les bases pour un développement successif qui a abouti à une technique d analyse de type pour CDuce permettant de détecter des erreurs du à la manque de conformité entre un pattern et un type [CN-7]. Systèmes de type pour la sécurité et modelés formelles pour la concurrence [CI-19, RI-4] De Janvier 2003 à Avril 2004, en tant que post-doc au Département d Informatique de l Université de Venice, en collaboration avec Michele Bugliesi et Silvia Crafa j ai contribué à la définition d un modèle formel pour la spécification des politiques de sécurité DAC (Discrectionary Access Control) pour des systèmes concurrents. Ces politiques permettent aux processus propriétaires des ressources de spécifier leurs modalités de transmission, c est-àdire à quels processus la ressource peut être transmise, et comment chaque processus peut utiliser et retransmettre une ressource après l avoir reçue. En outre, en considérant le π-calcul de Milner comme formalisme pour la spécification des systèmes concurrents, j ai contribué à la définition et l étude formelle d un système de types pour la vérification statique de cette politique DAC, qui, dans le système de types, est représentée par des types unions et récursifs. La propriété de correction de ce système de types garantit que pendant l exécution de chaque processus bien typé, la politique DAC d allocation des ressources n est pas respectée. De plus, le système de types est une extension conservative du système de types pour le pi calcul avec groupes [7]. Période Cette partie concerne mes activités de recherche menées au LRI en tant que post-doc et Maître de Conférences. Comme précisé ensuite, certaines activités sont en cours. Au début de cette période, XML ( extensible Markup Language) était déjà reconnu comme le standard pour la représentation de données semi-structurées. Au même temps, XML s est aussi affirmé comme format de représentation dans le contexte de l intégration et échange de données. Pendant une bonne partie de cette période mes intérêts de recherche se sont situés à la confluence des bases de données et langages de programmation, et se sont focalisés sur l utilisation des systèmes de types pour assurer la sureté et optimisation des programmes manipulant les données XML. Plus récemment, je m intéresse aux problèmes liés à la gestion efficace de données du Web (XML, JSON, RDF) sur le Cloud, et à l analyse multidimensionnelle de données RDF. Ces activités de recherche concernent les thèmes 4-9 cités en début de cette section. Comme précisé ensuite, la plus grande partie de ces activités fait l objet de plusieurs encadrements de thèses. Logique multimodale hybride pour XML [CN-5, WI-3, RI-6] Cet axe concerne mes travaux menés en collaboration avec Nicole Bidoit de février 2005 à fin Nous avons proposé des techniques de modélisation de types et contraintes XML par la logique multimodale hybride, une extension de la logique modale permettant dans une formule d identifier et faire référence à des noeuds (états) individuels. Essentiellement, ceci est obtenu en mélangeant quelques mécanismes très simples de la logique classique avec ceux de la logique modale. Nous avons proposé des techniques permettant de capturer les mécanismes principaux des langages de schéma pour XML, et d exprimer de façon directe le type des cibles des références entre les noeuds d un document. Les langages de schéma existants du W3C, soit ne permettent pas de donner un type aux cibles des références (comme dans le cas des DTDs) soit utilisent des mécanismes complexes basées sur XPath (comme dans le cas de XML Schema). L avantage de notre encodage est le suivant : une fois que les schémas son encodés dans la logique multimodale hybride, des problèmes classiques, comme l inclusion et la consistance de contraintes d intégrité, sont tous transposables au problème de la satisfiabilité. Nous avons proposé un système par tableau pour la satisfiabilité non finie, en présence de schémas non récursifs testuale/settore informatico/staff.html

11 Gestion efficace des données XML par les moteurs main-memory [WI-4, CN-1, CN-4, CI-2, CI-3, CI-15, CI-8, CI-7, RI-2] Dans des nombreux contextes, les données XML sont manipulées (interrogées et mises à jour) en utilisant des moteurs main-memory, qui ont la particularité de charger les données en mémoire primaire avant d exécuter leur traitement, afin d assurer une haute efficacité de ceux-ci. Les moteurs XML main-memory sont facilement intégrables dans un environnent de programmation, et supportent la totalité des langages de manipulation standardisés par le W3C (XPath, XQuery, XQuery Update). Pour toutes ces raisons ils sont largement adoptés dans le contexte du traitement de données semi-structurées représentées via XML. Dans l état actuel, ces systèmes ont des problèmes de passage à l échelle, dû au fait que les documents XML trop volumineux ne peuvent pas être chargés en mémoire. Cette limitation est particulièrement critique dans le contexte Big Data. Une des techniques principales pour dépasser cette limitation est celle de la projection des données. Cela consiste à élaguer un document XML, lors de son chargement en mémoire primaire, en supprimant les parties qui ne sont pas nécessaires au traitement (requête ou mise à jour). Souvent, les traitements ont tendance à avoir besoin d un petit pourcentage de la base des données, et donc cette technique donne aux systèmes main-memory la possibilité de manipuler des grandes quantités de données, même en présence d une mémoire primaire de taille limitée. Il est important de souligner que les limitations sur la taille de la mémoire primaire pose des problèmes même aux systèmes qui généralement ne sont pas classifiés comme main-memory. Par exemple MonetDB, un des systèmes les plus efficaces pour le traitement de données XML. Son efficacité est assuré par des algorithmes stair-case [12] adoptés pour minimiser la taille des résultats intermédiaires pendant l évaluation des expressions XPath, le sous-langage de navigation de XQuery. MonetDB utilise un système de pagination pour stocker les données sur le disque, et cela lui permet de gérer des documents de taille importante. Dans le but d assurer une haute efficacité pour les les requêtes sur un document XML, MonetDB utilise le maximum de la mémoire primaire à disposition, et si la requête demande des parties qui ne sont pas en mémoire primaire, le système effectue des opérations de swapping de pages entre la mémoire primaire et le disque. Les opérations de swapping peuvent être fréquentes dans les cas où les données ne peuvent pas être chargées entièrement en mémoire primaire. Par conséquent, même pour des systèmes comme Monet- DB la projection peut améliorer l efficacité de traitement car elle permet de minimiser le nombre des opérations de swapping. Des techniques d analyse statiques [14, 5] ont été proposées pour déterminer une projection des données interrogées par une requêtes avant son évaluation. Ces techniques se sont révélées efficaces, mais au même temps elles ont plusieurs limitations, notamment i) l impossibilité de leur application aux requêtes utilisant les mécanismes de navigation en arrière ou horizontale, ii) un processus d élagage peu précis (des parties pouvant être élaguées ne le sont pas) et demandant un temps considérable dans certaines cas, et enfin iii) l impossibilité de leur application pour les mises à jour. Dans le but de dépasser ces limitations j ai proposé et étudié des techniques alternatives de projection. Cet axe s articule en trois volets décrits ci-dessous. Optimisation de requêtes XML via projection basée sur les types [CI-15, RI-2] La première technique de projection est basée sur des résultats obtenus dans le contexte de l inférence de type pour les requêtes XQuery. L approche que j avais développé dans ma thèse de doctorat visait à analyser statiquement une requête et un schéma dans le but de déterminer le type des résultats produits par la requête après évaluation sur les documents satisfaisant le schéma. Pendant mon post-doc au LRI, j ai constaté que cette approche pouvait être généralisée dans le but d inférer statiquement de l information de type concernant toutes les parties des données nécessaire à la requête pour déterminer le résultat final. Guidé par cette constatation, j ai défini et étudié une technique de typage permettant d inférer un typeprojector à partir d une requête et d un schéma XML. Un type-pojector consiste en une collection de type des noeuds XML nécessaires au calcul du résultat de la requête analysée. Une fois le type-projector inféré, l élagage des données peut s effectuer efficacement en streaming, en élaguant les noeuds dont le type n appartient pas au type-projector. Des expérimentations considérant toutes les mécanismes de navigation de XPath (child, parent, ancestor, following, etc) ont montré que notre technique permet aux moteurs main-memory de manipuler des documents volumineux, et d accélérer l évaluation de requêtes grâce à la réduction de la dimension du document en entrée [CI-15, RI-2]. Ces travaux de recherche ont été menés en collaboration avec Véronique Benzaquen, Giuseppe Castagna et Kim Nguyen. Une technique alternative d inférence de type-projector à été étudiée dans la thèse de master de Federico Ulliana. Cette thèse formalise un système de type alternatif pour la projection. La particularité principale est que l analyse de type proposée peut être appliquée directement à XQuery, alors que le système précèdent [CI-15] s applique à des

12 requêtes XPath (les requêtes XQuery sont approximées par un ensemble de requêtes XPath). Ce travail a posé les bases pour des travaux de recherche, décrits ensuite, sur l analyse d indépendance entre requêtes et mises à jours. Optimisation de mises à jour XML via projection basée sur les types [WI-4, CN-1, CN-4 CI-7, CI-8] Ces activités de recherche ont été menées en collaboration avec Nicole Bidoit, dans le contexte des thèses de doctorat de Amine- Mohamed Baazizi et Marina Sahakyan. La deuxième technique de projection dont je me suis occupé concerne les mises à jour XQuery Update Facility. Cette étude à posé plusieurs défis. Le premier venait du fait que la mise à jour d un document élagué ne donne pas le résultat attendu : notamment, tous les noeuds élagués lors de la projection n en font pas partie. La solution à ce problème doit nécessairement passer par une technique de fusion du document initial et de la mise à jour du document élagué. En même temps, afin de permettre une exécution efficace de cette opération de fusion, une redéfinition de la notion de type-projector s imposait, en particulier pour permettre une fusion en streaming, utilisant une quantité limitée de mémoire primaire. Dans le contexte des mises à jour, le type-projector non seulement doit permettre de caractériser les noeuds nécessaires à la mise à jour, mais il doit aussi contenir l information permettant une fusion efficace. Mes activités se sont donc focalisées sur une technique de fusion efficace, une nouvelle notion de type-projector, une analyse statique efficace pour inférer un tel type-projector, et la coordination des activités d implémentation et expérimentation [WI-4, CN-4, CI-8]. Cette technique de projection s est révélée utile pour la maintenance, mise à jour et représentation efficace de documents XML temporels volumineux. Nous avons proposé une technique permettant de représenter et stocker de façon compacte une série temporelle de documents XML, et d étendre efficacement cette série via mises à jour XQuery [CN-1, CI-7]. Optimisation de requḙtes et mises à jour XML via partitionnement et parallélisme [CI-2, CI-3] Cette ligne de recherche est inscrite dans le cadre des travaux de thèse de Noor Malla. Les techniques de projection décrites ci-dessus tirent avantage de la précision de d analyse statique et de l efficacité de élagage. Pourtant, elles ne résolvent pas complètement le problème de passage à l échelle : certains traitements demandent le chargement de la majeure partie des données. Nous avons donc étudié une technique alternative se basant sur le partitionnement : le document à traiter est d abord divisé en plusieurs parties (traitement en streaming), la requête ou la mise à jour est alors exécutée sur chaque partie, et enfin, le résultat final est construit par assemblage des résultats partiels. Nous avons caractérisé une classe importante de requêtes et de mises à jour XQuery pour laquelle cette technique est pertinente. Cette caractérisation est spécifiée à nouveau sur la base d une analyse statique des requêtes et des mises à jours qui permet aussi de compiler un algorithme pour le partitionnement et la projection des données XML ; une particularité de cette technique est qu elle n utilise pas d information de schéma. Cette technique a été implémentée et nos expérimentations ont montré qu elle résout le problème de passage à l échelle des moteurs XQuery usuels. Via notre technique, ces moteurs sont capables de manipuler des documents de taille arbitraire. Un point fort de notre technique est qu elle se prête de façon naturelle à une implémentation basée sur Map-Reduce, et ce faisant elle permet d exploiter le partitionnement pour une exécution parallèle des requêtes et mises à jour. Un autre point intéressant est que le partitionnement peut être combiné avec la projection afin d accentuer la réduction de la taille des parties de la partition. Une démonstration d une implémentation MapReduce a été acceptée à une conférence internationale [CI-2]. Cette implémentation inclut des techniques pour le traitement d un workolad dynamique de requêtes et mises à jour. Des structures type DataGuides sont utilisée pour vérifier statiquement si la partition courante utilisée pour un workload peut être également utilisée pour une nouvelle requête / mise à jour qui serait à rajouter au workload. Analyse statique pour la correction des systèmes pair-à-pair XML [WI-6, CI-6, CI-16, CI-17, RI-3] XML se prête bien à représenter plusieurs typologies de données, soit les données structurées, non structurées ou semi-structurées. Ce haut niveau de flexibilité est à l origine de sa large utilisation dans le cadre de l intégration de sources de données. Dans ce contexte, un des problèmes fondamentaux est celui de la maintenance des mappings entre les schémas des sources de données à intégrer. Les mappings sont des spécifications mettant en correspondance différents schémas. Notamment, ils sont utilisés dans des processus de réécriture de requêtes, permettant la propagation de leur évaluation sur les différentes sources de données. Comme un mappingmdu schémas i vers le schémas j

13 exploite les propriétés structurelles des schémas, un changement apporté à un des schémas peut compromettre la correction du mapping lui même, et avoir, par conséquent, un impact fortement négatif sur tout le processus d évaluation de requêtes dans le système d intégration. Notamment, une corruption peut impliquer la perte (de certaine parties) de résultat d une requête. Il est donc important d avoir des techniques pour détecter la corruption, afin de pouvoir déclencher une phase de révision du mapping corrompu. En collaboration avec Carlo Sartiani (Université de la Basilicata, Italie), j ai consacré une bonne partie de mes activités de recherche au problème de la maintenance des mappings XML. Un aspect intéressant, est que les techniques conçues dans ce contexte reposent encore une fois sur la notion de projection XML. Les résultats principaux sont les suivants. Caractérisation de la propriété de correction des mapping [WI-6, CI-17] Le premier résultat est basé sur la constatation suivante : différemment des transformations schéma-à-schéma classiques, un mapping ne produit pas une instance du schéma cible, mais plutôt une projection d une instance de ce schéma. Cela est du au fait que dans un scénario d intégration de données, un élément dans la base source n a pas forcément de correspondant dans la base cible. Par conséquent, nous avons adopté une notion de correction faisant l hypothèse qu un type décrivant l image d un mapping soit disponible, et demandant que ce type soit en relation de projection avec le schéma cible du mapping. La relation de projection entre les types est définie via une transposition directe de la relation de projection entres arbres (documents) XML. Algorithmes efficaces pour la vérification de correction [CI-16, RI-3] Afin que cette notion puisse être vérifiée efficacement, les deux ingrédients suivant sont indispensables : une technique d inférence du type image d un mapping qui soit à la fois précise et efficace, et un algorithme efficace pour vérifier la relation de projection entre les schémas. Conformément à des travaux existants [13], nous avons fait l hypothèse qu un mapping soit spécifié via XQuery. En se basant sur le système de type pour XQuery présenté dans ma thèse de doctorat, nous avons amélioré la précision de celui-ci. Le système de type obtenu, permet l inférence d un type image décrivant de façon précise l ensemble des sorties produites par évaluation du mapping sur des instances du schéma source. Notre algorithme d inférence est exponentiel dans le pire des cas, mais nous avons montré que dans les cas pratiques la technique est polynomiale et peut être implementée de façon efficace. Nous avons montré que le problème de vérification de la relation de projection entre les types est NP-complet, et nous avons fournis une caractérisation alternative de cette relation s appuyant sur une notion de simulation entre les types. Cette caractérisation nous à permis de trouver un algorithme de vérification utilisant des techniques de programmation dynamique, et de ce fait efficace dans les cas pratiques. Tant le système d inférence que l algorithme de vérification de la relation de projection ont été implementés. Une évaluation expérimentale exhaustive a validé l efficacité de la technique. Nous avons utilisé des benchmarks existants [?] pour montrer que tant le temps nécessaire pour l analyse de correction des mapping que le nombre de faux négatifs sont négligeables. Ce dernier aspect est important, car en présence de faux négatifs le système signale une corruption inexistante. Inférence de type pour XQuery et vérification de sous-typage [CI-6] Les travaux de recherche décrits ci-dessus nous ont permis de mieux comprendre certaines aspects du problème classique de l inférence de type pour XQuery. Nous avons donc effectué une étude comparative entre les techniques que nous avons développées [CI-18, RI-7, RI-9] et celle proposée par le W3C [9]. Cette analyse a montré que nos systèmes ont un plus haut niveau de précision, et que dans les cas pratiques les deux techniques ont le même niveau d efficacité en terme de temps nécessaire pour l inférence. Cette recherche nous a permis aussi de constater que le système de type du W3C est exponentiel dans le pire des cas (avant ce travail, la technique était considérée polynomiale). Détection d indépendance entre requêtes et mises à jour XML [WI-3, CN-2, CI-4] Ce travail s inscrit dans la cadre de la thèse de Federico Ulliana. La détection de l indépendance entre un ensemble de requêtes et une mise à jour, qui a lieu en absence d impact de la mise à jour sur les requêtes, est cruciale pour la gestion efficace de tâches comme la maintenance des vues, le contrôle de la concurrence et de la sécurité. Dans le contexte des requêtes et mises à jour XML les approches existantes [11, 1] avaient toutes de fortes limitations, comme l impossibilité de traiter la totalité du langage XQuery ou bien un

14 bas niveau de précision. Nous avons etudié une méthode alternative basée sur une nouvelle technique d analyse statique utilisant le schéma de la base de données. La contribution principale repose sur une notion de type plus riche que celle employée jusqu ici dans la littérature. La technique assure une inférence rapide et précise des chaˆınes de types des noeuds utilisés par les requêtes et mises à jour pendant leur évaluation. L inférence de chaînes de types soulève un problème important et difficile lié aux schémas récursifs : un ensemble infini de chaînes pouvant être inférées pour ces schémas. La technique développée effectue une approximation correcte et complète assurant une analyse finie. Un deuxième problème soulevé par l inférence de chaînes est celui de l explosion exponentielle potentielle du nombre de chaînes inférées, même en présence de schémas non récursifs. Ce problème a été résolu avec l utilisation de techniques de compression de chaînes, permettant un traitement polynomial de l analyse d indépendance. La compression adoptée implique à la fois une approximation de l analyse. Néanmoins, notre l analyse résultante s est révélée être extrêmement précise (la perte de détection d indépendances est limitée à des cas artificiels). L efficacité et la précision de la technique ont été validées via une large phase expérimentale. Vérification efficace de l inclusion entre schémas XML avec entrelacement et comptage [CI- 14, CI-13, CI-11, CI-9, RI-1, RI-5, AS-1 ]. Les schémas XML sont à la base de la vérification statique de la correction d applications manipulant les données XML. Pour tout type d analyse statique de ces applications basée sur les schémas, il est crucial de pouvoir vérifier l inclusion, et donc l équivalence entre deux schémas. Tout langage de schéma XML offre les opérateurs classiques des expressions régulières pour décrire la structure des données. Plusieurs langages, comme XML Schema et Relax NG, offrent aussi des opérateurs d entrelacement (ou shuffle/interleaving) et de comptage. Essentiellement, le premier permet de décrire des séquences où certaines parties peuvent se disposer dans n importe quelle ordre, alors que le deuxième permet de contraindre le nombre de répétitions d une valeur dans une séquence. Comme montré dans [10] l addition de ces deux opérateurs aux expressions régulières rend EXPSPACE complet le problème de l inclusion. En collaboration avec Giorgio Ghelli, Luca Pardini, et Carlo Sartiani, nous avons etudié des classes d expressions régulières avec entrelacement & et comptage # admettant une vérification polynomiale de la relation d inclusion, et couvrant à la fois une large classe de cas pratiques. Aussi nous visions à des restrictions sur les expressions régulières qui sont vérifiables en temps linéaire. Ces travaux ont conduit aux résultats suivant (la classe des expressions régulières avec entrelacement & et comptage # sera notée comme RE[&,#]). Dans une première étape nous avons montré que l inclusion est polynomiale pour las sous classe de RE[&,#] contenant les expressions conflict-free. Ce sont des expressions où i) tout symbole peut apparaître au plus une fois, et ii) l opérateur de comptage # est toujours appliqué à un symbole (l application à une expression arbitraire est interdite). En s appuyant sur des résultats existants [3, 4] nous avons montré que les expressions conflict-free couvrent la majeure partie des expressions utilisées en pratique. Pour cette classe d expressions conflict-free, nous avons défini un langage de contraintes permettant de capturer de façon exacte la sémantique de ces expressions. Ce résultat nous a permis de traduire la notion standard d inclusion en terme d implication de contraintes. Pour montrer que l inclusion est polynomiale pour les expressions conflict-free nous avons fourni un algorithme polynomial pour vérifier l implication de contraintes [CI-14, RI- 5]. En s appuyant sur l approche par contrainte développée dans ces travaux, nous avons conçu un algorithme efficace pour la validation de documents XML par rapport à un schéma avec expressions conflict-free [CI-13]. Dans une deuxième étape, nous avons considéré le cas asymétrique de comparaison E < E où seulement E est conflict-free. Il s agit d un cas fréquent dans le contexte du typage de programmes manipulant les données XML. Par exemple pour vérifier qu une fonction est bien typée, il faut vérifier l inclusion entre le type T du corps de la fonction (T est inféré par le compilateur et donc il y a peu de garantie qu il soit conflict-free) et un typeu déclaré par le programmeur comme le type attendu pour les sorties de la fonction. Comme montré dans [3, 4], les programmeurs ont tendance à définir des types utilisant des expressions conflict-free. Un résultat inattendu que nous avons montré est que cette inclusion asymétrique peut être vérifiée via un algorithme quadratique, utilisant toujours des contraintes pour décrire la sémantique des expressions régulières. Un résultat intéressant de cette recherche est que même une description via contraintes que ne soit pas exacte du type T est suffisante pour une vérification correcte et complète de l inclusion par rapport à U (conflict-free)

15 [CI-11, AS-1]. Dans une troisième étape, nous avons montré que dans le cas de comparaison asymétrique E < E où les expressions ont de fortes similarités structurelles (E est toujours conflict-free), l inclusion peut être vérifiée en temps linaire. Nous avons défini un algorithme hybride capable d effectuer une analyse linéaire top-down guidée par la structure des expressions comparées. Pendant cette analyse, l algorithme vérifie à chaque pas, en temps constant, certaines propriétés de similarité des expressions comparées. Si aucune similarité est détectée, alors l algorithme fait un appel à notre algorithme quadratique [CI-9], sinon il continue l analyse de façon récursive et linéaire. Notre algorithme présenté en [CI-9] est quadratique dans le meilleur et pire des cas, alors que l algorithme hybride est linaire dans le meilleur des cas (absence d appels de l algorithme quadratique) et quadratique dans le pire des cas. Une phase expérimentale menée sur un large ensemble d expressions générées aléatoirement a montré que l algorithme hybride est en générale plus performant que l algorithme quadratique [CI-10, RI-1]. Analyse multidimensionnelle des données RDF [AS-04] Cet axe s inscrit dans les travaux de thèse de Alexandra Roatis, et se situe dans le contexte de la Business Intelligence (BI) pour entrepôts RDF. La BI vise à analyser les données relatives à la vie d une organisation selon des critères stratégiques, afin de produire de l information que peut être exploitée à des fins décisionnelles. Les outils existants de BI sont tous destinés aux données relationnelles, et ne sont ni adaptés ni adaptables aux données RDF : contrairement aux données relationnelles, les données RDF sont complexes car par nature non structurées, incomplètes, et en partie implicites (une partie des données est caractérisée intentionnellement par une relation de conséquence propre à RDF, via des formalismes logiques pour la représentation des connaissances sémantiques). Dans cet axe de recherche le focus est sur l analyse multidimensionnelle OLAP (Online Analytical Processing) des données RDF. L analyse multidimensionnelle est un des briques fondamentaux de toute chaîne décisionnelle. Notre objectif est de développer des techniques permettant de faire émerger certaines caractéristiques à forte valeur ajoutée dans une base de données RDF. Le premier défis que se pose dans ce contexte est d identifier une notion appropriée pour la spécification de cubes pour RDF. Dans ce but, nous adoptons une notion de schéma d analyse, décrivant une vue avec structure de graphe sur la base de donnée RDF. Les cubes sont âpres définis via des requḙtes d analyse sur le schéma d analyse. Ces requêtes sont définies via requêtes conjonctives et opérations standard d agrégations. Nous avons montré que notre approche permet d exprimer les opérations standard OALP sur les cubes relationnels (slice, dice, drill-down etc.). Nous avons considéré deux techniques d évaluation des requêtes d analyse. La première consiste à matérialiser la partie de la base RDF correspondante au schéma d analyse, et à évaluer les requêtes sur cette matérialisation. La deuxième technique consiste à utiliser le schéma d analyse pour transformer la requête d analyse en une requête sur la base RDF. Bien sur, la deuxième méthode est préférable en cas de mises à jour fréquentes sur la base. Une implémentation de ces techniques ainsi que des expérimentations effectuées ont montrées que notre approche est efficace, et que peut être mise en ouvre en utilisant des DBMS RDF existants. Ces résultats font l objet d un article en préparation pour soumission à une conference internationale [AS-04]. Comme directions futures, nous envisageons de développer des techniques de visualisation pour aider l utilisateur à la définition du schéma d analyse, et des techniques d optimisation des requêtes d analyse. Gestion efficace des données du Web sur le Cloud [WI-2, CI-1, CI-5] Cet axe de recherche s inscrit dans les travaux de thèse de Jesús Camacho-Rodriguez. Comme déjà dit, XML est largement utilisé aujourd hui pour représenter les données générées et échangées sur le Web. La vitesse de croissance en terme de taille de ce type de données est désormais vertigineuse, et destinée à rester telle, voir augmenter, dans les années à venir. Comme la taille des données XML à manipuler (interroger et mettre à jour) devient de l ordre des dizaines de GB ou TB, l utilisation de systèmes traditionnels devient impossible. Les plates-formes Cloud sont les meilleurs candidates pour traiter des telles masses de données. Ces plates-formes mettent à disposition des énormes ressources de stockage, mais encore plus important elle mettent à disposition des paradigmes de traitement via parallélisme massif qui sont indispensable pour pouvoir répondre à des besoin de traitement dans des temps raisonnables. La majeure partie des plate-formes Cloud commerciales mettent à disposition des mécanismes de gestion de données basées sur le modèle clé-valeurs. Un tel modèle est indispensable pour le développement de techniques de manipulation de données via parallélisme massif (par exemple via MapReduce) et distribution (par

16 exemple via tables DHT). Aussi, un aspect crucial à considérer quand on choisit d utiliser une plateforme Cloud, est celui du coût monétaire à supporter pour avoir les ressources de stockage et de calcul (machines virtuelle) nécessaires au traitement. Dans ce contexte, la technique idéale est celle qui assure une haute efficacité avec le moindre coût monétaire. Dans cet axe de recherche, un de nos objectifs est celui d analyser plusieurs techniques d indexation pour le traitement de grandes collections de documents XML dans le Cloud, dans le but d analyser leur comportement en terme d efficacité et coût monétaire. Nous avons choisi la plateforme AWS de Amazon pour cet étudie. Un effort particulier à été consacré à la conception de techniques de représentation sur des collections clé-valeurs des documents XML et index, avec une attention particulier à la possibilité de passer à l échelle en terme d efficacité lors de l utilisation de plusieurs machines en parallèle. Cet aspect est crucial pour pouvoir traiter des grandes masses de données, et faire face à des pics de requêtes à évaluer. L analyse à révélé que l utilisation d index, malgré l haut coût de création, est avantageuse pour l évaluation de requêtes sur des grandes masses de données XML dans le Cloud. Les techniques d indexation qui se sont révélées le plus efficaces (tant en terme de temps que de coût monétaire) sont celles ayant un bon compromis entre sélectivité et efficacité des opérations de création et look-up. Dans les étapes successives, nous visons à développer des techniques permettant l interrogations de grandes collections de documents XML via l évaluation de requêtes XQuery sur des clusters supportant l exécution de jobs PACT (PArallelization ContracTs) 2. PACT est une extension de MapReduce avec des fonctions acceptant plusieurs entrées, et permettant de déclarer certaines propriétés des entrées et sorties (contrats de Input/ Output). Ces déclarations peuvent être utilisées pendant la compilation pour des buts d optimisation. Nous visons à couvrir une large partie de XQuery, en incluant les opérateurs d agrégation et groupement, cruciaux pour les opérations d analyse. La définition de la technique de traduction XQuery - vers - PACT est complexe du à la présence de mécanismes complexes tant du coté XQuery que du coté PACT. Cet activité de recherche est en cours, et à l état actuel des résultats préliminaires concernant la formalisation de la traductions ont étés obtenus. Les étapes suivantes vont concerner l implémentation des règles de traduction et l étudie de techniques d optimisations pour les programmes PACT générés par la traduction. Un effort particulier sera après consacré à une implémentation efficace et à une phase expérimentale exhaustive. 2. https ://stratosphere.eu/home

17 7 Publications Tableau récapitulatif Chapitres Revues Int. Revues Nat Conf. Int. Conf. Nat. W orkshops T utoriaux TOTAL Chapitres de livres CL-1 D. Colazzo, G. Guerrini, M. Mesiti, B. Oliboni and E. Waller. Document and Schema XML Updates. In Changqing Li and Tok Wang Ling, editors. Advanced Applications and Structures in XML Processing : Label Stream, Semantics Utilization and Data Query Technololgies, IDEA Group, Articles dans des revues internationales avec comité de lecture. RI-1 D. Colazzo, G. Ghelli, L. Pardini and C. Sartiani. Almost-Linear Inclusion for XML Regular Expression Types ACM Transaction on Database Systems (TODS), 45 pages, to appear. RI-2 V. Benzaken, G. Castagna, D. Colazzo and K. Nguyen. Optimizing XML querying using type-based document projection. ACM Transactions on Database Systems (TODS), 54 pages, to appear. RI-3 D. Colazzo and C. Sartiani. Detection of Corrupted Schema Mappings in XML Data Integration Systems. ACM Transaction on Internet Technology (TOIT). Volume 9(4), paper 14, 53 pages, RI-4 M. Bugliesi, D. Colazzo, S. Crafa and D. Macedonio. A Type System for Discretionary Access Control. Mathematical Structures in Computer Science (MSCS). Volume 19(4) : , 36 pages, RI-5 D. Colazzo, G. Ghelli and C. Sartiani. Efficient Inclusion for a Class of XML Types with Interleaving and Counting. Information Systems (IS). Volume 34(7) : , 13 pages, RI-6 N. Bidoit and D. Colazzo. Testing XML constraint satisfiability. Electronic Notes in Theoretical Computer Science. Volume 174(6) : 45-61, 7 pages, RI-7 D. Colazzo, G. Ghelli, P. Manghi and C. Sartiani. Static Analysis for Path Correctness of XML queries. Journal of Functional Programming (JFP). Volume 16(4-5) : , 40 pages, RI-8 D. Colazzo and G. Ghelli. Subtyping, Recursion and Parametric Polymorphism in Kernel Fun. Information and Computation (IC). Volume 198(2) : , 76 pages, RI-9 D. Colazzo, C. Sartiani, A. Albano, P. Manghi, G. Ghelli, L. Lini and M. Paoli. A Typed Text Retrieval Query Language for XML Documents Journal of American Society for Computer Science and Technology (JASIST). Volume 53(6) : , 23 pages, 2002.

18 7.0.3 Articles dans des conférences internationales avec comité de lecture. CI-1 J. Camacho-Rodríguez, Dario Colazzo and Ioana Manolescu. Web Data Indexing in the Cloud : Efficiency and Cost Reductions. International Conference on Extending Database Technology (EDBT), 12 pages, CI-2 N. Bidoit, D. Colazzo, N. Malla, M. Nolé, C. Sartiani and F. Ulliana. Processing XML Queries and Updates on Map/Reduce Clusters. (demo) International Conference on Extending Database Technology (EDBT), 4 pages, CI-3 N. Bidoit, D. Colazzo, N. Malla and C. Sartiani. Partitioning XML Data for Iterative Queries. International Database Engineering & Applications Symposium (IDEAS), 10 pages, CI-4 N. Bidoit, D. Colazzo and F. Ulliana. Type-based Detection of XML Query-Update Independence International Conference on Very Large Databases (VLDB), 12 pages, CI-5 A. Aranda-Andújar, F. Bugiotti, J. Camacho-Rodríguez, D. Colazzo, F. Goasdoué, Z. Kaoudi and I. Manolescu. Amada : Web Data Repositories in the Amazon Cloud. (demo) International Conference on Information and Knowledge Management (CIKM), 3 pages, CI-6 D. Colazzo and C. Sartiani. Precision and Complexity of XQuery Type Inference. ACM SIGPLAN Conference on Principles and Practice of Declarative Programming (PPDP), 11 pages, CI-7 A. Baazizi, N. Bidoit and D. Colazzo. Efficient Encoding of Temporal XML Documents. International Symposium on Temporal Representation and Reasoning (TIME), 7 pages, CI-8 A. Baazizi, N. Bidoit, D. Colazzo, N. Malla and M. Sahakyan. Projection for XML Update Optimisation. 14th International Conference on Extending Database Technology (EDBT), 12 pages, CI-9 D. Colazzo, G. Ghelli, L. Pardini and C. Sartiani. Linear Inclusion for XML Regular Expression Types. ACM Conference on Information and Knowledge Management (CIKM), 10 pages, CI-10 N. Bidoit and D. Colazzo. Hybrid Logic for Expressing XML Schemas with Typed References. International Conference on Computer Science and Information (CSIT), 5 pages, CI-11 D. Colazzo, G. Ghelli and C.Sartiani. Efficient Asymmetric Inclusion Between Regular Expression Types. International Conference on Database Theory (ICDT), 9 pages, CI-12 V. Benzaken, G. Castagna, D. Colazzo and C. Miachon. Pattern by Example : type-driven visual programming of XML queries. ACM-SIGPLAN Symposium on Principles and Practice of Declarative Programming (PPDP), 12 pages, CI-13 G. Ghelli, D. Colazzo and C. Sartiani. Linear Time Membership for a Class of XML Types with Interleaving and Counting. ACM Conference on Information and Knowledge Management (CIKM), 10 pages, CI-14 G. Ghelli, D. Colazzo and C. Sartiani. Efficient Inclusion for a Class of XML Types with Interleaving and Counting. International Symposium on Database Programming Languages (DBPL), LNCS 4797, 15 pages, CI-15 V. Benzaken, G. Castagna, D. Colazzo and K. Nguyen. Type-Based XML Projection. International Conference on Very Large Data Bases (VLDB), 12 pages, CI-16 D. Colazzo and C. Sartiani. An efficient algorithm for XML type projection. ACM SIGPLAN Conference on Principles and Practice of Declarative Programming (PPDP), 10 pages, CI-17 D. Colazzo and C. Sartiani. Mapping Maintenance in XML P2P Databases. 10th International Symposium on Database Programming Languages (DBPL). LNCS 3774, 15 pages, CI-18 D. Colazzo, G. Ghelli, P. Manghi and C. Sartiani. Types for Path Correctness of XML queries. ACM SIGPLAN International Conference on Functional Programming (ICFP), 12 pages, 2004.

19 CI-19 M. Bugliesi, D. Colazzo and S. Crafa. Type Based Discretionary Access Control. CONCUR 04 - Concurrency Theory. LNCS 3170, 15 pages, CI-20 D. Colazzo and G. Ghelli. Subtyping Recursive Types in Kernel Fun. IEEE Symposium on Logic in Computer Science (LICS), 10 pages, Articles dans des workshops internationaux avec comité de lecture. WI-1 D. Colazzo, G. Ghelli and C. Sartiani. Typing Massive JSON Datasets International Workshop on Cross-model Language Design and Implementation (XLDI, affiliated with ICFP), WI-2 J. Camacho-Rodríguez, D. Colazzo and I. Manolescu. Building Large XML Stores in the Amazon Cloud. Data Management in the Cloud (DMC) Workshop (collocated with ICDE), WI-3 N. Bidoit, D. Colazzo and F. Ulliana. Detecting XML query update independence. International Formal Methods Workshop (IFM), WI-4 N. Bidoit, D. Colazzo, N. Malla and M. Sahakyan. Projection based optimization for XML updates. International Workshop on Schema Languages for XML (X-Schemas), WI-5 N. Bidoit and D. Colazzo. Testing XML constraint satisfiability. International Workshop on Hybrid Logic (HyLo), colocated with IEEE LICS WI-6 D. Colazzo and C. Sartiani. Typechecking Queries for Maintaining Schema Mappings in XML P2P Databases. PLAN-X ACM Workshop colocated with POPL, WI-7 D. Colazzo, G. Ghelli, P. Manghi and C. Sartiani. Types for Correctness of Queries over Semistructured Data. ACM Workshop on the Web and Databases (WebDB), WI-8 G. Conforti, G. Ghelli, A. Albano, D. Colazzo, P. Manghi and C. Sartiani. The Query Langauge TQL. ACM Workshop on the Web and Databases (WebDB), WI-9 A. Albano, D. Colazzo, G. Ghelli, P. Manghi and C. Sartiani. A Type System For Querying XML documents. ACM-SIGIR 2000 Workshop On XML and Information Retrieval, Articles dans des revues nationales avec comité de lecture. RN-1 B. Nguyen, Antoine Vion, F. Dudouet, D. Colazzo and I. Manolescu. WebStand, une plateforme de gestion de données web pour applications sociologiques. Technique et Science Informatiques 29(8-9) : , Articles dans des conférences nationales avec comité de lecture. CN-1 A. Baazizi, N. Bidoit, and D. Colazzo Maintenance efficace de documents XML volumineux. Bases de Donnèes Avancèes (BDA) CN-2 N. Bidoit, D.Colazzo and F. Ulliana. Detecting XML Query-Update Independence. Bases de Données Avancées, Toulouse, France CN-3 D. Colazzo and C. Sartiani. Precision and Complexity of XQuery Type Inference. 12th Italian Conference on Theoretical Computer Science (ICTCS), September, 2010.

20 CN-4 N. Bidoit, D. Colazzo, N. Malla and M. Sahakyan. Optimisation de Mises a jour XML par typage et projection. Bases de Donnèes Avancèes (BDA) CN-5 N. Bidoit and D. Colazzo. Capturing well typed references in DTDs. Bases de Données Avancées (BDA), CN-7 G. Castagna, D. Colazzo and A. Frisch. Error Mining for Regular Expression Patterns. Theoretical Computer Science, 9th Italian Conference (ICTCS). Lecture Notes in Computer Science. Volume 3701, pages Springer-Verlag CN-8 D. Colazzo and C. Sartiani. An Approach to Detect Corrupted Schema Mappings in XML P2P Databases. Thirteenth Italian Symposium on ADVANCED DATABASE SYSTEMS - Sistemi Evoluti per Basi di Dati (SEBD), Tutoriaux T-1 D. Colazzo, G. Ghelli and C. Sartiani. Schemas for Safe and Efficient XML Processing. IEEE International Conference on Data Engineering (ICDE), Hannover, Germany, Aussi présenté à l Ecole thématique BDA (le tutoriel a été enrichi avec des parties detaillées sur le typage et optimisation), Aussois, 27 mai - 1er juin T-2 D. Colazzo. Type-based optimization for XML query execution and static verification. Ecole thématique BDA, Les Houches, mai Soumissions en cours et articles en préparation AS-1 D. Colazzo, G. Ghelli, L. Pardini and C. Sartiani. Efficient asymmetric inclusion of regular expressions with interleaving and counting for XML type-checking. Soumis à un journal international, avec comité de lecture, minor revision. AS-2 A. Baazizi, N. Bidoit and D. Colazzo Type-based projection for optimizing XML updates En préparation pour soumission à un journal international avec comité de lecture. AS-3 N. Bidoit, D. Colazzo and F. Ulliana Schemas for chain-based detection of XML query-update indepence En préparation pour soumission à un journal international avec comité de lecture. AS-4 D. Colazzo, F. Goausdué and Ioana Manolescu. Warehousing RDF Graphs En préparation pour soumission à une conference internationale avec comité de lecture. AS-5 J. Camacho-Rodríguez, D. Colazzo and I. Manolescu. Querying Massive XML Data Sets via XPACT En préparation pour soumission à une conference internationale avec comité de lecture. AS-6 D. Colazzo, G. Ghelli and C. Sartiani Schema Inference for Massive JSON Datasets En préparation pour soumission à une conference internationale avec comité de lecture. 3. http ://webdam.inria.fr/summerschool-2012/

Montrer encore