Techniques d apprentissage pour le traitement d informations structurées : application à la recherche d information.

Dimension: px
Commencer à balayer dès la page:

Download "Techniques d apprentissage pour le traitement d informations structurées : application à la recherche d information."

Transcription

1 THÈSE DE DOCTORAT DE L UNIVERSITÉ PARIS 6 Spécialité Informatique présentée par Benjamin Piwowarski Pour obtenir le grade de DOCTEUR de l UNIVERSITÉ PARIS 6 Sujet de la thèse : Techniques d apprentissage pour le traitement d informations structurées : application à la recherche d information. Soutenue le 17 juillet 2003 devant le jury composé de : Beigbeder Michel (Maitre-assistant des ENSM) Rapporteur Chiaramella Yves (Professeur) Examinateur Doucet Anne (Professeur) Examinateur Gallinari Patrick (Professeur) Directeur de thèse Gilleron Rémi (Professeur) Rapporteur Rousset Marie-Christine (Professeur) Examinateur

2 2

3 Table des matières Introduction v I Structure, texte et apprentissage 1 1 Recherche d Information Introduction Représentation Prétraitement Notations Représentation vectorielle Décomposition en Valeurs Singulières L espace des m-termes Fourier Modèles probabilistes Le modèle de 2-Poisson Divergence par rapport à l aléatoire Modèles probabilistes génératifs Représentation et RI Recherche documentaire Les modèles ensemblistes Les modèles algébriques Les modèles vectoriels Les réseaux de neurones Conclusion Les modèles probabilistes Fondations Modèle de langage Réseaux bayésiens Logique et probabilité Interaction et apprentissage Interaction Apprentissage Approche hybride : les réseaux de neurones Conclusion Évaluation

4 4 TABLE DES MATIÈRES Introduction Les premières mesures Mesures globales Courbes Courbes ROC Les mesures réelles Normalisation des résultats Conclusion Vers la Recherche d Information Structurée Bibliographie La Recherche d Information Structurée Introduction Les précurseurs Segments Documents HTML et Internet Conclusion La recherche d information structurée Le document structuré Le contenu La structure Structure et contenu L unité d information recherchée Langages de requête Conclusion RI et information structurée Modèles issus de la Recherche Documentaire Travaux de Wilkinson Les modèles vectoriels généralisés Fragments de documents Recherche intra-documentaire Propagation des scores Propagation des termes Corpus relatifs à l élément recherché Réseaux bayésiens Recherche structurée Bases de données et recherche booléenne BDD semi-structurées et RI Conclusion Évaluation Jugements de pertinence Mesures d évaluation Autres tâches Catégorisation Extraction d information Résumé automatique Conclusion

5 TABLE DES MATIÈRES Bibliographie Apprentissage et structure Apprentissage Notations Structure Apprentissage statistique Réseaux de neurones Historique Mémoires auto-associatives De la séquence à la structure Machines à Vecteur de Support MVS linéaires Les noyaux Noyaux et structures Modèles génératifs et noyau de Fisher Les modèles graphiques Introduction Réseaux bayésiens Inférence exacte Inférence approximative Apprentissage Apprentissage et Recherche d Information Structurée Bibliographie II Modèle Bayésien pour la Recherche d Information Structurée RIS et réseaux bayésiens Définitions et notations Corpus de documents XML Algèbre ensembliste pour les requêtes structurées Langage de requête Algèbre ensembliste évaluation exacte Ensembles et probabilités évaluation vague Décision et Réseaux Bayésiens Des documents aux réseaux Modéliser corpus et demande d information par des réseaux bayésiens - Motivations Modèle probabiliste de recherche d information Notations Inférence Apprentissage Calcul des probabilités conditionnelles Tables de probabilités Fonction analytique Conclusion

6 6 TABLE DES MATIÈRES RIS, RB et Grammaire Résolution des questions de type CAS Évaluation et résultats Mesure globale Limites des mesures classiques Hypothèses sur le comportement de l utilisateur Événements et probabilités Hypothèses générales sur la nature des événements Algorithme de calcul pour la mesure de performance globale Mesure globale pour le corpus INEX Mesure locale Expériences préliminaires Modèle différentiel Corpus structuré : le web (Hermitage) Expériences sur le corpus INEX Le corpus Les questions Conditions expérimentales Mesure locale et sélection des modèles locaux Mesure globale Sélection d un sous-ensemble d éléments Réseaux bayésiens Conclusion A Notations 207 A.1 Fonctions générales A.2 Probabilités A.3 Graphe, structure A.4 Document (structuré) A.5 Représentation A.6 Recherche d information A.7 Pertinence A.8 Évaluation A.9 Apprentissage statistique B Structure 211 B.1 La structure B.2 Les relations structurelles B.3 Topologies B.3.1 Graphes ordonnés B.3.2 Graphes dirigés B.3.3 Graphes acycliques

7 TABLE DES MATIÈRES 7 C Modèle probabiliste différentiel 215 C.1 Le modèle différentiel C.2 Modèle différentiel et structure C.3 Estimation de probabilité D Algèbre et XPath 221 D.1 Algèbre et probabilité E Algorithme de calcul de la mesure globale 229 Bibliographie 231

8 8 TABLE DES MATIÈRES

9 Liste des tableaux 1.1 Différents niveaux d analyse linguistique Représentation vectorielle Représentation vectorielle des documents Représentation des documents et modèles aléatoires Mesures vectorielles en RI Comparaison des approches centrées document/question Tableau Rappel/précision Relation structurelles Données Relation structurelles XPath : syntaxe abrégée Mesure globale Listes ordonnées et coefficients de Spearman et Kendall Caractéristiques des jeux de requêtes Précision à n documents. Les meilleures performances sont en gras Effet du retour utilisateur Jugements de pertinence d INEX Différentes instances du modèle Okapi Moyenne de la mesure locale D.1 Ensembles et XPath (initialisation et axes) D.2 Ensembles et XPath (axes) D.3 Pseudo-inverse des fonctions structurelles D.4 Ensembles et XPath (filtres)

10 10 LISTE DES TABLEAUX

11 Table des figures 1.1 Représentation d un document en n-grammes Extrait d un dictionnaire d arrêt Loi de Zipf Distribution d un terme suivant la loi de Poisson Modèle de langage avec un Modèle de Markov Caché Recherche documentaire Un réseau de neurones pour la recherche documentaire Un réseau bayésien utilisé par INQUERY Un réseau bayésien proposé par Ribeiro [183] Précision et rappel Liste de documents renvoyés par un système de RI Courbes rappel/précision Courbes ROC TextTiling Un document structuré Ordre dans un document XML Les langages de requête L approche de Myaeng Exemple de jugements de pertinence en RI Un neurone Réseau de neurone multi-couche Graphes et L-RAAM Le réseau d encodage et de décodage d une L-RAAM Perceptron multicouches à fenêtre Réseaux récurrents pour les séquences Exemple de réseau et de graphe pour la BPTS Séparation linéaire avec les Machines à Vecteurs de Support (MVS) Séparation linéaire et fonctions noyau d-séparation dans les réseaux bayésiens Réseau bayésien Un corpus structuré de documents XML Réseau bayésien et corpus structuré Modèles graphiques de document structuré Réseau bayésien et XPath

12 12 TABLE DES FIGURES 4.5 RB et RIS Réseaux Bayésiens et Recherche d Information Structurée Une grammaire pour la RIS Réseau bayésien et XPath Mesure globale et ou bruité Évaluation en RIS Cranfield 1400 : Comparaison avec Okapi / Effet de l apprentissage CISI : Comparaison avec Okapi / Effet de l apprentissage Réseau bayésien pour le site web hermitage Courbe précision-rappel (corpus Hermitage) Corpus INEX Densité de la mesure locale Densité de la mesure locale à des profondeurs données Courbes de la mesure globale et rappel-précision Courbes de la mesure globale et rappel-précision (strict) Courbes de la mesure globale et rappel-précision (avec <Keywords>) Courbes de la mesure globale et rappel-précision (strict avec <Keywords>) Mesure globale et RB Mesure globale et RB avec grammaire B.1 Relations structurelles B.2 Ordre dans les structures arborescentes ordonnées C.1 Modèle différentiel et structure

13 Remerciements Je remercie chaleureusement Monsieur Michel Beigdeber, Maître-Assistant à l École Supérieure des Mines de Saint-Etienne, et Monsieur Rémi Gilleron, Professeur à l Université de Lille 3, d avoir accepté d être les rapporteurs de cette thèse. Je veux aussi remercier Monsieur Yves Chiaramella, Professeur à l Université Joseph Fourier de Grenoble, Madame Anne Doucet, Professeur à l Université Paris 6 et Madame Marie-Christine Rousset, Professeur à l Université Paris-Sud, pour avoir bien voulu participer à mon jury. Je suis particulièrement reconnaissant à mon directeur de thèse, Monsieur Patrick Gallinari, Professeur à l Université Paris 6, qui a su avec patience orienter mon travail tout au long de ces années et qui m a permis de développer mon sens de la recherche. L équipe dans laquelle j ai travaillé a été un soutien indispensable ; un grand merci à Ludovic Denoyer et à Georges-Etienne Faure qui ont su garder leur sourire et leur gentillesse au cours des longues heures passées à travailler ensemble. La vie dans l équipe n aurait pas été aussi agréable s il n y avait eu Massih, Thierry, Sanparith et Henri pour l animer. Merci également à Christophe, Kilian, Jacqueline, Ghislaine et Nicole. i

14 ii TABLE DES FIGURES

15 Résumé / Abstract Dans le contexte de l Accès à l Information, la notion de document électronique a considérablement évoluée. En peu de temps, nous sommes passés d un monde où la représentation dominante d un document était constituée de la suite de ses mots ou de ses phrases à une représentation bien plus riche et structurée (multimédia). Cette évolution touche les communautés de la Recherche d Information (RI), des Bases de Données et de l Apprentissage Automatique qui sont celles qui sont au cœur de notre travail. Dans ce manuscrit, nous présentons un modèle complet de RI structurée basé sur les Réseaux Bayésiens (RB). Notre modèle est capable de répondre à des questions portant à la fois sur la structure et le contenu. Notre modèle peut également apprendre de manière automatique ses paramètres. Nous nous intéressons également à la définition d une nouvelle mesure d évaluation des systèmes de RI structurés. Machine learning and structured data: application to information retrieval In the context of Information Access, the concept of electronic document has considerably evolved. Recently, the classical representation of a document as a string of (ot a bag of) words evolved into a much richer and structured representation (multimedia). This evolution concerns different communities such as the Information Retrieval (IR), the Databases and the Machine Learning communities which constitute the framework of our study. In this thesis, we present a complete model of structured IR based on the Bayesian Networks (BN). Our model is able to answer questions that adress the content and the structure of a document. Our model can also learn its parameters. We are also interested in the definition of a new measure of the structured IR systems. iii

16 iv TABLE DES FIGURES

17 Introduction Dans le contexte de l Accès à l Information, la notion de document électronique a considérablement évoluée en quelques années. Nous sommes passés en peu de temps d un monde où le concept dominant était celui du document plat constitué de la suite de ses mots ou de ses phrases à un monde où le document est devenu un objet plus complexe, pouvant comporter différentes sources d information (multimédia). Cette évolution a été accélérée par le développement du web qui propose lui même ces formats structurés pour organiser et décrire ses propres ressources. Avec cette évolution de la nature des sources d information, sont apparus de nouveaux besoins qui visent à exploiter la richesse présente dans ces documents. Le format d un document est aujourd hui défini par une structure logique décrite par des instances du langages XML. Des formats particuliers sont proposés pour standardiser certains types de documents et en faciliter ainsi leur exploitation. Le traitement de ces nouvelles sources d information révolutionne les domaines traditionnels de l accès à l information. Il faut élaborer de nouveaux concepts pour la représentation, le stockage, le traitement de cette information, pour l interaction avec l utilisateur, pour la manipulation de très grosses masses de données à fort contenu sémantique. Les outils classiques pour le traitement des informations textuelles sont mal adaptés à l exploitation de cette information bien plus riche et doivent être adaptés ou plus probablement redéfinis. Il en est de même pour les mesures qui permettent d évaluer les performances de systèmes de Recherche d Information. C est dans ce cadre que se situe le travail présenté dans cette thèse. Nous nous sommes attachés à étudier de nouvelles méthodes adaptées à la recherche d information sur des corpus de documents structurés de façon à exploiter au mieux le contenu et la structure logique de ces documents. Nous nous sommes limités à des corpus textuels, mais les méthodes proposées sont assez génériques et peuvent être facilement adaptées à d autres types de contenus. Les moteurs de recherche actuels utilisent des représentations simples qui sont traitées par des méthodes numériques. Nous nous plaçons également dans un cadre statistique qui est celui de l apprentissage numérique pour développer nos moteurs de recherche. L évolution des sources et des formats de contenu touche de nombreuses communautés. Celles qui concernent plus particulièrement notre travail sont les communautés de la Recherche d Information (RI), des Bases de Données (BDD) et de l Apprentissage Automatique. Nous positionnons brièvement notre travail par rapport à ces domaines de recherche dans la suite. Une discussion plus détaillée sera fournie dans les chapitres correspondants du manuscrit. v

18 vi INTRODUCTION Recherche de d Information En Recherche d Information (RI), un domaine qui s est développé à partir des années 1960, les textes ont principalement été considérés comme des documents plats, sans prise en compte de leur structure logique ou physique. Tous les systèmes de recherche actuels utilisent des représentations très simples des documents et corpus où l ordre des mots lui même est le plus souvent simplement ignoré. Les moteurs de recherche ont été initialement conçus pour des corpus homogènes à la fois dans la forme et dans la taille des documents. Jusqu à ces dernières années, les tests effectués dans des compétitions comme TREC 1 (Text REtrieval Conference) encore portent très souvent sur des corpus de journaux qui présentent une homogénéité certaine. Avec le temps, les corpus collectés sont devenus plus complexes et plus hétérogènes. Aujourd hui, les moteurs interrogent des sources d information extrêmement variées : corpus de documents de type dépêches ou journaux, informations présentes sur des pages web ou encore circulant sur des messageries. Avec cette évolution, est apparue la nécessité de considérer non pas des documents dans leur globalité, mais des passages pertinents pour un besoin d information. Par exemple si le document est trop gros, le présenter en entier n a pas de sens et il faut en renvoyer des passages pertinents pour le besoin d information exprimé. S il est composé d informations très diverses (e.g. listes de diffusion, FAQ, etc), il faut en isoler là aussi les parties pertinentes. L arrivée de formats structurés comme le SGML a suscité quelques rares travaux dont les motivations sont proches des nôtres, à savoir utiliser l ensemble des informations présentes dans un document structuré pour imaginer de nouvelles méthodes et de nouveaux besoin de recherche. Ce n est qu avec le développement du web que le document structuré a connu un véritable essor. Cette évolution s est faite en deux étapes. Le HTML, une instance du SGML, est tout d abord devenu le langage de description pour de nombreux documents dont bien sûr les pages web. L utilisation de cette masse documentaire pour la recherche d information a suscité en quelques années de nombreux travaux. Les résultats sont toutefois mitigés d un point de vue RI, et les modèles proposés ne sont souvent que de simples adaptations des moteurs existant sur le texte plat. L apparition de XML 2 et le début de l utilisation massive de ce langage pour coder les documents ont été le véritable départ de l intérêt de la communauté RI pour la recherche structurée. Ces travaux en sont encore à leur début, mais sont déjà l objet d enjeux considérables. Du côté industriel, de nombreuses sociétés proposent déjà des prototypes ou des produits pour faire de la recherche dans des corpus XML. Tous ceux que nous avons pu voir ou tester ont toutefois des capacités de traitement extrêmement réduites, que ce soit pour l indexation ou la recherche, contrairement aux annonces qui sont faites par les sociétés qui les diffusent. Dans la conférence phare du domaine (SIGIR 3, Special Interest Group on Information Retrieval) un premier workshop sur le sujet a eu lieu en 2000 [34] et un second en 2002 [11]. La première initiative internationale (INEX) pour constituer un corpus de documents XML permettant d évaluer les systèmes de RI a débuté lors de l été 2002 avec une première rencontre en décembre 2002 et une reconduction du projet pour Ces rencontres initient la construction du domaine. De nombreux points aussi fondamentaux que la définition d un besoin d information ou d une requête, l évaluation de ces systèmes, sans même parler des principes de base sous-jacents aux moteurs de recherche sur ces corpus sont l objet de discussions encore ouvertes. Nous Le format XHTML pour le XML va devenir l équivalent du HTML pour le SGML 3

19 vii avons participé à ces initiatives qui ont largement influencé notre travail. Quelques initiatives plus individuelles ont précédé ces travaux, en particulier la communauté INEX a repris à son compte plusieurs idées issues des travaux du projet européen FERMI 4. Bases de données Alors que la communauté RI a dans son ensemble mis du temps à réagir à cette évolution des données, la communauté des bases de données a très rapidement adopté XML comme format d échange standard. Elle a commencé à développer des outils pour la constitution de bases de données XML depuis déjà plusieurs années. Le traitement de données semistructurées, comportant à la fois des informations type texte ou image intégrées dans une structure, pose également des problèmes aux méthodes de représentation et de traitement des bases de données. Celles-ci se sont en effet principalement développées pour stocker et manipuler des données très fortement structurées. On trouve ici la difficulté inverse à celle rencontrée en RI où les systèmes ont été conçus pour manipuler du contenu non structuré. La communauté BD a été très prolixe dans le développement d outils pour le stockage, l interrogation, l accès aux données semi-structurées. Elle s est également intéressée à des tâches d extraction d information en particulier pour la rétro-conception de bases de données à partir du contenu de pages web. Il y a aujourd hui un net rapprochement des problématiques que se posent les communautés BD et RI. En ce qui concerne les moteurs de recherche, on peut considérer qu elles ont des buts identiques, à savoir le développement de nouvelles méthodes pour indexer, accéder et effectuer des recherches souples sur ces données semi-structurées. L interaction reste cependant encore relativement faible et les deux communautés bien séparées. Les fonctionnalités des systèmes BD et RI pour le XML sont très différentes et peu intégrées pour l instant. Nous nous positionnons clairement du point de vue RI dans notre travail, toutefois, nous avons fait plusieurs emprunts aux travaux sur les BD XML, avec en particulier, l utilisation de langages d expression de chemins pour décrire des requêtes structurées. Apprentissage et structure L apprentissage automatique s est principalement développé depuis son origine pour le traitement de données représentées par des vecteurs sous la forme attribut-valeur ou de données sous forme de séquences. Il existe dans de nombreux domaines des données qui se présentent naturellement sous une forme structurée, mais elles ont principalement été traitées par des techniques ad-hoc, développées pour des problèmes spécifiques et n ont pas fait l objet de développements génériques. Le domaine de l apprentissage symbolique a cependant développé depuis plusieurs années des méthodes pour l apprentissage relationnel avec par exemple la programmation logique inductive. Les algorithmes issus de ces méthodes ne sont pas aujourd hui, à notre avis, véritablement opérationnels sur de grandes quantités de données. D un point de vue théorique, des questions se posent aujourd hui sur la classe des problèmes qui peuvent être appris par ces méthodes. Nous nous plaçons dans le cadre des méthodes de 4 Formalisation and Experimentation on the Retrieval of Multimedia Information, , dcs.gla.ac.uk/fermi/

20 viii INTRODUCTION l apprentissage statistique qui semblent aujourd hui mieux à même d aborder les problèmes de grands volumes de données et de données bruitées. Ce domaine a connu un très important essor depuis le milieu des années 80 avec le développement de nombreuses méthodes d apprentissage efficaces (réseaux de neurones, machines à noyaux, etc) et également le développement d un cadre formel de l apprentissage avec par exemple les travaux de Vapnik [223]. Alors que ces méthodes ont probablement atteint une certaine plénitude concernant le traitement de données vectorielles et séquentielles, très peu de choses ont été faites concernant les données possédant une structure plus complexe. Il s agit donc d un thème de recherche émergeant, et quelques travaux ont commencé à voir le jour ces dernières années. Dans le chapitre 3, nous donnons des exemples de modèles issus des réseaux de neurones, des machines à noyaux et des modèles graphiques. Il n existe toutefois pas aujourd hui d algorithme ayant un caractère un peu générique ou de famille de méthodes offrant un cadre formel particulièrement bien adapté pour le traitement de ces données. Organisation du document Ce document est divisé en deux parties, la première présente le contexte dans lequel se situent nos travaux, la seconde décrit notre modèle bayésien de Recherche d Information Structurée, une mesure d évaluation pour la RIS ainsi que les expériences que nous avons menées. Structure, texte et apprentissage Dans la première partie, nous présentons de manière détaillée le contexte de nos travaux. Recherche d Information (RI) Nous décrivons le domaine de la Recherche d Information dans le chapitre 1. Nous montrons comment ce domaine s est développé autour de trois concepts clé. 1. La représentation d un document (section 1.2). Cette représentation est classiquement motivée soit par des indices statistiques comme la fréquence d apparition des différents mots utilisés dans les documents (section 1.2.2) soit par des modèles probabilistes (section 1.2.3). 2. Le calcul d un score entre une question et la représentation d un document (section 1.3). Nous présentons dans ce manuscrit les principales approches employées en RI. L approche ensembliste (section 1.3.1) utilise les manipulations ensemblistes, comme l union et l intersection, sur les ensembles de documents. L approche algébrique (section 1.3.2), dont les représentants les plus connus sont les modèles vectoriels, s intéresse à la proximité des documents et des questions dans des espaces vectoriels. L approche probabiliste (section 1.3.3) estime la probabilité qu un document et une question soient liés par une relation de pertinence. Ces trois approches sont aujourd hui très proches car les systèmes se sont mutuellement empruntés leurs techniques. Ces modèles sont très souvent décrits par un ensemble de paramètres dont la représentation des questions et des documents font partie. Nous présentons dans la section les différentes techniques

21 ix qui permettent à ces modèles d interagir avec l utilisateur (en modifiant de manière temporaire certains de leurs paramètres) et d apprendre à partir de questions et de jugements de pertinence connus (en modifiant de manière permanente leurs paramètres). 3. Les mesures permettant d évaluer les performances des différents modèles (section 1.4). Leur importance en RI est très grande car ces mesures peuvent justifier ou invalider certains développements théoriques. Nous présentons dans cette section les différentes hypothèses sur lesquelles ont été développées ces mesures. Recherche d Information Structurée (RIS) La Recherche d Information Structurée (RIS) est un domaine de recherche nouveau. Actuellement, le projet international INEX cherche à définir un cadre précis pour la RIS. Ce cadre englobe aussi bien le langage de requête utilisé pour définir des demandes d informations à mi-chemin entre les domaines des Bases de Données (BDD) et de la RI. Nous présentons dans le chapitre 2 un état de l art sur les travaux liés à cette problématique. Ce domaine est une résultante de l évolution de la RI (section 2.2) : des travaux ont montré qu il était possible de s intéresser à des éléments plus petits que le document ; les moteurs de RI sur Internet intègrent des informations liées entres autres aux liens entre les documents. Nous donnons un cadre formel à la RIS dans la section 2.3 en définissant ce qu est un document structuré et quels sont les différents types d informations recherchées. Nous donnons alors un aperçu du langage de requête XPath (section 2.3.3) qui permet de définir des demandes d informations qui portent à la fois sur le contenu et la structure. Nous proposons un état de l art des systèmes qui se sont intéressés à l utilisation de la structure. Nous distinguons trois types de modèles, les modèles pour qui la structure 1. est une information supplémentaire qui permet d améliorer les performances de systèmes de RI et/ou de répondre à des questions qui sont elles-mêmes des documents structurés (section 2.4.1) ; 2. permet la recherche d une unité d information qui est plus petite que le document (section 2.4.2) ; 3. qui sont capables de répondre à des demandes d informations portant à la fois sur la structure et sur le contenu (section 2.4.3). Ce sont ces modèles qui sont les plus proches de nos travaux. Lors de la campagne d évaluation INEX 2002, une échelle pour les jugements de pertinence spécifiques à la RIS a été proposée. Nous la présentons dans la section 2.5, et montrons pourquoi l utilisation de mesures d évaluation importées directement de la RI n est pas adaptée à la RIS. Structure et apprentissage Les modèles qui comme les systèmes de RIS travaillent sur des données structurées ont un fonctionnement qui est determiné par un certain nombre de paramètres qu il est difficile de connaître a priori, c est à dire sans connaître le type de questions et/ou le corpus. Il est donc important pour un système de RIS de pouvoir s adapter de manière automatique, i.e. de pouvoir apprendre de manière automatique ses différents paramètres. Nous présentons dans le chapitre 3 les modèles d apprentissage numérique qui ont été proposés pour traiter des données structurées. Les quelques méthodes qui ont été

22 x INTRODUCTION proposées, sont des adaptations de techniques développées dans le traitement de données vectorielles ou séquentielles. Nous présentons tout d abord un cadre théorique d apprentissage statistique ainsi que les spécificités de l apprentissage dans les structures (sections et 3.1.2). Puis nous nous intéressons aux principaux modèles d apprentissage pour lesquels des extensions ont été proposées pour traiter la structure. Les réseaux de neurones (section 3.2) sont un des premiers modèles d apprentissage automatique. Ces modèles peuvent être utilisés tels quels pour compresser la structure, c est à dire pour obtenir une représentation vectorielle d une instance d une famille de structures. Cette représentation peut alors être utilisée par des modèles classiques d apprentissage automatique. L autre voie qui a été suivie est l extension directe des travaux liés au traitement de la séquence (section 3.2.3). Les machines à vecteur de support sont parmi les derniers modèles d apprentissage qui ont été proposés en Apprentissage Automatique. Ils reposent sur la définition une fonction noyau qui peut être définie pour toute structure. Nous présentons deux façons de définir ces fonctions noyau. La première est récursive, la seconde utilise une mesure proche de l information de Fisher (section 3.3) Enfin, les modèles graphiques et en particulier les Réseaux Bayésiens sont présentés dans la section 3.4. Ce formalisme permet d exprimer de manière graphique des relations d indépendance entre des variables aléatoires. Ces relations d indépendance peuvent être directement influencées par la structure des données. Dans la section 3.4, nous définissons trois aspects des RB : 1. l expression graphique de relations d indépendances (section 3.4.2) ; 2. le calcul des probabilités associées aux variables aléatoires (sections et ) ; 3. l apprentissage des paramètres du RB (section ). Ces trois premiers chapitres nous permettent de situer notre travail. Les travaux de la communauté RIS nous ont permis de définir de manière précise ce qu était une demande d information structurée. La méthodologie employée pour créer des mesures d évaluation des systèmes de RI nous a permis de développer une mesure spécifique à la RIS. L Apprentissage Automatique nous a fourni le cadre formel des Réseaux Bayésiens dans lequel nous avons développé notre modèle de RIS. Modèle bayésien pour la Recherche d Information Structurée Dans la seconde partie du manuscrit, nous présentons un modèle complet de RIS basé sur les Réseaux Bayésiens (chapitre 4) et une série d expériences sur les corpus structurés. Nous allons considérer deux types de demandes d information, les demandes qui portent seulement sur le contenu, exprimées en langage naturel, comme par exemple une suite de mots-clé (Content Only CO), et les demandes qui portent simultanément sur la structure et le contenu (Content And Structure CAS). Les demandes de type CAS incluent les demandes de type CO comme cas particulier.

23 CO Dans le cas CO, le but de la recherche est de trouver la ou les unités d information les plus compactes qui répondent à la demande d information. Elles doivent répondre de façon substantielle à la demande. Elles ne doivent pas être trop petites fin d éviter de ne répondre que de façon marginale à la cette demande. Elles ne doivent pas être trop grandes pour ne pas contenir trop d informations superflues. Nous définissons des critères qui rendent compte de ces différents aspects (section 4.3). La recherche est alors pour nous un processus où nous nous intéressons à des éléments d une granularité de plus en plus fine (corpus, document, section, paragraphe,...). Le processus s arrête lorsque nous avons trouvé les plus petites unités d information cohérentes pertinentes pour la question (section 4.3.5). Pour ces demandes d informations, nous calculons d abord pour chaque unité d information un score local qui ne prend en compte qu un contexte limité de l élément (section 4.3.4). Ces scores sont ensuite intégrés au sein du RB pour calculer le score de pertinence final. Nous utilisons principalement deux modèles pour le calcul des scores locaux : le modèle de RI classique Okapi et un modèle probabiliste original appelé modèle différentiel que nous présentons en annexe C (page 215). xi CAS Dans le cas des CAS, le but est de trouver les unités d information les plus compactes qui respectent les contraintes structurelles de la demande. Les contraintes structurelles correspondent à des requêtes de type bases de données sur les documents XML. Les CAS comportent en plus des prédicats vagues (questions en langage naturel). Les contraintes structurelles et les prédicats vagues sont imbriqués et peuvent conduire à des demandes d information complexes. Ces demandes d informations sont exprimées dans un langage de requête dérivé du XPath (section 4.2.1). Pour satisfaire ces demandes, nous nous basons sur une algèbre ensembliste qui représente la demande d information (section 4.2.2). Cette représentation est interprétée de manière probabiliste (section 4.2.3). Cette dernière étape permet d utiliser le formalisme des RB pour le traitement d une demande d information structurée (section 4.3.6). Une demande d information structurée est constituée d un ensemble de sous-demandes qui portent uniquement sur le contenu. Chaque sous-demande est traitée par un RB comme dans le cas CO. Ces RB sont connectés entre eux pour former un nouveau RB qui traite la demande d information principale. Dans notre manuscrit, l algèbre est traitée en deux parties : une présentation générale est faite en (page 126) et une présentation plus technique en annexe D (page 221). Apprentissage Ces deux modèles (CO et CAS) de RB apprennent leurs paramètres à partir de données issues d un ensemble partiellement étiqueté. Cet ensemble se compose de documents structurés, de demandes d information et de jugements de pertinence sur les unités d information. Les algorithmes d apprentissage que nous proposons en sont des instances de l algorithme EM adaptées aux données structurées. Mesure d évaluation globale Le domaine de la RI a montré l importance d une bonne mesure d évaluation : cette mesure doit favoriser autant que possible les modèles qui répondent aux attentes d un système de RI. Les mesures classiques qui ont été développées n ont que

24 xii INTRODUCTION très peu évolué depuis les années Ces mesures sont aujourd hui mal adaptées à la RIS, car comme nous le verrons dans le chapitre 5 (page 155), elles ordonnent les systèmes de RIS sans prendre en compte les spécificités de la tâche de RIS. Nous proposons une mesure originale (section 5.1) basée sur un modèle du comportement de l utilisateur pour la RIS. Cette démarche est similaire à celle qui a conduit au développement des mesures de RI, mais est adaptée aux spécificités de la RIS. Mesure d évaluation locale Comme étape intermédiaire dans le développement de nos modèles, nous avons eu besoin de mesurer la qualité des modèles qui calculent les scores locaux sur les unités d information. Pour cela, nous introduisons dans la section 5.2 une mesure locale. Cette mesure est basée sur le coefficient de corrélation des rangs de Kendall [199]. Elle sert uniquement à la mise au point et au choix de nos modèles locaux. Elle n est pas utilisée pour le calcul de la mesure globale mentionnée ci-dessus. Expériences Nous présentons ensuite les différentes expériences que nous avons menées. Tout d abord, nous présentons des résultats préliminaires obtenus sur de petits corpus. Ces expériences (section 5.3) nous ont permis de valider l intérêt de notre modèle probabiliste différentiel et d un premier modèle utilisant le formalisme des RB. Nous présentons enfin une série d expériences menées sur le corpus structuré INEX (section 5.4). Ce corpus a été élaboré au cours de l été 2002 dans le cadre d un projet international. Il sert aujourd hui de référence pour l évaluation des systèmes de RIS. Apport personnel Notre apport personnel et l originalité de notre travail portent sur le modèle de RB proposé pour les CO et les CAS ; l algèbre qui permet de représenter les demandes d information structurées ; l apprentissage dans ces modèles. Les RB employés en RI ne font pas d apprentissage, leurs paramètres sont fixés à la main. Du point de vue apprentissage, les contraintes de l application traitée et la modélisation que nous proposons posent de nouveaux problèmes pour l apprentissage dans les réseaux ; la définition d un modèle de RI dit modèle différentiel pour calculer les scores locaux. Ce modèle nous parait bien adapté à la tâche ; la définition d une mesure de performance adaptée à la RIS.

25 Première partie Structure, texte et apprentissage 1

26

27 Chapitre 1 Recherche d Information Résumé. Dans ce chapitre, nous faisons un état de l art en Recherche d Information (RI). Nous décrivons les différentes représentations des données textuelles et les principaux modèles existants. Nous présentons des algorithmes d apprentissage utilisés en RI. Nous donnons un aperçu des techniques utilisées pour l évaluation des systèmes de RI. Mots-clef. recherche d information, représentation de données textuelles, modèles de recherche d information, évaluation des systèmes de recherche d information. 1.1 Introduction Avec l apparition des premiers ordinateurs naquit l idée d utiliser des machines pour automatiser la Recherche d Information dans les bibliothèques. Les premiers systèmes sont utilisés par des libraires et permettent d effectuer des recherches booléennes, c est à dire des recherches où la présence ou l absence d un terme dans un document conduit à la sélection du document. Ces recherches nécessitent plusieurs intermédiaires et surtout de gros moyens : il faut en effet créer une nomenclature permettant de décrire l ensemble des documents et sélectionner pour chaque document un ensemble de mots-clé. Cette description par mots-clé (indexation) suppose du libraire une connaissance suffisante pour traduire une question, qui peut être plus ou moins précise, en un ensemble de descripteurs. De plus, le jeu de descripteurs n est souvent ni suffisant, ni assez précis pour décrire n importe quel document. Il se peut aussi, que pour des problèmes de synonymie, certains documents répondant à la question d un utilisateur puissent ne pas être retrouvés. La description manuelle est donc un processus lent et qui ne garantit pas de bons résultats. Or, il est tout à fait possible d extraire directement du texte un ensemble de descripteurs. Les premières expériences montrent même que cette approche est tout à fait viable et 3

28 4 CHAPITRE 1. RECHERCHE D INFORMATION compétitive par rapport à l indexation manuelle. L utilisation grandissante importante des logiciels de traitements de texte, et par là même la mise à disposition de quantités de plus en plus importantes de textes directement interprétables par l ordinateur va alors entraîner le développement rapide des modèles de RI. Ces deux aspects, l indexation et la recherche sont au cœur des problèmes abordées par la RI. L indexation et la recherche ont très rapidement évolué d une modélisation booléenne de la recherche (un terme représente ou ne représente pas le document dans le cas de l indexation, un document répond ou ne répond pas à la question) à des modèles vectoriels ou probabilistes. La pertinence d un document pour une question dans des modèles qui sont basés sur une représentation imprécise des documents et des questions s exprime dans les modèles de RI sous la forme d un score. Ce score ne permet plus une validation automatique des systèmes de RI. En effet, pour la question le document doit contenir le mot chèvre et élevage, un document contenant le mot chèvre et élevage est une bonne réponse, contrairement à un document qui ne les contiennent pas. Lorsque la question devient le document doit avoir pour thème l élevage des chèvres, un document qui parle de soin des chèvres sans utiliser le mot élevage sera une bonne réponse, mais aura un score moins important qu un document qui parle directement de l élevage des chèvres. Il est donc impossible de prouver qu un système de RI est performant puisque le score rend vague la notion de bonne réponse : un document répond plus ou moins bien à une question. La notion de pertinence d un document pour une question émerge donc en même temps que les premiers systèmes de RI, avec les premières mesures permettant de comparer les différents résultats renvoyés par les systèmes de RI. Les premières mesures, encore largement employées aujourd hui, sont la précision et le rappel. Un système de RI sera très précis si presque tous les documents renvoyés sont pertinents. Un système de RI aura beaucoup de rappel s il renvoie la plupart des documents pertinents du corpus pour une question. En général, plus un système de RI est précis, moins il a de rappel et inversement. Très vite, des problématiques connexes se sont aussi greffées autour de la RI. Parmi les plus courantes et les plus utiles, l interaction avec l utilisateur permet d obtenir progressivement des documents de plus en plus pertinents. Certains se sont ensuite essayés à simuler cette interaction, ou au moins une partie, en proposant des techniques permettant d enrichir la question en ajoutant par exemple des termes qui n étaient pas dans la question originale. De la recherche documentaire proprement dite, le domaine évolue vers des tâches proches, comme la classification qui permet de regrouper entre eux des documents ayant des thématiques proches, le classement qui a pour but de classer les documents dans un ensemble de catégories prédéfinies. Puis, à mesure que la notion de document et d unité d information devient plus floue, les tâches d extraction d information et de résumé automatique apparaissent. Actuellement, le domaine regroupe plusieurs thématiques de recherche et évolue avec l apparition de nouveaux types de corpus, de documents et de besoins d utilisateurs. Les conférences Trec 1 et Sigir 2 donnent un aperçu de la diversité des recherches menées aujourd hui dans le domaine général de la RI. 1 http ://trec.nist.gov/ 2 http ://

29 1.2. REPRÉSENTATION 5 Plan du chapitre Nous présenterons dans la section 1.2 les techniques permettant de passer d un document textuel à une représentation exploitable par un modèle de RI. Cette transformation est scindée en deux étapes distinctes : 1. il faut extraire d un texte un ensemble de descripteurs (section 1.2.1) ; 2. à l aide de ce jeu de descripteurs, il est possible de représenter le document par un vecteur dans l espace des termes (section 1.2.2). Il est également possible d utiliser des connaissances a priori sur la façon dont les termes sont répartis dans les documents suivant leur importance (section 1.2.3). Puis nous présentons différents modèles de RI (section 1.3). Nous distinguons plusieurs approches : L approche ensembliste (section 1.3.1) qui considère que l ensemble des documents s obtient par une série d opérations (intersection, union et le passage au complémentaire). L approche algébrique (ou vectorielle) (section 1.3.2) qui considère que les documents et les questions font partie d un même espace vectoriel. L approche probabiliste (section 1.3.3) qui essaie de modéliser la notion de pertinence. Nous présenterons les réponses proposées pour permettre au système de RI d être interactif ou d apprendre Enfin, nous donnerons les principales mesures employées pour comparer les systèmes de RI entre eux dans la section 1.4. Nous verrons comment deux concepts simples comme le rappel (proportion de documents pertinents renvoyés par le système parmi tous ceux qui sont pertinents) et la précision (proportion des documents pertinents parmi l ensemble de ceux renvoyés par le système) ont été étendus pour permettre une analyse fine des performances de système de RI. 1.2 Représentation Pour pouvoir effectuer des traitements automatiques, il est indispensable d obtenir une représentation de l information. La représentation d un extrait de document passe par une série de traitements qui sont spécifiques au média considéré. Nous ne considérerons que la représentation d un texte dans cette section. À la fin des années 50, Luhn a suggéré que les systèmes de RI se basent sur une représentation des documents (et des questions) obtenue de façon automatique à partir du contenu de ces documents [140]. Nous distinguons deux étapes dans le processus qui permet de passer de la représentation originale du document à une représentation qui permet aux systèmes de RI de travailler. La première (section 1.2.1), basée sur des outils de traitement automatique du langage naturel (TALN), permet d extraire d un texte un ensemble de caractéristiques. Dans le cas le plus simple, il s agit de mots simplement extraits tels quels du texte et dans le cas le plus complexe, de concepts. Nous appellerons vocabulaire (noté T ) l ensemble des caractéristiques (ou termes) qui peuvent êtres extraites de documents.

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin 2005 1 Table des matières 1 Présentation

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Quatrième colloque hypermédias et apprentissages 275 BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Anne-Olivia LE CORNEC, Jean-Marc FARINONE,

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

Introduction aux SGBDR

Introduction aux SGBDR 1 Introduction aux SGBDR Pour optimiser une base Oracle, il est important d avoir une idée de la manière dont elle fonctionne. La connaissance des éléments sous-jacents à son fonctionnement permet de mieux

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte 1Les bases : vos objectifs 2 Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

Catalogue des formations Edition 2015

Catalogue des formations Edition 2015 Antidot - Formations Catalogue des formations Edition 2015 : catalogue_formation_2015 Révision du 06.01.2015 Sommaire!!"##$%&'( )! $*$+,(-'(."##'+.'&( /!,'.0+"1"2%'( /!!."3'( /! $(3&"3"!(-4(5(.$,$1"24'(-'!(6"&#$,%"+!(7('-%,%"+()89:(;(

Plus en détail

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2

Manuel d utilisation 26 juin 2011. 1 Tâche à effectuer : écrire un algorithme 2 éducalgo Manuel d utilisation 26 juin 2011 Table des matières 1 Tâche à effectuer : écrire un algorithme 2 2 Comment écrire un algorithme? 3 2.1 Avec quoi écrit-on? Avec les boutons d écriture........

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

Sécuristation du Cloud

Sécuristation du Cloud Schémas de recherche sur données chiffrées avancés Laboratoire de Cryptologie Thales Communications & Security 9 Avril 215 9/4/215 1 / 75 Contexte Introduction Contexte Objectif Applications Aujourd hui

Plus en détail

Systèmes d information et bases de données (niveau 1)

Systèmes d information et bases de données (niveau 1) Systèmes d information et bases de données (niveau 1) Cours N 1 Violaine Prince Plan du cours 1. Bibliographie 2. Introduction aux bases de données 3. Les modèles 1. Hiérarchique 2. Réseau 3. Relationnel

Plus en détail

Master CCI. Compétences Complémentaires en Informatique. Livret de l étudiant

Master CCI. Compétences Complémentaires en Informatique. Livret de l étudiant Master CCI Compétences Complémentaires en Informatique Livret de l étudiant 2014 2015 Master CCI Le Master CCI (Compétences Complémentaires en Informatique) permet à des étudiants de niveau M1 ou M2 dans

Plus en détail

Formula Negator, Outil de négation de formule.

Formula Negator, Outil de négation de formule. Formula Negator, Outil de négation de formule. Aymerick Savary 1,2, Mathieu Lassale 1,2, Jean-Louis Lanet 1 et Marc Frappier 2 1 Université de Limoges 2 Université de Sherbrooke Résumé. Cet article présente

Plus en détail

Université Paris XI Faculté des sciences d Orsay THÈSE. présentée pour l obtention du grade de Docteur en Sciences de l Université Paris-Sud XI Orsay

Université Paris XI Faculté des sciences d Orsay THÈSE. présentée pour l obtention du grade de Docteur en Sciences de l Université Paris-Sud XI Orsay N d ordre : 8563 Université Paris XI Faculté des sciences d Orsay THÈSE présentée pour l obtention du grade de Docteur en Sciences de l Université Paris-Sud XI Orsay Par Cédric JACQUIOT Spécialité : INFORMATIQUE

Plus en détail

RI sociale : intégration de propriétés sociales dans un modèle de recherche

RI sociale : intégration de propriétés sociales dans un modèle de recherche RI sociale : intégration de propriétés sociales dans un modèle de recherche Ismail Badache 1 Institut de Recherche en Informatique de Toulouse, UMR 5505 CNRS, SIG 118 Route de Narbonne F-31062 Toulouse

Plus en détail

Introduction à la B.I. Avec SQL Server 2008

Introduction à la B.I. Avec SQL Server 2008 Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide

Plus en détail

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test Grandes lignes Analyseur Statique de logiciels Temps RÉel Embarqués École Polytechnique École Normale Supérieure Mercredi 18 juillet 2005 1 Présentation d 2 Cadre théorique de l interprétation abstraite

Plus en détail

Prototype de canal caché dans le DNS

Prototype de canal caché dans le DNS Manuscrit auteur, publié dans "Colloque Francophone sur l Ingénierie des Protocoles (CFIP), Les Arcs : France (2008)" Prototype de canal caché dans le DNS Lucas Nussbaum et Olivier Richard Laboratoire

Plus en détail

Introduction à MATLAB R

Introduction à MATLAB R Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d

Plus en détail

ISTEX, vers des services innovants d accès à la connaissance

ISTEX, vers des services innovants d accès à la connaissance ISTEX, vers des services innovants d accès à la connaissance Synthèse rédigée par Raymond Bérard, directeur de l ABES, à partir du dossier de candidature d ISTEX aux Initiatives d excellence et des réunions

Plus en détail

Utilisation de l ingénierie des modèles pour la conception collaborative de produits mécaniques

Utilisation de l ingénierie des modèles pour la conception collaborative de produits mécaniques Utilisation de l ingénierie des modèles pour la conception collaborative de produits mécaniques Mathias Kleiner Laboratoire des Sciences de l Information et des Systèmes (LSIS) - UMR CNRS 7296 Projet Ingenierie

Plus en détail

Bien programmer. en Java 7. 10 000 ex. couleur. Avec plus de 50 études de cas et des comparaisons avec C++ et C# Emmanuel Puybaret.

Bien programmer. en Java 7. 10 000 ex. couleur. Avec plus de 50 études de cas et des comparaisons avec C++ et C# Emmanuel Puybaret. Bien programmer en Java 7 Avec plus de 50 études de cas et des comparaisons avec C++ et C# Plus de 10 000 ex. vendus! Édition en couleur Emmanuel Puybaret, ISBN : 978-2-212-12974-8 chapitre1 Présentation

Plus en détail

Modélisation aléatoire en fiabilité des logiciels

Modélisation aléatoire en fiabilité des logiciels collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.

Plus en détail

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/

Information utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/ Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Développement d un interpréteur OCL pour une machine virtuelle UML.

Développement d un interpréteur OCL pour une machine virtuelle UML. ObjeXion Software Prototyping made easy SA au capital de 500 000 F Siret 421 565 565 00015 APE 722Z Téléphone : 03 89 35 70 75 Télécopie : 03 89 35 70 76 L embarcadère 5, rue Gutemberg 68 800 Vieux-Thann,

Plus en détail

Recherche bibliographique

Recherche bibliographique Séminaire «Maîtrise de l information scientifique» Recherche bibliographique Dernière mise à jour : 07/01/2015 - Auteur : Frédérique Flamerie Recherche bibliographique : méthode & outils La recherche bibliographique

Plus en détail

TEXT MINING. 10.6.2003 1 von 7

TEXT MINING. 10.6.2003 1 von 7 TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre

Plus en détail

Cours Bases de données

Cours Bases de données Informations sur le cours Cours Bases de données 9 (10) séances de 3h Polycopié (Cours + TD/TP) 3 année (MISI) Antoine Cornuéjols www.lri.fr/~antoine antoine.cornuejols@agroparistech.fr Transparents Disponibles

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

PROSOP : un système de gestion de bases de données prosopographiques

PROSOP : un système de gestion de bases de données prosopographiques PROSOP : un système de gestion de bases de données prosopographiques Introduction : Ce document présente l outil en développement PROSOP qui permet la gestion d'une base de donnée prosopographique de la

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger.

Mises en relief. Information supplémentaire relative au sujet traité. Souligne un point important à ne pas négliger. Cet ouvrage est fondé sur les notes d un cours dispensé pendant quelques années à l Institut universitaire de technologie de Grenoble 2, au sein du Département statistique et informatique décisionnelle

Plus en détail

Système de gestion de contenu

Système de gestion de contenu 1 Système de gestion de contenu Un système de gestion de contenu ou SGC ((en) Content Management System ou CMS) est une famille de logiciels destinés à la conception et à la mise à jour dynamique de sites

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e :

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e : CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE Projet 2 Gestion des services enseignants G r o u p e : B E L G H I T Y a s m i n e S A N C H E Z - D U B R O N T Y u r i f e r M O N T A Z E R S i

Plus en détail

Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P

Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P EUROCOPTER SAS Groupe EADS Marignane Ecole des Mines d Alès Laboratoire de Génie Informatique et d Ingénierie de Production LGI2P Nîmes Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P Titre Domaine

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Calculer avec Sage. Revision : 417 du 1 er juillet 2010 Calculer avec Sage Alexandre Casamayou Guillaume Connan Thierry Dumont Laurent Fousse François Maltey Matthias Meulien Marc Mezzarobba Clément Pernet Nicolas Thiéry Paul Zimmermann Revision : 417 du 1

Plus en détail

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN Marie Cottrell, Smaïl Ibbou, Patrick Letrémy SAMOS-MATISSE UMR 8595 90, rue de Tolbiac 75634 Paris Cedex 13 Résumé : Nous montrons

Plus en détail

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude INF 1250 INTRODUCTION AUX BASES DE DONNÉES Guide d étude Sous la direction de Olga Mariño Télé-université Montréal (Québec) 2011 INF 1250 Introduction aux bases de données 2 INTRODUCTION Le Guide d étude

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

XML et recherche d information

XML et recherche d information Chapitre 4 XML et recherche d information 4.1. Introduction La nature des collections de documents électroniques évolue. Elles intègrent de plus en plus des meta-informations et notamment des informations

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences

Plus en détail

GED: Gestion Electronique de Document (Support de cours) R. MAHMOUDI (mahmoudr@esiee.fr) www.research-ace.net/~mahmoudi 1 Gestion Electronique de Documents Plan du cours - Introduction générale - Spécificités

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

XML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

XML, PMML, SOAP. Rapport. EPITA SCIA Promo 2004 16 janvier 2003. Julien Lemoine Alexandre Thibault Nicolas Wiest-Million XML, PMML, SOAP Rapport EPITA SCIA Promo 2004 16 janvier 2003 Julien Lemoine Alexandre Thibault Nicolas Wiest-Million i TABLE DES MATIÈRES Table des matières 1 XML 1 1.1 Présentation de XML.................................

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Une méthode d apprentissage pour la composition de services web

Une méthode d apprentissage pour la composition de services web Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,

Plus en détail

Le langage SQL Rappels

Le langage SQL Rappels Le langage SQL Rappels Description du thème : Présentation des principales notions nécessaires pour réaliser des requêtes SQL Mots-clés : Niveau : Bases de données relationnelles, Open Office, champs,

Plus en détail

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui

Plus en détail

Distinguer les requêtes pour améliorer la recherche d information XML

Distinguer les requêtes pour améliorer la recherche d information XML Lyon - France Distinguer les requêtes pour améliorer la recherche d information XML Kurt Englmeier ***, Gilles Hubert *, Josiane Mothe *,** *Institut de Recherche en Informatique de Toulouse Equipe SIG/EVI

Plus en détail

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht.

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht. Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS IDS2014, Nailloux 26-28/05/2014 pascal.dayre@enseeiht.fr 1 MVC et le web 27/05/14 2 L'évolution des systèmes informatiques

Plus en détail

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions Exemple accessible via une interface Web Une base de données consultable en ligne : Bases de données et systèmes de gestion de bases de données The Trans-atlantic slave trade database: http://www.slavevoyages.org/tast/index.faces

Plus en détail

Rappels sur les suites - Algorithme

Rappels sur les suites - Algorithme DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................

Plus en détail

Évaluation et implémentation des langages

Évaluation et implémentation des langages Évaluation et implémentation des langages Les langages de programmation et le processus de programmation Critères de conception et d évaluation des langages de programmation Les fondations de l implémentation

Plus en détail

COCoFil2 : Un nouveau système de filtrage collaboratif basé sur le modèle des espaces de communautés

COCoFil2 : Un nouveau système de filtrage collaboratif basé sur le modèle des espaces de communautés UNIVERSITÉ JOSEPH FOURIER GRENOBLE I N 0 attribué par la bibliothèque / / / / / / / / / / / THÈSE pour obtenir le grade de DOCTEUR DE L UNIVERSITÉ JOSEPH FOURIER GRENOBLE I Discipline : Informatique présentée

Plus en détail

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION THÈSE N O 2388 (2001) PRÉSENTÉE AU DÉPARTEMENT D'INFORMATIQUE ÉCOLE POLYTECHNIQUE FÉDÉRALE

Plus en détail

Entreposage de données complexes pour la médecine d anticipation personnalisée

Entreposage de données complexes pour la médecine d anticipation personnalisée Manuscrit auteur, publié dans "9th International Conference on System Science in Health Care (ICSSHC 08), Lyon : France (2008)" Entreposage de données complexes pour la médecine d anticipation personnalisée

Plus en détail

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition)

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition) Présentation du langage XML 1. De SGML à XML 17 2. Les bases de XML 18 2.1 Rappel sur HTML 18 2.2 Votre premier document XML 19 2.3 Les avantages de XML 21 3. La syntaxe XML 21 3.1 La première ligne du

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voies : Mathématiques, physique et sciences de l'ingénieur (MPSI) Physique, chimie et sciences de l ingénieur (PCSI) Physique,

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Introduction du cours Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

Les capitalistes sociaux sur Twitter : détection via des mesures de similarité

Les capitalistes sociaux sur Twitter : détection via des mesures de similarité Les capitalistes sociaux sur Twitter : détection via des mesures de similarité Nicolas Dugué, Anthony Perez LIFO - Université d Orléans rue Léonard de Vinci B.P. 6759 F-45067 ORLEANS Cedex 2 FRANCE RÉSUMÉ.

Plus en détail

Intelligence Economique - Business Intelligence

Intelligence Economique - Business Intelligence Intelligence Economique - Business Intelligence Notion de Business Intelligence Dès qu'il y a une entreprise, il y a implicitement intelligence économique (tout comme il y a du marketing) : quelle produit

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz

Plus en détail

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.

Plus en détail

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Cours Base de données relationnelles. M. Boughanem, IUP STRI Cours Base de données relationnelles 1 Plan 1. Notions de base 2. Modèle relationnel 3. SQL 2 Notions de base (1) Définition intuitive : une base de données est un ensemble d informations, (fichiers),

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement Cursus Outils & Développement Vous êtes Consultant, Chef de Projets, Directeur des Systèmes d Information, Directeur Administratif et Financier, Optez pour les «formations Produits» Nous vous proposons

Plus en détail

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par. École Doctorale d Informatique, Télécommunications et Électronique de Paris THÈSE présentée à TÉLÉCOM PARISTECH pour obtenir le grade de DOCTEUR de TÉLÉCOM PARISTECH Mention Informatique et Réseaux par

Plus en détail

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

Chapitre VIII. Les bases de données. Orientées Objet. Motivation Chapitre VIII Motivation Le modèle relationnel connaît un très grand succès et s avère très adéquat pour les applications traditionnelles des bases de données (gestion) Les bases de données Orientées Objet

Plus en détail

Application de la méthode QFD comme outil d'extraction des connaissances métier en conception intégrée

Application de la méthode QFD comme outil d'extraction des connaissances métier en conception intégrée Application de la méthode QFD comme outil d'extraction des connaissances métier en conception intégrée Estelle FREY, Samuel GOMES, Jean-Claude SAGOT Laboratoire Systèmes et Transports Equipe ERgonomie

Plus en détail

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration

Plus en détail

Les modes de recherche sur le Web 2.0

Les modes de recherche sur le Web 2.0 Les modes de recherche sur le Web 2.0 1 Sommaire 1. Contexte 2. Le collaboratif : les moteurs thématiques 3. La syndication des résultats de recherche 4. Les connaissances : des moteurs 2 1 1. Moteurs

Plus en détail

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Détection et reconnaissance des sons pour la surveillance médicale Dan Istrate le 16 décembre 2003 Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Thèse mené dans le cadre d une collaboration

Plus en détail

BES WEBDEVELOPER ACTIVITÉ RÔLE

BES WEBDEVELOPER ACTIVITÉ RÔLE BES WEBDEVELOPER ACTIVITÉ Le web developer participe aux activités concernant la conception, la réalisation, la mise à jour, la maintenance et l évolution d applications internet/intranet statiques et

Plus en détail

LES RÉSEAUX SOCIAUX ET L ENTREPRISE

LES RÉSEAUX SOCIAUX ET L ENTREPRISE LES RÉSEAUX SOCIAUX ET L ENTREPRISE PAR MADAME CHRISTINE LEROY COMMUNITY MANAGER, AGENCE NETPUB Tout d abord, je voudrais remercier le Professeur Drouot de m avoir invitée à cette passionnante table ronde.

Plus en détail

1 Description générale de VISFIELD

1 Description générale de VISFIELD Guide d utilisation du logiciel VISFIELD Yann FRAIGNEAU LIMSI-CNRS, Bâtiment 508, BP 133 F-91403 Orsay cedex, France 11 décembre 2012 1 Description générale de VISFIELD VISFIELD est un programme écrit

Plus en détail

IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur

IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur Remarque : Avant d utiliser ces informations et le produit qu elles concernent, lisez les informations générales sous Avis sur p. 24.

Plus en détail

Rapport de stage d initiation

Rapport de stage d initiation Ministère de l enseignement supérieur et de la recherche scientifique Direction Générale des Études Technologiques Institut Supérieur des Etudes Technologiques de SILIANA Département Technologies de l

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

Comparaison de trois techniques de modélisation de processus: ADONIS, OSSAD et UML

Comparaison de trois techniques de modélisation de processus: ADONIS, OSSAD et UML Olivier Glassey Jean-Loup Chappelet Comparaison de trois techniques de modélisation de processus: ADONIS, OSSAD et UML Working paper de l'idheap 14/2002 UER: Management public / Systèmes d'information

Plus en détail