livre blanc les technologies sémantiques Quel avenir pour l'entreprise? État des lieux et apports fonctionnels 1 re édition Octobre 2013



Documents pareils
Catalogue des formations Edition 2015

Chapitre 9 : Informatique décisionnelle

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Présentation générale du projet data.bnf.fr

Communiqué de Lancement

LIVRE BLANC Décembre 2014

Contexte : «l e-business» TECHNIQUES DE MARKETING EN LIGNE. Contexte : «l e-business» Création de valeur 02/02/12

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

ÉCONOMIE ET GESTION LYCÉES TECHNOLOGIQUE ET PROFESSIONNEL

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

TEXT MINING von 7

Le bénéfice maximal de votre documentation

BUSINESS INTELLIGENCE

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

MASTER LPL : LANGUE ET INFORMATIQUE (P)

CONCEPTION Support de cours n 3 DE BASES DE DONNEES

scfi, créateur de Solutions Innovantes... 2 Contrat de Partenariat... 3 Concept... 3 Services... 4 Domaines... 4 Atouts... 5

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Business Intelligence avec SQL Server 2012

Catalogue de formations

SECTION 5 BANQUE DE PROJETS

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

INTERNET, C'EST QUOI?

Livre Blanc WebSphere Transcoding Publisher

Gestion collaborative de documents

LES TECHNOLOGIES DU WEB APPLIQUÉES AUX DONNÉES STRUCTURÉES

ManageEngine IT360 : Gestion de l'informatique de l'entreprise

PROSOP : un système de gestion de bases de données prosopographiques

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Siemens Grâce aux documents intelligents, un leader mondial de la haute technologie augmente l efficacité et la précision de ses employés.

Portail collaboratif Intranet documentaire Dématérialisation de processus

Le temps est venu d implanter un CRM et un système de gestion de la connaissance

Les nouveaux tableaux de bord des managers

Introduction Big Data

La solution pour gérer vos connaissances techniques et scientifiques

Qu'est-ce que le BPM?

Types de REA produites dans le cadre de la séquence pédagogique

Théories de la Business Intelligence

X2BIRT : Mettez de l interactivité dans vos archives

La gestion électronique de documents

Chapitre 1 : Introduction aux bases de données

Freeway 7. Nouvelles fonctionnalités

Modèle Cobit

25 % EXPERTS PAR AN. + de de 35. près de 50 DE CROISSANCE DE L OPEN SOURCE ANNÉES D EXPERIENCE AU SERVICE DE L OPEN SOURCE

Anticiper pour avoir une innovation d'avance : le leitmotiv de Pierre Jouniaux, entrepreneur du big data!

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB Olivier Augereau Formation UML

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Référencement naturel

Marc SALLIERES CEO ALTIC

ISTEX, vers des services innovants d accès à la connaissance

DÉVELOPPEMENT INFONUAGIQUE - meilleures pratiques

Déjeuner EIM Enterprise Information Management. Mardi 16 novembre 2010 Restaurant l Amourette Montreuil Thomas Dechilly CTO Sollan

Langage HTML (2 partie) <HyperText Markup Language> <tv>lt La Salle Avignon BTS IRIS</tv>

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

La mise en œuvre d'une gestion électronique des documents

Compte-rendu re union Campus AAR 3 mars 2015

Entrepôt de données 1. Introduction

Domaine 1 : S approprier un environnement informatique de travail. Domaine 3 : Créer, produire, traiter et exploiter des données.

Formation à la recherche documentaire sur le web

La Business Intelligence & le monde des assurances

Les Architectures Orientées Services (SOA)

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

TEXT MINING Tour d Horizon

THOT - Extraction de données et de schémas d un SGBD

Petite définition : Présentation :

QlikView sur Mobile : Au-delà du reporting

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

1. Considérations sur le développement rapide d'application et les méthodes agiles

Gagner en performance avec un extranet. et mener son projet extranet?

Formations 2015 JASPER, REDMINE, TABLEAU, TALEND, SPAGO BI ALTIC & SYNOTIS - TRAINING CENTER 24 RUE DE L EGLISE VINCENNES

Transformation de l'expérience clients par l'amélioration de l'engagement et les communications mobiles

Camping, une suite pour développer & fidéliser votre clientèle sur tous les canaux Internet

Xi Ingénierie. La performance technologique au service de votre e-commerce. Comment exploiter les cookies sur vos applications web en toute légalité?

Le stockage local de données en HTML5

Les dessous des moteurs de recommandation

Le Web, les réseaux sociaux et votre entreprise. Applaudissons les Visionnaires 2009 de Québec. La génération C et le marché du travail

ORACLE TUNING PACK 11G

SOUTIEN INFORMATIQUE DEP 5229

Le Contacteur Hyperphone. Solution communicante plurimédia, téléphonie, SMS, fax, , courrier. Contacter mieux, plus vite, moins cher

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Introduction aux concepts d ez Publish

GLOBAL SUPPLY CHAIN MANAGEMENT & STRATEGIE LOGISTIQUE

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e :

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype

Google Apps for Business

1 Introduction. Business Intelligence avec SharePoint Server 2010

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information.

Date de diffusion : Rédigé par : Version : Mars 2008 APEM 1.4. Sig-Artisanat : Guide de l'utilisateur 2 / 24

Workflow et Service Oriented Architecture (SOA)

De l OpenData aux citoyens : potentiel et limites des plateformes collaboratives

DOCUMENTS DE DECOUVERTE CHAPITRE 1 L ORGANISATION DE LA COMPTABILITE DANS L ENTREPRISE

Stratégies gagnantes pour les prestataires de services : le cloud computing vu par les dirigeants Dossier à l attention des dirigeants

Systèmes intelligents pour le commerce de détail. Plateforme Windows Embedded

Transcription:

livre blanc les technologies sémantiques Quel avenir pour l'entreprise? État des lieux et apports fonctionnels 1 re édition Octobre 2013

2

Édito «Trop d information tue l information». Chacun d entre nous pourrait illustrer cet adage quotidiennement avec d innombrables exemples. Grâce aux technologies sémantiques, il tend à tomber en désuétude et nous pourrons, bientôt, définitivement le qualifier d obsolète. Les technologies sémantiques, dopées initialement par l explosion du Web, sont devenues indispensables au bon développement des autres technologies de l information. La fonction première d un portail collaboratif est de faciliter l accès à l information avec des moyens de recherche performants. L analyse décisionnelle ne se cantonne plus à des modélisations et des synthèses sur des données purement numériques. La richesse des réseaux sociaux est basée sur la capacité à corréler des informations de toute nature. Une application mobile se doit d isoler la bonne information sur le Web au bon moment et de la présenter de façon optimale Les exemples ne manquent pas! L information, structurée et surtout non structurée, qui a foisonné de manière quasi-géométrique en volume, en nature, en variété, au sein du SI, est d autant plus porteuse pour l entreprise de valeur et de performance qu elle interagit, désormais, avec la gigantesque masse de données externes, majoritairement issues du Web. On retrouve bien sûr en corollaire les problématiques de Big Data, d Open Data, de référencement, de recherche et d analyse, le besoin d interagir avec l information au plus près de sa source en utilisant des terminaux de toute sorte, smartphones, tablettes, qui ont également généralisé les interfaces disruptives, tactiles, voix, gestes. Au travers ce livre blanc, nous avons souhaité vous présenter un état des lieux du domaine des technologies sémantiques, ainsi que leurs cas d application en entreprise. Nous l avons conçu comme un outil pragmatique permettant aux décideurs de mieux comprendre les bénéfices de ce type de solutions et de s'orienter vers celle(s) correspondant, le mieux, aux besoins de leur organisation. Philippe Debard Directeur Exécutif Application & Technology Services 3

sommaire Édito...3 vous avez dit "sémantique"? La sémantique, une branche de la linguistique...8 Linguistique et informatique, le couple gagnant...8 Le web dit sémantique ou web des données...9 TAL et Web sémantique, deux paradigmes disjoints?...10 les technologies sémantiques au service de l'entreprise Pourquoi les technologies sémantiques?...14 L'information dans l'entreprise...14 De la nécessité de gérer l'information non structurée au sein de l'entreprise...15 La gestion des connaissances...15 Les apports des technologies sémantiques...16 A la recherche d information...16 A la gestion des données...19 Au content analytics et à l opinion mining...26 Cas d application...26 4

panorama du marché sémantique d'entreprise Solutions actuelles...32 Cas clients...34 Text-mining et analyse de sentiments...34 Banque, distribution et vente par correspondance : suivi de l expérience client grâce au TAL...35 Traduction automatique...35 CNRS : plate-forme d UIA grâce aux technologies du Web sémantique...40 comment démarrer? conclusion glossaire bibliographie 5

6

vous avez dit "sémantique"? 7

Contrairement au rire, également commun à d'autres espèces, le langage articulé constituerait le propre de l'homme. En effet, si certaines espèces sont bel et bien capables de reproduire certains sons et donc par là même certains mots issus d'un langage humain, ni les grammaires complexes ni les concepts abstraits utilisés en permanence par les humains ne se retrouvent à l'état naturel chez ces espèces. Il apparaît donc logique que l'interprétation et la génération de textes aient constitué les premières aspirations des pionniers du Traitement Automatique des Langues. Ainsi, l'objectif initial était d'aboutir à une machine intelligente capable de comprendre et d'interpréter le langage naturel humain. Imaginez un monde dans lequel il serait possible de s'abstraire de tout langage de programmation et des difficultés associées pour communiquer avec la machine! Toutefois, pour interpréter un énoncé, l aspect syntaxique seul ne suffit pas : l aspect sémantique prend alors tout son sens! La sémantique, une branche de la linguistique Avant de nous intéresser à la sémantique proprement dite, il convient tout d'abord de définir la vaste science que représente la linguistique. Ferdinand de Saussure, linguiste suisse considéré comme le père de la linguistique moderne, définit cette dernière comme une «science qui a pour objet la langue envisagée en elle-même et pour elle-même». Ainsi, la linguistique constitue donc l'analyse scientifique de la langue et ce, indépendamment de tout contexte social, qui souvent, ne fait qu'apporter des jugements de valeur. Depuis sa création, la linguistique s'est donc confrontée à différentes questions telles que la structuration de la langue, la production et la perception de la langue par les locuteurs ou encore la transmission de sens entre deux individus grâce au langage... C'est dans ce contexte qu'est née la sémantique, soit l' «étude du langage considéré du point de vue du sens» ou, en d'autre termes, l'étude des signifiés. La sémantique traite donc du sens des mots. Linguistique et informatique, le couple gagnant Dès les années 1950, linguistique et informatique se rencontrent pour la première fois, grâce aux avancées de l'intelligence Artificielle, notamment, et finiront par donner naissance à ce que l'on appellera plus tard la Linguistique Informatique. Celle-ci se subdivise en trois principaux domaines de recherche et d'ingénierie qui sont : le traitement de la parole qui, comme son nom l'indique, s'intéresse à la parole dans son intégralité, depuis le traitement du signal acoustique à la retranscription textuelle, en passant par la phase de décodage (reconnaissance vocale). La synthèse vocale fait également partie de ce domaine d'étude. le Traitement Automatique des Langues (TAL), Traitement Automatique du Langage Naturel (TALN) ou encore Ingénierie Linguistique, dont l'objectif est essentiellement de traiter les textes 8

vous avez dit "sémantique"? écrits en les analysant, en les résumant ou encore en les traduisant. Les tâches principales sont les suivantes : l'annotation de corpus l'extraction d'entités le lexique la traduction automatique le résumé automatique la recherche d'information à partir d'un corpus de documents le dialogue homme/machine, qui a d'ailleurs motivé les tout premiers travaux de linguistique informatique, en particulier ceux d'alan Turing, qui prédisait cette tâche possible d'ici l'an 2000, 50 ans auparavant. Pourtant, l'échéance est passée et la prédiction n'est toujours pas réalisée, ni réalisable (Audibert, 2010) Le problème semble donc plus complexe que prévu. Toutefois, certains aspects du domaine de la linguistique informatique trouvent d'ores et déjà des applications dans le monde de l'entreprise et l'on constate l'émergence d'une multitude d'éditeurs spécialisés, notamment dans le TAL qui apparaît comme très prometteur. Le web dit sémantique ou web des données En marge de l'ingénierie linguistique qui existe depuis plus de 50 ans s'est développé ce que Tim Berners-Lee, le directeur du W3C, a baptisé le Web sémantique. Néanmoins, cette technologie qui a vu le jour en 2001 n'a de sémantique que son nom, si bien que son créateur en a rapidement pris conscience puisque peu de temps plus tard, il proposa le nom de «Web des données». Il s'agit d'un Framework permettant de structurer et de lier l'information présente sur internet à l'aide de métadonnées décrivant des relations ; le sens des données n'est donc pas réellement traité ni interprété. Le principal intérêt réside toutefois dans le fait que les données peuvent alors être «partagées et réutilisées entre plusieurs applications, entreprises et groupes d'utilisateurs». Afin d'illustrer certains des apports du Web sémantique, prenons l'exemple de Google et de son Knowledge Graph déployé en 2012 (Singhal, 2012). Les rich snippets permettent d'afficher certaines informations complémentaires au site comme la description d'un produit ou d'un article, pour peu que ces informations aient été renseignées en utilisant les formats correspondants. En outre, le Web sémantique permet également à Google de récupérer certaines informations pertinentes à la requête depuis des sites tels que Wikipédia et de les afficher directement dans la page des résultats, ou encore de 9

vous avez dit "sémantique"? contextualiser certaines recherches comprenant des mots polysémiques notamment. Ainsi, si l'on effectue la recherche «shetland» sur Google, un volet s'affiche sur la droite de l'écran et permet de ne sélectionner que les résultats en rapport avec les îles, avec le cheval ou avec le chien du même nom : TAL et Web sémantique, deux paradigmes disjoints? Si le TAL et le Web sémantique constituent a priori deux technologies indépendantes nées dans deux contextes différents, sont-ils par ailleurs incompatibles? Lorsque l'on s'y intéresse plus en détails, on se rend rapidement compte que ces deux technologies s'avèrent plutôt complémentaires que disjointes. En effet, alors que le TAL offre des structures de désambiguïsation ainsi que la possibilité d'automatiser l'annotation ou la traduction de documents, le Web sémantique, quant à lui, fournit des standards permettant l'interopérabilité et le partage des ressources. De cette façon, le TAL engendre des gains de temps et de productivité considérables en automatisant l'extraction d'entités, la classification de documents ainsi que leur annotation, qui peut alors se faire dans les standards du Web sémantique. Enfin, le Web sémantique impose que les connaissances d'un domaine particulier soient gérées et normalisées par des experts issus de ce domaine, afin de maintenir une certaine cohésion en fixant la terminologie métier au sein de l'entreprise. De plus, le Web sémantique met en œuvre une modélisation sous forme de réseau sémantique, une structure imaginée dès 1909 par Charles S. Peirce, puis appliquée à l'informatique en 1956 par Richard H. Richens (Cambridge Language Research Unit) et développée dans les années 1960 par les Anglais Allan Collins, chercheur en sciences cognitives, Ross Quillian, linguiste et Elizabeth Loftus, psychologue. La notion fut également formalisée en 1984 par John F. Sowa sous le nom de graphe conceptuel, dont le but est de représenter des connaissances et des raisonnements. Le modèle conceptuel 10

vous avez dit "sémantique"? du Web sémantique est donc issu du domaine linguistique et est théoriquement prouvé et éprouvé. Le schéma suivant résume ce que nous entendrons par «technologies sémantiques» dans ce livre blanc : Linguistique Mathématiques Informatique Sémantique Intelligence artificielle Architecture de l information TAL Web Sémantique Technologies sémantiques 11

12

les technologies sémantiques au service de l'entreprise 13

les technologies sémantiques au service de l'entreprise Pourquoi les technologies sémantiques? L'information dans l'entreprise Les entreprises l ont bien compris : les bonnes décisions passent par la bonne gestion de leurs informations et l on ne présente plus aujourd hui l utilité des systèmes d information. Mais les temps changent, et ces mêmes entreprises doivent désormais faire face à un volume toujours plus important d informations de natures et de formes différentes. L'information structurée Les informations structurées se trouvent, par exemple, dans les bases de données ou encore dans les langages informatiques. Ainsi, on les reconnaît au fait qu elles sont disposées de façon à être traitées automatiquement et efficacement par un logiciel, mais non nécessairement par un humain. D après Alain Garnier, l auteur du livre L'information non structurée dans l'entreprise, «une information est structurée lorsqu elle est répétable, systématique et calculable». Il peut s agir de formulaires, de factures, de fiches de paie, de libellés L'information non structurée Par opposition à la catégorie précédente, les informations non structurées représentent l ensemble des informations pour lesquelles il est impossible de retrouver une structure prédéfinie. Elles sont toujours destinées à des humains et il s agit donc essentiellement de documents textes et multimédias, comme des lettres, des livres, des rapports, des collections d images ou de vidéos, des brevets, des images satellites, des offres de services, des CV, des appels d offre Et la liste est encore longue. L'information semi-structurée Il est à noter que la frontière entre informations structurées et informations non structurées demeure assez floue et qu il n est pas toujours aisé de classer un document dans l une ou l autre des catégories. Dans ce cas précis, vous avez sans doute affaire à de l information semi-structurée. Par exemple, un e-mail est structuré de la manière suivante : Date : Mardi, 11 juin 2013 13:14:47-0400 From : Y Subject : Sujet To : X X-Virus-Status : Clean X, Voici les fichiers demandés. Cordialement, Y 14

les technologies sémantiques au service de l'entreprise En effet, une partie de cet e-mail s adressant à une machine, et l autre à un humain, on trouve une part plus ou moins égale d informations structurées et non structurées. D autres exemples sont possibles, comme les pages web (balises structurantes HTML + textes) De la nécessité de gérer l'information non structurée au sein de l'entreprise Ici et là, on entend souvent dire que l information non structurée représente environ 80% de l information disponible, contre 20% pour l information structurée (Jeanrond, 2013). Or, d après Alain Garnier, on aurait désormais atteint un nouveau seuil, et l information non structurée représenterait donc 99% de l information disponible dans une entreprise. De plus, les entreprises doivent faire face à un volume de données de plus en plus conséquent, puisque d après Daniel Mayer, Vice-Président de la société Temis, le volume de données d une entreprise double tous les deux ans (Mayer, 2013). Les données peuvent désormais provenir des réseaux sociaux, des vidéos et photos publiées sur internet, des signaux GPS des smartphones, des indications climatiques captées à travers le monde, des transactions bancaires Ce phénomène est connu sous le nom de Big Data. Si l on ajoute à ceci l Open Data, qui consiste à rendre publiques ses données, et le Linked Data, qui permet d interconnecter des données de sources différentes, alors les possibilités sont encore plus vastes. Dans un tel contexte, la gestion efficace de l information s impose afin de faciliter et d accélérer la prise de décision. Que ce soit dans le stockage et l indexation de ces informations ou encore leur recherche et leur restitution, plusieurs solutions théoriques existent et se combinent parfois. La gestion des connaissances Au-delà de la simple gestion de l'information, la gestion des connaissances ou knowledge management s'avère nécessaire pour une bonne prise de décision. Alors qu'une information ne constitue qu'une «donnée à laquelle un sens et une interprétation ont été donnés» (ITIL France) et ne permettra de prendre qu'une décision locale, les connaissances, quant à elles, découlent de raisonnements et d'analyses sur ces informations tenant compte de l'expérience, des idées et des valeurs des décideurs, ainsi que de leur expertise. De fait, les informations peuvent être confrontées au contexte de l'organisation ou bien à d'autres, afin d'obtenir une interprétation et une meilleure connaissance des phénomènes mis en exergue. C'est dans ce contexte que s'est démocratisée la gestion des connaissances dans le domaine informatique. En effet, une bonne prise de décision requiert une bonne connaissance de son organisation et/ou de son domaine d'expertise... Afin d'obtenir une solution logicielle conforme aux attentes des utilisateurs, pouvant provenir, et c'est souvent le cas, de différents services et métiers, il a fallu développer des méthodes de modélisation des connaissances. 15

les technologies sémantiques au service de l'entreprise Les apports des technologies sémantiques A la recherche d information L'enrichissement sémantique Dans le cadre de la recherche d'information notamment, il importe de pouvoir catégoriser les informations non structurées qui bien souvent sont matérialisées sous la forme de textes (fichiers WORD ou PDF essentiellement). Or, dans certains cas, les catégories ne sont pas encore connues au moment de l'analyse des documents et il devient alors nécessaire d'exploiter la puissance des solutions de text mining ou d'extracteur d'entités afin d'extraire les différents thèmes et concepts se rapportant au document en cours et d'en déduire le nom de la catégorie à laquelle ce dernier appartient. La multi-classification selon différents critères est également possible. Une fois ces thèmes et concepts déterminés, il faut alors lier ces informations audit document et c'est là tout l'intérêt de l'annotation sémantique qui bien souvent s'effectue sous la forme de métadonnées. Il s'agit de données attachées au document et le décrivant. L'utilisation conjointe ou non d'un «annoteur» ainsi que d'un outil de text mining se révèle terriblement efficace dans la classification ou le clustering d'un grand nombre de documents, ce qui permet à la personne qui devait auparavant s'adonner à cette tâche de gagner un temps précieux qu'elle pourra employer autrement. La prise en compte du jargon utilisateur Concernant les moteurs de recherche, l'une des applications des technologies sémantiques réside dans l'augmentation de la pertinence de recherche et ce, quels que soient les mots saisis par l'utilisateur. En effet, il existe de nombreux domaines pour lesquels le jargon utilisateur est différent du jargon des décideurs, voire pour lesquels il existe différents jargons métier. C est notamment le cas pour les domaines juridique et médical. Le moteur de recherche doit alors, idéalement, répondre de la même façon à deux requêtes synonymes. Prenons par exemple le site Musikia : Recherche sur le mot "gratte" 16

les technologies sémantiques au service de l'entreprise Recherche sur le mot "guitare" Musique TA Instruments Légende TA Terme Associé EP Employé Pour TS Terme Spécifique Cordophones EP TS Instruments à cordes TS TS On constate que la recherche effectuée avec le mot «gratte» conduit exactement aux mêmes résultats que la recherche effectuée avec le mot «guitare». Cela est possible en tenant compte d'un certain nombre de relations sémantiques telles que la synonymie, les relations de type généralisation/spécification 1 ou encore les relations de type tout/partie 2 que l on retrouve classiquement dans un thesaurus, dont en voici un exemple ci-dessous. Gratte EP Instruments à cordes pincées TS Guitare Instruments à cordes frottées TS Violon 1 En linguistique, ces relations sont appelées «hypéronymie» ou «hyponymie» selon leur direction. 2 Ces relations constituent l holonymie et la méronymie en linguistique. 17

les technologies sémantiques au service de l'entreprise C est donc grâce à cette structure de données et dans notre cas à l explicitation de la relation d équivalence 3 «gratte guitare» que le moteur de recherche trouve des résultats identiques aussi bien pour le mot clef «guitare» que pour le mot clef «gratte». La correction orthographique Les technologies sémantiques offrent de nouvelles possibilités en termes de correction orthographique en proposant des modes de recherche avancée. Outre la simple faute de frappe, il est en effet possible de détecter des erreurs plus techniques et d'effectuer des recherches purement phonétiques. L'auto-complétion intelligente Dès la saisie des premières lettres, beaucoup d'outils de recherche sémantiques proposent une liste de termes contenant la chaîne entrée. La navigation à facettes En catégorisant les ressources selon différents axes, la classification à facettes met ainsi en œuvre une multiclassification, qui permettra, par exemple, à des services différents mais travaillant sur les mêmes ressources de les rechercher selon leurs propres critères métier. C'est ce que l'on appelle une navigation à facettes ou recherche par facettes : l'utilisateur a le choix entre plusieurs critères ou catégories permettant de filtrer sa recherche, et il peut même les combiner afin de cibler sa recherche. Un exemple valant mieux qu un long discours, voici la navigation à facettes mise en œuvre sur le site d Audi : Exemple de recherche à facettes La désambiguïsation de termes La liste de termes proposée lors de la saisie est parfois triée selon différentes catégories, voire selon différents contextes du mot, permettant ainsi une désambiguïsation dudit terme en effectuant une recherche sur le terme préférentiel pour le domaine sous-entendu. Les termes sont alors issus d'un thésaurus. 18 3 Relation de synonymie dénotée EP (Employé pour) ou EM (Employer) dans un thésaurus.

les technologies sémantiques au service de l'entreprise Sur la représentation théorique suivante, on remarquera que chaque axe représente une métadonnée ainsi que l'ensemble de ses valeurs possibles. Motorisation Hybride Diesel Essence Berline Cabriolet Monospace V3 V5 Break V1 V4 Coupé V2 Catégorie Ainsi, en ne sélectionnant que quelques valeurs possibles pour chacune des deux métadonnées, on restreint l'espace de recherche pour ne conserver que l'espace le plus pertinent. Et l on imagine bien que plus le nombre d'axes sera important, plus il sera possible de réduire sensiblement cet espace et de procéder à une recherche efficace. A la gestion des données Modèle conceptuel Les technologies sémantiques, et plus particulièrement le Web sémantique, ont révolutionné la manière de penser les données. Alors que jusqu'à présent, il fallait systématiquement penser selon le modèle relationnel et donc, à chaque fois, redéfinir le schéma de données (la structure des tables) propre à la base des données, le modèle que constitue l'ontologie est beaucoup plus universel. En effet, chaque ressource (objet de la vie quotidienne, personne...) est vue comme un nœud relié à d'autres par ce que l'on appellera des relations. L'ensemble des ressources constitue un gigantesque graphe conceptuel qui sera sérialisé sous la forme de triplets RDF, c'est-à-dire des relations de type sujet - prédicat - objet. prédicat Paris est_situé_en France objet sujet 19

les technologies sémantiques au service de l'entreprise Par exemple, le triplet correspondant à l'image précédente est (Paris, est_situé_en, France). Cependant, pour que le modèle soit réellement universel et accessible sur le web, un identifiant unique appelé URI est nécessaire. Nous remarquerons qu'une ontologie est en fait constituée de deux couches : une couche conceptuelle, qui est la couche de plus haut niveau définissant les types d'objets (les classes) ainsi que les relations existantes entre ces derniers. Techniquement, cette couche peut être définie soit en RDFS pour les ontologies dites légères, soit en OWL pour des ontologies plus complètes. RDFS et OWL sont deux recommandations du W3C. une couche d'instanciation, qui constitue la couche correspondant à la réalité. Elle se définit dans la recommandation RDF du W3C. En effet, alors que l'image précédente correspond à la couche d'instanciation seule, l'image suivante inclut une couche conceptuelle possible de l ontologie : Couche conceptuelle Ville Lieu est_situé(e)_en Pays Il n'est pas possible de créer une ontologie de haut niveau qui engloberait toutes les autres. En effet, une ontologie sert essentiellement à définir et fixer l'ensemble des termes et concepts d'un domaine donné, et il existe parfois même plusieurs ontologies pour un unique domaine, correspondant à des visions métier différentes. Néanmoins, l'objectif du Web sémantique étant de pouvoir interconnecter les données du web, on peut pallier à ce problème, en alignant deux ontologies définissant des classes équivalentes. Par exemple, on pourra définir la classe "Car" d'une ontologie comme étant identique à la classe "Voiture" de l'ontologie. Cela crée donc un lien entre les deux ontologies et il est alors possible de passer de l'une à l'autre lors de la recherche ou de la navigation au sein des connaissances. Le modèle de données d'une ontologie est donc totalement externalisé, ce qui en permet une modification simplifiée sans programmation de la part de la personne qui effectue les modifications. On constate que ce processus nécessite moins de temps et requiert moins de compétences spécifiques, le tout pour une fiabilité accrue. Cela n'aurait pas été possible avec une base de données relationnelle ; son modèle étant figé, il aurait fallu recréer toute la base en réimportant les données. est un(e) est un(e) Paris est_situé(e)_en France Couche factuelle 20

les technologies sémantiques au service de l'entreprise D'après Monsieur LIONNE, Président de CYO, l'émergence de ce nouveau paradigme de modélisation des données connaît deux raisons principales : d'une part, la possibilité de structurer l'information non structurée d'autre part, la possibilité d'obtenir une vision transverse de plusieurs sources de données différentes. Gestion de référentiels linguistiques Afin de maintenir le modèle de données, il est nécessaire de lister les termes d un domaine particulier et de préciser les relations sémantiques qui peuvent exister entre eux. Il existe différents modèles plus ou moins riches selon la complexité du domaine à modéliser. Lorsque le référentiel n existe pas encore ou qu il a besoin d être précisé pour diverses raisons, des outils spécifiques permettent de réaliser cette tâche. La gestion d un référentiel linguistique permet une certaine souplesse en autorisant l utilisateur à effectuer sa recherche dans son propre langage, mais il permet également de définir les terminologies métier dans l entreprise. 21

Alexander POLONSKY Directeur Marketing chez MONDECA «Alexander est un professionnel expérimenté IT avec une expertise tant dans la R&D et marketing. Il a fondé et dirigé une société Cognium Systems, qui a développé un GED à base de XML pour Stockage Avec l'émergence du Web sémantique et sa modélisation des connaissances sous la forme d'un graphe, il a fallu concevoir de nouvelles façons de stocker les données. C'est ainsi que sont nés les triplestores, des bases de données spécialement conçues pour le stockage et la récupération de triplets RDF. Tout comme une base de données relationnelle, un triplestore stocke des données et les récupère via un langage de requête comme SPARQL, qui est celui recommandé par le W3C. Mais contrairement à une base de données relationnelle, un triplestore ne stocke qu'un seul type de données : le triplet, qui représente une relation de type sujetprédicat-objet. De plus, il est optimisé pour le stockage d'un grand nombre de triplets ainsi que pour leur récupération. On peut penser que les triplestores se révèlent de facto plus performants que les bases de données relationnelles, puisque la structure unique des triplets ne nécessite a priori plus qu'une seule table pour les stocker : des chercheurs ainsi qu'un système de distribution de contenu viral. Alexander a également consulté des entreprises dans les stratégies de marketing social. Alexander a obtenu un doctorat en neurosciences et un M.S. en mathématiques appliquées de l'université de Stanford, États-Unis. Alexander a rejoint Mondeca en 2010 pour contribuer à la stratégie marketing de l'entreprise et à la gestion de projets marketing.» Sujet Prédicat Objet :Paris :type :Ville :Berlin :type :Ville :France :type :Pays :Allemagne :type :Pays :Paris :est_situé(e)_en :France :Berlin :est_situé(e)_en :Allemagne Or il semblerait que ce ne soit pas toujours le cas. En effet, si l'on en croit Alexander POLONSKY, responsable marketing chez Mondeca, les bases de données relationnelles se révèlent plus performantes pour des données simples, les jointures étant relativement coûteuses, alors qu'au contraire, les triplestores 22

les technologies sémantiques au service de l'entreprise seraient plus efficaces pour des données complexes. De plus, l'indexation d'une base de données RDF prend davantage de temps car il faut y rajouter le coût de l'éventuelle inférence. C'est pour cela qu'elle se programme souvent en temps différé, de manière répétée. Par exemple, on peut décider d indexer les données tous les jours pendant 1 ou 2 heures. Nous noterons également que les triplestores ont des performances bien en deçà de celles des bases de données en termes de temps d accès. En effet, on comprendra aisément qu un graphe RDF stocké de la sorte nécessitera un certain temps avant d être reconstitué, même partiellement. Enfin, il existe d'autres façons de stocker les triplets RDF que les triplestores. Les triplets RDF peuvent être sérialisés sous d'autres formes telles que le XML, qui est d ailleurs l'un des formats recommandés par le W3C, ou encore le JSON. «Requêtage» Le «requêtage» d'un dépôt de données RDF s'effectue, selon les recommandations du W3C, à l'aide de SPARQL, un langage de requête et un protocole permettant, à l'instar de SQL, de rechercher, d ajouter, de modifier ou de supprimer des données RDF. Il existe cependant d'autres langages de requête. La requête ci-contre permet de récupérer l ensemble des villes ainsi que le pays dans lequel elles sont implantées : PREFIX rdf: <http://www.w3.org/1999/02/22-rdfsyntax-ns#> PREFIX Lieux: <http://example.org/lieux#> SELECT?Ville?Pays WHERE {?Pays rdf:type Lieux:Lieu.?Ville rdf :type Lieux :Ville.?Ville Lieux :est_situé(e)_en?pays } Inférence Hérité de l Intelligence Artificielle, le système expert est sans doute l un des points forts des technologies sémantiques, puisqu il va en fait raisonner sur le référentiel linguistique en utilisant son moteur d inférence ainsi que des bases de faits et de règles. Par exemple, si l on imagine un référentiel linguistique animalier dans lequel on a précisé qu un individu de la classe chien fait aussi partie de la classe animal, alors si l on déclare un nouvel individu comme étant un chien, et que l on demande l affichage de tous les animaux, cet individu fera partie des résultats. Il s agit d une inférence de type généralisation souvent mise en œuvre nativement. 23