Applications du web sémantique Journée rencontre Web Éducation 22 octobre 2009 Pourquoi le web sémantique aujourd hui? Accroître l accessibilité aux contenus Répondre à de nouvelles questions en utilisant une diversité de sources Qualité et authenticité des sources d information Contrôle des contenus par le producteur Échanger davantage nos données et nos savoirs 1
Pourquoi le web sémantique aujourd hui? Les outils sont là et de plus en plus intéressants Et à votre portée! Certains thèmes abordés Technologies et outils Vocabulaires Accès public Bénéfices : Accessibilité Transparence Réutilisation 2
Déroulement Yves Otis : Survol des technologies et enjeux Robin Millette : Web sémantique, la partie submergée du web Vincent Audette-Chapdelaine : Le Mur mitoyen, un site web microformaté Présentation d exemples d applications dans des contextes institutionnels Une règle Arrêtez-nous si ça devient incompréhensible! 3
Technologies et enjeux du web sémantique Yves Otis Vision originale du web 4
Une affaire de données clairement identifiées et liées entre elles http://www4.wiwiss.fu-berlin.de/bizer/pub/lod-datasets_2009-03-05.html Quelles données? Une simple information Lieu de naissance du président américain Un regroupement de données Une biographie, un tableau, une page web Une collection de données Liste des écoles Liste des programmes d un ministère Médicaments couverts par le régime d ass.-méd. 5
Quelles données? Quelles données? 6
Quelles données? Quels problèmes? Possibilités de recherche limitée Présentation sommaire des données Est-ce que les données sont actualisées et fiables? Difficile de comparer et d évaluer les sources 7
Apports du web sémantique Fournit les outils pour pour identifier et pour décrire les données (accessibles sur le web) pour construire les vocabulaires qui servent à décrire les données et leurs relations pour permettre l exploitation des données (agrégation, recherche, présentation) Page parfaitement valide, mais sémantiquement pauvre <p> Communautique est situé au : </p> <p> 65 De Castelnau Ouest, suite 202 <br /> Montréal, Québec,<br /> H2R 2W3 <br /> Métro De Castelnau <br /> </p> <p> Téléphone : (514) 948-6644 ou 1-877-948-6644 (sans frais)<br /> Télécopieur : (514) 948-3320 <br /> Adresse électronique : <a href="mailto:info@communautique.qc.ca">info@communautique. qc.ca</a> </p> 8
Page toujours valide, mais sémantiquement plus riche <div id="" class="v card"> <div class="org"> <p> <a class="url fn n" href="http://www.communautique.qc.ca">communautique </a> est situé au : </p> </div> <div class="adr"> <div class="street-address"> 65 De Castelnau Ouest, suite 202 </div> <span class="locality">montréal</span>, <span class="region">québec</span>, <span class="postal-code">h2r 2W3</span> <span class="country-name">canada</span> </div> Téléphone : <span class="tel">(514) 948-6644 ou 1-877-948-6644 (sans frais) </span> <br /> Télécopieur : <span class="fax">(514) 948-3320 </span> <br /> Adresse électronique : <a class="email" href="mailto:info@communautique.qc.ca">info@communautique. qc.ca</a> </p> </div> Les données sont reconnues et réutilisables 9
Boîte à outils du web sémantique Connues mais pas toujours bien utilisées (X)HTML valide Attributs class et id Balise meta -> métadonnées Mais aussi RDF, RDFa OWL, SPARQL, SKOS, GRRDL microformats Boîte à outils du web sémantique Exemples de vocabulaires, d ontologies : OpenCyc -> ontologie générale Dublin Core -> ressources numériques FOAF -> relations entre personnes SIOC -> réseaux sociaux microformats : hcard, hevent, hresume, etc. 10
Pour faire quoi? Meilleure recherche Exploration des données de sources diverses Construction de corpus de données Bonification des contenus Réutilisation et partage Recherche sémantique Ça commence Yahoo SearchMonkey Google Rich Snippets Google Squared Sindice 11
Exploration des données sur le web Harper s Index : Exploitation d un corpus DBpedia : Wikipedia sémantisé comme base de connaissnces Freebase : Collection de corpus BBC Music : Services intégrés Construction de sites Semantic MediaWiki CMS et RDF : Drupal WordPress 12
Bonification des contenus Open Calais/Faviki : Ajouter des liens dans mes contenus vers le web Common Tags/MOAT : Préciser le sens des mots clés Réutilisation et partage Le mouvement «Open Data» LOD : Linked Open Data Initiatives des gouvernements Data.gov (ThisWeKnow) Data.gov.uk SEMIC.eu 13
Comment faire le saut? Profiter des structures existantes HTML, gabarits, bases de données Utiliser des vocabulaires existants Sinon rendre son vocabulaire public Utiliser des convertisseurs et des librairies «rdfizer», «triplifier» Commencer petit! Merci! <yves@percolab.com> 14
Web sémantique, la partie submergée du web Auteur: Robin Millette Date: 2009-10-01 Le Web n'est plus à présenter. Mais saviez-vous que sous la surface accessible aux fureteurs se cache de riches trésors d'informations structurées? Cette présentation s'attardera à la partie submergée du web, c'est à dire aux différentes formes du web sémantique. Iceberg? C'est gros le web, et sa forme change de jour en jour, comme un iceberg. Le temps de simplement naviguer dessus est derrière nous. Avant de commencer
Robin Millette <robin@millette.info> http://rym.waglo.com/ Microblogue: http://identi.ca/millette Consultant et développeur web (PHP, Drupal, etc.) Contributeur à StatusNet (anciennement Laconica) Adepte et promoteur de logiciels libres et de standards ouverts Fondateur de Muniduweb (service en ligne d'hébergement et de développement de sites web pour municipalités) Introduction Cette présentation est séparée en quatre grandes sections : Qui : les responsables de la création du web sémantique; Quoi : un bref aperçu de ce qu'est le web sémantique, ou web 3.0; Comment : quelques techniques à utiliser; Pourquoi : avantages du web sémantique selon différents points de vue. Assez surfé Il y a le web visible, que nous utilisons tous les jours, et il y a le web sémantique, la partie engloutie sous la surface. Sous la surface on trouve...
... le web sémantique. Qui W3C Les principes du web sémantique sont presqu'aussi vieux que le web conventionnel lui-même. Sir Tim Berner Lee prévoyait déjà cet usage au moment de concevoir le web. Par exemple, on préfèrera les balises <strong> et <em> à <b> et <i> respectivement qui donnent un sens allant au delà de l'aspect graphique. Le travail sur le RDF et RDFa (et linked data?) s'est poursuivi au World Wide Web Consortium. Communauté Une approche bottom-up a été adoptée pour la conception des Microformats, une grande communauté s'étant entendu sur une méthodologie pour faire ressortir les usages actuels du web et leur donner une sémantique en codifiant ces usages.
Quoi Deux courants de pensée se partagent donc le développement du web sémantique : Les microformats, qui réutilisent les balises HTML pour les surcharger d'information via des attributs class; RDFa, qui permet d'insérer du RDF dans une page HTML sous forme de commentaires, entre autre. Grande base de données Ainsi, on peut considérer le web comme une immense base de données distribuée. Données structurées Historiquement, il fallait scraper les pages web si nous voulions en extraire des données manipulables ultérieurement; Aujourd'hui, on va privilégier l'utilisation de données structurées. HTML et XHTML La grande famille des langages HTML propose déjà des balises comme <H1> et <H2> pour les entêtes et séparer les sections ainsi que <ADDRESS> par exemple. Il ne s'agit pas simplement de l'aspect graphique à présenter. Je le répète, c'est la différence entre <STRONG> et <B>. L'aspect graphique est géré par le CSS de toutes façons, le HTML offrant une présentation par défaut. Et la tête? Avant le corps (<BODY>) d'une page web, on retrouve sa tête (<HEAD>) où siègent d'autres balises importantes : <TITLE> n'a plus besoin de présentation; <META> offre plusieurs possibilités exploitables depuis des années; <LINK> aussi, même si c'est un peu moins connu. Et sur la tête
<HTML> aussi va nous servir pour inclure par exemple des Espaces de noms (namespaces en anglais). Par exemple : Dublin Core, pour une normalisation d'une foule de données comme le nom de l'auteur, la date de publication, etc; Creative Commons, pour insérer une licence à même notre document qui pourra être lue et interprétée par un logiciel; RDF, pour toutes sortes d'ontologies; Découverte des données Un aspect non négligeable du web sémantique demeure ce qu'on nomme en anglais Discovery ou Auto-discovery. C'est le mécanisme qui permet à une page web d'exprimer quels genres de données elle contient. Est-ce qu'un fil RSS ou Atom est associé à cette page? Est-ce que cette page contient des événements, des adresses de contacts, des critiques de films, etc. Microformats http://microformats.org/ Les microformats (et nanoformats) sont souvent conçus pour s'imbriquer facilement. RDFa http://rdfa.info/ (à résumer) Comment Comment tirer avantage des possibilités qu'offre le web sémantique? Les prochaines sections s'attardent à ces questions. RSS / RDF / Atom Voilà des formats de syndication, c'est à dire des canaux souvent parallèles aux
pages web. Ma présentation porte plutôt sur l'inclusion des données à même les pages web, sans passer par un autre canal. Notez quand même qu'il est facile de transformer une page web comme un blogue, par exemple, en fil Atom si nous formattons notre page avec le microformat hatom. XML / JSON Le XML et le JSON sont eux aussi des canaux parallèles aux pages web. Une page web pourrait par contre nous informer qu'elle est associée à des données XML ou JSON via l'auto-discovery, tel que mentionné précédemment. Ajax Ajax et synergie, voilà deux buzz words intéressants ensemble. Puisqu'il s'agit d'une technologie de plus en plus populaire qui repose généralement sur l'échange de données structurées entre une page web et le serveur, on comprendra qu'on peut structurer nos données une seule fois pour réutiliser ce travaille dans une approche plus web sémantique. Un exemple : Drupal (à venir) Pourquoi? Quels sont les avantages qu'apporte le web sémantique? Pourquoi se donner tout ce travail? Cette dernière section apportera les réponses que vous cherchez, je l'espère. Accessibilité Le gouvernement s'est doté récemment d'une politique et de normes sur l'accessibilité des pages web. Accès civique
http://accescivique.ca/ http://civicaccess.ca Transparence http://ibelieveinopen.ca/ Autonomiser les utilisateurs Permet aux utilisateurs / développeurs de découvrir et manipuler eux-même les données disponibles pour leur donner un second souffle, une deuxième vie, parfois dans des directions qu'on n'aurait pas imaginer nous même. Gouvernements États-Unis : http://www.data.gov/catalog FACIL, élections municipales : http://facil.qc.ca/node/766 Confiance et traçabilité Lois et licences (à venir) Attributions Les photos utilisées sont disponibles sous licence Creative Commons BY-SA ou BY. 2008-12-29 Steve Irwin iceberg par John (guano) iceberg par Sherry Kelly (stargazr441) Colophon Cette présentation a été écrite en RestructuredText, qui ressemble beaucoup à du texte normal sauf pour quelques consignes simples à respecter et qui permettent de séparer le document en sections, insérer des images, mettre de l'emphase, etc. Les logiciels de
la suite docutils, écrits en python, peuvent lire ce format et exporter les versions HTML et Latex. Nous utilisons le formattage S5 pour la présentation elle-même, tandis que la version Latex sert à générer le PDF. Merci pour votre attention Plus d'information: http://rym.waglo.com/presentations/semweb-webmaestro Des questions? Bonne fin de journée :)
Le!Mur!Mitoyen!:!un!site!web microformaté Vincent!Audette"Chapdelaine Web"éducation,!9!novembre!2009
CC, http://www.flickr.com/photos/marcobellucci/3534516458 Qui!suis"je!et!pourquoi!suis"je!ici?
Qu est!ce"que"le"mur"mitoyen?
CC, http://www.flickr.com/photos/highedweb/3980736938 Nous!sommes!toujours!en!ligne!
Le Mur Mitoyen compte actuellement 363 lieux Il!y!a!des!événements!partout
Les!possibilités!sont!grandes Société des arts technologiques Aujourd hui, 9:00 à 17:00: Rendez-vous des médias citoyens
Nous!voulons!que!le!Web!s intègre!à!nos!pratiques
Microformats ::!hcalendar
Microformats ::!hcalendar
icalendar
Importance!de!la!diffusion Il faut permettre au contenu de circuler si on veut qu il atteigne les gens intéressés
Nous!voulons!(toujours)!que!le!Web!s intègre!à!nos!pratiques
Nous!sommes!des!humains
CC, http://www.flickr.com/photos/laruth/1916429345/ Nous!sommes!des!humains
Merci! http://mur.mitoyen.net mur@mitoyen.net http://twitter.com/murmitoyen
Journée Web Éducation 22 octobre 2009 Quelques adresses pour démarrer et pour explorer Sur RDF http://www.yoyodesign.org/doc/w3c/rdf-primer/ Sur RDFa http://rdfa.info/ http://www.w3.org/markup/2009/rdfa-for-html-authors Sur les microformats http://microformats.org/wiki/main_page-fr Vocabulaires FOAF http://www.foaf-project.org/ SIOC http://sioc-project.org/ Recherche sémantique Google Squared http://www.google.com/squared Google Rich Snippets http://www.google.com/support/webmasters/bin/answer.py?hl=fr&answer=99170 http://knol.google.com/k/google-rich-snippets/google-rich-snippets/32la2chf8l79m/1# Yahoo SearchMonkey http://developer.search.yahoo.com/start Sindice http://sindice.com Exemples de sites utilisant des technologies du web sémantique Harper's Index http://harpers.org/index/ DBpedia http://dbpedia.org/about http://dbpedia.neofonie.de/browse/ Web Éducation 22 octobre 2009 1
Freebase BBC Music http://sindice.com/developers/inspector http://dbpedia.org/page/semantic web http://www.freebase.com/ http://www.freebase.com/labs/parallax/ (pour explorer) http://www.bbc.co.uk/music/ Collections de «données liées ouvertes» : LOD Open Data Movement http://esw.w3.org/topic/sweoig/taskforces/communityprojects/linkingopendata Terrence A. Brooks, Watch this: LOD - linking open data (http://informationr.net/ir/13-4/tb0812.html) Web sémantique et gouvernement Vision Sir Tim Berners-Lee, Putting Government Data online (http://www.w3.org/designissues/govdata) W3C Publishing Open Government Data (http://www.w3.org/tr/gov-data/) États-Unis : Initiative Data.gov Catalog ue : http://data-gov.tw.rpi.edu/wiki/data.gov_catalog ThisWeKnow (États-Unis) : http://www.thisweknow.org/ Royaume-Uni : Initiative data.gov.uk Job Civil Service (microformats) http://www.civilservice.gov.uk/jobs/index.aspx Edubase Data http://blogs.talis.com/n2/archives/818 http://blogs.talis.com/n2/archives/836 Europe Inventaire des outils. vocabulaires et données sémantiques http://www.semic.eu/semic/ Canada Vancouver Open Data http://data.vancouver.ca/ Web Éducation 22 octobre 2009 2
Extensions pour les fureteurs Firefox Operator (http://www.kaply.com/weblog/operator/) Faviki (http://www.faviki.com/pages/welcome/) SemanticRadar (https://addons.mozilla.org/en-us/firefox/addon/3886) Internet Explorer Oomph (http://visitmix.com/lab/oomph) Explorateurs de données sémantiques (sites web) OpenLink Data Explorer http://linkeddata.uriburner.com/ode/ http://linkeddata.uriburner.com/ http://ode.openlinksw.com/ W3C Semantic Data Extractor http://www.w3.org/2002/08/extract-semantic Web Éducation 22 octobre 2009 3