Fouille de données : quelques applications en SHS

Documents pareils
CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

MASTER LPL : LANGUE ET INFORMATIQUE (P)

N. Paparoditis, Laboratoire MATIS

Comment consulter la Photothèque de Paris 1

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses

SharePoint 2013 L'environnement de travail collaboratif

Big Data et Graphes : Quelques pistes de recherche

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Analyse des réclamations d allocataires de la CAF : un cas d étude en fouille de données

Big Data et Graphes : Quelques pistes de recherche

Mendeley, pour gérer sa bibliographie et la partager. Patricia Volland-Nail

Communiquer : les autres Chèque n 7 Module 2

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos

TEXT MINING Tour d Horizon

GESTION D UNE BASE BIBLIOGRAPHIQUE

Masses de données et calcul : à l IRIT. 8 octobre 2013

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Analyse de grandes bases de données en santé

INTERNET. INTERNET (7 H) Le 12 SEPTEMBRE 2011 à REIMS OU CHALONS EN CHAMPAGNE

La recherche en train de se faire: les cahiers de recherche en ligne. Aboubekeur ZINEDDINE

HERMES SYSTEM et BEWISE souhaitent vous offrir les meilleures compétences.

Annotation collaborative en ligne de l'archive manuscrite

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Créer un site e-commerce avec PrestaShop Cloud Mise en place et suivi du projet

Rédigez efficacement vos rapports et thèses avec Word (2ième édition)

Banque d outils d aide à l évaluation diagnostique

«Innovation Intelligence» La valorisation des données massives au service des partenariats R&D. Expernova Université d été GFII

Application de K-means à la définition du nombre de VM optimal dans un cloud

Je sais utiliser. Création d une galerie photo pour un site Web. Picasa crée les documents. HTML pour insérer une galerie de photos dans un site web

Gestion collaborative de documents

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Travail collaboratif à distance

INTERNET, C'EST QUOI?

Une méthode d apprentissage pour la composition de services web

Ministère des Affaires étrangères et européennes Direction de la politique culturelle et du français Regards VII

Intégration de données hétérogènes et réparties. Anne Doucet

Quel est l apport de la détection d entités nommées pour l extraction d information en domaine restreint?

e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

Portail collaboratif Intranet documentaire Dématérialisation de processus

ISTEX, vers des services innovants d accès à la connaissance

Spécificités, Applications et Outils

Diagnostic adaptatif d'un flux d'alarmes par méta diagnostic distribué Application à la détection d'intrusions dans un serveur Web

Démarrage avec Tableau Desktop

Architectures d'intégration de données

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Création de site internet

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

3. Exemple de budgets ventilés

Veille concurrentielle et veille stratégique : deux applications d extraction d information

LabCom SMILK. Social Media Intelligence and Linked Knowledge. ISTE 2013 Keynote thumb wrestling

Recherche d information textuelle

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

Sciences de l'information et de la communication. Enseignant-e-s. Année/Structure/Enseignements. H/sem.

Faire émerger les théma.ques et les opinions : applica.on à l'analyse des médias sociaux

Usages pédagogiques des tablettes

L. Granjon, E. Le Goff, A. Millereux, L. Saligny MSH Dijon

Créer le schéma relationnel d une base de données ACCESS

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Concevoir sa stratégie de recherche d information

PrestaShop Cloud. Créer un site e-commerce avec. PrestaShop Cloud. Mise en place et suivi du projet. Créer un site e-commerce avec

Toute la puissance de DoYouBuzz pour votre école. Présentation de DoYouBuzz Campus

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Votre solution professionnelle Open Source pour archiver, trouver, gérer, partager... tous vos fichiers multimédia!

Entreposage de données complexes pour la médecine d anticipation personnalisée

Université Saint-Joseph. Manuel de pédagogie universitaire. avec le soutien de

PHOTOGRAPHIE & COMMUNICATION

Traitement et exploration du fichier Log du Serveur Web, pour l extraction des connaissances: Web Usage Mining

Internet Découverte et premiers pas

PrestaShop 1.5 Créer un site de e-commerce

Partager ses photos sur Internet

UTILISER UN SITE COLLABORATIF

SAP BusinessObjects Web Intelligence (WebI) BI 4

TRAVAUX DE RECHERCHE DANS LE

Un SIG collaboratif pour la recherche historique Partie. Partie 1 : Naissance et conception d un système d information géo-historique collaboratif.

Introduction aux concepts d ez Publish

SOMMAIRE. Nos Outils Speechmark Social Club Speechmark Campus Speechmark Test

Spécialité IAD. Master de Sciences et technologie de l UPMC. Mention informatique. Partenaires : ENST, ENSTA. Responsables : T. Artières, C.

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

Business Intelligence avec Excel, Power BI et Office 365

Apprentissage statistique dans les graphes et les réseaux sociaux

Contenu disciplinaire (CK)

MDM Multicanal. - Tous Droits Réservés

Customer Intelligence

ANNEXE 4. Réaliser un diagnostic de sécurité Principales méthodes de collecte d information. (Module 3, partie I, section 2.5)

Hervé Couturier EVP, SAP Technology Development

Big Data On Line Analytics

N SIMON Anne-Catherine

Cinq conseils pour tirer le meilleur parti de Google Analytics

La Gestion Électronique de Documents spécialement conçue pour les Experts Comptables

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

Extraction des Connaissances à partir des Données (ECD)

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Formation Webmaster : Création de site Web Initiation + Approfondissement

Transcription:

Fouille de données : quelques applications en SHS Séminaire «!document numérique!», INTD-CNAM 23 novembre 2010 (Paris) Julien VELCIN, laboratoire ERIC

Informatique et humanités numériques!! Université Lumière Lyon 2!! De nombreux corpus et bases de données à exploiter!! BD historiques, interactions orales, discussions sur le Web, etc.!! Laboratoire ERIC!! Axe ENA-DC!! Axe FODA!! Axe DECO!! Fouille de données complexes!! Traiter de grands volumes de données!! Aider les experts à trouver «!de la connaissance!»!! Améliorer la réutilisabilité des corpus de données 2 INTD-CNAM - 23/11/2010 (Paris)

Corpus de données historiques!! SyMoGIH!! Système Modulaire de Gestion de l Information Historique LARHRA, pôle méthode (F. Beretta, P. Vernus )!! SI développé en collaboration avec ERIC (J. Darmont, O. Boussaïd )!! Exemple : la base des «!photo-cartes postales!» ID: 22 Titre : Deux petites filles en pied l'une portant un panier Support: Carton Fin Taille: Photo-carte de Visite Nature: Noir et Blanc Legende Verso: Ethel and Grace Photographe(s) : 1:Nom: WADE G Thématique(s) : Cadrage --> En pied Genre et âges de la vie --> Enfants Photographe ID: 10891 Nom: WADE Prénom: G Sexe: Homme Pays: Angleterre Technique: Plaque Sèche Activité Principale: Photographe de studio Stock: Oui Date début activité: 1880 3 INTD-CNAM - 23/11/2010 (Paris)

Corpus d interactions orales!! CLAPI!! Corpus de Langues Parlées en Interaction Laboratoire ICAR (C. Etienne, C. Plantin, L. Mondada )!! SI développé en collaboration avec ERIC (F. Bentayeb, S. Loudcher )!! Exemple : réunion de publicitaires 4 INTD-CNAM - 23/11/2010 (Paris)

Discussions en ligne (forums, blogs ) (Stavrianou et al.,2009) 5 INTD-CNAM - 23/11/2010 (Paris)

Cycle de l ECD INTERPRETATION VISUALISATION PREPARATION FOUILLE Connaissances SELECTION Données cibles Données préparées Informations extraites!! Apprentissage automatique!!apprentissage supervisé!!catégorisation/segmentation!! Extraction de règles!! Analyses factorielles ( ) Base / Entrepôt de données 6 6 INTD-CNAM - 23/11/2010 (Paris)

Quelques challenges en Fouille de Données!! Modélisation des données complexes!! Extraction des attributs pertinents!! Indexation multi points de vue!! Comparer des objets (malédiction de la dimension)!! Fusion de données!! Plusieurs modalités : texte, image, index, annotations, etc.!! Sources diverses et hétérogènes, confiance, traçabilité!! Enrichissement sémantique!! Intégrer la connaissance du domaine (ex. : ontologies)!! Recherche d information, analyse des données, apprentissage!! Franchir le «!gap semantic!» : rôle de la validation 7 INTD-CNAM - 23/11/2010 (Paris)

Modélisation et analyse de discussions en ligne (thèse d A. Stavrianou)!! Nouvelle représentation plus appropriée!! Opinion échange!! Navigation efficace!! Application de mesures / critères!! Messages influentes!! Evolution de l opinion!! Recommandation 8 INTD-CNAM - 23/11/2010 (Paris)

Construction de réseaux sociaux à partir du Web (thèse de M. Forestier)!! Objectif : synthétiser l information contenue dans les discussions du point de vue des acteurs!! Plus précisément, identifier des communautés et des rôles, analyser la dynamique des thèmes et des opinions, etc.!! Une approche naturelle : les réseaux sociaux [Jing et al., 2007] [Culotta et al., 2005]!! Deux types d information :!! les acteurs!! les relations 9 INTD-CNAM - 23/11/2010 (Paris)

10 Séminaire GAMA, 26 mars 2010

Enrichissement de documents historiques (thèse de M.A. Rizoiu)!! Approche semi-supervisée, connaissances fournies par des experts (souvent sous forme de tags) 11 INTD-CNAM - 23/11/2010 (Paris)

Notre approche!! Décrire les images dans un langage compatible avec les textes [Pham et al., 2009]!! Parallèle entre les textes et les images!! Trois étapes envisagées : 1) Extraction de points d'intérêt et leur description en SIFT 2) Création du «!vocabulaire visuel!» 3) Traduction des images dans ce nouveau langage visuel 12 INTD-CNAM - 23/11/2010 (Paris)

Chaîne de traitement visuel Collection photos Détection points intérêt, description SIFT Photos avec point d'intérêt t1 t2, t4 Connaissances expertes t1, t3 Génération des mots visuels Photos décrites par un vocabulaire visuel 13 INTD-CNAM - 23/11/2010 (Paris) Traduction dans le nouveau langage Vocabulaire visuel

Autres travaux en cours à ERIC!! Fouille de données dans les corpus d interactions orales ERIC-ICAR!! Nouveaux outils de fouille de données dans les grandes bases de données historiques ERIC-LARHRA!! Construction et test d outils semi-automatiques pour l étude de la dynamique des discours ERIC-ELICO 14 INTD-CNAM - 23/11/2010 (Paris)

Annexes 15 INTD-CNAM - 23/11/2010 (Paris)

16 Références!! Blei, D. M., Ng, A. Y., Jordan, M. I., & Lafferty, J. (2003). Latent dirichlet allocation. In: Journal of Machine Learning Research, 3, 2003.!! Culotta, A., A. McCallum, and R. Bekkerman, Extracting Social Networks and Contact Information From Email and the Web, 2005.!! Forestier, M., Velcin, J. and Ganascia, J.G., Un cadre formel pour la veille numérique sur la presse en ligne. In: Atelier Veille Numérique (EGC-VN 09), Strasbourg, Janvier 2009.!! Jing, H., N. Kambhatla, and S. Roukos, Extracting social networks and biographical facts from conversational speech transcripts, 45th Annual Meeting of the Association of Computational Linguistics, vol. 45, 2007, pp. 1040-1047.!! Pham N.K., Morin A., Gros P.. CAViz, exploration interactive des résultats de l'analyse factorielle des correspondances pour des images. RSTI série RIA, Série Visualisation et extraction des connaissances, Hermès Lavoisier, 22(3):473-488, 2008.!! Rizoiu, M.A., Velcin, J. and Chauchat, J.H.. Regrouper les données textuelles et nommer les groupes à l'aide de classes recouvrantes, In: Actes des 10ème journées francophones en Extraction et Gestion des Connaissances (EGC 10), Hammamet, Tunisie 2010.!! Stavrianou, A., Velcin, J. and Chauchat, J.H., A combination of opinion mining and social network techniques for discussion analysis. In: Revue des Nouvelles Technologies de l'information, Cepadues 2009. Séminaire GAMA, 26 mars 2010