Fouille de données : quelques applications en SHS Séminaire «!document numérique!», INTD-CNAM 23 novembre 2010 (Paris) Julien VELCIN, laboratoire ERIC
Informatique et humanités numériques!! Université Lumière Lyon 2!! De nombreux corpus et bases de données à exploiter!! BD historiques, interactions orales, discussions sur le Web, etc.!! Laboratoire ERIC!! Axe ENA-DC!! Axe FODA!! Axe DECO!! Fouille de données complexes!! Traiter de grands volumes de données!! Aider les experts à trouver «!de la connaissance!»!! Améliorer la réutilisabilité des corpus de données 2 INTD-CNAM - 23/11/2010 (Paris)
Corpus de données historiques!! SyMoGIH!! Système Modulaire de Gestion de l Information Historique LARHRA, pôle méthode (F. Beretta, P. Vernus )!! SI développé en collaboration avec ERIC (J. Darmont, O. Boussaïd )!! Exemple : la base des «!photo-cartes postales!» ID: 22 Titre : Deux petites filles en pied l'une portant un panier Support: Carton Fin Taille: Photo-carte de Visite Nature: Noir et Blanc Legende Verso: Ethel and Grace Photographe(s) : 1:Nom: WADE G Thématique(s) : Cadrage --> En pied Genre et âges de la vie --> Enfants Photographe ID: 10891 Nom: WADE Prénom: G Sexe: Homme Pays: Angleterre Technique: Plaque Sèche Activité Principale: Photographe de studio Stock: Oui Date début activité: 1880 3 INTD-CNAM - 23/11/2010 (Paris)
Corpus d interactions orales!! CLAPI!! Corpus de Langues Parlées en Interaction Laboratoire ICAR (C. Etienne, C. Plantin, L. Mondada )!! SI développé en collaboration avec ERIC (F. Bentayeb, S. Loudcher )!! Exemple : réunion de publicitaires 4 INTD-CNAM - 23/11/2010 (Paris)
Discussions en ligne (forums, blogs ) (Stavrianou et al.,2009) 5 INTD-CNAM - 23/11/2010 (Paris)
Cycle de l ECD INTERPRETATION VISUALISATION PREPARATION FOUILLE Connaissances SELECTION Données cibles Données préparées Informations extraites!! Apprentissage automatique!!apprentissage supervisé!!catégorisation/segmentation!! Extraction de règles!! Analyses factorielles ( ) Base / Entrepôt de données 6 6 INTD-CNAM - 23/11/2010 (Paris)
Quelques challenges en Fouille de Données!! Modélisation des données complexes!! Extraction des attributs pertinents!! Indexation multi points de vue!! Comparer des objets (malédiction de la dimension)!! Fusion de données!! Plusieurs modalités : texte, image, index, annotations, etc.!! Sources diverses et hétérogènes, confiance, traçabilité!! Enrichissement sémantique!! Intégrer la connaissance du domaine (ex. : ontologies)!! Recherche d information, analyse des données, apprentissage!! Franchir le «!gap semantic!» : rôle de la validation 7 INTD-CNAM - 23/11/2010 (Paris)
Modélisation et analyse de discussions en ligne (thèse d A. Stavrianou)!! Nouvelle représentation plus appropriée!! Opinion échange!! Navigation efficace!! Application de mesures / critères!! Messages influentes!! Evolution de l opinion!! Recommandation 8 INTD-CNAM - 23/11/2010 (Paris)
Construction de réseaux sociaux à partir du Web (thèse de M. Forestier)!! Objectif : synthétiser l information contenue dans les discussions du point de vue des acteurs!! Plus précisément, identifier des communautés et des rôles, analyser la dynamique des thèmes et des opinions, etc.!! Une approche naturelle : les réseaux sociaux [Jing et al., 2007] [Culotta et al., 2005]!! Deux types d information :!! les acteurs!! les relations 9 INTD-CNAM - 23/11/2010 (Paris)
10 Séminaire GAMA, 26 mars 2010
Enrichissement de documents historiques (thèse de M.A. Rizoiu)!! Approche semi-supervisée, connaissances fournies par des experts (souvent sous forme de tags) 11 INTD-CNAM - 23/11/2010 (Paris)
Notre approche!! Décrire les images dans un langage compatible avec les textes [Pham et al., 2009]!! Parallèle entre les textes et les images!! Trois étapes envisagées : 1) Extraction de points d'intérêt et leur description en SIFT 2) Création du «!vocabulaire visuel!» 3) Traduction des images dans ce nouveau langage visuel 12 INTD-CNAM - 23/11/2010 (Paris)
Chaîne de traitement visuel Collection photos Détection points intérêt, description SIFT Photos avec point d'intérêt t1 t2, t4 Connaissances expertes t1, t3 Génération des mots visuels Photos décrites par un vocabulaire visuel 13 INTD-CNAM - 23/11/2010 (Paris) Traduction dans le nouveau langage Vocabulaire visuel
Autres travaux en cours à ERIC!! Fouille de données dans les corpus d interactions orales ERIC-ICAR!! Nouveaux outils de fouille de données dans les grandes bases de données historiques ERIC-LARHRA!! Construction et test d outils semi-automatiques pour l étude de la dynamique des discours ERIC-ELICO 14 INTD-CNAM - 23/11/2010 (Paris)
Annexes 15 INTD-CNAM - 23/11/2010 (Paris)
16 Références!! Blei, D. M., Ng, A. Y., Jordan, M. I., & Lafferty, J. (2003). Latent dirichlet allocation. In: Journal of Machine Learning Research, 3, 2003.!! Culotta, A., A. McCallum, and R. Bekkerman, Extracting Social Networks and Contact Information From Email and the Web, 2005.!! Forestier, M., Velcin, J. and Ganascia, J.G., Un cadre formel pour la veille numérique sur la presse en ligne. In: Atelier Veille Numérique (EGC-VN 09), Strasbourg, Janvier 2009.!! Jing, H., N. Kambhatla, and S. Roukos, Extracting social networks and biographical facts from conversational speech transcripts, 45th Annual Meeting of the Association of Computational Linguistics, vol. 45, 2007, pp. 1040-1047.!! Pham N.K., Morin A., Gros P.. CAViz, exploration interactive des résultats de l'analyse factorielle des correspondances pour des images. RSTI série RIA, Série Visualisation et extraction des connaissances, Hermès Lavoisier, 22(3):473-488, 2008.!! Rizoiu, M.A., Velcin, J. and Chauchat, J.H.. Regrouper les données textuelles et nommer les groupes à l'aide de classes recouvrantes, In: Actes des 10ème journées francophones en Extraction et Gestion des Connaissances (EGC 10), Hammamet, Tunisie 2010.!! Stavrianou, A., Velcin, J. and Chauchat, J.H., A combination of opinion mining and social network techniques for discussion analysis. In: Revue des Nouvelles Technologies de l'information, Cepadues 2009. Séminaire GAMA, 26 mars 2010