Intégration de la dimension sémantique dans les réseaux sociaux



Documents pareils
Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche

INF6304 Interfaces Intelligentes

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Contrainte de flot pour RCPSP avec temps de transfert

Chapitre 5 : Flot maximal dans un graphe

Algorithmes de recommandation, Cours Master 2, février 2011

Apprentissage Automatique

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Le Web Social Cécile Favre Laboratoire ERIC, Université Lyon 2 France. Ludovic Denoyer LIP 6, Université Pierre et Marie Curie France

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Classification Automatique de messages : une approche hybride

Enjeux mathématiques et Statistiques du Big Data

Plus courts chemins, programmation dynamique

L usage des concepts du web sémantique dans le filtrage d information collaboratif

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Cours de Master Recherche

Gestion des Clés Publiques (PKI)

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

La classification automatique de données quantitatives

5. Apprentissage pour le filtrage collaboratif

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

Introduction au Data-Mining

Application de K-means à la définition du nombre de VM optimal dans un cloud

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Apprentissage statistique dans les graphes et les réseaux sociaux

IBM SPSS Modeler Social Network Analysis 15 Guide de l utilisateur

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Raisonnement probabiliste

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Les ontologies pour l intégration sémantique : enjeux et défis

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Travailler avec les télécommunications

Eléments de Théorie des Graphes et Programmation Linéaire

La fraude à la carte bancaire

Systèmes de recommandation de produits Projet CADI Composants Avancés pour la DIstribution

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Utilisation des tableaux sémantiques dans les logiques de description

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Application de la méthode QFD comme outil d'extraction des connaissances métier en conception intégrée

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Théorie des Graphes Cours 3: Forêts et Arbres II / Modélisation

FaceBook aime les Maths!

Programme de l option Ingénierie d Aide à la Décision (IAD)

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

LIVRE BLANC. Les données sociales : De nouvelles perspectives pour les systèmes d information décisionnels?

Introduction au datamining

Introduction au Data-Mining

Concevoir sa stratégie de recherche d information

Les modes de recherche sur le Web 2.0

Personnalisation: Pour bien démarrer Créer une expérience digitale unique pour chaque visiteur. Par John Carione, Acquia

Cours de Recherche Opérationnelle IUT d Orsay. Nicolas M. THIÉRY. address: Nicolas.Thiery@u-psud.fr URL:

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Propriétés du Document EMA. Résumé

Instructions relatives à la soumission d une question sur le sujet d étude

La problématique de la Préservation des Bases de Données. Olivier ROUCHON CINES Groupe PIN Jeudi 7 Octobre

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

ANALYSE CATIA V5. 14/02/2011 Daniel Geffroy IUT GMP Le Mans

Hervé Couturier EVP, SAP Technology Development

Détection d utilisateurs malveillants dans les réseaux sociaux

ils entretiennent entre eux des flux, ils partagent des perceptions sur l environnement

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Les structures de données. Rajae El Ouazzani

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

La carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA

SharePoint 2013 L'environnement de travail collaboratif

EP A1 (19) (11) EP A1 (12) DEMANDE DE BREVET EUROPEEN. (43) Date de publication: Bulletin 2009/25

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

UML (Paquetage) Unified Modeling Language

Jean-Philippe Préaux

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Référencement naturel & E-tourisme. Pau 02/10/2008

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Laboratoire 4 Développement d un système intelligent

Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P

MABioVis. Bio-informatique et la

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Analyse en Composantes Principales

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

BACCALAUREAT GENERAL MATHÉMATIQUES

Prénom : Matricule : Sigle et titre du cours Groupe Trimestre INF1101 Algorithmes et structures de données Tous H2004. Loc Jeudi 29/4/2004

Cybermarché et analyse comportementale

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Business Intelligence

Accélérer l agilité de votre site de e-commerce. Cas client

Annexe 6. Notions d ordonnancement.

INTRODUCTION AU DATA MINING

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

Stratégie de recherche adaptative en programmation par contrainte

Transcription:

Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI maria.malek@eisti.fr

1 Contexte : Recommandation dans les réseaux sociaux 2 L algorithme de recommandation Techniques utilisées Algorithme exhaustif de recherche de toutes les solutions Algorithme guidé pour la recherche d une solution Validation de l algorithme 3 Extraction du profil sémantique Les mesures structurelles dans une taxonomie Les inférences dans une taxonomie 4

Analyse des réseaux sociaux : domaines d application Étudier des propriétés de la structure et son rôle ainsi que la position et le prestige de chaque acteur social le marketing viral, détection des nœuds faibles (ou ponts) dans un réseau (virus informatiques, terrorisme, etc.), tri des résultats d un moteur de recherche ( le fameux PageRank). Recherche des différents types de sous-graphes : les communautés formées par des groupes d acteurs ayant des intérêts commun. isoler les groupes de densités élevées. Élaboration de recommandations (algorithmes d exploration de chemins, d analyse de degrés) : Trouver un expert dans un domaine donné, Suggérer des produits à vendre, proposer un ami, etc.

Objectif du système L algorithme de recommandation Hypothèse : notre réseau est composé d un ensemble de personnes ayant des liens professionnels. Proposition d un système de recommandation : Requête posée par un utilisateur X : un acteur dans le réseau social. Proposer (recommander) un ou plusieurs acteurs répondant au mieux aux critères demandés. Exemple : Recherche d une personne ayant des compétences données pour un poste, Recherche d une collaboration scientifique, etc.

Idée de l algorithme L algorithme de recommandation Algorithme qui combine la sémantique, la structure & les propriétés des réseaux sociaux : Sémantique : L information stockée sur la personne (l acteur) d une façon décentralisée au niveau de chaque nœud, peut être représentée en utilisant une ontologie : profil utilisateur. Structure : L information décrite par la structure du réseau même : technique de l arbre couvrant minimum (ou maximum). Propriétés du réseau : L intermédiarité des acteurs passants par les chemins retenus : acteurs prestigieux.

Application - réseau de collaborations L algorithme de recommandation Le couplage bibliographique &la matrice de co-citation sont dèfinis par : B ij = n k=1 L ik L jk & C ij = n k=1 L ki L kj

Application : réseau bibliographique L algorithme de recommandation Étude d un réseaux de références bibliographiques Modélisation par un graphe non dirigé : Les nœuds de ce graphe étant les auteurs. au niveau de chaque acteur-auteur un vecteur pondéré de mots clefs, exprimant sont profil est stocké. Une relation (arête dans un graphe) entre deux auteurs exprime une similarité de comportement signifie qu il existe un nombre suffisant de références citées par eux et/ou un nombre suffisant d auteurs qui les ont cités. Deux auteurs ont une relation professionnelles s ils utilisent nombreux supports en commun (couplage bibliographique) Deux auteurs ont une relation professionnelles s ils sont cités par nombreux auteurs (co-citation).

L algorithme de recommandation L algorithme de recommandation Entrée : une requête posée par l auteur X formulée par une suite de mots (termes) clés : Sortie : une suite pondérée d auteurs {(Z 1, P 1 ), (Z 2, P 2 ),.., (Z n, P n )} correspondants au mieux à la requête ainsi que : la chaîne sémantique reliant les deux auteurs. Une chaîne sémantique reliant deux auteurs X, Z i est constituée de la liste de mots (termes) clefs se trouvant dans la suite des sommets reliant X à Z i. Étapes de l algorithme L arbre couvrant maximum (par rapport aux poids des arêtes) étant déjà calculé, les intermédiarités des nœuds étant déjà calculées et stockées, Extraire de cet arbre une liste de sommets triée à recommander.

L algorithme de recommandation L algorithme de recommandation - Illustration Parcours en largeur d abord dans l arbre couvrant. Exemple d une liste d auteurs à recommander [Z 4, Z 3, Z 1, Z 2 ] triés par leurs poids ( rating ). Le chemin sémantique entre X et Z 4 est [pro(x ), pro(y 1 ), pro(y 2 ), pro(z 4 )]

L algorithme de recommandation Éléments de l algorithme - Partie sémantique : mesure de similarité R X la requête posée par le sommet X sous forme d un ensemble de termes T i : R X = {T 1, T 2.., T n } Pro Z, le profil associé à un sommet donné Z donné également par un ensemble de termes pondérés :Pro Z = {(T 1, P 1 ), (T 2, P 2 ).., (T m, P m )}. Nous définissons la similarité (la pertinence) entre la requête R X et le profil du sommet Pro Z par : Pro Z.P j sim(r X, Pro Z ) = j inter(r X,Pro Z ) m Pro Z.P j + R X \ Pro Z i=1. avec : inter(r X, Por Z ) = {k {1,..m}, Pro Z.T k R X }

L algorithme de recommandation Éléments de l algorithme - Partie sociale : intermédiarités des nœuds Deux nœuds non adjacents k & j qui se communiquent et si le nœud i se trouve sur le chemin de communication : i est un acteur itérmédiaire. intermediarite(i) = j<k p jk (i) p jk p jk le nombre des chemins les plus cours entre j et k, p jk (i) le nombre des chemins les plus cours entre j et k passant par i.

Version 1 : Algorithme exhaustif L algorithme de recommandation La liste de sommets à recommander [(Z 4, P 4 ), (Z 3, P 3 ), (Z 1, P 1 ), (Z 2, P 2 )] P l j=1 P i = sim(r X, Pro Zi ) intermediarite(y j ) l si l >= 1 P i = sim(r X, Pro Zi ) sinon

Version 2 : Algorithme guidé L algorithme de recommandation Deuxième version permettant de trouver une solution d une façon plus efficace. Trouver le chemin de la recherche dans l arbre couvrant A. Utilisations d une heuristique permettant de choisir le sommet à visiter parmi un ensemble de sommets candidats : Algorithme de type A*, permettant de passer à chaque étape par le sommet Y minimisant l heuristique : h(y ) = (seuil sim(pro X, Pro Y )) intermediarite(y ), Jusqu à ce qu on arrive à un sommet Z à recommander pour lequel nous avons :. sim(x, Z) >= seuil

Validation & Expérimentations - 1 L algorithme de recommandation Évaluer la version guidée par rapport à la version exhaustive. Élaborer un ensemble de 10 requêtes à tester par un auteur X en utilisant les termes trouvés dans la communauté. Pour chaque requête appliquer les deux versions de l algorithme et relever les mesures suivantes : Le rang de l auteur trouvé par l algorithme guidé par rapport à l algorithme exhaustive. Le nombre de sommets parcours par l algorithme guidé. etc. Résultats Pour 8 expériences le rang numéro 1 est trouvé par la version guidée. L espace de recherche est réduit de de 11% jusqu à 49%..

Validation & Expérimentations - 2 L algorithme de recommandation N The exhaustive algorithm Recommended author Rating Computation time 1 Andrew Emili 0.00064 159,41s 2 G V Belle 0.00141 159,35s 3 Hans A Kestler 0.00060 150,41s 4 Jimin Pei 0.00002 160,61s 5 John F Canny 0.00003 159,99s 6 C Wang 0.00010 157,37s 7 J Michael Brady 0.00001 162,68s 8 Peter G Neumann 0.00022 160,72s 9 Peter Eades 0.00004 153,95s 10 Liang Chen 0.00019 161.71s N The A* algorithm Recommended author Computation time explored graph 1 Andrew Emili (1) 109,27s 39.25% 2 G V Belle (1) 17,45s 21.13% 3 Yuichi Asahiro (2) 11,66s 13.86% 4 Jimin Pei (1) 32,52s 20.02% 5 John F Canny (1) 21,77s 11.77% 6 C Wang (1) 233,99s 49.13% 7 J Michael Brady (1) 118,74s 41.14% 8 Elizabeth J O neil (2) 40,49s 24.88% 9 Peter Eades (1) 54,47s 30.95% 10 Liang Chen (1) 14,14s 16.67%

Intégration d une ontologie de domaine Extraction du profil sémantique Les mesures structurelles dans une taxonomie Les inférences dans une taxonomie d après la thèse de V. Schickel-Zuber, EPFL, 2007 : Ontology Filtering Extension de la définition du profil utilisateur(deux représentations) Profil de base : vecteur pondéré de termes. Profil sémantique : extrait à partir du profil de base en l annotant par l ontologie de domaine ; peut être représenté par un vecteur pondéré de concept. Définition d une mesure de similarité sémantique : 1 Paramétres extraits de la structure taxonomique de l ontologie : l ancêtre le plus commun entre deux nœuds concepts ; l APS d un nœud concept ; l inférence dans l ontologie. Re-formulation de requêtes

Extraction du profil sémantique Les mesures structurelles dans une taxonomie Les inférences dans une taxonomie Graphes Bipartites & Réseaux collaboration Recommandation de produits = prédiction de liens dans le graphe bipartite.

Extraction du profil sémantique Les mesures structurelles dans une taxonomie Les inférences dans une taxonomie Exemple d une ontologie : la taxonomie de Amazon

Extraction du profil sémantique Les mesures structurelles dans une taxonomie Les inférences dans une taxonomie Profil de base et Profil sémantique : exemple Préférences de base Items Socre I1 5 I2 5 I6 5 I7 5 I8 1 Préférences sémantiques Concepts Socre 4 (I2 et I8) ((1+0.2)/2)=0.6 5 (I1 et I7) ((1+1)/2)=1 9 (I1 et I6) ((1+1)/2)=1

Extraction du profil sémantique Les mesures structurelles dans une taxonomie Les inférences dans une taxonomie Les mesures structurelles - 1 : l ancêtre le plus commun b est l ancêtre le plus commun de g et i

Extraction du profil sémantique Les mesures structurelles dans une taxonomie Les inférences dans une taxonomie Les mesures structurelles - 2 : a-priori score La probabilité que le score d un concept soit supérieur à un seuil x :P(S(C) > x) = 1 x En prenant en compte les descendants d un concept n c : P(S(C) > x) = (1 x) nc+1 Par conséquent : P(S(C) x) = (1 (1 x) nc+1 ) En passant par la fonction densité : f c (x) = d((1 (1 x)nc +1 ) dx = (n c + 1) (1 x) nc L estimation de la limite inférieure du score est : E(S(C)) = (n c + 1) 1 0 x(1 x)nc dx = 1 n c+2 APS(X ) = 1 n c+2

Extraction du profil sémantique Les mesures structurelles dans une taxonomie Les inférences dans une taxonomie Les mesures structurelles - 2 : Exemple du APS Concepts n c APS x 0 1/2 u 0 1/2 z 0 1/2 s 1 1/3 t 2 1/4 y 5 1/7 APS(X ) = 1 n c+2

Les inférences dans l ontologie - 1 Extraction du profil sémantique Les mesures structurelles dans une taxonomie Les inférences dans une taxonomie Inférence de généralisation S(y x) = α(x, y)s(x), α(x, y) étant une mesure décrivant les caractéristiques en commun entre x et y. α(x, Y ) = APS(Y ) APS(X ). Inférence de spécialisation S(y x) = S(x) + β(y, x), β(y, x) étant une mesure décrivant les caractéristiques de Y mais pas celles de x. β(y, X ) = APS(Y ) APS(X ). Inférence mixte.

Les inférences dans l ontologie - 2 Extraction du profil sémantique Les mesures structurelles dans une taxonomie Les inférences dans une taxonomie Inférence de généralisation. Inférence de spécialisation. Inférence mixte S(y z) = S(z) + β(y, z) S(y x) = α(x, z)s(x) + β(y, z) S(y x) = α(x, LCA(x, y))s(x) + β(y, LCA(x, y))

Extraction du profil sémantique Les mesures structurelles dans une taxonomie Les inférences dans une taxonomie Les inférences dans l ontologie : Exemple Concepts n c APS Propagation Score x 0 1/2-1 s 1 1/3 1x( 1/3 1/2 ) = 2 3 y 5 1/7 1x( 1/7 1/2 ) = 2 7 t 2 1/4 1x( 1/7 1/2 ) + ( 4 1 1 7 ) = 11 28 u 0 1/2 1x( 1/7 1/2 ) + ( 2 1 1 7 ) = 14 9 z 0 1/2 1x( 1/7 1/2 ) + ( 2 1 1 7 ) = 14 9

Exemple de recommandation hybride Extraction du profil sémantique Les mesures structurelles dans une taxonomie Les inférences dans une taxonomie Idée : Hybridation entre Score et Popularité : HS(c) = ps(c) + (1 p)p(c) item Concepts n c APS Propagation Score popularité score hybride k y 5 1/7 2 7 5 6 0.74 j u 0 1/2 9 14 4 6 0.65 i t 2 1/4 11 28 3 6 0.45

Extraction du profil sémantique Les mesures structurelles dans une taxonomie Les inférences dans une taxonomie Le transfert d un score d un concept x vers y T (x, y) = S(y x) S(x) T(x,y) peut être décomposé selon : T(x,z)= α(x, z) si x z T (z, y) = 1 + β(z,y) S(z) 1 + 2β(z, y) si z y et tel que T (x, y) = T (x, z)t (z, y) La distance entre deux concepts D(x, y) = log(1 + 2β(y, z)) log(α(x, z)) maxd D(x, y) = log(1+2β(y,lca(x,y))) log(α(x,lca(x,y))) maxd

Extraction du profil sémantique Les mesures structurelles dans une taxonomie Les inférences dans une taxonomie Intégration d une ontologie de domaine - Application : Amazon - 1 Un graphe de collaboration extrait des données de Amazon : le graphe de co-achats : 548551 produits. Description des données : 1 Deux identificateurs : Id, ASIN. 2 Titre, groupe : (book, DVD, video ou music), rang de vente. 3 Ensemble des produits similaires. 4 Les catégories : niveau dans la hiérarchie des produits. 5 Les données de reviews : temps, user id, rating, nombre total des votes, etc. Préparations des données 1 Élaboration de la taxonomie des produits. 2 Extraction du graphe de collaboration (les nœuds sont les utilisateurs). 3 Élaboration du profil de base et du profil sémantique.

Extraction du profil sémantique Les mesures structurelles dans une taxonomie Les inférences dans une taxonomie Intégration d une ontologie de domaine - Application : Amazon - 2 Un graphe de collaboration extrait des données de Amazon : le graphe de co-achats : 548551 produits.. Préparations des données 1 Élaboration de la taxonomie des produits. 2 Extraction du graphe de collaboration (les nœuds sont les utilisateurs). 3 Élaboration du profil de base et du profil sémantique. Vers un système de recommandation social et sémantique : Intégration de la mesure de similarité sémantique dans l heuristique qui permet une navigation efficace dans l arbre couvrant. Aider l utilisateur à reformuler ses requêtes.

Conclusion & perspectives Proposition de deux algorithmes de recommandation : exhaustif et guidé : Partie structure : exploration de l arbre couvrant maximum. Partie sémantique : similarité entre la requête et le profil utilisateur. Partie sociale : utilisation de la mesure d intermédiarité. Perspectives... Élaboration plus fine du profil utilisateur. Étendre l algorithme pour des recommandations inter-communautés. Utiliser l arbre couvrant pour des fins sémantiques : Proposer ou affiner une ontologie d un domaine. Découvrir des rapprochements sémantiques entre les communautés (arbre couvrant et chemins sémantiques).