Two modularity-based clustering algorithms and a Cytoscape plugin for PPI networks

Documents pareils
Le CAC 40, parité, diversité : Synthèse de l enquête de République & Diversité, en partenariat avec le CRAN

CAC 40 : LES ENTREPRISES FEMINISEES

CONDITIONS DEFINITIVES EN DATE DU 05 MAI 2008 CONCERNANT DES BONS D'OPTION WARRANTS SUR ACTIONS ET INDICE AVEC REGLEMENT EN ESPECES

La réputation des entreprises se joue-t-elle sur les réseaux sociaux?

Présentation de la «Preuve d impôt» - IAS12 Quel est le format publié par les sociétés du CAC 40 dans leurs comptes consolidés en 2012?

Profil Financier du CAC 40

LIRE LA COTE BOURSIÈRE RE ET COMPRENDRE LES INDICES BOURSIERS

LES ACTIONNAIRES INDIVIDUELS RESTENT CONFIANTS EN 2012!

Information sectorielle : la transition d IAS 14 à IFRS 8 en France et en Allemagne

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Jean-Philippe Préaux

Opérations de croissance externe des sociétés du CAC 40

Pourquoi l apprentissage?

Liste des sociétés assujetties à la Taxe sur les Transactions Financières (TTF) pour l'année fiscale Multiple issuers

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

RAPPORT 2006 : CHAPITRE II

Invest, Innovate, Create. Euratechnologies 18 février 2015

FR AIR FRANCE-KLM Action ordinaire FR VIRBAC Action ordinaire FR VICAT Action ordinaire FR ALTAREA Action de

Une nouvelle approche de détection de communautés dans les réseaux sociaux

Resolution limit in community detection

Chapitre 5 : Flot maximal dans un graphe

Atelier Transversal AT11. Activité «Fourmis» Pierre Chauvet.

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Cours de Master Recherche

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Universum French Student Survey 2008

La classification automatique de données quantitatives

OPTIMISATION À UNE VARIABLE

Algorithmes d'apprentissage

Agrégation des portefeuilles de contrats d assurance vie

Sujet 4: Programmation stochastique propriétés de fonction de recours

Algorithmes de recherche


Les fonds souverains dans le capital d une entreprise internationale, enjeux et perspectives

RÉSULTATS 2001 PERSPECTIVES

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Identification de nouveaux membres dans des familles d'interleukines

Les experts du changement comportemental

Lois de probabilité. Anita Burgun

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

RAPPORT SEMESTRIEL. ACER ACTIONS S1 au Acer Finance Société de Gestion agrément AMF n GP-95009

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)

Calculs de probabilités

SEO Campus 2009 : Pagerank et optimisation

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Optez pour la liberté d entreprendre en toute sérénité

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Ecole Centrale Paris ENSEMBLE : LES ENTREPRISES ET L ECOLE CENTRALE PARIS

Application 1- VBA : Test de comportements d'investissements

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

MCMC et approximations en champ moyen pour les modèles de Markov

Big Data et Graphes : Quelques pistes de recherche

Créée en 1996, TRAD EST est aujourd hui l une des principales agences d ingénierie linguistique dédiées aux entreprises.

Rétablissement d un réseau cellulaire après un désastre

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Géométrie Algorithmique Plan du cours

Algorithmique avec Algobox

Le Master Mathématiques et Applications

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Programmation linéaire

CH.6 Propriétés des langages non contextuels

Algorithmes de Transmission et de Recherche de l Information dans les Réseaux de Communication. Philippe Robert INRIA Paris-Rocquencourt

Calculs de probabilités conditionelles

Big Data et Graphes : Quelques pistes de recherche

Créer et modifier un fichier d'import des coordonnées approximatives avec Excel

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Optimisation for Cloud Computing and Big Data

Cours de Recherche Opérationnelle IUT d Orsay. Nicolas M. THIÉRY. address: Nicolas.Thiery@u-psud.fr URL:

LA ROUMANIE en bref. Mars - Avril 2014

TRACER LE GRAPHE D'UNE FONCTION

Ineum Consulting. Pourquoi le PLM. Soirée Innovation industrielle «Usage des TIC en mode collaboratif & Industrie» Frédéric Morizot.

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Découverte et analyse de dépendances dans des réseaux d entreprise

Chapitre 7. Récurrences

Programmation linéaire

Eurocopter remporte le prix de la meilleure «image employeur»

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Une approche collaborative pour plus d efficacité urbaine. Septembre 2013

Octobre ACTU ISR n 8

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Cours des Méthodes de Résolution Exactes Heuristiques et Métaheuristiques

4e ATRIUM DeS MéTIeRS guide du visiteur

Les pratiques du sourcing IT en France

Architecture des Systèmes d Information Architecture des Systèmes d Information

Modélisation du comportement habituel de la personne en smarthome

Simulation de variables aléatoires

Problèmes d ordonnancement dans les systèmes de production. Journée Automatique et Optimisation Université de Paris Mars 2003

LE PROBLEME DU PLUS COURT CHEMIN

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

RECRUTEZ UN JEUNE TALENT EN APPRENTISSAGE EDHEC GRANDE ÉCOLE

FaceBook aime les Maths!

Groupe Stockage & Sauvegarde. François Dessables

Info0804. Cours 6. Optimisation combinatoire : Applications et compléments

PROSPECTUS SIMPLIFIÉ

Transcription:

Two modularity-based clustering algorithms and a Cytoscape plugin for PPI networks Laurent Tichit, Philippe Gambette et Alain Guénoche Institut de Mathématiques de Luminy - CNRS Université d'aix-marseille tichit@univmed.fr 16 novembre 2011

Sommaire 1. Partitionnement de graphe 2. Modularité et modularité entière 3. Fusion-Transfert (FT) 4. Transfert-Fusion itératif (TFit) 5. Évaluation 6. Plugin pour Cytoscape

Problème : le partitionnement d'un graphe Partitionnement d'un réseau : couvrir tous les sommets par des classes disjointes

Problème : le partitionnement d'un graphe G = (V, E) graphe simple, connexe, V = n, E = m Déterminer une partition P = {C 1,..., C k } P en classes connexes qui maximise la modularité à nb. de classes libre Notations δ symbole de Kronecker habituel P(x) la classe de x dans P δ P(x)P(y) = 1 si x et y sont réunis, δ P(x)P(y) = 0 sinon.

La modularité de Newman, 2004 Proportion d'arêtes ayant une extrémité dans C i et l'autre dans C j e ij = E (C i C j ) m Probabilité pour qu'une arête au hasard ait une extrémité dans C i a i = e ii + 1 2 e ij j i Modularité M(P) = (e ii a 2 i ) i=1,..p

La modularité de Newman Modularité : qualité du partitionnement (Newman, 2004) M(P) = M(C i ) classes C i M Ci = e ii (e ii + 1 e ij ) 2 2 e ij = proportion d'arêtes avec un sommet dans C i et l'autre dans C j j i

La modularité de Newman Modularité : qualité du partitionnement (Newman, 2004) M Ci M G = classes C i M(C i ) = e }{{} ii (e ii + 1 e ij ) 2 2 } j i {{ } proportion proportion d'arêtes d'arêtes attendue dans la observées classe C i s'il n'y dans la avait pas de classe C i communauté e ij = proportion d'arêtes avec un sommet dans C i et l'autre dans C j

La modularité de Newman e 11 = 3; e 12 = 2; e 13 = 1; e 14 = 1 M(C 1 ) = 3 ( 3+ 1 2 (2+1+1) ) 2 90 90 = 0.0302 Modularité : qualité du partitionnement (Newman, 2004) M G = M(C i ) classes C i M Ci = e ii (e ii + 1 e ij ) 2 2 j i e ij = proportion d'arêtes avec un sommet dans C i et l'autre dans C j

Modularité entière (Dutch & Arenas, 2005) Soit d x le degré de x dans G, Soit A la matrice d'incidence de G (A xy = 1 ssi (x, y) E) d x = (x,y) E A xy Soit B la matrice de terme général B xy = 2mA xy d x d y Q(P) = x y B xy δ P(x)P(y) Proposition (Dutch & Arenas, 2005) max M(P) max Q(P)

L'algorithme de Fusion-Transfert I Partie Fusion (hiérarchie) : Partir des singletons ; le gain de la fusion de toute paire de classes est w(x, y) Tant que W augmente réunir les deux classes donnant un gain maximum mettre à jour les gains de fusion de la nouvelle classe avec les autres classes Partie Transfert (optimisation) : Pour chaque élément de poids non maximum dans sa classe Le placer dans la classe où sa contribution est maximum, si contribution 0, Sinon, en faire un singleton Mettre à jour les contributions aux classes modiées

Exemple - Fusion Graphe G ; m = 9 ; B xy = 2mA xy d x d y Matrice A A B C D E F B 1 C 1 1 D 0 1 1 E 0 0 0 1 F 0 0 0 0 1 G 0 0 0 0 1 1 Matrice B A B C D E F B 12 C 12 9 D -6 9 9 E -6-9 -9 9 F -4-6 -6-6 12 G -4-6 -6-6 12 14 Q(P) = x y B xy δ P(x)P(y) Fusion des classes {F } et {G} Q(P) = 14

Exemple - Fusion Graphe G ; m = 9 ; B xy = 2mA xy d x d y Matrice A A B C D E F B 1 C 1 1 D 0 1 1 E 0 0 0 1 F 0 0 0 0 1 G 0 0 0 0 1 1 Matrice B A B C D E B 12 C 12 9 D -6 9 9 E -6-9 -9 9 F,G -8-12 -12-12 24 Q(P) = x y B xy δ P(x)P(y) P 0 = {A, B, C}; P 1 = {E, F, G}; P 2 = {D} w(p 0 ) = 12 + 12 + 9; w(p 1 ) = 14 + 12 + 12; w(p 2 ) = 0

Exemple - Fusion Matrice A A B C D E F B 1 C 1 1 D 0 1 1 E 0 0 0 1 F 0 0 0 0 1 G 0 0 0 0 1 1 Matrice B A B C D E B 12 C 12 9 D -6 9 9 E -6-9 -9 9 F,G -8-12 -12-12 24 Où placer D? Conserver le singleton w({d}) = 0 Fusionner avec P 0 w({d} {A, B, C}) = 6 + 9 + 9 Fusionner avec P 1 w({d} {E, F, G}) = 9 6 6 deux classes {A, B, C, D} et {E, F, G}.

L'algorithme de Fusion-Transfert I Partie Fusion (hiérarchie) : Partir des singletons ; le gain de la fusion de toute paire de classes est w(x, y) Tant que W augmente réunir les deux classes donnant un gain maximum mettre à jour les gains de fusion de la nouvelle classe avec les autres classes Partie Transfert (optimisation) : Pour chaque élément de poids non maximum dans sa classe Le placer dans la classe où sa contribution est maximum, si contribution 0, Sinon, en faire un singleton Mettre à jour les contributions aux classes modiées

L'algorithme de Fusion-Transfert II Partie Stochastique : Répéter Partir de la meilleure partition courante π Construire une partition aléatoire π en échangeant au hasard des éléments entre classes (nb. d'échanges tiré au hasard) Appliquer la partie Transfert π π Si W (π ) > W (π) alors π π Deux paramètres Nb. d'essais (infructueux) consécutifs NbEss Nb. maximum d'échanges pour engendrer une partition aléatoire SwapMax

Complexité polynomiale : O(n 3 ) + O(n 2 )+ NbEss O(n 2 ) 1. Partie Fusion : Tant que : O(n) itérations Trouver les 2 classes à fusionner : O(n 2 ) Mettre à jour les gains : O(n 2 ) 2. Partie Transfert : Calculer les poids des éléments : O(n 2 ) Tant qu'il existe... : O(n) itérations 3. Partie stochastique : Élément de poids non maximum : O(n) L'aecter au mieux : O(n) Mettre à jour les poids : O(n) Appliquer au moins NbEss fois la partie Transfert en O(n 2 )

Consanguinité des Conseils d'administration du CAC40 Michelin Schneider Vivendi PSA AirLiq Accor SocGen Vallourec Danone Veolia Sanofi Telecom CapGemini Dexia Renault AirFrance Axa Total Ricard EDF Oreal Carrefour Lafarge Pinaut Alcatel Vinci StGobain MicroElec Suez Bouygues GDF BNP Lagardere EADS Essilor LVMH CreditAgricole Unibail Alstom Arcelor

Les classes initiales du CAC 40 Class 1 : Accor AirFrance AirLiq Danone Dexia EDF PSA Renault SocGen Vallourec Veolia : 0.593 Class 2 : Axa CapGemini Lafarge Michelin Ricard Sano Schneider Telecom Vinci Vivendi : 0.739 Class 3 : Alstom Arcelor BNP Bouygues Carrefour EADS GDF LVMH Lagardere MicroElec Pinaut StGobain Suez Total : 0.527 Class 4 : Alcatel CreditAgricole Essilor Oreal Unibail : 0.717

Les classes du CAC 40 sont denses Dexia Lafarge Schneider Vinci Michelin EDF SocGen Telecom Vivendi CapGemini Axa VallourecVeolia Accor AirFrance Renault Danone Sanofi PSA AirLiq Ricard GDF Unibail MicroElec Suez StGobain Total Arcelor Oreal CreditAgricole Carrefour BNP Pinaut LVMH EADS Essilor Alcatel Lagardere Bouygues Alstom

TFit - Transferts - Fusions itérés Tant qu'on améliore la modularité : Classes : Sommets : Transfert de chaque élément vers la classe qui améliore le plus la modularité globale Fusions de classes qui améliorent la modularité globale

TFit - Transferts - Fusions itérés Classes : Sommets : Tant qu'on améliore la modularité : Pour chaque sommet, transfert vers la classe qui améliore le plus la modularité (T) Pour chaque classe, transfert vers celle qui améliore le plus la modularité (F)

TFit - Transferts - Fusions itérés Classes : Sommets : Tant qu'on améliore la modularité : Pour chaque sommet, transfert vers la classe qui améliore le plus la modularité (T) Pour chaque classe, transfert vers celle qui améliore le plus la modularité (F)

TFit - Transferts - Fusions itérés Classes : Sommets : Tant qu'on améliore la modularité : Pour chaque sommet, transfert vers la classe qui améliore le plus la modularité (T) Pour chaque classe, transfert vers celle qui améliore le plus la modularité (F)

TFit - Transferts - Fusions itérés Classes : Sommets : Tant qu'on améliore la modularité : Pour chaque sommet, transfert vers la classe qui améliore le plus la modularité (T) Pour chaque classe, transfert vers celle qui améliore le plus la modularité (F)

TFit - Transferts - Fusions itérés Classes : Sommets : Tant qu'on améliore la modularité : Pour chaque sommet, transfert vers la classe qui améliore le plus la modularité (T) Pour chaque classe, transfert vers celle qui améliore le plus la modularité (F)

TFit - Transferts - Fusions itérés Classes : Sommets : Tant qu'on améliore la modularité : Pour chaque sommet, transfert vers la classe qui améliore le plus la modularité (T) Pour chaque classe, transfert vers celle qui améliore le plus la modularité (F)

TFit - Transferts - Fusions itérés Classes : Sommets : Tant qu'on améliore la modularité : Pour chaque sommet, transfert vers la classe qui améliore le plus la modularité (T) Pour chaque classe, transfert vers celle qui améliore le plus la modularité (F)

TFit - Transferts - Fusions itérés Classes : Sommets : Tant qu'on améliore la modularité : Pour chaque sommet, transfert vers la classe qui améliore le plus la modularité (T) Pour chaque classe, transfert vers celle qui améliore le plus la modularité (F)

TFit - Transferts - Fusions itérés Classes : Sommets : Tant qu'on améliore la modularité : Pour chaque sommet, transfert vers la classe qui améliore le plus la modularité (T) Pour chaque classe, transfert vers celle qui améliore le plus la modularité (F)

TFit - Transferts - Fusions itérés Classes : Sommets : Tant qu'on améliore la modularité : Pour chaque sommet, transfert vers la classe qui améliore le plus la modularité (T) Pour chaque classe, transfert vers celle qui améliore le plus la modularité (F)

Benchmarks graphe n m Opt Louvain N-R FT TFit Dolphins 62 159.5285.5185.5276.5285.5268 polbooks 105 441.5272.5266.5272.5221.5269 afootball 115 613.6046.6046.6045.6032.6046 A01 249 635.6329.6145.6293.6310.6294 USAir97 332 2126.3682.3541.3678.3682.3612 netscience 379 914.8486.8475.8474.8474.8477 s388 512 819.8194.7962.8143.8122.8154 emails 1133 5452.5438.5816.5556.5747 Comparaison de FT et TFit avec d'autres méthodes (Louvain 2008, Noack & Rotta 2009) sur une suite de graphes. Partitions optimales (Aloise et al. 2010).

Application : ModClust plugin Implémentation des deux algorithmes dans un plugin Java pour Cytoscape. Application à l'analyse de réseaux d'interactions protéines-protéines.

Application : ModClust plugin Fonctionalités : Coloration de chaque classe Mise en évidence des noeuds connectés à d'autres classes Mise en évidence des arêtes inter-classes Sélection d'un ensemble de classes pour construire un nouveau graphe Partitionnement itératif

Application Code C et plugin Java téléchargeables sur http://bioinformatics.lif.univ-mrs.fr Remerciements à Anaïs Baudot (IML) et Christine Brun (TAGC, INSERM). Travaux nancés par l'anr Moonlight (prédiction de protéines multifonctionnelles). Merci