Réseaux cellulaires: une introduction Transcriptome et protéome Interactome Ac-CoA CoA NADH NAD+ NAD+ NADH Inférence d'un réseau de gènes
La complexité d'un organisme n'est pas fortement corrélé à la taille de son génome Organisme minimal synthétique ~400 gènes? Escherichia coli ~4,000 gènes Homo sapiens ~25,000 gènes À venir 1 m 0.6 x maïs = 1 x humain = 2 x mouche = 5 x levure = 6 x E coli
La complexité est ailleurs: fonctionnement intégré et dynamique de la cellule, des tissus, de l'organisme ADN motifs de régulation modifications chimiques accessibilité mutations ARNm abondance épissages variables signaux de régulation Protéine abondance état localisation structure 3D ½ vie Interactions de protéines partenaires direct/indirect affinité effet Organisme Conditions/temps Gènes
La complexité est ailleurs: fonctionnement intégré et dynamique de la cellule, des tissus, de l'organisme Interactome ensembles des complexes macromoléculaires Protéome Génome ensemble des protéines exprimées Transcriptome ensemble des ARNm
Transcriptome et protéome
Protéome Ensemble des protéines cellule, tissu, état abondance, stabilité modifications post traductionnelles Quelques gènes de la levure: Niveaux d'expression Transcriptome Ensemble des ARNm cellule, tissu, état abondance, stabilité épissages alternatifs
Protéome (presque) TOUS les gènes de la levure: niveaux d'expression Nature, 2003, 425:737. Transcriptome
Caractérisation des gènes exprimés: détection des messagers correspondants; notion d'adn complémentaire. Construction d'un ADNc à partir d'un ARNm (eucaryote) Exon 1 Exon 2 Exon 3 ADN ARNm mature AAAAAAAAn Amorçage par un oligo-t; Synthèse du 1er brin TTTTT AAAAAAAAn Hydrolyse de l'arn; synthèse du 2è brin ADN complémentaire TTTTTT AAAAAA
ADN complémentaires: une empreinte des gènes exprimés dans une cellule Ensemble des ARNm d'une cellule = le Transcriptome Amplification PCR, séquençage ADN simple brin complémentaires Mesure de niveaux d'expression; puces Séquençage ADN double brin clonage complémentaires... Banque
ADNc: banques de données www.ncbi.nlm.nih.gov/dbest
Niveaux d'expression: micropuces à ADN Un ensemble d'adnc déposés sur une lame de verre, permettant de révéler les ARNm d'un extrait cellulaire (munis d'un marqueur fluorescent; cf plus loin).
Identification directe des protéines produites? Une méthode qui associe séparation sur gel 2D et caractérisation par spectrométrie de masse Ensemble des protéines produites dans une cellule donnée sous des conditions données: le protéome.
Séparation de protéines sur un gel bidimensionnel (O'Farrell, 75) - 1) Séparation par le point isoélectrique 2) Séparation par la taille - bandes protéiques ph=8 Gel polyacrylamide + + ampholytes petites protéines protéines Gradient de ph ph=4 grosses protéines Gel polyacrylamide + SDS - Protéine repliée Protéine dépliée Ajout de détergent ionisé (SDS) - + - Les protéines sont dépliées et portent une charge proportionnelle à leur taille
Spectrométrie de masse: séparation en phase gazeuse selon le rapport masse/charge Identification du gène Un spot excisé du gel N C abondance Digestion trypsique 0 Rapport masse/charge 1600 Comparaison aux banques de séquences (SwissProt, trembl) et aux masses théoriques pour tous les peptides possibles obtenus par digestion trypsique
Escherichia coli 2364 spots détectés 3077 336 protéines 40 identifiées Cellules humaines de tumeur colo rectale SWISS 2DPAGE www.expasy.org/ch2d
Interactome: les interactions protéine protéine
Cytochrome c Cytochrome bc1 De nombreux complexes stables, voire permanents, sont caractérisés par cristallographie (haute résolution) ou microscopie électronique (basse résolution). 2 2
Une méthode expérimentale de détection d'une interaction plus fugitive: le double hybride Protéine appât Domaine de fixation Protéine chimérique: fusion entre une protéine d'intérêt A et une moitié d'un facteur de transcription (GAL4) Protéine proie Protéine chimérique: fusion entre une protéine d'intérêt P et l'autre moitié du facteur de transcription Domaine d'activation Gène rapporteur Gène contrôlé par le facteur de transcription GAL4 et dont l'expression est facile à détecter: eg, la protéine fluorescente verte: GFP
S il y a interaction entre l appât A et la proie P, le facteur de transcription (Gal4) se trouve reconstitué : expression du gène rapporteur h GFP Protéine Protéine proie Domaine appât d'activation Domaine de fixation Gène rapporteur Green Fluorescent Protein Banques de protéines chimériques; croisement sexuée de deux lignées de levure: recherche à l'échelle génomique; toutes les protéines sont des proies potentielles
Possibilité de faux positifs et faux négatifs surexpression interactions indirectes colocalisation forcée dans le noyau Faux positifs protéines instables ou toxiques complexe non productif,... Faux négatifs h Autre Protéine appât Domaine de fixation Protéine proie Domaine d'activation Gène rapporteur GFP
Une méthode expérimentale de détection d'une interaction physique indirecte: le TAP tag Tandem Affinity Purification Nature Biotechn. 1999, 17:1030 Les protéines restent repliées, pas besoin de surexpression, on capture non seulement la protéine d'intérêt mais aussi les protéines complexées avec elle. Peu de faux positifs N identifie pas les complexes transitoires Donc, beaucoup de faux négatifs ou
Une carte exhaustive des interactions connues dans la levure Graphe d'interactions Double hybride + techniques biochimiques Nature (2000) 403:623; (2002) 415:141
Une autre notion d'interaction: interaction fonctionnelle Eg: deux protéines interagissent si l'une régule l'expression de l'autre: TetA TetR périplasme Tc exporteur TetA cytoplasme ribosome Résistance tetr teto1 teto2 teta TetR induit (complexé par Tc) Le répresseur Tet (TetR) réprime l'expression de TetA et de TetR. En présence de tétracycline (Tc), il fixe Tc et se dissocie de l'adn. TetA est alors exprimé; il exporte Tc hors de la cellule.
Un réseau génétique artificiel oscillant: le repressilator rapporteur Molécules/cellule repressilator Temps (min) Elowitz & Leibler Nature (2000) 403:335
Une autre notion d'interaction: interaction fonctionnelle En présence de galactose et absence de glucose la levure bascule vers un régime métabolique particulier. En pratique: deux protéines interagissent si leurs niveaux d'expression co varient en fonction de paramètres extérieurs.
Il semble que les protéines qui ont une relation fonctionnelle tendent à être proches dans le graphe d'interactions physiques: possibilité de prédictions de fonctions
Inférence d'un réseau fonctionnel: un exemple
Une étude du métabolisme du galactose chez la levure: mesures d'interactions fonctionnelles et comparaison au réseau d'interactions physiques Ideker,.., Leroy Hood. Science 292: 929 (2001) Ideker et al Bioinformatics 18:S233 (2002)
Voie d'induction du galactose dans la levure 3 points de départ: La carte d'interactions physiques de la levure (cf plus haut); 332 protéines de la carte et dont l'expression est modifiée quand on élimine un parmi 9 gènes de la voie métabolique du galactose: gal1 gal7, gal10, ou gal80; Les changements d'expression mesurés quand on élimine gal80.
Comparaison du réseau d'interactions physiques avec des mesures d'interactions fonctionnelles. Cas test: un graphe de 332 protéines, incluant la voie du galactose Graphe extrait du graphe d'interactions physiques dans la levure. Protéines dont l'expression est sensible à une perturbation bien choisie (délétion de GAL80).
Voie d'induction du galactose dans la levure Objectifs: Vérifier que les interactions physiques et fonctionnelles sont corrélées Identifier les sous réseaux fortement couplés/corrélés. En déduire de nouveaux acteurs dans le métabolisme de la galactose Mieux comprendre les rôles biologiques des acteurs et leurs couplages
Expression sous deux conditions différentes mesurée par micropuces à ADNc http://pcf1.chembio.ntnu.no/ ~bka/images/microarrays.jpg
Micropuces à ADN Un ensemble d'adnc déposés sur une lame de verre, permettant de révéler les ARNm d'un extrait cellulaire (convertis en ADNc et munis d'un marqueur fluorescent).
Voie du galactose sous forme de graphe Variation d'expression (log10) +3 0-3 protéine - ADN protéine protéine Ideker et al. Science 292: 929 (2001)
Hypothèse de travail: les groupes de gènes dont l'expression co varie correspondent à des sous graphes bien distincts: notion de module Méthode: proposer des sous graphes; leur associer un score qui mesure la co variance des gènes correspondants. Score élevé: les protéines du sous graphe sont couplées fonctionnellement: bon candidat pour un module biologique. Score faible: pas de corrélation marquée: ce n'est pas un module.
Il nous faut: 1) une fonction de score pertinente pour sous graphes 2) une méthode efficace pour chercher les meilleurs sous graphes
Vers une méthode de score basée sur les changements d'expression et leur niveau de signification statistique: 6 étapes... 4 conditions expérimentales Sous-graphe de 4 protéines 1 2 3 4 A B.2.22.5.45.4.12.18.2 C D.03.2.5.42.15.02.3.1 Niveau d'expression, unités arbitraires
1) passage en unités réduites; notion de p value Protéines Conditions expérimentales A 1 2 3 4.2.22.5.55... Connaissant le bruit expérimental, on estime la probabilité d'obtenir chaque changement observé par hasard. Cette probabilité est appelée p value. Niveaux d'expression
2) passage en unités réduites, obtention de Z scores On suppose que le bruit est gaussien p(1.0)=0.159 Z(0.159)=1.0 Distribution normale réduite p-value 4 2 2 4 Z-score = le changement d'expression mesuré en unités réduites
4 conditions expérimentales Vers une méthode de score basée sur les changements d'expression et leur niveau de signification statistique 1 2 3 4 A B C D 1 1 3 2 2-1 0 1-2 0 3 3 1-2 2 0 Z-scores associés aux niveaux d'expression (=niveaux d'expression en unités réduites)
3) pour les 4 protéines et une condition expérimentale, on combine les Z scores selon une règle heuristique de sommation A B C D 1 2-2 1 1+2 2+1 =1 4 Changement net d'expression de l'ensemble des 4 protéines, en unités réduites (=unités de ).
4) prise en compte de plusieurs conditions expérimentales: pour les 4 protéines, on va maintenant classer les conditions par score décroissant expérimentales Conditions A(1) A(2) A(3) A(4)
expérimentales Conditions Est ce que les scores obtenus sont remarquables ou ordinaires?
Est ce que les scores obtenus sont remarquables ou ordinaires? Autrement dit: S'il n'y a pas de changement des niveaux d'expression (sous l'effet des perturbations génétiques appliquées), est ce qu'on peut raisonnablement obtenir les résultats mesurés par le simple fait du bruit expérimental (un bruit gaussien, supposé connu)? On va calculer la probabilité correspondante et en déduire un Z score.
5) obtention d'un Z score global, prenant en compte m conditions expérimentales: On va d'abord estimer la probabilité pa(j) que sur les m scores, les j premiers soient plus grands que A(j) (si on tire au hasard dans une distrib gaussienne) Soit PZ la proba que pour une condition expérimentale quelconque, le Z score soit plus grand que A(j). On a: (Eq 3, Ideker et al, 2002) proba d'avoir h scores sur m >= PZ et m h < PZ
5) prise en compte de m conditions expérimentales: obtention d'un Z score global On va d'abord estimer la probabilité pa,j que sur les m scores, les j premiers soient plus grands que A (si on tire au hasard dans une distrib gaussienne) Soit PZ la proba que pour une condition expérimentale quelconque, le Z score soit plus grand que A. On a: pa(j) (Eq 3, Ideker et al, 2002) 6) On convertit pa(j) en un Z score global, soit za(j) (estimation de la moyenne et l'écart type de A(j) passage en unités réduites)
Une méthode de score basée sur les changements d'expression et leur niveau de signification statistique expérimentales Conditions Score Final
Conclusion: le groupe {A,B,C,D} a un score de 4.2; son caractère corrélé se manifeste dans les conditions expérimentales 1 et 2. expérimentales Conditions Score Final
APPLICATION: chercher des modules actifs pour une délétion du gène gal80: sous graphes de scores élevés Gène perturbé (délété) Niveau d'expression modifiée
Complexité du problème 332 protéines: 2332 > 1099 sous ensembles possibles avec 2 conditions expérimentales: 10100 sous ensembles possibles avec 20 conditions expérimentales: 230 sous ensembles possibles d'où 29960 > 102998 combinaisons possibles On cherchera les sous graphes les plus significatifs en optimisant le score par une méthode de recuit simulé.
Recuit simulé: une méthode de Monte Carlo. Optimisation sur une surface d'énergie rugueuse Choix aléatoire d'un sous graphe initial Etape i de l'algorithme: Modification aléatoire du sous graphe par ajout/retrait de noeuds. Si le score A augmente, modification acceptée. Sinon, modification avec une probabilité a exp(a/t); rejet de la modification avec une probabilité 1 a exp(a/t). Température initiale T élevée; T décroit progressivement au fil des itérations T3 Score A T2 T1 {graphes}
ETAT INITIAL: Les 5 meilleurs sous graphes coloriés selon leur rang 1 2 3 4 5
ETAT INTERMEDIAIRE Les 5 meilleurs sous graphes coloriés selon leur rang 1 2 3 4 5
ETAT FINAL Les 5 meilleurs sous graphes coloriés selon leur rang 1 2 3 4 5
Score et température vs. nombre d'itérations
Application: 20 conditions GAL et leur effet sur le réseau complet des interactions dans la levure
Apparition de plusieurs sous graphes ou modules intéressants
Différentes conditions expérimentales sont impliquées dans différents modules Identification de nouveaux couplages: eg, rôle de gal7 comme senseur d'une éventuelle accumulation toxique de galactose 1 phosphate.
Notion de module Intégration de données hétérogènes: double hybride, puces à ADN Mise à l'échelle des données, estimations du bruit Méthodes statistiques pour identifer les réseaux remarquables Comparaison à un modèle nul (pas de changements d'expression; les observations résultent du bruit, gaussien) Optimisation sur une surface de score rugueuse Génération de nouvelles hypothèses biologiques
Application: un réseau perturbé par la protéine prion chez la souris Mort de cellules neuronales Pas de signes cliniques 2 semaines 12 semaines 18 semaines 22 semaines Signes cliniques 20 semaines Hwang et al (2009) Molec Systems Biology, 5:252
La cellule comme intégrateur/processeur d'informations. Vers une biologie des systèmes Hartwell et al., Nature 1999