Réseaux cellulaires: une introduction

Documents pareils
CHAPITRE 3 LA SYNTHESE DES PROTEINES

TD de Biochimie 4 : Coloration.

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

LA MITOSE CUEEP - USTL DÉPARTEMENT SCIENCES BAHIJA DELATTRE

Les OGM. 5 décembre Nicole Mounier

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

ACIDES BASES. Chap.5 SPIESS

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Transformations nucléaires

De la physico-chimie à la radiobiologie: nouveaux acquis (I)

AGRÉGATION DE SCIENCES DE LA VIE - SCIENCES DE LA TERRE ET DE L UNIVERS

MABioVis. Bio-informatique et la

MASTER (LMD) MANAGEMENT DE PROJET ET INNOVATION EN BIOTECHNOLOGIE

ULBI 101 Biologie Cellulaire L1. Le Système Membranaire Interne

Introduction à la Génomique Fonctionnelle

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Thème sélection génétique des plantes hybridation et génie génétique

Pourquoi l apprentissage?

Resolution limit in community detection

Introduction au datamining

LE PROBLEME DU PLUS COURT CHEMIN

Big Data et Graphes : Quelques pistes de recherche

Univers Vivant Révision. Notions STE

Biomarqueurs en Cancérologie

3: Clonage d un gène dans un plasmide

Contrôle de l'expression génétique :

Analyse de la variance Comparaison de plusieurs moyennes

Big Data et Graphes : Quelques pistes de recherche

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Les outils de génétique moléculaire Les techniques liées aux acides nucléiques

Chaînes de Markov au lycée

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Production d une protéine recombinante

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

MYRIAD. l ADN isolé n est à présent plus brevetable!

4 : MÉTHODES D ANALYSE UTILISÉES EN ÉCOLOGIE MICROBIENNE

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Vieillissement moléculaire et cellulaire

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

Par : Abdel YEZZA, Ph.D. Date : avril 2011 / mise à jour oct (ajout de la section 3 et augmentation de la section 1)

LES BIOTECHNOLOGIES DANS LE DIAGNOSTIC DES MALADIES INFECTIEUSES ET LE DÉVELOPPEMENT DES VACCINS

Une conférence-débat proposée par l Institut National de la Recherche Agronomique

β-galactosidase A.2.1) à 37 C, en tampon phosphate de sodium 0,1 mol/l ph 7 plus 2-mercaptoéthanol 1 mmol/l et MgCl 2 1 mmol/l (tampon P)

SESSION 2013 ÉPREUVE À OPTION. (durée : 4 heures coefficient : 6 note éliminatoire 4 sur 20) CHIMIE

ALGORITHME GENETIQUE ET MODELE DE SIMULATION POUR L'ORDONNANCEMENT D'UN ATELIER DISCONTINU DE CHIMIE

La reconnaissance moléculaire: la base du design rationnel Modélisation moléculaire: Introduction Hiver 2006

Conférence technique internationale de la FAO

Principes d implémentation des métaheuristiques

Activité 38 : Découvrir comment certains déchets issus de fonctionnement des organes sont éliminés de l organisme

Les effets de température

Chapitre 7 : Structure de la cellule Le noyau cellulaire

Big data et sciences du Vivant L'exemple du séquençage haut débit

Application 1- VBA : Test de comportements d'investissements

Eco-système calcul et données

CHAPITRE VIII : Les circuits avec résistances ohmiques

Montréal, 24 mars David Levine Président et chef de la direction DL Strategic Consulting. DL Consulting Strategies in Healthcare

INFORMATION GÉNÉTIQUE et REPRODUCTION SEXUÉE

CASA SPERM CLASS ANALYZER

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Mario Geiger octobre 08 ÉVAPORATION SOUS VIDE

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Introduction aux bases de données: application en biologie

Retour d expérience, portage de code Promes dans le cadre de l appel à projets CAPS-GENCI

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Environmental Research and Innovation ( ERIN )

Rapport Scientifique Seine-Aval 3

Université d Evry-Val d Essonne Ecole Doctorale des Génomes Aux Organismes. Thèse

Critères pour les méthodes de quantification des résidus potentiellement allergéniques de protéines de collage dans le vin (OIV-Oeno )

Marchés Financiers. Cours appliqué de finance de marché. Change

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

SKW. Les enzymes dans la technologie des détergents. Schweizerischer Kosmetikund Waschmittelverband

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

données en connaissance et en actions?

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)

Jean-Philippe Préaux

QU EST-CE QU UN CHAUFFE-EAU THERMODYNAMIQUE?

Cellules procaryotes Service histologie Pr.k.mebarek

Compléments - Chapitre 5 Spectroscopie

AGREGATION DE BIOCHIMIE GENIE BIOLOGIQUE

UE : GENE Responsable : Enseignant : ECUE 1. Enseignant : ECUE 2. Dr COULIBALY Foungotin Hamidou

Principe d un test statistique

évaluation des risques professionnels

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

VI- Expression du génome

PHYSIQUE Discipline fondamentale

CATALOGUE DES PRESTATIONS DE LA

Hépatite chronique B Moyens thérapeutiques

Stages - le calendrier

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

POKER ET PROBABILITÉ

ÉJECTEURS. CanmetÉNERGIE Juillet 2009

SERVICES DE SEQUENÇAGE

Les pôles commerciaux et leurs magasins

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

Gènes Diffusion - EPIC 2010

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Transcription:

Réseaux cellulaires: une introduction Transcriptome et protéome Interactome Ac-CoA CoA NADH NAD+ NAD+ NADH Inférence d'un réseau de gènes

La complexité d'un organisme n'est pas fortement corrélé à la taille de son génome Organisme minimal synthétique ~400 gènes? Escherichia coli ~4,000 gènes Homo sapiens ~25,000 gènes À venir 1 m 0.6 x maïs = 1 x humain = 2 x mouche = 5 x levure = 6 x E coli

La complexité est ailleurs: fonctionnement intégré et dynamique de la cellule, des tissus, de l'organisme ADN motifs de régulation modifications chimiques accessibilité mutations ARNm abondance épissages variables signaux de régulation Protéine abondance état localisation structure 3D ½ vie Interactions de protéines partenaires direct/indirect affinité effet Organisme Conditions/temps Gènes

La complexité est ailleurs: fonctionnement intégré et dynamique de la cellule, des tissus, de l'organisme Interactome ensembles des complexes macromoléculaires Protéome Génome ensemble des protéines exprimées Transcriptome ensemble des ARNm

Transcriptome et protéome

Protéome Ensemble des protéines cellule, tissu, état abondance, stabilité modifications post traductionnelles Quelques gènes de la levure: Niveaux d'expression Transcriptome Ensemble des ARNm cellule, tissu, état abondance, stabilité épissages alternatifs

Protéome (presque) TOUS les gènes de la levure: niveaux d'expression Nature, 2003, 425:737. Transcriptome

Caractérisation des gènes exprimés: détection des messagers correspondants; notion d'adn complémentaire. Construction d'un ADNc à partir d'un ARNm (eucaryote) Exon 1 Exon 2 Exon 3 ADN ARNm mature AAAAAAAAn Amorçage par un oligo-t; Synthèse du 1er brin TTTTT AAAAAAAAn Hydrolyse de l'arn; synthèse du 2è brin ADN complémentaire TTTTTT AAAAAA

ADN complémentaires: une empreinte des gènes exprimés dans une cellule Ensemble des ARNm d'une cellule = le Transcriptome Amplification PCR, séquençage ADN simple brin complémentaires Mesure de niveaux d'expression; puces Séquençage ADN double brin clonage complémentaires... Banque

ADNc: banques de données www.ncbi.nlm.nih.gov/dbest

Niveaux d'expression: micropuces à ADN Un ensemble d'adnc déposés sur une lame de verre, permettant de révéler les ARNm d'un extrait cellulaire (munis d'un marqueur fluorescent; cf plus loin).

Identification directe des protéines produites? Une méthode qui associe séparation sur gel 2D et caractérisation par spectrométrie de masse Ensemble des protéines produites dans une cellule donnée sous des conditions données: le protéome.

Séparation de protéines sur un gel bidimensionnel (O'Farrell, 75) - 1) Séparation par le point isoélectrique 2) Séparation par la taille - bandes protéiques ph=8 Gel polyacrylamide + + ampholytes petites protéines protéines Gradient de ph ph=4 grosses protéines Gel polyacrylamide + SDS - Protéine repliée Protéine dépliée Ajout de détergent ionisé (SDS) - + - Les protéines sont dépliées et portent une charge proportionnelle à leur taille

Spectrométrie de masse: séparation en phase gazeuse selon le rapport masse/charge Identification du gène Un spot excisé du gel N C abondance Digestion trypsique 0 Rapport masse/charge 1600 Comparaison aux banques de séquences (SwissProt, trembl) et aux masses théoriques pour tous les peptides possibles obtenus par digestion trypsique

Escherichia coli 2364 spots détectés 3077 336 protéines 40 identifiées Cellules humaines de tumeur colo rectale SWISS 2DPAGE www.expasy.org/ch2d

Interactome: les interactions protéine protéine

Cytochrome c Cytochrome bc1 De nombreux complexes stables, voire permanents, sont caractérisés par cristallographie (haute résolution) ou microscopie électronique (basse résolution). 2 2

Une méthode expérimentale de détection d'une interaction plus fugitive: le double hybride Protéine appât Domaine de fixation Protéine chimérique: fusion entre une protéine d'intérêt A et une moitié d'un facteur de transcription (GAL4) Protéine proie Protéine chimérique: fusion entre une protéine d'intérêt P et l'autre moitié du facteur de transcription Domaine d'activation Gène rapporteur Gène contrôlé par le facteur de transcription GAL4 et dont l'expression est facile à détecter: eg, la protéine fluorescente verte: GFP

S il y a interaction entre l appât A et la proie P, le facteur de transcription (Gal4) se trouve reconstitué : expression du gène rapporteur h GFP Protéine Protéine proie Domaine appât d'activation Domaine de fixation Gène rapporteur Green Fluorescent Protein Banques de protéines chimériques; croisement sexuée de deux lignées de levure: recherche à l'échelle génomique; toutes les protéines sont des proies potentielles

Possibilité de faux positifs et faux négatifs surexpression interactions indirectes colocalisation forcée dans le noyau Faux positifs protéines instables ou toxiques complexe non productif,... Faux négatifs h Autre Protéine appât Domaine de fixation Protéine proie Domaine d'activation Gène rapporteur GFP

Une méthode expérimentale de détection d'une interaction physique indirecte: le TAP tag Tandem Affinity Purification Nature Biotechn. 1999, 17:1030 Les protéines restent repliées, pas besoin de surexpression, on capture non seulement la protéine d'intérêt mais aussi les protéines complexées avec elle. Peu de faux positifs N identifie pas les complexes transitoires Donc, beaucoup de faux négatifs ou

Une carte exhaustive des interactions connues dans la levure Graphe d'interactions Double hybride + techniques biochimiques Nature (2000) 403:623; (2002) 415:141

Une autre notion d'interaction: interaction fonctionnelle Eg: deux protéines interagissent si l'une régule l'expression de l'autre: TetA TetR périplasme Tc exporteur TetA cytoplasme ribosome Résistance tetr teto1 teto2 teta TetR induit (complexé par Tc) Le répresseur Tet (TetR) réprime l'expression de TetA et de TetR. En présence de tétracycline (Tc), il fixe Tc et se dissocie de l'adn. TetA est alors exprimé; il exporte Tc hors de la cellule.

Un réseau génétique artificiel oscillant: le repressilator rapporteur Molécules/cellule repressilator Temps (min) Elowitz & Leibler Nature (2000) 403:335

Une autre notion d'interaction: interaction fonctionnelle En présence de galactose et absence de glucose la levure bascule vers un régime métabolique particulier. En pratique: deux protéines interagissent si leurs niveaux d'expression co varient en fonction de paramètres extérieurs.

Il semble que les protéines qui ont une relation fonctionnelle tendent à être proches dans le graphe d'interactions physiques: possibilité de prédictions de fonctions

Inférence d'un réseau fonctionnel: un exemple

Une étude du métabolisme du galactose chez la levure: mesures d'interactions fonctionnelles et comparaison au réseau d'interactions physiques Ideker,.., Leroy Hood. Science 292: 929 (2001) Ideker et al Bioinformatics 18:S233 (2002)

Voie d'induction du galactose dans la levure 3 points de départ: La carte d'interactions physiques de la levure (cf plus haut); 332 protéines de la carte et dont l'expression est modifiée quand on élimine un parmi 9 gènes de la voie métabolique du galactose: gal1 gal7, gal10, ou gal80; Les changements d'expression mesurés quand on élimine gal80.

Comparaison du réseau d'interactions physiques avec des mesures d'interactions fonctionnelles. Cas test: un graphe de 332 protéines, incluant la voie du galactose Graphe extrait du graphe d'interactions physiques dans la levure. Protéines dont l'expression est sensible à une perturbation bien choisie (délétion de GAL80).

Voie d'induction du galactose dans la levure Objectifs: Vérifier que les interactions physiques et fonctionnelles sont corrélées Identifier les sous réseaux fortement couplés/corrélés. En déduire de nouveaux acteurs dans le métabolisme de la galactose Mieux comprendre les rôles biologiques des acteurs et leurs couplages

Expression sous deux conditions différentes mesurée par micropuces à ADNc http://pcf1.chembio.ntnu.no/ ~bka/images/microarrays.jpg

Micropuces à ADN Un ensemble d'adnc déposés sur une lame de verre, permettant de révéler les ARNm d'un extrait cellulaire (convertis en ADNc et munis d'un marqueur fluorescent).

Voie du galactose sous forme de graphe Variation d'expression (log10) +3 0-3 protéine - ADN protéine protéine Ideker et al. Science 292: 929 (2001)

Hypothèse de travail: les groupes de gènes dont l'expression co varie correspondent à des sous graphes bien distincts: notion de module Méthode: proposer des sous graphes; leur associer un score qui mesure la co variance des gènes correspondants. Score élevé: les protéines du sous graphe sont couplées fonctionnellement: bon candidat pour un module biologique. Score faible: pas de corrélation marquée: ce n'est pas un module.

Il nous faut: 1) une fonction de score pertinente pour sous graphes 2) une méthode efficace pour chercher les meilleurs sous graphes

Vers une méthode de score basée sur les changements d'expression et leur niveau de signification statistique: 6 étapes... 4 conditions expérimentales Sous-graphe de 4 protéines 1 2 3 4 A B.2.22.5.45.4.12.18.2 C D.03.2.5.42.15.02.3.1 Niveau d'expression, unités arbitraires

1) passage en unités réduites; notion de p value Protéines Conditions expérimentales A 1 2 3 4.2.22.5.55... Connaissant le bruit expérimental, on estime la probabilité d'obtenir chaque changement observé par hasard. Cette probabilité est appelée p value. Niveaux d'expression

2) passage en unités réduites, obtention de Z scores On suppose que le bruit est gaussien p(1.0)=0.159 Z(0.159)=1.0 Distribution normale réduite p-value 4 2 2 4 Z-score = le changement d'expression mesuré en unités réduites

4 conditions expérimentales Vers une méthode de score basée sur les changements d'expression et leur niveau de signification statistique 1 2 3 4 A B C D 1 1 3 2 2-1 0 1-2 0 3 3 1-2 2 0 Z-scores associés aux niveaux d'expression (=niveaux d'expression en unités réduites)

3) pour les 4 protéines et une condition expérimentale, on combine les Z scores selon une règle heuristique de sommation A B C D 1 2-2 1 1+2 2+1 =1 4 Changement net d'expression de l'ensemble des 4 protéines, en unités réduites (=unités de ).

4) prise en compte de plusieurs conditions expérimentales: pour les 4 protéines, on va maintenant classer les conditions par score décroissant expérimentales Conditions A(1) A(2) A(3) A(4)

expérimentales Conditions Est ce que les scores obtenus sont remarquables ou ordinaires?

Est ce que les scores obtenus sont remarquables ou ordinaires? Autrement dit: S'il n'y a pas de changement des niveaux d'expression (sous l'effet des perturbations génétiques appliquées), est ce qu'on peut raisonnablement obtenir les résultats mesurés par le simple fait du bruit expérimental (un bruit gaussien, supposé connu)? On va calculer la probabilité correspondante et en déduire un Z score.

5) obtention d'un Z score global, prenant en compte m conditions expérimentales: On va d'abord estimer la probabilité pa(j) que sur les m scores, les j premiers soient plus grands que A(j) (si on tire au hasard dans une distrib gaussienne) Soit PZ la proba que pour une condition expérimentale quelconque, le Z score soit plus grand que A(j). On a: (Eq 3, Ideker et al, 2002) proba d'avoir h scores sur m >= PZ et m h < PZ

5) prise en compte de m conditions expérimentales: obtention d'un Z score global On va d'abord estimer la probabilité pa,j que sur les m scores, les j premiers soient plus grands que A (si on tire au hasard dans une distrib gaussienne) Soit PZ la proba que pour une condition expérimentale quelconque, le Z score soit plus grand que A. On a: pa(j) (Eq 3, Ideker et al, 2002) 6) On convertit pa(j) en un Z score global, soit za(j) (estimation de la moyenne et l'écart type de A(j) passage en unités réduites)

Une méthode de score basée sur les changements d'expression et leur niveau de signification statistique expérimentales Conditions Score Final

Conclusion: le groupe {A,B,C,D} a un score de 4.2; son caractère corrélé se manifeste dans les conditions expérimentales 1 et 2. expérimentales Conditions Score Final

APPLICATION: chercher des modules actifs pour une délétion du gène gal80: sous graphes de scores élevés Gène perturbé (délété) Niveau d'expression modifiée

Complexité du problème 332 protéines: 2332 > 1099 sous ensembles possibles avec 2 conditions expérimentales: 10100 sous ensembles possibles avec 20 conditions expérimentales: 230 sous ensembles possibles d'où 29960 > 102998 combinaisons possibles On cherchera les sous graphes les plus significatifs en optimisant le score par une méthode de recuit simulé.

Recuit simulé: une méthode de Monte Carlo. Optimisation sur une surface d'énergie rugueuse Choix aléatoire d'un sous graphe initial Etape i de l'algorithme: Modification aléatoire du sous graphe par ajout/retrait de noeuds. Si le score A augmente, modification acceptée. Sinon, modification avec une probabilité a exp(a/t); rejet de la modification avec une probabilité 1 a exp(a/t). Température initiale T élevée; T décroit progressivement au fil des itérations T3 Score A T2 T1 {graphes}

ETAT INITIAL: Les 5 meilleurs sous graphes coloriés selon leur rang 1 2 3 4 5

ETAT INTERMEDIAIRE Les 5 meilleurs sous graphes coloriés selon leur rang 1 2 3 4 5

ETAT FINAL Les 5 meilleurs sous graphes coloriés selon leur rang 1 2 3 4 5

Score et température vs. nombre d'itérations

Application: 20 conditions GAL et leur effet sur le réseau complet des interactions dans la levure

Apparition de plusieurs sous graphes ou modules intéressants

Différentes conditions expérimentales sont impliquées dans différents modules Identification de nouveaux couplages: eg, rôle de gal7 comme senseur d'une éventuelle accumulation toxique de galactose 1 phosphate.

Notion de module Intégration de données hétérogènes: double hybride, puces à ADN Mise à l'échelle des données, estimations du bruit Méthodes statistiques pour identifer les réseaux remarquables Comparaison à un modèle nul (pas de changements d'expression; les observations résultent du bruit, gaussien) Optimisation sur une surface de score rugueuse Génération de nouvelles hypothèses biologiques

Application: un réseau perturbé par la protéine prion chez la souris Mort de cellules neuronales Pas de signes cliniques 2 semaines 12 semaines 18 semaines 22 semaines Signes cliniques 20 semaines Hwang et al (2009) Molec Systems Biology, 5:252

La cellule comme intégrateur/processeur d'informations. Vers une biologie des systèmes Hartwell et al., Nature 1999