Annotation de protéines

Transcription

1 Annotation de protéines Recherche d informations sur une séquence protéique Equipe Bonsai (2014)

2 Annotation expérimentale de protéines Il est difficile de trouver expérimentalement la fonction d une protéine sans connaissance préalable Besoin de nombreuses expériences dans diverses conditions expérimentales Long et coûteux Besoin d inactiver tous les gènes, voire des combinaisons de gènes (knockout, gene silencing [voir wikipedia]) Pas garantie de résultats Il faut trouver la condition dans laquelle le gène s exprime Il faut réussir à observer le phénotype lié au gène ou à son inactivation Il existe souvent des voies alternatives pour compenser l inactivation d un gène Besoin de points de départs pour orienter les recherches 2

3 Que peut-on prédire de façon automatique? La fonction de la protéine (pas finement) C est un transporteur de sucre, mais du quel? Certains domaines fonctionnels Cette partie de la protéine se lie à l ATP (molécule énergétique) Les modifications post-traductionnelles C est une protéine O-glycosylée sur tel acide aminé Les structures 2D et 3D des protéines La localisation cellulaire de la protéine C est une protéine membranaire 3

4 Limite des connaissances (2008) En général, > 30% des gènes d un génome sont de fonction inconnue Exemple d une bactérie, Bacillus subtilis 16% des gènes similaires à d autres gènes de fonction inconnue 26% des gènes sans similarité Exemple de la levure 6400 gènes dont (39%) de fonction complètement inconnue. Il s'agit de l'un des organismes les plus étudiés du point de vue expérimental (génétique et biologie moléculaire). Son génome complet est disponible depuis Pour le génome humain, 60% des gènes sont complètement inconnus. Beaucoup de fonctions cellulaires sont encore à découvrir! 4

5 PRÉDICTION DE LA FONCTION DES PROTÉINES 5

6 Prédiction de la fonction Comparaison de séquence Pb : si la région trouvée ne couvre pas toute la protéine, est-ce qu il s agit de la région importante pour la fonction? Prédiction de domaines/motifs protéiques Pb : comment définir puis représenter ces domaines/motifs? Pb : comment les identifier sur une protéine inconnue? Motifs protéiques Résidus essentiels à une fonction conservée (site actif) Résidus pas nécessairement consécutifs sur la séquence primaire, mais proches dans la structure 3D Domaines protéiques Fragments de séquence contigus conservés dans une ou plusieurs familles Se replient indépendamment 6

7 Détection de régions conservées Processus pour définir un domaine/motif protéique Choix d une famille de protéines Recherche de toutes les séquences appartenant à cette famille Construction d un alignement multiple à partir de ces séquences Cas 1 : à partir de connaissances expérimentales Identification de la région ou des acides aminés essentiels à la fonction sur une ou plusieurs protéines Localisation de cette région dans l alignement Correction éventuelle de l alignement Cas 2 : par détection automatique Extraction de régions fortement conservées dans l alignement Etape finale Extraction de la région conservée puis modélisation 7

8 Un exemple : l hormone pancréatique (PP) Hormone peptidique produite par le prancréas Régule les fonctions pancréatiques et gastrointestinales Banques de domaines InterPro: IPR001955, Pancreatic hormone PROSITE: PS00265, PS50276, PDOC00238, PANCREATIC_HORMONE PFAM: PF00159, Pancreatic hormone peptide Entrées de structure 3D 1FP8 (voir ci-contre) 8

9 Prosite, une banque de motifs protéiques Créée en 1988 ( Motifs protéiques ayant une signification biologique particulière + documentation complète Deux représentations des motifs Matrice poids-position («profil») Pseudo-expression régulière («pattern») Construite manuellement But : aide à l annotation protéique Recherche la présence de motifs dans une séquence 9

10 Prosite par l exemple: l hormone pancréatique section technique: 2 entrées associées : l une représenté par un profil (PS50276), l autre par une pattern (PS500265), 10

11 Prosite par l exemple (1/2): l entrée PS

12 Matrice poids-position de l entrée PS

13 Alignement des vrai-positifs de PS50276 PROFIL: 13

14 Prosite par l exemple (2/2): l entrée PS

15 Alignement des vrai-positifs de PS00265 PATTERN : [FY]-x(3)-[LIVM]-x(2)-Y-x(3)-[LIVMFY]-x-R-x-R-[YF] 15

16 Qu est-ce qu un bon pattern? Pertinent d un point de vue biologique Représentatif de la fonction décrite : Suffisamment tolérant Pas de sur-adaptation (e.g. spécialisation vers une sous-famille) Limiter le nombre de faux négatifs Détecte toutes (ou presque) les séquences qui ont la fonction Suffisamment discriminant Limiter le nombre de faux positifs Ne détecte pas trop de séquences qui n ont pas la fonction recherchée Construction d un pattern A l aide du logiciel PRATT ( Puis amélioration à la main 16

17 Construction d un pattern selon Prosite 17

18 Modélisation par expression régulière (pattern) NEUY CARAU/29-64 AEE..LAKYYSALRHYINLITRQRY PYY HUMAN/29-64 PEE..LNRYYASLRHYLNLVTRQRY PMY PETMA/1-36 PEE..LSKYMLAVRNYINLITRQRY PPY LOPAM/1-36 PED..WASYQAAVRHYVNLITRQRY PAHO BOVIN/30-65 PEQ..MAQYAAELRRYINMLTRPRY PAHO CHICK/26-61 VED..LIRFYNDLQQYLNVVTRHRY PAHO ANSAN/1-36 VED..LRFYYDNLQQYRLNVFRHRY NPF HELAS/4-39 PNE..LRQYLKELNEYYAIMGRTRF NPF MONEX/1-39 DNKAALRDYLRQINEYFAIIGRPRF [FY]-x(3)-[LIVM]-x(2)-Y-x(3)-[LIVMFY]-x-R-x-R-[YF] 18

19 Vérification de la qualité du pattern PS00265 Recherche du pattern dans les protéines de SwissProt Trouvé dans 84 séquences 81 vrais positifs (hormones pancréatiques possédant le pattern) 3 faux positifs (protéines quelconques possédant le pattern) 7 faux négatifs (hormones sans pattern dont 6 tronquées) Sélectivité : 96,43 % Vrais positifs / (vrais positifs + faux positifs) Aptitude de la méthode à éviter les faux positifs Sensibilité : 92,05 % Vrais positifs / (vrais positifs + faux négatifs) Aptitude de la méthode à trouver les vrais positifs 19

20 Vérification de la qualité du pattern PS

21 Vérification de la qualité du pattern PS

22 Exemple de détection du pattern PS00265 La séquence NPF_ARTTR contre le pattern de l hormone pancréatique >NPF_ARTTR KVVHLRPRSSFSSEDEYQIYLRNVSKYIQLYGRPRF PS00265 YlrnVskYiqlYgRpRF 22

23 Construction d une matrice de poids (profil) Même point de départ : alignement multiple Calcul du poids de chaque acide aminé pour chaque position pertinente Fréquence de chaque acide aminé de la colonne Equivalence entre acides aminés Recherche d un profil dans une séquence : Fréquence de l acide aminé présent dans la séquence étudiée Somme des fréquences trouvées à chaque position Profil (motif) trouvé si la somme est supérieure à un seuil propre au profil 23

24 Point de départ : matrice des positions A D E F H I K L M N P Q R S T V W Y

25 Vers plus de souplesse Autoriser des insertions ou des délétions Ajout de pénalités particulières via une colonne supplémentaire Autoriser des substitutions (entre acides aminés voisins) Profil i,a = b f i,b M(a, b) M(a, b) : score entre les acides aminés a et b (PAM, BLOSUM,... ) f i,b : fréquence du b ième acide aminé dans la colonne i de l alignement multiple. 25

26 Exemple 26

27 Recherche d un profil Score : alignement entre le profil et la séquence Les pénalités de substitutions et de gaps sont données par le profil Seuil d admission : E-value Banque de référence : SwissProt 27

28 Vérification de la qualité du profil PS50276 Trouvé dans 82 séquences (tous vrais positifs) 6 faux négatifs (dont 6 séquences tronquées) Sélectivité (Precision): 100 % Vrais positifs / (vrais positifs + faux positifs) Aptitude de la méthode à éviter les faux positifs (dans ce cas, les 82 séquences trouvées sont toutes positives) Sensibilité (Recall): % Vrais positifs / (vrais positifs + faux négatifs) Aptitude de la méthode ne pas «rater» des bonne séquences. 28

29 Vérification de la qualité du profil PS

30 Vérification de la qualité du profil PS

31 Exemple de détection du profil PS50276 La séquence NPF_ARTTR contre le profil de l hormone pancréatique Score: Consensus 1 PE.EAALAKYYAALRHYINLITRQRY 25 : :: :::::: : :: : : NPF_ARTTR 13 SEDEY.YQIYLRNVSKYIQLYGRPRF 37 31

32 PFAM, une autre banque de motifs et domaines Gérée par le Sanger Intitute ( Construction et annotation automatiques des entrée Motifs et domaines représentés par des chaînes de Markov cachées (HMM) Permettent la modélisation des insertions-délétions Etapes de construction Mise en place à partir de séquences similaires Extension à des séquences de plus en plus éloignées 32

33 PFAM par l exemple: l hormone pancréatique 33

37 PFAM : Modélisation avec des HMM HMM = Hidden Markov Model = Modèle de Markov caché Un ensemble d états Des probabilités de transitions entre les états Un ensemble d observations Une probabilité d émission qui indique pour chaque état la probabilité d y émettre telle information 37

38 Profil HMM - alignement sans indel PPY_LOPAM/1-36 PEDWASYQAAVRHYVNLITRQRY PAHO_BOVIN/30-65 PEQMAQYAAELRRYINMLTRPRY PAHO_CHICK/26-61 VEDLIRFYNDLQQYLNVVTRHRY PAHO_ANSAN/1-36 VEDLRFYYDNLQQYRLNVFRHRY NPF_HELAS/4-39 PNELRQYLKELNEYYAIMGRTRF 1 observation = 1 acide aminé 1 état = 1 colonne de l alignement multiple émissions = fréquences de chaque a.a. 38

39 Profil HMM - alignement avec insertions Une insertion est un fragment de la séquence qui n apparait pas dans le modèle Nouvel état : insertion PPY_LOPAM/1-36 PED..WASYQAAVRHYVNLITRQRY PAHO_BOVIN/30-65 PEQ..MAQYAAELRRYINMLTRPRY PAHO_CHICK/26-61 VED..LIRFYNDLQQYLNVVTRHRY PAHO_ANSAN/1-36 VED..LRFYYDNLQQYRLNVFRHRY NPF_HELAS/4-39 PNE..LRQYLKELNEYYAIMGRTRF NPF_MONEX/1-39 DNKAALRDYLRQINEYFAIIGRPRF 39

40 Profil HMM - alignement avec délétions Une délétion est un fragment du modèle qui ne correspond à aucun acide aminé Ajout d états silencieux, qui n émettent rien PMY_PETMA/1-36 PEE..LSKYMLAVRNYINLITRQRY PPY_LOPAM/1-36 PED..WASYQAAVRHYVNLITRQRY PAHO_BOVIN/30-65 PEQ..MAQYAAELRRYINMLTRPRY PAHO_CHICK/26-61 VED..LIRFYNDLQQYLNVVTRHRY PAHO_ANSAN/1-36 VED..LRFYYDNLQQYRLNVFRHRY NPF_HELAS/4-39 PNE..LRQYLKELNEYYAIMGRTRF NPF_MONEX/1-39 DNKAALRDYLRQINEYFAIIGRPRF Q9PT97/29-62 AEE..LAKYYSALRHYINLITRQ.. 40

41 En résumé Etats matchants : colonnes avec moins de 50% de indel Etats d insertion : majorité de insertion (losange) Etats de délétion : majorité de deletion (rond) Probabilités d émission : nombre d occurrences de chaque acide aminé Probabilités de transition : nombre de séquences empruntant la transition Correction avec les pseudo-comptes : +1 à chaque compte (loi de Laplace) 41

42 Un exemple d occurrence du HMM La séquence NPF_ARTTR contre le HMM de l hormone pancréatique Alignments of top-scoring domains: hormone3: domain 1 of 1, from 3 to 36: score 48.4, E = 1.1e-13 *->ypskdfpenpgddaspeeelaqylralrqyinlitrpry<-* ++++ P++++s+E+e+++Ylr++++Yi+l++RpR+ 3 VHLR-----PRSSFSSEDEYQIYLRNVSKYIQLYGRPRF 36 Le HMM «Hormone_3» ou «Pancreatic hormone peptide» est trouvé dans 119 séquences de UniProt 42

43 Autres banques de domaines Blocks Segments multiples alignés sans insertions-délétions Régions les plus conservées des protéines Calibrage contre la banque SwissProt Description du domaine : alignement Prodom Recherche de blocs par comparaison de toutes les séquences de Uniprot deux à deux Annotation automatique Description du domaine : consensus (acide aminé le plus fréquent) 43

44 InterPro. Gérée par l EBI ( Contenu Superfamilles, familles, domaines, motifs, sites fonctionnels, modifications post-traductionnelles, structures 3D Regroupe plusieurs banques existantes Prosite, PFAM, Blocks, Prodom, Smart, Prints, TIGRFams, Superfamilly, SCOP, CATH, MSD Une entrée Description biologique détaillée Représentation de l objet par les différentes banques 44

45 InterPro : différents modèles et annotations Modèles utilisés Annotations produites 45

46 InterPro : objets biologiques et classification Objets biologiques : Famille, Domaine, Répétitions, Site Deux classifications hiérarchiques : Familles et Domaines (ATTENTION : 2 classifications indépendantes et ) 46

47 InterPro : objets biologiques 47

48 InterPro : les familles Une Famille Ensemble de protéines ayant une ou des fonctions proches, dues à leurs origine commune (inférée par similarité de structure et/ou séquence) Les Familles peuvent être organisées en une Hiérarchie 48

49 InterPro : les familles Exemple : famille GPCR kinases (IPR000239), sans hiérarchie dans 2 slides 49

50 InterPro : les domaines Un Domaine En règle générale : partie d une protéine qui se replie & reste stable (structure tertiaire) indépendamment du reste de la protéine Sauf que un Domaine InterPro peut être structurel mais aussi fonctionnel ou conservé au niveau séquence (fourre tout pratique ) Domaines : Hiérarchie possible (idem Familles). Protéines : domaines souvent organisés en «modules» Exemple : dans la famille GPCR kinases (IPR000239), un «module» de 4 domaines apparaît sur 119 protéines de cette famille sous cette forme : Regulator of G protein signalling (IPR000342) Protein kinase domain (IPR000719) AGC-kinase, Pleckstrin C-terminal homology (IPR000961) domain (IPR001849) 50

51 Organisation des domaines dans les familles 51

52 Organisation des domaines vs autres domaines Pour un domaine donné (ou ses fils dans la hierarchie), quels sont les domaines co-occurents dans les protéines? 52

53 Organisation des domaines vs autres domaines En Orange : protein kinase domain (ou ses fils dans la hiérarchie) 53

54 Organisation des domaines dans les proteines? En Orange : protein kinase domain (ou ses fils dans la hiérarchie) 54

55 InterPro par l exemple: l hormone pancréatique 55

61 InterPro : interface d'interrogation simple 61

62 InterProScan : interface d'interrogation 62

63 InterProScan : résutats [résumé] 63

64 InterProScan : résutats [entrée interpro] 64

65 Prédiction de la localisation cellulaire Prédiction de domaines transmembranaires Programmes basés sur l apprentissage à partir de protéines dont les domaines transmembranaires sont connus Critère principal : hydrophobicité des acides aminés TopPred [sur mobyle], TMHMM [cbs.dtu.dk], voir Prédiction de peptide signal Peptide signal : suite d acides aminés située au début d une protéine et indiquant à la machinerie cellulaire vers quel compartiment adresser la protéine Aussi basé sur l apprentissage (jeux d apprentissage spécifiques à un compartiment cellulaire) SignalP [cbs.dtu.dk], Prédictions de localisation cellulaire TargetP [cbs.dtu.dk], Psort [psort.org], voir (liste impressionnante!) 65

66 Prédiction de domaines transmembranaires (1/2) Exemple de résultat pour TopPred: 66

67 Prédiction de domaines transmembranaires (2/2) Exemple de résultat pour TM-HMM: 67

68 Prédiction de peptite signal (1/2) Exemple de résultat pour signalp-nn (NN = Neural Networks) voir 68

69 Prédiction de peptite signal (2/2) Exemple de résultat pour signalp-hmm: The common structure of signal is commonly described as a positively charged n-region, followed by a hydrophobic h-region and a neutral but polar c-region. voir 69

70 Localisation du peptite signal mtp, a mitochondrial targeting peptide SP, Secretory pathway voir 70

71 Localisation du peptite signal Loc Prediction of localization, based on the scores above; the possible values are: C Chloroplast, i.e. the sequence contains ctp, a chloroplast transit peptide; M Mitochondrion, i.e. the sequence contains mtp, a mitochondrial targeting peptide; S Secretory pathway, i.e. the sequence contains SP, a signal peptide; _ Any other location; * "don't know"; indicates that cutoff restrictions were set (see instructions) and the winning network output score was below the requested cutoff for that category. RC Reliability class, from 1 to 5, where 1 indicates the strongest prediction. RC is a measure of the size of the difference ('diff') between the highest (winning) and the second highest output scores. There are 5 reliability classes, defined as follows: 1 : diff > : > diff > : > diff > : > diff > : > diff 71

72 Etude des structures 2D et 3D

73 Prédiction de la structure des protéines Nbre protéines dans les banques (UniProt : ) >> Nbre structures 3D expérimentales (PDB : ) Besoin de logiciels de prédiction Efforts pour déterminer expérimentalement plus de structures 3D Difficultés de prédiction : Pas de règle simple d interactions entre acides aminés Des homologues distants peuvent avoir des structures proches Grande variété de structures 73

74 Prédiction de structure 2D Localisation des éléments de base de structure 2D Hélices α, feuillets β, boucles Reconnaissance de motifs Basée sur des règles de construction des éléments de base et l enchaînement de ces éléments dans les protéines Méthodes statistiques Apprentissage à partir d alignements multiples de séquences impliquées dans une hélice ou un feuillet (protéines de structure 3D connue) Résultats : en moyenne 70% des aa bien prédits 74

75 Exemple de prédiction 2D (site NPSA) KAERKRMRNRIAASKSRKRKLERIARLEEKVKTL Réel HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH DSC hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh MLRC hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh PHD hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh Consensus hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh KAQNSELASTANMLREQVAQLKQKVMNH HHHHHHHHHHHHHHHHHHHHTT hhcchhhhhhhhhhhhhhhhhhhhhhhh hhchhhhhhhhhhhhhhhhhhhhhhhhh hhcchhhhhhhhhhhhhhhhhhhhhhhh hhcchhhhhhhhhhhhhhhhhhhhhhhh AP1_human ( ) 75

76 Exemple de prédiction 2D (PSIPRED) 76

77 Prédiction de structure 3D Modélisation 3D à partir d un homologue Recherche des séquences proches dans PDB Repliement de la seq inconnue à l aide de la structure connue Enfilage (threading) Banques représentatives des topologies de base Repliement de la seq dans chaque structure et sélection de la structure la plus probable Qualité de la prédiction Très variable selon la séquence étudiée Maximum entre 60 et 70% de bonne prédiction 77

78 Format des fichiers de structure 3D Ce sont des fichiers textes Format PDB (Brookhaven) : En-tête avec des informations générales sur les molécules modélisées (éventuellement leur structure 2D) Coordonnées des atomes qui composent la structure ATOM = atome de la protéine HETATM = HETeroAToM = atome des cofacteurs, substrats, ions,... lié à la protéine mmcif (macromolecular Crystallographic Information Format) HEADER NEUROPEPTIDE 09-JUL-04 1TZ4 TITLE [HPP19-23]-PNPY BOUND TO DPC MICELLES COMPND MOLECULE: PANCREATIC HORMONE; SEQRES 1 A 37 TYR PRO SER LYS PRO ASP ASN... SEQRES 2 A 37 ALA GLU ASP LEU ALA GLN TYR... SEQRES 3 A 37 TYR ILE ASN LEU ILE THR ARG... ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM ATOM N C C O C C C C C C C

79 Annotation au niveau de l organisme Le but est de voir plus loin qu un gène ou une protéine isolée

80 Quelles sont toutes les fonctions cellulaires? Difficile de faire la liste de toutes les fonctions cellulaires Elles sont nombreuses Elles varient selon les organismes Pas de relation simple entre protéine (ou autre) et fonction Une protéine plusieurs fonctions (n domaines, selon le contexte) Une fonction plusieurs protéines (complexes, duplications) Relations différentes selon les organismes Existence de nombreux noms pour une même fonction Besoin de créer une ontologie pour avoir une description universelle des fonctions cellulaires

81 Une nomenclature pour les enzymes : EC Créée dans les années 60 et mise à jour régulièrement Décrit toutes les fonctions enzymatiques connues à l aide d un code en quatre parties (EC ) Les 6 classes principales, les sous-classes, les sous-sous-classes, le numéro de série Les 6 classes principales : Classe 1 : Oxydoréductases Classe 2 : Transférases Classe 3 : Hydrolases Classe 4 : Lyases Classe 5 : Isomérases Classe 6 : Ligases

82 Une nomenclature générale : Gene Ontology Créée fin 90 et mise à jour régulièrement But : fournir un vocabulaire contrôlé applicable à tout organisme, même si les connaissances sur les rôles des gènes et des protéines évoluent constamment. 3 dictionnaires structurés Processus cellulaires Ex : Polarité de l axe antéro-postérieur, Glycolyse, Fonctions moléculaires Ex : Facteur de transcription, Enzyme, Composants cellulaires Ex : Noyau, Cytoplasme, Membrane, Complexe moléculaire,

83 Les processus cellulaires 4 grands types de processus cellulaires : Voies métaboliques Réseaux de régulation Transduction de signaux Transports membranaires Les autres processus cellulaires Synthèse des protéines (transcription, traduction, ) Réplication de l ADN Division cellulaire (mitose / méiose) Structure de la cellule (cytosquelette, membrane)

84 Exemples d ontologies Composants cellulaires Fonctions moléculaires Processus cellulaires

85 MetaCyc, une banque de voies métaboliques Banque de données de voies métaboliques non redondantes et découvertes expérimentalement, couvrant plus de 2460 organismes Schémas des voies (une voie par organisme) Informations sur les enzymes, protéines, gènes et composés Informations sur la régulation des gènes La banque la plus complète concerne E. coli

86 Metacyc : la voie de synthèse du tryptophane (E. coli) Produits Produits+Enzymes/Gènes/EC+régulation

87 Metacyc : la voie de synthèse du tryptophane (E. coli) trpe, trpd trpd trpc trpa trpc trpb trpx : gènes Source : Metacyc

88 Metacyc : les gènes liés à cette voie (E. coli) Localisation sur le génome Régulation L opéron trp Source : Metacyc

89 Comparaison des «voies du tryptophane» Escherichia coli trpe, trpd trpd trpc trpc trpa trpb 2 protéines 1 fonction (complexe) 1 protéine 2 fonctions Bacillus subtilis 2 protéines 1 fonction (duplication possible) trpe, paba trpd ynai / trpf trpc trpa trpb 2 protéines 2 fonctions

90 Comparaison de la localisation des gènes trp Escherichia coli Bacillus subtilis

91 Recherche d un gène ayant une fonction donnée Première méthode : Trouver une protéine ayant cette fonction chez un organisme proche de celui étudié, Rechercher cette protéine sur le génome à l aide de BlastX. Inconvénient : il faut bien choisir la protéine qui sert de sonde. Deuxième méthode : Trouver un (ou plusieurs) motif(s)/domaine(s) protéique(s) qui caractérise(nt) la fonction recherchée. Rechercher ce(s) motif(s)/domaine(s) sur la séquence génomique traduite dans les 6 phases de lecture. Inconvénient : très long! Est-ce que ce «travail» n est pas déjà fait?

92 Les banques de connaissances, KEGG KEGG : Kyoto Encyclopedia of Genes and Genomes Les données sont représentées sous la forme : de Graphes Listes de voisinages / Matrices de voisinages / Graphes (nœud = objet, arrête = interaction) d Arbres / DAG Hiérarchies 15 banques de données liées

93 Les banques de KEGG

94 KEGG : Pathways Construction manuelle des schémas métaboliques D après les publications Le schéma pour une voie représente toutes les alternatives possibles Les organismes n utilisent pas tous les même réactions pour aboutir au même composé chimique Les gènes pour un organisme donné sont colorés dans le schéma général Lien entre gène et fonction de la protéine codée par le gène

95 Un exemple de schéma de KEGG Assemblage du flagelle Source : KEGG

96 Un exemple de schéma de KEGG [1] [2] Assemblage du flagelle Source : KEGG

97 Un exemple de hiérarchie fonctionnelle BRITE [1] Assemblage du flagelle Source : KEGG

98 Un exemple de table d orthologues de KEGG [2]

99 SIMULATION DYNAMIQUE DES RÉSEAUX CELLULAIRES

100 Limites des représentations statiques Difficiles à lire Besoin de commentaires pour comprendre le fonctionnement du réseau cellulaire Pas de simulation possible + X + Y -

101 Avantage des représentations dynamiques Le fonctionnement complet du réseau est simulé Besoin de formaliser les connaissances Mise en place d aller-retour entre simulation et expérimentation Découverte d étapes manquantes pour que le réseau fonctionne Recherche des molécules effectuant ces étapes dans la cellule Simulations dans différentes conditions Variation des points d entrée du réseau Simulation de mutations (inactivation, sur-expression, ) Disfonctionnements (maladie, élément perturbateur, )

102 Limites des représentations dynamiques Besoin de nombreuses données expérimentales Seuils de concentration des molécules impliquées : Passage de l état actif à l état inactif Plus le réseaux compte de partenaires, plus il est difficile à simuler Trop de variables à prendre en compte Besoin des connaissances en biologie ET en informatique ou mathématique Nécessite la mise en place de collaborations étroites entre équipes de différentes disciplines (cela prend du temps)

103 Généralités sur les réseaux de régulation Un réseau (ou circuit) est un ensemble d interactions Les composants d un réseau cellulaire peuvent être des molécules biologiques ou d autres stimuli (lumière, chaleur, ) Une interaction = effet d un composant sur un autre composant du réseau Un réseau de régulation concerne les gènes et leurs produits, mais aussi la concentration en une molécule,

104 Les circuits positifs Nombre paire (voire nul) d interactions négatives X + + Y X - - Y [X] et [Y] augmentent [X] ou [Y] augmente X ou Y ont un effet positif sur eux-mêmes Ces circuits sont impliqués dans la différentiation cellulaire ou la mémoire.

105 Les circuits négatifs Nombre impaire d interactions négatives X - X Y - + [X] stable [X] et [Y] stables X et Y ont un effet négatif sur eux-mêmes Ces circuits sont impliqués dans le maintient d un état stable, dans l homéostasie

106 La simulation par réseaux booléens Réseau booléen = Graphe orienté Nœud = molécule biologique (gène, protéine, ) ou stimulus (lumière, ) Arrête = fonction booléenne (2 valeurs : 0/1, transcrit/non transcrit, présent/absent, ) Définition du graphe et des tables de vérités Schéma des interactions entre éléments du réseau Successions des états possibles du système Construction du graphe d états Les chemins possibles dans le graphe descriptif Découverte des états stables : soit un cycle, soit un point fixe

107 La simulation par équations différentielles Les équations différentielles sont des égalités faisant intervenir des fonctions et leurs dérivées Les dérivées représentent la variation de concentration d une molécule (dx) dans un laps de temps dt. L équation représente les différents éléments qui agissent sur la concentration de la molécule Limites : il faut connaître les concentrations pour résoudre les équations. Possibilité : estimation des paramètres.