JS Varré Université Lille 1 jean-stephane.varre@lifl.fr http://www.lifl.fr/~varre jean-stephane.varre@lifl.fr 1 /
Pourquoi faire de l annotation automatique de protéines? Il est difficile de trouver expérimentalement la fonction d une protéine sans connaissance préalable Besoin de nombreuses expériences dans diverses conditions expérimentales Long et coûteux Pas garantie de résultats Besoin de points de départ pour orienter les recherches jean-stephane.varre@lifl.fr 2 /
Que peut-on prédire de façon automatique? La fonction de la protéine (pas finement) C est un transporteur de sucre, mais duquel? Certains domaines fonctionnels Cette partie de la protéine se lie à l ATP (molécule énergétique) Les modifications post-traductionnelles C est une protéine O-glycosylée sur tel acide aminé Les structures 2D et 3D des protéines La localisation cellulaire de la protéine C est une protéine membranaire jean-stephane.varre@lifl.fr 3 /
Limite des connaissances En général, plus de 30% des gènes d un génome sont de fonction inconnue Exemple d une bactérie, Bacillus subtilis 16% des gènes similaires à d autres gènes de fonction inconnue 26% des gènes sans similarité Exemple de la levure 6400 gènes dont 2.500 (39%) de fonction complètement inconnue. Il s agit de l un des organismes les plus étudiés du point de vue expérimental (génétique et biologie moléculaire). Son génome complet est disponible depuis 1996. Pour le génome humain, 60% des gènes sont complètement inconnus. Beaucoup de fonctions cellulaires sont encore à découvrir! jean-stephane.varre@lifl.fr 4 /
Prédiction de la fonction Comparaison de séquence Utilisation de Blast Pb : si la (les) région(s) trouvée(s) ne couvre(nt) pas toute la protéine, est-ce qu il s agit de la (les) régions importante(s) pour la fonction? Prédiction de domaines Des banques contiennent uniquement les régions importantes pour la fonction des protéines (domaines/motifs protéiques) Pb : comment définir ces domaines? Pb : comment identifier ces domaines sur une protéine inconnue? jean-stephane.varre@lifl.fr 5 /
Motifs et domaines protéiques Motifs protéiques Résidus essentiels à une fonction conservée (site actif) Résidus pas nécessairement consécutifs sur la séquence primaire, mais proches dans la structure 3D Ne se replient pas indépendamment Domaines protéiques Fragments de séquence contigus conservés dans une ou plusieurs familles Se replient indépendamment jean-stephane.varre@lifl.fr 6 /
Prosite, une banque de motifs protéiques Créée en 1988 (http://www.expasy.ch/prosite/) Motifs protéiques ayant une signification biologique particulière + documentation complète Deux représentations des motifs Pseudo-expression régulière ( pattern ) Matrice de poids (profil) Construite manuellement But : aide à l annotation protéique Recherche la présence de motifs dans une séquence jean-stephane.varre@lifl.fr 7 /
Construction d un pattern Prosite jean-stephane.varre@lifl.fr 8 /
Etapes de construction d un pattern Construction : Etude d un article de revue Recherche d autres séquences qui possèdent le motif Construction d un alignement multiple (correction à la main) Recherche de sites pertinents biologiquement Recherche d une séquence courte conservée (max. 5 résidus) Vérification de la qualité du pattern et correction éventuelle Bon pattern : Aussi court que possible Détecte toutes (ou presque) les séquences qui ont le motif Ne détecte pas trop de faux positifs jean-stephane.varre@lifl.fr 9 /
Exemple de motif protéique Basic-leucine zipper (bzip) Site trouvé dans des facteurs de transcription eucaryotes Fonction : Fixation à l ADN (reconnaissance d un palindrome de 6 nt) Dimérisation entre facteurs N Acc : PS000, PDOC000, PS50217 PFAM : PF00170 InterPro : IPR004827 jean-stephane.varre@lifl.fr 10 /
Construction du pattern de bzip TOXE_COCCA/19-34 RrklQNrvAQrKyRtR FOS_MESAU/143-157 Rr.eRNkmAAaKcRnR FOS_MOUSE/143-157 Rr.eRNkmAAaKcRnR FOS_MSVFB/143-157 Rr.eRNkmAAaKcRnR YA82_SCHPO/128-141 Ka..RNrqAAqKcRiK YDC3_SCHPO/270-284 Kr.rRNtaASaRfRiK YEN5_YEAST/389-404 RlleRNriAAsKcRqR YHA9_YEAST/149-164 KkkaQNraAQkAfReR [KR]-x(1,3)-[RKSAQ]-N-x(2)-[SAQ](2)-x-[RKTAENQ]-x-R-x-[RK] jean-stephane.varre@lifl.fr 11 /
Vérification de la qualité du pattern Trouvé dans 149 séquences 131 vrais positifs (avec bzip et pattern) 18 faux positifs (sans bzip, avec pattern) 62 faux négatifs (bzip, sans pattern) (3 seq tronquées) Sélectivité : 87,92 % Vrais positifs / (vrais positifs + faux positifs) Aptitude de la méthode à éviter les faux positifs Sensibilité : 68,95 % Vrais positifs / (vrais positifs + faux négatifs) Aptitude de la méthode à trouver tous les vrais positifs jean-stephane.varre@lifl.fr 12 /
Construction d une matrice de poids (profil) Même point de départ : alignement multiple Calcul du poids de chaque acide aminé pour chaque position pertinente Fréquence de chaque acide aminé de la colonne Equivalence entre acides aminés Recherche d un profil dans une séquence : Fréquence de l acide aminé présent dans la séquence étudiée Somme des fréquences trouvée à chaque position Profil trouvé si la somme est supérieure à un seuil propre au profil jean-stephane.varre@lifl.fr 13 /
La qualité du profil bzip Trouvé dans 180 séquences (tous vrais positifs) 13 faux négatifs (dont 2 séquences tronquées) Sélectivité : 100 % Vrais positifs / (vrais positifs + faux positifs) Aptitude de la méthode à éviter les faux positifs Sensibilité : 94,24 % Vrais positifs / (vrais positifs + faux négatifs) Aptitude de la méthode à trouver tous les vrais positifs jean-stephane.varre@lifl.fr 14 /
PFAM, une autre banque de motifs et domaines Gérée par le Sanger (http://www.sanger.ac.uk/software/pfam/) Construction et annotation automatiques des entrées Motifs et domaines représentés par des chaînes de Markov cachées (HMM) Permettent la modélisation des insertions-délétions Etapes de construction Mise en place à partir de séquences similaires Extension à des séquences de plus en plus éloignées jean-stephane.varre@lifl.fr 15 /
Construction du HMM de bzip RrklQNrvAQrKyRtR Rr.eRNkmAAaKcRnR Rr.eRNkmAAaKcRnR Rr.eRNkmAAaKcRnR Ka..RNrqAAqKcRiK Kr.rRNtaASaRfRiK RlleRNriAAsKcRqR KkkaQNraAQkAfReR jean-stephane.varre@lifl.fr 16 /
Exemples de banques de domaines Blocks Segments multiples alignés sans insertions-délétions Régions les plus conservées des protéines Calibrage contre la banque SwissProt Description du domaine : alignement Prodom Recherche de blocs par comparaison de toutes les séquences de SwissProt deux à deux Annotation automatique Description du domaine : consensus (acide aminé le plus fréquent) jean-stephane.varre@lifl.fr 17 /
InterPro Gérée par l EBI (http://www.ebi.ac.uk/interpro/) Contenu Superfamilles, familles, domaines, motifs, sites fonctionnels, modifications post-traductionnelles, structures 3D Regroupe plusieurs banques existantes Prosite, PFAM, Blocks, Prodom, Smart, Prints, TIGRFams, Superfamilly, SCOP, CATH, MSD Une entrée Description biologique détaillée Représentation de l objet par les différentes banques jean-stephane.varre@lifl.fr 18 /
Prédiction de la localisation cellulaire Prédiction de domaines transmembranaires Programmes basés sur l apprentissage à partir de protéines dont les domaines transmembranaires sont connus Critère principal : hydrophobicité des acides aminés Prédiction de peptide signal Peptide signal : suite d acides aminés située au début d une protéine et indiquant à la machinerie cellulaire vers quel compartiment adresser la protéine Aussi basé sur l apprentissage Les jeux d apprentissage sont spécifiques à un compartiment cellulaire jean-stephane.varre@lifl.fr 19 /
Part I Etude des structures 2D et 3D jean-stephane.varre@lifl.fr 20 /
Structures 3D de protéines 1958 : détermination de la première structure 3D de protéine par Kendrew et Perutz Découverte de la complexité de la structure 3D d une protéine Hypothèses de l époque : Deux protéines avec des séquences proches se replient de façon semblable Deux protéines ayant des structures 3D proches ont des séquences proches La structure 3D des protéines est déterminante pour leur fonction jean-stephane.varre@lifl.fr 21 /
wwpdb : la banque de structures 3D worldwilde Protein Data Bank Seule banque de structures 3D de protéines, acides aminés et grosses molécules biologiques 1971 : le RSCB (Research Collaboratory for Structural Bioinformatics) créé la banque PDB 2003 : regroupement des 3 banques de structures 3D en une seule RSCB (Research Collaboratory for Structural Bioinformatics) MSD (Macromolecular Structure Database) PDBj (Protein Data Bank Japan) jean-stephane.varre@lifl.fr 22 /
PDB, nombre d entrées jean-stephane.varre@lifl.fr 23 /
Structure d une partie de AP1 human jean-stephane.varre@lifl.fr 24 /
Classification structurale des protéines Classification des protéines basée sur leurs structures 2D, 3D et leur fonction Construction manuelle aidée d outils de comparaison de structures et de séquences 2 banques : SCOP CATH jean-stephane.varre@lifl.fr 25 /
SCOP, hiérarchie principale Structural Classification of Proteins Fold (similarités structurales majeures) Mêmes éléments 2D, dans le même ordre et avec la même topologie Superfamilly (possibilité d un ancêtre commun) Faible conservation de séquence Mais caractéristiques structurelles et fonctionnelles liées Familly (lien dans l évolution clairement démontré) Souvent > 30% identité jean-stephane.varre@lifl.fr 26 /
SCOP, les classes (haut de la hiérarchie) Protéines tout α Protéines tout β Protéines α/β (éléments α et β mélangés) Protéines α+β (éléments α et β séparés) Protéines multi-domaine Peptides et protéines de membrane et de surface Petites protéines Protéines coiled-coil Peptides Protéines artificielles jean-stephane.varre@lifl.fr 27 /
Hiérarchie de AP1 human dans SCOP 1 Root: scop 2 Class: Coiled coil proteins [57942] Not a true class 3 Fold: Parallel coiled-coil [57943] this is not a true fold; includes oligomers of shorter identical helices 4 Superfamily: Leucine zipper domain [57959] 5 Family: Leucine zipper domain [57960] 6 Protein: C-jun [57975] 7 Species: Human (Homo sapiens) [57976] jean-stephane.varre@lifl.fr 28 /
CATH, hiérarchie principale Class(C), Architecture(A), Topology(T) and Homologous superfamily (H). Class Architecture Topology Homologous Superfamily Sequence Family (S35) Non-identical (S95) Identical (S100) jean-stephane.varre@lifl.fr 29 /
Hiérarchie de AP1 human dans CATH 1.20.5.170.8.1.1 Class : Mainly Alpha Architecture : Up-down Bundle Topology : Single alpha-helices involved in coiled-coils or other helix-helix interfaces Homologous Superfamily : TRANSCRIPTION/DNA Sequence Family (S35) : TRANSCRIPTION/DNA Non-identical (S95) : TRANSCRIPTION/DNA Identical (S100) : TRANSCRIPTION/DNA jean-stephane.varre@lifl.fr 30 /
Prédiction de la structure des protéines Nbre protéines dans les banques (UniProt : 2.299.834) >> Nbre structures 3D expérimentales (PDB : 33.7 ) Besoin de logiciels de prédiction Efforts pour déterminer expérimentalement plus de structures 3D Difficultés de prédiction : Pas de règle simple d interactions entre acides aminés Des homologues distants peuvent avoir des structures proches Grande variété de structures jean-stephane.varre@lifl.fr 31 /
Prédiction de structure 2D Localisation des éléments de base de structure 2D Hélices α, feuillets β, boucles Reconnaissance de motifs Basée sur des règles de construction des éléments de base et l enchaînement de ces éléments dans les protéines Méthodes statistiques Apprentissage à partir d alignements multiples de séquences impliquées dans une hélice ou un feuillet (protéines de structure 3D connue) Résultats : en moyenne 70% des aa bien prédits jean-stephane.varre@lifl.fr 32 /
Exemple de prédiction 2D (site NPSA) KAERKRMRNRIAASKSRKRKLERIARLEEKVKTL Reel HHHHHHHHHHHHHHHHHHHHHHHHHHHHHHHH DSC hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh MLRC hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh PHD hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh Consensus hhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhhh KAQNSELASTANMLREQVAQLKQKVMNH HHHHHHHHHHHHHHHHHHHHTT hhcchhhhhhhhhhhhhhhhhhhhhhhh hhchhhhhhhhhhhhhhhhhhhhhhhhh AP1_human (254..315) hhcchhhhhhhhhhhhhhhhhhhhhhhh hhcchhhhhhhhhhhhhhhhhhhhhhhh jean-stephane.varre@lifl.fr 33 /
Exemple de prédiction 2D (PSIPRED) jean-stephane.varre@lifl.fr 34 /
Prédiction de structure 3D Modélisation 3D à partir d un homologue Recherche des séquences proches dans PDB Repliement de la seq inconnue à l aide de la structure connue Enfilage (threading) Banques représentatives des topologies de base Repliement de la seq dans chaque structure et sélection de la structure la plus probable Qualité de la prédiction Très variable selon la séquence étudiée Maximum entre 60 et 70% de bonne prédiction jean-stephane.varre@lifl.fr 35 /
Format des fichiers de structure 3D Ce sont des fichiers textes Format PDB (Brookhaven) : En-tête avec des informations générales sur les molécules modélisées (éventuellement leur structure 2D) Coordonnées des atomes qui composent la structure ATOM = atome de la protéine HETATM = HETeroAToM = atome des cofacteurs, substrats, ions,... liés par une liaison covalente à la protéine) mmcif (macromolecular Crystallographic Information Format) jean-stephane.varre@lifl.fr /