THESE. présentée. devant L UNIVERSITE CLAUDE BERNARD- LYON 1. pour l obtention. Du dipôme de doctorat (arrété du 30 mars 1992) M.

Transcription

1 N d ordre : Année 2002 THESE présentée devant L UNIVERSITE CLAUDE BERNARD- LYON 1 pour l obtention Du dipôme de doctorat (arrété du 30 mars 1992) présentée et soutenue publiquement par M. Mounir ERRAMI Le 20 novembre 2002 Titre : Analyse statistique des structures tridimensionnelles de protéines et validation de familles structurales à bas taux d identité. Directeur de thèse : PR. GILBERT DELÉAGE JURY Dr. Jacques CHOMILIER, Rapporteur Dr. Olivier POCH, Rapporteur Dr. Laurent DURET Pr. Bernard ROUX Pr. Gilbert DELÉAGE Pr. Michel VAN DER REST Pr. Gilbert DELÉAGE 1

2 INTRODUCTION RAPPELS BIBLIOGRAPHIQUES LES BASES DE DONNEES PROTEIQUES Les bases de séquences protéiques Les bases généralistes Les bases spécialisées : bases de domaines protéiques et d alignements multiples Les bases de données intégrées Les bases de données structurales Protein Data Bank Les bases de données articulées autour de la PDB DBcat : Le catalogue des bases base de données en biologie Les systèmes d interrogation des bases de données OUTILS BIOINFORMATIQUES D ANALYSE DES SEQUENCES PROTEIQUES Recherche d homologie par comparaison de séquences Définitions Alignement par paire de séquences Application : recherche d homologie dans les bases de séquences Autres outils de recherche d homologie Recherche de motifs (pattern) Utilisation des profils Analyse de la compatibilité de structures secondaires Utilisation des structures tridimensionnelles ETUDE D UNE FAMILLE DE PROTEINES : ALIGNEMENTS MULTIPLES Algorithme d alignement multiple progressif CLUSTALW MultAlin Autres programmes d alignement multiple progressif Algorithmes d alignement multiple itératif et simultané Validation des méthodes d alignement multiple OUTILS BIOINFORMATIQUES D ETUDE DES STRUCTURES SECONDAIRES DES PROTEINES Les structures secondaires des protéines et le diagramme de Ramachandran Moyens d attribution des structures secondaires des protéines à partir des structures tridimensionnelles DSSP Autres outils d attribution automatique des structures secondaires Prédiction des structures secondaires des protéines Méthodes de statistiques linéaires

3 Méthodes basées sur l homologie Méthodes basées sur l apprentissage Apport de l information biologique et méthodes consensuelles OUTILS BIOINFORMATIQUES D ETUDE DES STRUCTURES TRIDIMENSIONNELLES DES PROTEINES Les structures tridimensionnelles des protéines Ponts disulfures Interactions électrostatiques & liaisons hydrogènes Interactions hydrophobes Prédiction des structures tridimensionnelles Modélisation moléculaire par homologie Threading OUTILS BIOINFORMATIQUES D ANALYSE SPECIALISEE DES PROTEINES Profils physico-chimiques Détection de motifs coiled-coils (super hélices) Détection de motifs hélice-coude-hélice (fixation à l ADN) Prédiction de segments trans-membranaires ANALYSE DE LA CONSERVATION DES ACIDES AMINES A ROLE STRUCTURAL AU SEIN DES PROTEINES STRATEGIE GLOBALE MATERIELS ET METHODES Matériel informatique Les langages de programmation C/C++ et la fonction system() Le C Le C La fonction system() Le langage Tcl et le package Tk Protéines de structures connues Création de la base de données d interactions, modifications du programme DSSP Recherche de protéines homologues aux protéines de la PDB Recherche d homologie Constitution des sous-bases de séquences Calcul des alignements multiples Calculs statistiques Conservation des interactions Paires d acides aminés témoins Paramètres statistiques étudiés Analyse de la conservation des glycines Implémentation des concepts et définition des objets en C

4 Matérialisation des interactions Recherche d homologie et alignement multiple Prédictions des structures secondaires Calcul de la conservation des interactions dans les alignements multiples Schéma récapitulatif RESULTATS Développement logiciel Extractblast BioRead Conservation des acides aminés dans les alignements multiples Conservation des ponts disulfures Conservation des interactions électrostatiques Conservation des interactions hydrophobes Conservation des glycines CONCLUSION ET DISCUSSION DES RESULTATS CONCERNANT LA CONSERVATION DES ACIDES AMINES AU SEIN DES ALIGNEMENTS MULTIPLES PERSPECTIVES VALIDATION DES FAMILLES STRUCTURALES A BAS TAUX D IDENTITE, A L AIDE D ALIGNEMENTS MULTIPLES ET DES PREDICTIONS DE STRUCTURES SECONDAIRES MATERIEL ET METHODES Stratégie Alignements de référence SSSD BAliBASE Compatibilité des structures secondaires Prédiction des structures secondaires Calculs des alignements témoins et des paramètres SOV RESULTATS Comparaison des SOV réels et des SOV témoins SSSD BAliBASE EXEMPLE D APPLICATION BIOLOGIQUE DISCUSSION CONCLUSION GENERALE ANNEXES

5 5

6 Introduction Les protéines, macromolécules essentielles à la vie, sont constituées d acides aminés. Pour chaque protéine, les acides aminés qui la constituent s enchaînent les uns à la suite des autres dans un ordre précis, dicté par le code génétique. Cet enchaînement constitue la structure primaire ou séquence de la protéine. La séquence d une protéine est une mine d informations, qu il incombe au biologiste d exploiter au mieux. Les méthodes prédictives actuelles apportent un complément particulièrement utile aux résultats qui peuvent être obtenus par des approches expérimentales biochimiques classiques. Toutefois une méthode prédictive nécessite des connaissances obtenues par l expérience pour la mise au point d algorithmes de prédiction. Les techniques biochimiques modernes ont permis d obtenir très rapidement un nombre impressionnant de données concernant un nombre tout aussi impressionnant de macromolécules biologiques. Sans parler des programmes internationaux de séquençage de génomes complets. L utilisation de l informatique a permis de stocker efficacement cette «monstrueuse» quantité de données : il est assez simple de retrouver une information précise à l aide de systèmes d interrogation particulièrement puissants. Par ailleurs, toutes ces données sont mises à la disposition de toute la communauté scientifique via Internet, probablement la plus grande révolution technologique du siècle écoulé. Toutes ces données ont pu être mises à profit pour l élaboration de méthodes prédictives diverses, utilisant des algorithmes souvent assez complexes. Là encore l apport de l informatique est incontestable en ayant permis d implémenter ces algorithmes. Ainsi le stockage, la vitesse de calcul et la mise à disposition des connaissances font de l informatique un outil indispensable dans le domaine des la recherche scientifique, à tel point que dans le domaine de la Biologie, une discipline en est née : la Bioinformatique. Les enjeux de la Bioinformatique sont divers. D une façon générale, elle apporte une assistance aux biologistes, et leur permet d avoir très rapidement des informations précises, à l aide des méthodes prédictives sur la base de connaissances établies. C est souvent une première étape, une orientation pour aider le biologiste à mettre au point un protocole expérimental, une stratégie. Par conséquent les techniques bioinformatiques ne remplacent pas les techniques biochimiques, elles en sont complémentaires. Devant la croissance explosive du nombre de séquences comparativement aux structures tridimensionnelles, il est indispensable de disposer d outils d analyse des séquences aidant à la prédiction ou à la caractérisation des rôles fonctionnels et surtout structuraux des acides aminés et leur importance au sein des protéines. Il existe deux principaux moyens pour s assurer de l importance des acides aminés au sein d une protéine. Le premier est purement expérimental et consiste à muter l acide aminé (par mutagenèse dirigée par exemple) et à étudier l effet de la mutation sur les propriétés physico-chimiques de la protéine (activité, vitesse de catalyse, stabilité à la température ou à des agents dénaturants...). Cette première méthode est certes fine et élégante, mais aussi relativement 6

7 longue et coûteuse car elle est «lourde» puisqu il n est pas possible d automatiser une telle procédure. Chaque acide aminé doit faire l objet d une investigation qui lui est propre. Ces techniques sont utilisables à «petite échelle» et ne permettent d étudier que quelques acides aminés d une protéine. La seconde, complémentaire de la première consiste à étudier la conservation des acides aminés au sein d une famille protéique. L importance structurale et/ou fonctionnelle des acides aminés doit se traduire par une plus forte conservation de ces derniers dans les familles protéiques. Ceci revient à étudier cette conservation au sein d alignements multiples. Quelles que soient les techniques employées, les très nombreuses expériences de ce type ont permis de dégager certains principes de base comme la conservation des zones hydrophobes dans le cœur des protéines (Markiewics et al., 1994 ; Rennell et al. ; 1991 ), la conservation des caractéristiques physico-chimiques des sites actifs (Lesk & Chothia, 1980 ), ou encore la conservation des résidus polaires aux interfaces protéiques (Hu et al., 2000 ). Il y a eu donc beaucoup d études qui portent chacune sur un aspect bien précis quant à l importance des acides aminés au sein des protéines. La première partie de mon travail de thèse consiste en l étude de la conservation des acides aminés impliqués dans les interactions telles que les ponts disulfures (ou cystines), les interactions électrostatiques et les interactions hydrophobes. Les études menées jusqu ici ne considèrent qu un seul type d interaction voir quelques acides aminés, et par ailleurs aucune n est exhaustive puisqu elles se cantonnent pour la quasi-totalité d entre elles à l étude de quelques protéines. Concernant l étude de la conservation des interactions électrostatiques par exemple, Musafia et al. (1995) utilisent 94 protéines, Schueler et Margalit (1995) quant à eux utilisent 8 familles protéiques. Cependant, on retrouve déjà dans ces travaux, l étude de l influence de l accessibilité et des structures secondaires dans la conservation des acides aminés. Pour notre part, nous avons mis en place une stratégie originale pour l étude statistique exhaustive des structures tridimensionnelles. Nous établissons les relations entre les alignements multiples de séquences et la conservation de caractéristiques structurales particulières au sein de protéines. Nous montrons notamment que les acides aminés impliqués dans les ponts disulfures, les interactions hydrophobes ou électrostatiques sont particulièrement conservés dans les alignements multiples, suggérant l apport potentiel des alignements multiples pour la prédiction des structures tridimensionnelles. Lors de ce travail, nous avons montré que les alignements les plus informatifs sont constitués de séquences apparentées faiblement similaires. Cependant il n est pas aisé de valider des familles structurales à faible similarité. La seconde partie de mon travail de thèse a eu pour but d apporter une solution à ce problème Les protéines peuvent être regroupées en familles et sous-familles, caractérisées par des repliements, des sites et des fonctions caractéristiques. L un des fondements essentiels sur lequel cette classification s établit est la comparaison des séquences protéiques sous la forme d alignements multiples, qui permettent d établir rapidement des prédictions sur les fonctions biologiques, ou même d établir des relations phylogénétiques entre les protéines. Ces alignements multiples, offrent à travers 7

8 l analyse de la conservation des résidus, un moyen rapide de caractériser une protéine. Il est plus aisé d établir ces relations d homologie qui lient les protéines lorsque les séquences sont similaires et présentent une identité élevée (>30%), simplement parce que l homologie est d autant plus évidente que les séquences sont similaires. Ceci n implique pas que des protéines non similaires ne sont pas homologues. Toute la difficulté est de valider les familles protéiques lorsque la similarité est faible. Différentes approches existent, mais elles ont essentiellement comme support l alignement de deux protéines. Une approche consiste à exploiter la transitivité de l homologie et ainsi utiliser une ou des protéines «relais» pour établir les relations entre protéines, à bas taux d identité (Teichman et al., 2000). Une autre solution a été d améliorer les algorithmes de recherche de similarité pour les rendre plus sensibles, c est le cas de PSI-BLAST (Altschul et al., 1997). Enfin, une plus récente consiste à utiliser l information des structures secondaires prédites pour valider la parenté structurale qui lie deux protéines à bas taux d identité (Geourjon et al., 2001). En effet, les prédictions de structures secondaires sont connues pour être des informations particulièrement efficaces pour améliorer les processus de reconnaissance du repliement tridimensionnel (fold recognition) que ce soit par modelisation ab initio ou par threading. Différentes méthodes de prédiction de structure tridimensionnelles basées sur les séquences et utilisant les structures secondaires prédites existent comme GenTHREADER (Jones et al., 1999) ou encore TOPITS (Rost, 1995). Depuis 1998, toutes les méthodes de reconnaissance du repliement efficaces (pour revue, Proteins, supplément 3, 1999) mettent à profit les prédictions de structures secondaires, montrant que les structures secondaires prédites peuvent être particulièrement utiles pour la prédiction des structures tridimensionnelles et donc pour établir les relations structurales entre des protéines de structure inconnue. Un autre outil bioinformatique particulièrement utile pour établir ces relations consiste à calculer et à analyser des alignements multiples. Dans ce domaines, quelques méthodes existent telles que AL2CO pour analyser la conservation des positions (Pei et al., 2001), la méthode de Hertz & Stormo (1999) qui consiste à établir la signification statistique des alignements multiples, ou encore la méthode décrite par Thompson (et al., 2001) qui utilise une fonction de scoring : normd. Dans la seconde partie du travail de thèse, une nouvelle méthode d analyse des alignements multiples est proposée. Celle-ci consiste à exploiter les prédictions des structures secondaires, dans le but de détecter les séquences «intruses» dans un alignement multiple alors que l identité entre les séquences ne distinguent pas ces intrus des autres séquences des alignements multiples. Afin de resituer le cadre du travail présenté, quelques uns des divers outils bioinformatiques disponibles dans le domaine de l étude des protéines seront présentés. Ce premier chapitre de rappels bibliographiques sera aussi l occasion de souligner l importance des bases de données protéiques qui ont permis le développement de méthodes et d algorithmes d analyses des séquences protéiques qui aident à caractériser les protéines sur les plans biochimique, structural et physiologique. 8

9 1. Rappels bibliographiques Le premier réflexe du biologiste qui vient d obtenir la séquence de sa protéine d intérêt est d essayer de tirer toutes les informations possibles afin d approcher ses caractéristiques physicochimiques, structurales et fonctionnelles. La Bioinformatique permet dans un premier temps, grâce aux bases de données biologiques d accéder à toute l information disponible sur un champ d étude précis, une molécule précise, très rapidement. Ces bases de données, fréquemment mises à jour, permettent le développement de méthodes et outils bioinformatiques dont le but est justement d exploiter la séquence protéique afin d en «prédire» diverses informations. Il est possible à partir d une séquence protéique, de rechercher des protéines homologues, des similarités, des sites fonctionnels ou des signatures potentielles, qui peuvent apporter une idée sur la fonction possible d une nouvelle protéine. A l aide des outils d alignements multiples, c est tout un groupe de protéines qui peut être étudié afin d en faire ressortir des caractéristiques communes ou une étude phylogénétique. Ensuite il y a l étude structurale : l analyse de la structure secondaire (le premier niveau d organisation structurale d une protéine), est généralement le point de départ de l étude d une structure protéique avant de passer à l étude de sa structure tridimensionnelle. Parallèlement il est possible de faire des recherches plus spécialisées : la prédiction de zones hydrophobes, de zones accessibles, de zones trans-membranaires, de motifs structuraux La Bioinformatique offre donc beaucoup de méthodes, qui sont autant de moyens de caractériser une protéine nouvelle, et aide ainsi à mieux comprendre les mécanismes qui régissent son fonctionnement. Ces quelques rappels bibliographiques sont l occasion de faire un tour d horizon des principaux outils bioinformatiques à la disposition de la communauté scientifique dans le domaine de la Biologie et plus particulièrement dans le domaine de l étude des protéines Les bases de données protéiques L évolution de la Biochimie et de la Biologie moléculaire ont généré un afflux massif de données qui ont été stockées et centralisées pour une meilleure accessibilité. Cette centralisation des connaissances, afin qu elles soient profitables à tous, n aurait pu se faire sans Internet, formidable outil de communication qui à travers une interface web permet d échanger l information à l échelle planétaire. Ces bases de données sont un élément essentiel et indispensable dans le domaine de l analyse des protéines. Elles représentent la source d information la plus complète et pertinente pour les biologistes. Elles sont aussi l un des fondements sur lequel s appuie le développement des méthodes bioinformatiques d analyse de séquence. L utilité incontestable de ces bases de données se traduit par une évolution de leur taille quasi exponentielle pour beaucoup d entre elles, montrant l intérêt qu elles 9

10 suscitent et le point d honneur que mettent les biologistes à les enrichir aux profit de tous. Il faut aussi ajouter que l évolution des bases de données a été possible grâce l évolution du matériel informatique d une part et la mise au point de systèmes d interrogation performants d autre part Les bases de séquences protéiques Les bases généralistes Les bases dites généralistes sont des bases de données ayant comme «unité de base» la protéine. Celles-ci contiennent généralement la séquence protéique entière, ainsi que d autres informations jugées utiles pour les biologistes a. SWISS-PROT La base de données SWISS-PROT (Bairoch et al., 2000 URL 1) a été créée par Amos Bairoch en 1986 au sein du département de Biochimie Médicale à l Université de Genève. Elle est maintenue depuis 1987 en collaboration avec l EMBL (European Molecular Biology Laboratory). C est le fruit d un partenariat entre le SIB (Swiss Institute of Bioinformatics) et l EBI (European Bioinformatics Institute), antenne de l EMBL située à Hinxton en Grande Bretagne. Sa qualité en a fait sa renommée. Les séquences protéiques de SWISS-PROT sont annotées par les auteurs ou des experts extérieurs, ce qui garantie une information pertinente et sure. La redondance y est très faible, c est donc une base «propre» : toutes les données issues des recherches d auteurs différents mais portant sur une même séquence sont fusionnées. Enfin, elle dispense pour chaque entrée de nombreuses références croisées avec beaucoup d autres banques (60 environ). Au sein de SWISS-PROT chaque entrée (ensemble de données relatives à une séquence protéique) possède un identifiant (champ ou «line-type» ID) ainsi qu un numéro d accession (champ AC) uniques permettant de retrouver aisément une séquence. Chaque entrée est constituée de deux types de données : «un noyau de données» (core data) qui constitue le minimum de données autour duquel s articule le second type de données : les annotations. Le «noyau de données» contient la séquence (champ SQ), les références bibliographiques (champs RN, RT, RF, RA, RX) et les données taxonomiques (source(s) biologique(s) relatives à cette séquence). Les annotations (champs KW, CC, FT), renseignent sur la fonction, les modifications post-traductionnelles, les domaines et sites fonctionnels, les structures secondaires et quaternaires, les similitudes avec d autres protéines, les maladies associées, les variants etc 10

11 // ID STRI_STRGR STANDARD; PRT; 348 AA. AC P09400; DT 01-MAR-1989 (Rel. 10, Created) DT 01-MAR-1989 (Rel. 10, Last sequence update) DT 16-OCT-2001 (Rel. 40, Last annotation update) DE Streptomycin biosynthesis protein stri (EC ). GN STRI. OS Streptomyces griseus. OC Bacteria; Firmicutes; Actinobacteria; Actinobacteridae; OC Actinomycetales; Streptomycineae; Streptomycetaceae; Streptomyces. OX NCBI_TaxID=1911; RN [1] RP SEQUENCE FROM N.A. RC STRAIN=N2-3-11; RX MEDLINE= ; PubMed= ; [NCBI, ExPASy, EBI, Israel, Japan] RA Mansouri K., Piepersberg W.; RT "Genetics of streptomycin production in Streptomyces griseus: RT nucleotide sequence of five genes, strfghik, including a phosphatase RT gene."; RL Mol. Gen. Genet. 228: (1991). CC -!- PATHWAY: STREPTOMYCIN BIOSYNTHESIS. CC -!- SIMILARITY: BELONGS TO THE GFO/IDH/MOCA FAMILY. CC CC This SWISS-PROT entry is copyright. It is produced through a collaboration CC between the Swiss Institute of Bioinformatics and the EMBL outstation - CC the European Bioinformatics Institute. There are no restrictions on its CC use by non-profit institutions as long as its content is in no way CC modified and this statement is not removed. Usage by and for commercial CC entities requires a license agreement (See CC or send an to license@isb-sib.ch). CC DR EMBL; Y00459; CAA ; -. [EMBL / GenBank / DDBJ] [CoDingSequence] DR PIR; S17779; S DR InterPro; IPR000683; GFO_IDH_MocA. DR InterPro; Graphical view of domain structure. DR Pfam; PF02894; GFO_IDH_MocA_C; 1. DR ProDom [Domain structure / List of seq. sharing at least 1 domain] DR BLOCKS; P DR DOMO; P DR PRESAGE; P KW Streptomycin biosynthesis; Oxidoreductase; NAD. FT NP_BIND 2 32 NAD (BY SIMILARITY). SQ SEQUENCE 348 AA; MW; B95BCC443EEABDF6 CRC64; MRVGIVGAGR MGRLHARTLL ELPDPPDLVV HDVDPDGAHR LAQELAAGTK AQVTVERELA DTVTKADAIV VATPATQRRA PLLAAARAGL PVFCEKPLTA DETEAAELVE ALAHTRLHVG FQRRCDPEYQ RLRELIAAGE LGRVLLVRCT AFDHRPPADA YEETAGDIFT DCLIHDIDAV HWLTGQPTVA VQADGARLLA GSGYDVATAV LTLADGARAV LSASRLDPHG YDHRVEVLGT KGSLSVGLDA RTPLRLLGQD GTGCPPGPGA QPAYQDFTDR FEAAYRREVL AFVRTVTEGA PSPCTGQEAL RAQRVAAAAG RAARTGTRVE LDPAPHGAPA ALVAGAAR Figure 1 : Exemple du format de données de SWISS-PROT pour une protéine A ce jour, la version la plus récente de SWISS-PROT est la version du 2 Août Elle contient entrées. Au total 7487 espèces différentes sont représentées, de façon inégale puisque 11

12 environ 45% des entrées proviennent de 20 espèces. Notons aussi que 18 espèces servent de modèles : un soin tout particulier leur est apporté dans le domaine de l annotation, le but étant d être aussi exhaustif que possible, aidé par les programmes de séquençage dont leur génome fait l objet. Par ailleurs, les séquences protéiques de l espèce humaine, sont à la base d un projet tout particulier mis en place en 1999 qui consiste en l annotation du protéome humain : Human Proteomic Initiative ou HPI (O Donovan et al., 2001). HPI à été crée dans l espoir de fournir une documentation spécifique et détaillée pour toutes les séquences protéiques issues du séquençage du génome humain. Dans la version 40 de SWISS-PROT, l annotation de 8300 séquences résulte de ce projet. L évolution exponentielle du nombre d entrées au sein de la base SWISS-PROT représente un véritable challenge dans la mesure où il faut malgré tout maintenir l annotation et la faible redondance qui font la qualité de cette base, et incorporer rapidement les nouvelles séquences. Ceci nécessite, pour chaque entrée une analyse fine et représente par conséquent un frein à la croissance SWISS-PROT. Ce paradoxe, selon lequel SWISS-PROT doit être le reflet des connaissances actuelles qui croissent très vite et l annotation qui doit persister a pu être contourné grâce à une base de données annotée automatiquement : TrEMBL b. TrEMBL & ClusTr : 2 bases associées à SWISS-PROT La base de données TrEMBL (Translation of EMBL nucleotide database, Bairoch et al., URL 2) est née en 1996 afin de faire face à l énorme quantité de données issue des différents programmes de séquençage de génomes entiers. Les séquences y sont annotées automatiquement et constituent un complément à la base de données SWISS-PROT. Les séquences protéiques de TrEMBL sont issues de la traduction des séquences codantes (CDS) de la base nucléotidique de l EMBL, puis une étape préliminaire d annotation automatique des séquences traduites est effectuée. Ces annotations sont ensuite revues et mises au niveau du standard SWISS-PROT en vue le leur incorporation dans SWISS-PROT. Ainsi TrEMBL permet en accélérant l annotation, non seulement de maintenir la qualité de la documentation des entrées mais aussi de mettre à disposition rapidement les séquences nouvelles issues de séquençage de génomes. La version 21.6 de TrEMBL du 2 Août 2002 contient environ séquences. TrEMBL est organisée en deux sections SP-TrEMBL et REM-TrEMBL : SP-TrEMBL (SWISS-PROT-TrEMBL) contient environ entrées potentiellement incorporables à SWISS-PROT. Chacune d entre elles possède un numéro d accession SWISS-PROT (AC), et pourront être incorporées dans la version ultérieure de SWISS-PROT. Les séquences restantes soit séquences, constituent REM-TrEMBL (REMaining-TrEMBL), et ne seront pas incorporées à SWISS-PROT car appartenant à une des 6 catégories suivantes : - séquences d Immunoglobuline ou de récepteur de lymphocyte T, - séquences synthétiques, 12

13 - séquences issues de brevets, - fragments de moins 8 acides aminés, - traduction de CDS ne codant pas de véritable protéine, - séquences protéiques tronquées. Avant leur incorporation dans SWISS-PROT, les entrées de SP-TrEMBL subissent un processus de «sélection» en deux étapes : la première consiste éliminer la redondance (O Donovan et al., 1999) en fusionnant automatiquement les séquences à l aide d outils tels que le score CRC (Cyclic Redundancy Check) et la méthode LASSAP (LArge Scale Sequence comparison Package ; Glemet et al ; Codani et al. 1995). Une seconde étape vise à élever le niveau de l annotation en utilisant d autres bases de données telles que PROSITE (base de motifs protéiques ; Hofmann et al, 1999) ou ENZYME (Bairoch et al.,2000). Une troisième base de données est associée à TrEMBL et SWISS-PROT : la base CluSTr (Clusters of SWISS-PROT and TrEMBL proteins ; Kriventseva et al., URL 3). Elle est construite sur la base de la similarité qu il existe entre les différentes séquences de SWISS-PROT et de TrEMBL, en regroupant les séquences (clustering) selon une méthode en deux étapes : la première qui est la comparaison de toutes les séquences deux à deux en utilisant l algorithme de Smith & Waterman (cf a page 28). Puis une seconde étape à l aide de LASSAP pour le regroupement final. Il en résulte la constitution de différents groupes de séquences ayant des niveaux de similarité différents. Ses domaines d applications principaux sont la prédiction de la fonction protéique, l annotation automatique de nouvelles séquences (Fleischmann et al., 1999), la diminution de la redondance au sein des bases de données de séquences protéiques (O Donovan et al., 1999) - aspect dont profitent d ailleurs SWISS-PROT et TrEMBL -, la recherche de nouvelles familles protéiques, l analyse de protéomes (Apweiler et al., 2001), l aide à l analyse phylogénétique. La documentation des données CluSTr intègre des informations quant à la présence de domaines ou sites fonctionnels provenant de bases de données spécialisées telles que InterPro, PROSITE, PRINTS, Pfam, ProDom. ClusTr propose aussi des références croisées avec des bases à caractère structurale telles que HSSP et PDB ( page 21) c. PIR-PSD & les bases associées La base PIR-PSD (Protein Information Ressource Protein Sequence Database ; Barker et al URL 4) est l une des premières base de données biologiques informatisées puisqu elle est disponible sur Internet depuis Elle a été mise en place par le NBRF (National Biomedical Research Foundation - Georgetown University) et fait suite à la publication de «l Atlas of Protein Sequence and Structure» maintenue par Margaret Dayhoff de 1965 à Depuis 1988, le JIPID (Japan International Protein Information Database) et le MIPS (Munich Information center for Protein Sequence) se sont associés au NBRF dans la gestion et le maintien de PIR-PSD. 13

14 PIR-PSD est une base de séquences protéiques annotées, non redondante et proposant des références croisées vers d autres bases. Les principales sources de documentation de PIR-PSD sont les traductions de séquences nucléotidiques contenues dans les bases GenBank, EMBL, DDBJ (Dna Databank of Japan) ainsi que les publications et soumissions directes par les chercheurs. Les séquences sont ensuite comparées, les informations sont fusionnées pour minimiser la redondance, puis annotées. Les séquences sont également classées par : super-familles : deux familles appartiennent à la même super-famille si les longeurs des séquences des deux familles sont comparables, et si les domaines fonctionnels sont présents et retrouvés dans le même ordre au sein des séquences des deux familles ; familles : deux séquences sont de la même famille si elles ont des longueurs proches et au moins 50% d identité de séquences, ce seuil étant appliqué pour PIR-PSD (la classification est automatisée) ; domaines d homologie (informatif sur le plan de l évolution des séquences) ; motifs de séquence (informatif sur la conservation de sites particuliers et de la fonction). L intérêt de cette classification (Barker et al., 1996) à la fois structurale, séquentielle et fonctionnelle a pour but de faciliter la caractérisation d une séquence nouvelle et de mettre en avant les relations séquence-structure-fonction. Ceci permet aussi de détecter et de corriger d éventuelles erreurs dans les annotations des génomes dont les séquences sont issues. Cette classification nécessite de réaliser des alignements multiples de séquences, qui sont stockés au sein d autre bases de données : MIPS-ProtFam, contient des alignements automatiques. PIR-ALN, contient des alignements contrôlés. PIR-PSD dans sa version 73.02, qui date du 2 Août 2002, compte entrées réparties en 4 sousensembles : PIR1 à PIR4. PIR1 et PIR2 contiennent plus de 99% des entrées de PIR-PSD, les séquences ont fait l objet d une analyse poussée, elles sont fortement annotées (avec un léger plus pour PIR1). PIR3 contient les séquences en attente d annotation en vue de leur intégration éventuelle à PIR1 ou PIR2. Enfin PIR4 contient des séquences «non naturelles» (annotées selon la même procédure que PIR1 et PIR2) : traduction de pseudo-gènes, ORFs (Open Reading Frame ou phase ouverte de lecture) non exprimées, séquences synthétiques, etc Autour de PIR-PSD s articulent plusieurs autres bases de données qui ne seront pas décrites dans le détail: ProClass (Huang et al., 2000) qui classe les séquences non-redondantes de PIR-PSD et de SWISS-PROT en fonction des super-familles de PIR et de motifs PROSITE particuliers. iproclass (WU et al., 2001), base de donnée intégrée qui prend en compte les données portant sur la famille, les caractéristiques structurales et fonctionnelles qui proviennent de 14

15 nombreuses bases : PIR-PSD, ProClass, PIR-ALN, PIR-RESID, SWISS-PROT, TrEMBL, Pfam, BLOCKS, PRINTS, PROSITE, PDB et COG. Le haut niveau d intégration permet d obtenir une information plus complète (que ces bases considérées individuellement ne fournissent pas). PIR-RESID (Gravelli, 1999 ; Gravelli et al., 2001) liste les modification posttraductionnelles documentées par des informations à caractère chimique, structurale et bibliographique. PIR-NLR3D (Gravelli et al., 2001), contient des séquences annotées sur la base des informations tridimensionnelles fournies par la PDB. PIR-NREF, récente base puisque la première version date du 23 octobre C est une base de données non redondante de références protéiques qui intègre (à l image de iproclass) des informations provenant des bases : PIR-PSD, SWISS-PROT, TrEMBL, GenPept, RefSeq et PDB. Elle sera utilisée comme source principale à la réalisation des version future de iproclass d. Autres bases de séquences protéiques Il existe diverses autres bases de données dont nous citerons : GenPept : base de séquences issues de la traduction de CDS contenues dans la base de séquences nucléiques GenBank ; ProtoMap (Yona et al., 2000) : classification hiérarchique automatique des protéines de SWISS-PROT et TrEMBL ; KIND (Kallberg et Persson, 1999) : base de séquences non redondante construite à partir de SWISS-PROT, PIR-PSD, TrEMBL et GenPept. IMGT (Lefranc, 2001) et Kabat (Johnson et al., 2001) : base de séquences de protéines à caractère immunologique ; PMD (Kawabata et al., 1999) : base de séquences mutantes naturelles ou artificielles ; Base de séquences protéiques dédiées à des modèles biologiques : YPD (Hodges et al., 1999) dédiée à Saccharomyces cerevisiae, WormPD (Costanzo et al., 2000) dédiée à Caenorhabditis elegans, ou encore DAtA (Palm et al., 2000) dédiée à Arabidopsis thaliana. HCVDB (Hepatitis C Virus Database ; Combet, 2000, URL 29) dédiée aux séquences nucléotidiques et protéiques des virus de l hépatite C 15

16 Les bases spécialisées : bases de domaines protéiques et d alignements multiples. Le processus d analyse de séquence fait intervenir diverses étapes dont l une d entre elle est la comparaison de la séquence nouvelle avec les séquences dans les bases de données qui viennent d être décrites. Mais il convient aussi d étudier des aspects précis, des point plus particuliers tels que la présence de domaines fonctionnels, la recherche de sites permettant de classer la protéine au sein d une famille protéique, examiner la possibilité de modifications post-traductionnelles, de propriétés physico-chimiques précises etc... Afin de pouvoir étudier ces aspects, de nombreuses bases de données dites spécialisées ont vu le jour a. PROSITE PROSITE (Hofmann et al., URL 5) créée en 1988 contient dans sa version 17.18, du 3 Août 2002 un total de 1147 entrées décrivant 1567 motifs et profils caractérisant une particularité biologique précise, structurale ou fonctionnelle. Cette base est très utilisée pour déterminer à quelle famille fonctionnelle appartient une protéine, ainsi que les différentes signatures présentent au sein de cette protéine. Les outils de recherche et de caractérisation des motifs sont très puissants, mais ne permettent pas d identifier avec suffisamment de pertinence des motifs ayant des séquences divergentes, et appartenant à une même famille. C est le cas de certains motifs fonctionnels caractéristiques des protéines de la famille des Immunoglobulines, des Globines ou encore des protéines à domaine SH2 ou SH3 (intervenant par exemple dans la transduction des signaux cellulaires). C est pour répondre à ce problème que les profils ou matrices pondérées ont été introduits dans PROSITE en Ils consistent à l attribution, pour chaque motif, d une table de scores et de coûts en fonction de l occurrence des acides aminés et de gaps à chaque position dans le motif. Le but étant d autoriser les mutations et d arriver à classer une protéine possédant des motifs peu conservés, néanmoins caractéristiques d une famille protéique particulière. Les motifs et profils de PROSITE sont utilisés pour l annotation des entrées d autres bases de données telles que SWISS-PROT b. ProDom ProDom (Corpet et al., URL 6) est une base de domaines protéiques définis à l aide de familles protéiques sous la forme d alignements multiples. La construction des familles est automatisée et se fait à partir des séquences contenues dans SWISS-PROT et SP-TrEMBL, ainsi que d alignements de la base Pfam. Les alignements de ProDom sont construits à l aide de PSI-BLAST, outil permettant de détecter des similarités entre des séquences protéiques ( page 39). La 16

17 procédure étant automatisée, des paramètres (consistancy indicators) ont été introduits afin d estimer la signification biologique du regroupement des séquences : le diamètre (diameter) obtenus à partir des deux membres les plus éloignés d une même famille : plus celui-ci est petit, plus la famille est homogène. Ce paramètre caractérise le groupe ; le rayon de giration (radius of gyration) qui caractérise chaque séquence au sein du groupe. Il permet de savoir si une portion de séquence se rapproche ou au contraire s éloigne du consensus issu du groupe. Au jour du 13 Août 2002, la version de ProDom contient familles de domaines protéiques (dont familles avec au moins 2 séquences). ProDom facilite la compréhension de l arrangement des domaines au sein des familles protéiques complexes, et permet de mettre en évidence les homologies qui peuvent exister entre des protéines modulaires de même familles mais aussi de familles différentes c. Pfam Pfam (Bateman et al., URL 7) est une base de données d alignements multiples de séquences et de profils HMM (Hidden Markov Models) classés par famille protéique. Chaque famille est représentée par deux alignements multiples : le premier constitué de quelques membres représentatifs de la famille et le second constitué de toutes les protéines de cette famille au sens de Pfam : des profils HMM sont construits (à l aide de l outil HMMER) et sont ensuite utilisés pour classer les séquences contenues dans la base séquences protéiques Pfamseq (elle même construite à partir de SWISS-PROT et SP-TrEMBL). Pfam est divisée en deux sous-bases : Pfam-A contient des alignements ayant fait l objet d une vérification manuelle et Pfma-B qui contient des alignements générés automatiquement mais non vérifiés. Le but premier de Pfam est de faciliter la classification et l annotation automatiques de séquences protéiques nouvelles d. DOMO et PRINTS-S DOMO (Gracy & Argos, URL 8), à l image de ProDom, est une base décrivant les domaines que l on peut rencontrer au sein de différentes familles protéiques. Les familles et les domaines sont définis sur la base de la similarité entre les séquences. Celles-ci sont présentées sous la forme d alignements multiples. DOMO utilise les séquences de SWISS-PROT et PIR-PSD, si elles sont non redondantes, complètes et ne comptent pas plus 1000 acides aminés. DOMO, comme ProDom est construite automatiquement : détection, regroupement et recherche de similarités locales précèdent le calcul des alignements multiples des domaines et ainsi la constitution des familles protéiques. 17

18 PRINTS-S (Attwood et al., URL 9) est une base d empreintes (fingerprints). Une empreinte est un ensemble de motifs conservés au sein d alignements multiples. Ces empreintes permettent de travailler sur des séquences relativement divergentes, présentant des motifs peu conservés mais ayant une signification biologique. De fait, PRINTS-S est une source d informations indiquée pour l étude des super-familles de protéines Les bases de données intégrées Les bases intégrées (ou unifiées) apportent une solution au problème de la spécialisation des bases conventionnelles et l éclatement de l information qui en découlent. Ces bases intégrées sont construites à partir de plusieurs autres bases ce qui permet de centraliser les informations, d avoir des bases représentatives des connaissances sur les familles protéiques et d outrepasser les différents systèmes de classifications des protéines en familles ainsi que les formats de présentation adoptés par les autres bases. Par ailleurs, ce type de base permet de détecter les incohérences entre les bases et aide à améliorer leur qualité, par une classification plus fiable et une annotation plus pertinente. Si chaque base a un domaine d application fort, chacune possède aussi des manques. Les unifier revient à pallier les faiblesses des unes par les points forts des autres a. InterPro Le projet InterPro (Apweiler et al., URL 10) résultant d une initiative internationale vise à unifier les bases de signatures et de domaines ProDom, Pfam, PRINTS et PROSITE. L intégration des données commence par la fusion des informations contenues dans chacune des bases : les membres de ces bases sont comparés et ceux qui décrivent des domaines, signatures ou profils communs, sont fusionnés et constituent ainsi une entrée InterPro unique avec un numéro d accession unique. Chaque entrée InterPro contient : une description de la famille protéique, des domaines, des répétitions internes, des modification post-traductionnelles ; une liste des signatures, motifs, profils HMMs ou empreintes associés à la famille ; une annotation résumée à partir des bases membres ; des exemples de séquences représentatives ; les références bibliographiques ; des liens vers d autres bases comme SWISS-PROT et TrEMBL. InterPro propose ainsi une définition des familles protéiques sur la base des systèmes de classification adoptés par d autres bases, représentant en cela une source de choix pour l annotation des séquences. A ce titre, L EBI a choisi d utiliser InterPro et entend ainsi rehausser le niveau de l annotation automatique de la base TrEMBL (Fleischmann et al., 1999). InterPro peut aider à définir de nouvelles signatures ou des groupes de séquences pour lesquelles une signature s avère utile, et ainsi mieux 18

19 caractériser des familles qui ne sont pas clairement définies. Une autre application est l analyse de protéomes eucaryotes : Drosophila melanogaster, Caenorhabditis elegans, et Saccharomyces cerevisiae (Rubin et al., 2000) b. MetaFam MetaFam (Silverstein et al., 2001a ; Silverstein et al., 2001b ; Shoop et al., URL 11), est une base de données unifiée, intégrant de façon non redondante, les séquences issues de SWISS- PROT, PIR, GenPept, TrEMBL et NRL3D. Les séquences y sont regroupées en familles et superfamilles (family superset). Le classement des séquences est fondé sur les regroupements effectués au sein de dix autres bases de données dont Pfam, DOMO, PRINTS-S, PROSITE, PIR-ALN, Blocks+, ProtoMap etc MetaFam procède pour les regroupements en trois étapes : la première consiste éliminer les redondances en attribuant des clés uniques après comparaison des séquences. Ensuite les familles auxquelles appartiennent ces séquences sont recherchées dans les dix bases de données et sont comparées deux à deux (une famille définie dans DOMO est comparée à une famille définie dans PIR. Puis PIR/Pfam, puis DOMO/Pfam etc ). Des pourcentages de ressemblances entre les familles deux à deux sont calculés et sont représentés graphiquement à l aide de MetaFamView (Figure 2). Figure 2 : interface graphique MetaFamViewer. 19

20 L avantage de ce type de représentation réside dans sa convivialité : il est facile d accéder à toutes les informations sur les familles et séquences protéiques disponibles dans toutes les bases de données sur lesquelles MetaFam s appuie. La seule critique que l on peut faire, est la lenteur de chargement des informations au sein de l interface graphique. MetaFam est un outil particulièrement intéressant pour la classification et l annotation d une séquence nouvelle et la comparaison entre familles. MetaFam permet d accéder depuis une base de données unique à une grande quantité d informations dispensées dans d autres bases. Son utilité ne sera pas des moindres si l on en juge par l énorme quantité de données qui est (et sera) issue des programmes de séquençage de génomes entiers c. Blocks+ Blocks+ (Henikoff et al., 1999 ; Henikoff et al., URL 12) est une extension de la base Blocks (Henikoff et Henikoff, 1996) qui contient des alignements de séquences «non gappés» définis en fonction des familles de PROSITE. Blocks+ intègre en plus et de façon non redondante les familles définies dans Pfam, PRINTS, ProDom et DOMO. Blocks+ à une couverture plus large des familles protéiques que les bases sur lesquelles elle s appuie, en outre ceci permet de détecter des omissions dans ses bases membres et de les combler par l ajout de nouvelles familles. De plus pour certaines familles protéiques la classification est plus cohérente, comme par exemple les protéines de la famille SNF2 qui interviennent dans la régulation de la transcription et dans le «remodelage» de la chromatine chez les eucaryotes : cette famille est reconstituée dans Blocks+, alors qu elle est éclatée dans ProDom, Pfam et Domo Les bases de données structurales Si l étude de la séquence d une protéine est un aspect important pour l identifier, la caractériser, et approcher sa fonction, l étude de sa structure tridimensionnelle représente un point fondamental pour réellement comprendre les mécanismes biochimiques, à l échelle atomique, qui régissent sa fonction. La structure tridimensionnelle d une protéine se définit par l arrangement dans l espace de ses atomes constitutifs. Il faut souligner l importance de la connaissance des structures tridimensionnelles, tant dans le domaine de la recherche fondamentale pour comprendre les mécanismes à la base de la vie, que dans la recherche appliquée pour la mise au point de nouvelles molécules thérapeutiques (Drug design), pouvant aider à traiter les dysfonctionnement de certaines protéines à la base de pathologies graves, voire mortelles et pour certaines encore incurables. La Résonance Magnétique Nucléaire (RMN) et la cristallographie, sont les deux techniques utilisées pour déterminer expérimentalement la structure tridimensionnelle d une protéines. Les 20

21 structures ainsi déterminées sont regroupées dans une base de données principale : la Protein Data Bank (PDB) Protein Data Bank La PDB (Berman et al., URL 13) a été mise en place en 1971 au Brookhaven National Laboratories (BNL) en tant qu archives des structures des macromolécules biologiques et comptait alors sept structures. Depuis 1998, le maintien de cette base est sous la responsabilité du Research Collaboratory for Structural Bioinformatics (RCSB). Dès le début des années 80, l évolution des techniques de détermination de structure tridimensionnelles et des systèmes de communication ont permis une forte croissance de la PDB : aujourd hui, dans sa version la plus récente du 6 Août 2002, elle compte en effet environ structures de protéines déterminées expérimentalement. Pour beaucoup d entre elles, ces protéines ont un taux d identité de séquence élevé lorsqu elles sont alignées deux à deux. On considère qu au delà du seuil de 25% d identité de séquence, deux protéines ont des structures tridimensionnelles quasiment superposables (Doolittle, 1981 ; Rost, 1999). A ce titre et sauf cas particulier, ce seuil est le minimum requis pour prédire la structure d une protéine nouvelle à partir d une structure déjà existante. Si on ne considère que les protéines ayant moins de 25% d identité de séquence alignées deux à deux, la PDB ne contient plus qu environ 2000 chaînes, qui sont réellement représentatives des connaissances structurales protéiques actuelles. L évolution de la PDB est très loin de suivre l évolution des bases de données de séquences. C est la conséquence directe des nombreuses difficultés que soulèvent les techniques de détermination de structures que sont la RMN et la cristallographie/diffraction aux rayons X ( page 50). Si la PDB ne compte qu un faible nombre d entrées comparativement aux bases de séquences, elle n en demeure pas moins une base de grande qualité. Les entrées de la PDB contiennent en plus des coordonnées atomiques, toutes les informations techniques concernant l expérimentation ayant permis sa détermination (source, séquence, cofacteur protéique ou prosthétiques, description qualitative de la structure, conditions précises de la cristallisation ou de la solution, traitement des données, affinement des structures, logiciels utilisés ). Les structures déposées dans la PDB sont soumises à une validation qui consiste à une vérification très poussée de la structure (en plus de celle effectuée par les auteurs) : mesures d angles, de liaisons, vérification de la stéréochimie, des distances entre atomes et contacts Par ailleurs des informations quant à la qualité de la structure sont disponibles, une essentielle est la résolution exprimée en Å : la structure est d autant plus précise que celle-ci est petite. Afin de maintenir la haute qualité de cette base de données, un format particulier d organisation des données a été mis au point : le format mmcif (macromolecular Cristallographic Information File ; Bourne et al., 1997), permettant une description plus détaillée des structures. Ce format plus souple, et évolutif, évite les incohérences au sein des fichiers de données. Citons aussi le projet d uniformisation 21

22 des données (Bath et al., 2001), qui vise à convertir les fichiers au formats PDB précédents (encore utilisés par de nombreux logiciels) au format mmcif, conversion qui ne peut être automatisée dans ce sens (alors que l inverse est possible) et qui requiert donc un travail manuel et contraignant Les bases de données articulées autour de la PDB Beaucoup de bases exploitent les données structurales contenues dans la PDB pour les classifier dans un but précis, autrement que descriptif. Ces bases, qui pour certaines tendent à regrouper les protéines à travers leurs caractéristiques structurales et séquentielles, trouveront une grande part de leur application dans le cadre de la génomique structurale. La génomique structurale, désigne le parcours nécessaire, qui à partir d un gène, permet d arriver à la structure tridimensionnelle d une protéine, par le biais de méthodes prédictives et des connaissances structurales, qui ne sont pas exhaustives : il est généralement admis que seules quelques centaines de repliement uniques sont connus (entre 600 et 700) alors que le nombre de repliement possibles s élèverait à un, voire plusieurs milliers de repliements possibles (1000 à ; Chothia, 1992 ; Zhang & DeLisi, 1998 ; Orengo et al., 1999 ; Wolf et al., 2000 ). La génomique structurale va aider à combler ce vide, puisque parmi les séquences issues des génomes, seront choisies celles susceptibles d avoir un repliement unique pour être étudiées en RMN ou cristallographie. Ensuite, à l aide des structures et par comparaison/regroupement, il sera possible d attribuer une fonction à ces protéines et de les replacer dans les voies métaboliques cellulaires. Toutefois, deux questions restent sans réponse : combien de repliements uniques devront être connus avant de pouvoir prédire la structure de la quasi-totalité des protéines? Dans quelle mesure peut-on avoir confiance dans l'attribution de la fonction à partir de la structure? Dans certains cas la comparaison des séquences pour résoudre la structure et la fonction risquent d être délicats : les homologues structuraux très distants sur le plan de leur séquence, mais ayant des fonctions proches ou identiques a. SCOP : Structural Classification Of Protein La base SCOP (Lo Conte et al., URL 14) est une classification des protéines de structure connue, sur la base de leur séquence, leur fonction et leur structures secondaire et tertiaire. L unité véritable de la classification au sein de SCOP est le domaine protéique (zone séquentielle ayant une structure et/une fonction indépendante du reste de la molécule, et que l on peut retrouver dans d autres protéines), permettant une classification aisée des protéines mono-domaine (généralement les protéines petites et moyennes). En ce qui concerne les protéines multidomaines, la classification est moins aisée : l identification des domaines structuraux n est pas simple et par ailleurs les protéines multidomaines n ont généralement que quelques uns de leurs domaines en communs. D où la nécessité d intégrer parallèlement à l information structurale, l information évolutive. SCOP adopte une classification basée sur une hiérarchie à trois niveaux. Le premier est la famille protéique : deux 22

23 protéines sont de la même famille si elles ont au moins 30% d identité de séquences, ou si elles ont des structures et des fonctions très proches (ex : les globines), l origine commune (en terme d évolution) est évidente. Le second niveau est la super-famille : deux familles sont de la même super-famille si leur structure et leur fonction suggèrent un ancêtre commun dans leur parcours évolutif (ex : les domaines constants et variables des Immunoglobulines). Le dernier niveau est le repliement (common fold) : les familles et super-familles ont un repliement commun si elles ont les mêmes éléments de structure secondaire, arrangées de la même façon. Les deux premiers niveaux mettent en commun les protéines ayant des parcours évolutifs reliés ou semblables avec des caractéristiques fonctionnelles communes, alors que le dernier met en commun les protéines ayant subit un processus évolutif chimique et physique, ayant favorisé l émergence, en leur sein, de zones ayant des caractéristiques structurales communes identifiables indépendamment de la séquence et/ou de la fonction. Cette classification a aboutit à quatre groupes de protéines: la classe «toute-α» regroupe les domaines qui sont très majoritairement en hélice α ; la classe «toute-β» regroupe les domaines qui sont très majoritairement en feuillet β ; la classe «α/β» regroupe les domaines dans lesquels il y a une alternance entre les feuillets et hélices ; la classe «α+β» regroupe les domaines constitués des deux types de structures sans aucune régularité dans la disposition. SCOP est une base construite manuellement par inspection visuelle et comparaison des structures fournissant une classification des protéines sur la base des relations structurales ainsi que sur la base de leur parcours évolutif probables b. CATH-PFDB CATH-PFDB (Class, Architecture, Topology, and Homologous superfamily - Protein Family DataBase ; Orengo et al., 1999 ; Pearl et al., URL 15) est une classification hiérarchique (Figure 3) sur la base des similarités de séquence et de structure des protéines de la PDB. On peut distinguer dans cette hiérarchie quatre niveaux de classification : le niveau C (Class) relatif à la composition en structure secondaire et l arrangement de celles-ci. Il y a trois classes principales : α, β, α & β. le niveau A (Architecture) relatif à l arrangement globale et l orientation spatiale des structures secondaires sans prendre en compte leur connectivité ; le niveau T (Topology) qui définit les familles de repliement (fold families) sur la base à la fois de l arrangement des structures secondaires mais aussi de la connectivité des structures, de leur disposition les unes à la suite des autres ; le niveau H (Homologous superfamily) qui regroupe les protéines, qui sur la simple comparaison de leur structures tertiaires et secondaires, semblent avoir un ancêtre 23

24 commun. Les protéines y sont regroupées en familles (sequence families - niveau S). Les protéines d un même niveau S présentent de fortes similitudes dans leur séquences, et par conséquent dans leur structure. Ce type de regroupement permet à partir des informations structurales, de replacer une protéine dans sa famille et sa super-famille et ainsi de caractériser sa fonction. Par exemple, en ce qui concerne les protéines enzymatiques, les auteurs ont montré que dans 96% des cas, un repliement (niveau H et S) correspondait à une fonction, suggérant que la simple classification d une protéine sur la base de sa structure permet d émettre une hypothèse sur sa fonction probable. Il est facile de comprendre l intérêt de cette classification dans le cadre de la génomique structurale. Figure 3 : représentation schématique des niveaux de classification (C)lasse, (A)rchitecture, (T)opologie adoptés dans la base CATH (source URL 15) c. DaliDD/FSSP La base de données FSSP (Fold Classification based on Structure-Structure alignment of Proteins ; Holm & Sander, 1996 ; Holm & Sander, URL 16) est une classification structurale des protéines de la PDB (dont la structure tridimensionnelle est connue). Toutes les chaînes protéiques de plus de 30 résidus sont regroupées après avoir été toutes comparées entre elles donnant lieu, pour chaque famille protéique, à deux groupes principaux : le premier constitué de séquences homologues présentant au moins 25% d identité de séquences et le second constitué de séquences représentatives ne présentant pas une telle homologie (de sorte que la parenté ne peut pas être établie sur la base de l étude des séquences uniquement). Les structures des chaînes représentatives sont ensuite comparées 24

25 entre elles pour l établissement de la classification des repliements, selon une méthode de regroupement hiérarchique, donnant lieu à des alignements structuraux. Chaque entrée de la base FSSP contient deux alignements structuraux : l alignement de la séquence objet avec les séquences représentatives de son groupe et l alignement de cette séquence avec les séquences des protéines qui lui sont homologues. La base FSSP contient, dans sa version du 16 juin 2002, 3242 familles de séquences représentant structures protéiques. La classification est maintenue automatiquement à l aide de Dali et de DaliDD. Le dictionnaire de domaine Dali (DaliDD, Dietmann et al., URL 17) est une taxonomie numérique des structures de la PDB. DaliDD est constitué de façon automatisée sur la base de la comparaison des structures, des fonctions et des séquences. Les domaines sont délimités selon les critères de compacité et de récurrence (Holm & Sander, 1998b). Chaque domaine à un numéro de classification du type DC_l_m_n_p, où (l) est l attracteur dans l espace des repliements, (m) la topologie du repliement, (n) la famille fonctionnelle, (p) la famille de séquence. Le plus haut niveau de la classification (niveau l) regroupe les domaines en fonction de leur composition en éléments structure secondaire et leur motifs structuraux «super-secondaires». Pour couvrir l espace des repliements sur la base des connaissances structurales actuelles, cinq attracteurs (modèle de domaine à structure secondaire, super-secondaire et tertiaire précises) ont été définis pour le niveau l (Figure 4). Attracteur 1 α/β Attracteur 2 Tout-β Attracteur 3 Tout-α Attracteur 4 Tonneaux β antiparallèles Figure 4 : Archétype des structures des cinq attracteurs de Dali (source URL 18) Attracteur 5 α+β Bien que regroupant la plus grande partie des domaines connus, ces cinq premiers attracteurs ne permettent pas de classer tous les domaines. A ces cinq premiers attracteurs s ajoutent deux classes supplémentaires pour les domaines qui sont proches de plusieurs attracteurs, regroupés dans la classe 6, ou pour les domaines qui n ont aucun lien avec aucun des attracteurs, regroupés dans la classe 7. Certains de ces domaines, pourront être classés, en fonction de l évolution des connaissances structurales et la définition de nouveaux attracteurs. Le second niveau (niveau m) est basé sur la topologie du repliement. Ce niveau est définit en fonction de l orientation des éléments des structures secondaires. Les domaines sont regroupés si l orientation et la disposition spatiale des éléments de structure secondaire sont suffisamment proches, c est-à-dire si le Z-score calculé par Dali (programme d alignement des structures tridimensionnelles des domaines) est supérieur à 2 (score seuil déterminé 25

26 empiriquement). Dans ce cas, les domaines ont la même composante (m) dans leur numéro de classification d. Autres bases s articulant autour de la PDB Bien que n ayant pas le souci d être exhaustif, nous citerons dans ce paragraphe quelques autres bases de données structurales. PALI (Phylogeny and ALIgnment of homologous protein structures ; Balaji et al., URL 19) est une base de données qui présente des alignements structuraux de séquences et des arbres phylogénétiques. Les relations mises en avant par PALI aident à mieux comprendre l influence des séquences et de leur mutation sur l évolution des structures. HOMSTRAD (HOMologous STRucture Alignment Database ; Mizuguchi et al., 1998) que l on peut qualifier d équivalent structural de la base de donnée de séquence Pfam (voir c, page 17). HOMSTRAD est une base d alignements structuraux, calculés à l aide de COMPARER (Zhu et al. 1992). Les alignements sont regroupés en 800 familles. Chaque famille est composée de séquences ayant au minimum 90% d identité. La structure de meilleure résolution est utilisée en tant que structure représentative de la famille. MODBASE (Sánchez et al., URL 21) est une base proposant des modèles structuraux générés par le processus MODPIPE incluant PSI-BLAST ( page 39) et MODELLER (programme de modélisation moléculaire à partir d un alignement ; Sali & Overington, 1994). CAMPASS (CAMbridge database of Protein Alignments organised as Structural Superfamilies ; Sowdhamini et al., URL 22) s appuie sur la base SCOP ( a page 22) pour regrouper les séquences en familles et super-familles sous la forme d alignements de séquences calculés par COMPARER, et corrigés pour certains par le programme SEA (Sowdhamini et al., 1996) DBcat : Le catalogue des bases de données en biologie. Afin de compléter cette brève présentation de quelques unes des bases de données les plus utilisées dans le domaine de la protéomique, signalons l existence de DBcat (URL 23), catalogue des bases de données en Biologie, hébergé par le serveur national InfoBioGen. Devant la spécialisation des données, et la création des nombreuses bases de thématique diverses, DBcat, projet en collaboration avec l EBI, se propose de maintenir une liste aussi exhaustive que possible des bases de données biologiques. DBcat est une base de données, qui pour chacune de ses entrées propose : une description de la base, le domaine auquel elle appartient, les noms des auteurs, les références bibliographiques à citer, les adresses web, ftp et postale. 26

27 Domaine Nombre d entrées ADN 87 ARN 29 Protéine 94 Génome 58 Cartographie 29 Structure de protéine 18 Littérature 43 Divers 153 Total 511 Table 1 : domaines et nombre des bases de données listées dans DBcat (2 Août 2002) Les systèmes d interrogation des bases de données Un effort intense a été fourni dans le stockage et la gestion des données, donnant lieu aux nombreuses bases de données dont quelques unes ont été décrites. Ce résultat, dans la collecte des données, est une véritable réussite de la recherche scientifique. Cependant, une telle quantité d information n est réellement profitable que si elle est facilement accessible. D où la nécessité de systèmes d interrogation de bases de données, permettant à l aide de critères précis de retrouver une information particulière et pertinente dans cette masse colossale de données. Il existe plusieurs systèmes d interrogation, pour certains bénéficiant d une interface web et permettant à l aide de mots clefs concernant des champs (auteur, source, fonction ) et d opérateurs logiques tels que AND (et), OR (ou), NOT (non), de retrouver aisément une information concernant un sujet précis, de réaliser des regroupements pour étudier un problème particulier Ces systèmes comme ACNUC (Gouy et al., 1985), Entrez (Wheeler et al., 2001) ou SRS (Etzold et al., 1996) sont particulièrement efficaces. SRS est probablement l un des plus intéressants, car associé à une interface Web, il est adaptable à n importe quelle base de données, pour peu que celle-ci soit stockée sous la forme de fichier texte ASCII. En outre, ce système permet l interrogation simultanée de plusieurs banques de données Outils bioinformatiques d analyse des séquences protéiques Les outils bioinformatiques disponibles offrent plusieurs alternatives : comparer la séquence d intérêt à celles qui sont connues, rechercher des motifs particuliers ou signatures fonctionnelles permettant de rattacher la protéine à une famille fonctionnelle. Ensuite il peut être judicieux d aligner ces protéines par le calcul d un alignement multiple afin de mettre en exergue les régions conservées, 27

28 offrant une base de travail pour l étude expérimentale approfondie de sa fonction. D autres outils bioinformatiques permettent de prédire les régions hydrophobes (trans-membranaire par exemple), des régions accessibles (antigènes potentiel pour la synthèse d anticorps de détection), des régions d interaction avec d autres molécules comme les motifs d interaction avec l ADN. Ainsi la Bioinformatique offre un panel d outils dans le domaine de l analyse de séquence des protéines, qui judicieusement combinés sont des moyens efficaces et rapides pour l étude d une protéine dont seule la séquence est connue. Néanmoins les déductions obtenues in silico doivent être vérifiées par des approches expérimentales in vitro et in vivo Recherche d homologie par comparaison de séquences Définitions Le terme «homologie» sous-entend que les séquences (protéiques ou nucléiques) ont dans leur évolution un ancêtre commun. C est une notion purement qualitative, et transitive (si A est homologue à B et B est homologue à C, alors C est homologue à A). L homologie peut concerner des protéines existant chez différentes espèces, ces protéines sont alors qualifiées de protéines orthologues. L homologie peut aussi concerner des protéines d une même espèce, ces protéines sont des protéines paralogues. L homologie est à ne pas confondre avec la similarité, qui est une notion quantitative indiquant à quel degré deux séquences se ressemblent. La similarité est exprimée le plus souvent sous la forme d un pourcentage calculé à partir de l alignement des séquences d intérêt, soit en considérant la conservation stricte des mêmes résidus aux mêmes positions des séquences (identités), soit en considérant la conservation des mêmes propriétés physico-chimiques aux mêmes positions (acide, basique ). Lorsque deux protéines sont fortement similaires, elles sont homologues. En revanche l absence de similarité ne signifie pas que les protéines ne sont pas homologues. La comparaison de séquence peut se faire soit de façon globale sur toute la longueur des séquences par alignement, soit de façon locale, par la recherche de courtes portions de séquence présentant une ou plusieurs caractéristiques particulières (domaine, signature, site, région hydrophobe ) avec des outils de recherche plus spécialisés Alignement par paire de séquences a. Principe et algorithme Aligner deux séquences revient à les «superposer» physiquement de façon à pouvoir les comparer et à faire ressortir les régions identiques, qui au cours de l évolution ont été conservées. Ce procédé repose sur l hypothèse de la micro-évolution par mutation ponctuelle. On peut observer trois types de mutations à l origine de la divergence des séquences protéiques : les substitutions, les insertions et les délétions. Au sein d un alignement, les insertions et les délétions (indels) sont le plus 28

29 souvent matérialisées par un le caractère (-) ou par le caractère (.). Aligner deux séquences de façon optimale consiste à positionner les indels de façon à faire correspondre un maximum d acides aminés entre les deux séquences à l aide d une matrice de substitution ( a.i page 31), soit sur la base de l identité stricte, soit sur la base de la conservation d une propriété particulière (taille, polarité, hydrophobie, réactivité chimique ). La technique principalement utilisée pour trouver l alignement optimal de deux séquences est l algorithme de programmation dynamique introduit par Needleman & Wunsch (1970). Considérons un graphe à deux dimensions : une pour chacune des deux séquences. Aligner de façon optimal ces deux séquences, revient à trouver à l intérieur de ce graphe le meilleur chemin pour le traverser, position par position, sachant qu une insertion ou délétion se matérialise par un portion verticale ou horizontale, alors que la conservation se matérialise par une portion parallèle à la diagonale. La programmation dynamique est basée sur le raisonnement suivant : chaque sous-chemin qui termine à un point situé sur le chemin optimal est lui même le chemin optimal qui conduit jusqu à ce point. En d autres termes le chemin optimal peut être trouvé par extension des sous-chemins optimaux. A l aide de cet algorithme, tel qu il a été définit par Needleman & Wunsch, l alignement optimal doit inclure les séquences dans leur intégralité. L alignement obtenu est global. Ce type d algorithme fonctionne bien lorsque les séquences présentent des similitudes sur toute leur séquence. Cependant les protéines ayant une organisation modulaire (Baron et al., 1991 ; Doolittle & Bork, 1993) se prêtent beaucoup moins à ce type d alignement car seuls certains domaines peuvent être conservés et/ou peuvent apparaître selon un ordre différent. Ensuite Beaucoup d autres algorithmes heuristiques ont été publiés jusqu à ce que Smith & Waterman (1981) proposent leur version modifiée de l algorithme de programmation dynamique, qui est aujourd hui l un des fondements sur lequel s appuie l alignement de séquences et les applications qui en découlent. Cet algorithme, a stratégie locale, vise à identifier à l intérieur du graphe (donc à l intérieur des séquences) tous les segments communs par des étapes d extension, et relie les principaux segments, de telle sorte que mathématiquement, il n y ait pas de meilleur alignement entre ces deux séquences. Cette méthode repose sur un système de calculs de scores (scoring) représentés par une matrice, où chaque élément représente le taux de similarité existant entre les deux portions de séquences se terminant par cet élément (Figure 5). 29

30 0 b 1 b 2 b j-1 b j b j+1 b m-1 b m a 1 0 a 2 0 a i-1 0 H i-1, j-1 H i-1, j a i 0 H i, j-1 H i, j a i+1 0 a n-1 0 a n 0 H n,m Figure 5 : matrice de similarité entre deux séquences (tiré de Smith & Waterman, 1981). Les deux séquences étudiées sont représentées par deux ensembles : A=(a 1,, a i,, a n) et B=(b 1,, b j,, b m ). L algorithme permet d obtenir une matrice de scores H qui va indiquer le lieu et la taille des indels à placer pour aligner les deux séquences de façon mathématiquement optimale. Afin de se préserver des valeurs négatives, il est postulé que : H k,0 = H 0,l = 0 avec 0 k n et 0 l m La méthode consiste à trouver le chemin qui maximisera le score au sein de cette matrice, sachant qu un saut vertical ou horizontal matérialise une insertion. Les insertions sont pénalisantes : à chaque insertion est appliquée la pénalité W k =r+kt où r est la pénalité d ouverture d un gap (insertion), t la penalité d extension sur une position de ce gap et k la longueur du gap. Généralement la pénalité d extension est plus faible (1-2) que la pénalité d ouverture (10-15 avec la matrice BLOSUM62), de façon à mimer les processus évolutifs qui tendent à privilégier une insertion unique plus longue, plutôt que de nombreuses petites insertions. Pour chaque position dans la matrice le score s(a i,b j ) est tiré d une matrice similarité appropriée (cf a.i page 31). Chaque élément de la matrice H i,j représente la similarité entre deux segments, l un se terminant par a i, l autre par b j et est caractérisé par : H ij H i 1, j 1 + S(a = MAX MAX H MAX H i, j l { i k,j Wk } { W } i, b j ) Ce qui signifie que la valeur du score de similarité pour les fragments se terminant par a i et b j est obtenue comme suit : si les acides aminés sont similaires alors H i-1,j-1 + S(a i,b j ) s applique ; si l acide aminé a i est la terminaison d une suppression de longueur k acides aminés alors MAX{H i-k,j - W k } s applique ; l 30

31 si l acide aminé b j est la terminaison d une suppression de longueur l acides aminés alors MAX{H i-l,j - W l } s applique ; sinon les acides aminés a i et b j n appartiennent pas à des segments similaires et un 0 est appliqué de façon à éviter les valeurs négatives. L alignement optimal correspond au chemin qui maximise le score. Le chemin est reconstitué à partir de plusieurs segments optimaux obtenus à l aide des scores de similarité H i,j de plus fortes valeurs. Ces valeurs marquent la fin des segments optimaux. Pour retrouver le début de chaque segment il est nécessaire de «remonter» la matrice jusqu à obtenir la valeur 0. Ce processus est répété afin d obtenir tous les segments qui sont alors reliés entre eux pour obtenir l alignement mathématiquement optimal avec la matrice de substitution choisie a.i. Matrices de substitutions La comparaison des séquences implique la comparaison des acides aminés qui les constituent. Les matrices de substitutions sont des échelles qui quantifient la ressemblance entre les acides aminés. La plus simple d entre elle est la matrice identité, qui répond à la loi du tout ou rien. Cependant celle-ci ne prend pas en compte le fait que certains acides aminés ont des propriétés biochimiques proches (l acide glutamique et l acide aspartique par exemple), expliquant les mutations conservatrices observées dans les protéines homologues. Il est donc plus intéressant de posséder une échelle graduée, plus fine, prenant en compte la nature biochimique des acides aminés (plus que leur simple nom) et donc plus pertinente du point de vue biologique a.ii. Les matrices PAM Les matrices PAM (Point-Accepted-Mutation ; Dayhoff et al., 1978) sont les premières qui furent largement utilisées pour la comparaison des séquences. Il en existe plusieurs selon la divergence observée, générée au cours de l évolution. La première PAM1 est établie sur 1 PAM. L unité PAM représente la divergence pour laquelle 1% des acides aminés ont changé, c est une distance dans l échelle de l évolution, totalement indépendante du temps nécessaire pour observer ces changements (le modèle est Markovien). Si les changements étaient purement aléatoires, la fréquence des substitutions serait déterminée par la fréquence des résidus (background frequencies Bfreq). Cependant, dans les protéines homologues, la fréquence des mutations observées (target frequencies Tfreq) sont biaisées par les mutations qui n influent pas sur la fonction de la protéine (mutation conservatrice ou acceptée). Les scores donnés par les matrices PAM sont proportionnels au logarithme du rapport Bfreq/Tfreq. L utilisation du logarithme népérien est simplement mathématique et permet d accélérer la vitesse des calculs pour obtenir les autres matrices PAM. En effet, seule la matrice PAM1 est obtenue à partir de l observation des mutations au sein de protéines homologues (1% d acides aminés mutés). Ensuite, c est par extrapolation que les autres matrices sont obtenues à 31

32 différentes distances en multipliant la matrice PAM1 par elle-même, comme PAM250 pour une distance de 250 PAM (matrice PAM1 élevée à la puissance 250) ou encore PAM 200 à une distance de 200 PAM. La matrice PAM250 (Figure 6) autorise 250 mutations pour une séquence de 100 acides aminés : du fait des mutations silencieuses (synonymes) et des mutations reverses, cela correspond à environ 20% d'identité (il est possible de diverger au maximum jusqu à 6% d identité par extrapolation pour PAM800 et plus). Plusieurs matrices PAM sont disponibles (Altschul, 1991). Selon la divergence observée entre les séquences, différentes matrices PAM sont à utiliser (Figure 7). Ainsi pour réaliser une recherche dans les bases de données, PAM120 est indiquée. Les matrices à moins forte valeur de PAM sont plus appropriées pour comparer des séquences homologues (ou suspectées comme telles) et inversement. D une manière générale, c est surtout PAM250 qui est la plus utilisée lorsque l on n a pas d a priori sur l homologie qui lie les séquences ou lorsqu elles sont divergentes. Ala Arg Asn Asp Cys Gln Glu Gly His Ile Leu Lys Met Phe Pro Ser Thr Trp Tyr Val A R N D C Q E G H I L K M F P S T W Y V Ala A Arg R Asn N Asp D Cys C Gln Q Glu E Gly G His H Ile I Leu L Lys K Met M Phe F Pro P Ser S Thr T Trp W Tyr Y Val V Figure 6 : matrice PAM250. Chaque élément M ij est égal à la valeur logarithmique du rapport Bref/Tref multipliée par 10 et arrondie à l entier le plus proche. M ij 10*(log 10(Bfreq/Tfreq) ij) a.iii. Les matrices BLOSUM Les matrices de substitutions BLOSUM (BLOcks SUbsitution Matrix) sont basées sur la même idée que les matrices PAM mais ont été créées avec une approche différente, notamment pour l estimation des fréquences Tfreq (Henikoff & Henikoff, 1992). Les matrices sont établies en utilisant les alignements locaux de la base de données Blocks (cf c p20), contenant des séquences plus divergentes que celles utilisées pour l établissement des matrices PAM, mais possédant des régions communes similaires. Les matrices BLOSUM ne sont pas définies par extrapolation, mais sur la base d une observation réelle. Il existe plusieurs matrices BLOSUM selon le taux d identité maximal entre les séquences, ainsi BLOSUM62 à été établie par l observation des séquences ayant au maximum 62% d identité entre elles. Comme pour les matrices PAM, selon l homologie liant les séquences à aligner 32

33 on utilisera des versions différentes de BLOSUM : les matrices BLOSUM de faible valeur sont équivalentes aux matrices PAM de forte valeur et sont indiquées pour comparer des séquences distantes (Figure 7). Comparativement aux matrices PAM, les matrices BLOSUM donnent généralement des résultats plus cohérents du point de vue biologique. Ceci tient principalement au fait que les matrices PAM incluent des séquences entières avec des régions qui peuvent être très divergentes, alors que les matrices BLOSUM utilisent des alignements locaux (même si les séquences intégrales sont plus divergentes, il y a une meilleure cohérence biologique). De plus, les matrices BLOSUM étant plus récentes, elles incluent plus de données biologiques que les matrices PAM a.iv. Les matrices physico-chimiques et structurales Ces matrices sont obtenues en comparant les propriétés physico-chimiques des acides aminés, comme par exemple leur caractères hydrophile ou hydrophobe. C est le cas des matrices d hydrophobie (Levitt, 1976 ; Kyte & Doolittle, 1982) basées sur des mesures d énergie libre de transfert des résidus depuis l eau vers l éthanol, ou encore la matrice de structure secondaire (Levin et al., 1986) basée sur la propension d'un acide aminé à être dans une conformation donnée. L évolution constante du nombre de structures tridimensionnelles connues a permis le développement de matrices basées sur l observation des structures comme la matrice de Johnson & Overington (1993) obtenue à partir de l étude de 235 structures réparties en 65 familles. D autres existent comme SDM et HSDM (Prlic et al., 2000). Celles-ci ont été obtenues à l aide de 122 paires de protéines homologues (URL 27). Ce type de matrice est indiqué pour l étude de protéines homologues à faible similarité a.v. Choix et efficacité des matrices Bien que de nombreuses matrices existent, il n existe pas de matrice idéale. La matrice à choisir pour comparer des séquences dépend évidemment de la nature des séquences et seul le biologiste peut choisir la matrice qui conviendra le mieux à ses travaux. Il peut être bon d utiliser pour une même comparaison, différentes matrices. Très schématiquement, on peut conférer aux matrices PAM et BLOSUM les domaines d application suivant : Figure7 BLOSUM 80 PAM 1 BLOSUM 62 PAM 120 BLOSUM 45 PAM 250 Séquences moins divergentes Recherche dans les bases de données Séquences plus divergentes Figure 7 : domaines d utilisation des matrices PAM et BLOSUM Testées à l aide des programmes de recherche de similarité tels que BLAST ou FASTA ( page 35), les matrices basées sur les comparaison de séquences comme la matrice BLOSUM, ou les matrices structurales donnent de meilleurs résultats que les matrices PAM (Johnson & Overington, 33

34 1993 ; Henikoff & Henikoff, 1993 ; Pearson 1995 ; Henikoff & Henikoff, 2000). Selon le «contexte local» au sein des séquences, il peut être intéressant de changer de matrice, en fonction par exemple des structures secondaires et de l accessibilité des résidus comparés (Koshi & Goldenstein, 1995) b. Score et signification statistique des alignements Les matrices de similarité confèrent à la comparaison des séquences un caractère biologique, puisqu elles sont établies sur la base des propriétés biochimiques et structurales des résidus. Pour chaque alignement, il est possible de calculer un score qui témoigne de la qualité avec laquelle les séquences ont été alignées avec la matrice choisie. Cependant il reste utile de vérifier si l alignement observé, avec un score donné, témoigne d une réelle homologie entre les séquences et à une véritable signification biologique. Ceci est indispensable pour la recherche de séquences homologues au sein des bases de données. Il faut estimer le score maximal qui serait le fruit du hasard, obtenu avec des séquences de même composition et dans les mêmes conditions. Pour les alignements globaux, il n y a pas de théorie mathématique capable d expliquer, et donc de prévoir, la distribution des scores. Le seul moyen d estimer cette distribution est empirique : il faut calculer des alignements avec des séquences générées aléatoirement, de même longueur et de même composition puis en déduire les scores (Fitch, 1983). En revanche, il est possible de simplifier le problème en étudiant la distribution des scores obtenus avec des alignements locaux non gappés (Hight Scoring Pair, HSP), pour lesquels cette distribution peut être exprimée mathématiquement (Karlin & Altschul, 1990). La distribution aléatoire des scores pour les HSPs peut être estimée à l aide d une fonction de distribution de valeur extrême (extreme value distribution) montrant que le score normalisé S est : S = λs-ln(nm) où S est le score de similarité nominal, n et m les longueurs des séquences. Les deux paramètres, λ et K, sont des constantes déterminées analytiquement et dépendent de la matrice de substitution et de la fréquence des résidus dans les séquences. Ayant un score S, la probabilité (p-value) qu un alignement présente un score identique (x) ou meilleur de façon hasardeuse est donné par la relation : P(S x)=1-exp(-kmn.e -λx ) Plus cette probabilité est faible, plus l alignement est statistiquement significatif, pointant une probable homologie biologique. A cette probabilité, il faut relier la valeur E (Expected value) qui représente le nombre d alignements attendus pouvant avoir un score égal ou supérieur, toujours par le biais du hasard : E(S x)= Kmn.e -λx Une valeur de E faible, permet d affirmer l homologie qu il existe entre les séquences comparées, la réciproque n est pas vraie : une valeur de E forte ne permet pas d infirmer la possibilité d une homologie entre les séquences. Ces paramètres sont souvent utilisés dans les programmes de recherches de similarité comme BLAST et FASTA ( page 36) et sont utiles pour juger la 34

35 pertinence des résultats issus du criblage des bases de données. Dans ce cas, les résultats sont directement dépendants de la qualité de la base de données criblée : ils sont d autant meilleurs que la redondance est faible. Si cette théorie est valable pour les alignements non gappés, elle semble aussi s appliquer aux alignements gappés, mais cela n a pas été vérifié de façon formelle, d ailleurs les paramètres λ et K ne peuvent pas être calculés, ils sont estimés à l aide de simulations informatiques (Waterman & Vingron, 1994 ; Altschul & Gish, 1996) Application : recherche d homologie dans les bases de séquences. L algorithme de Smith & Waterman permet d aligner de façon optimale deux séquences et ainsi analyser leur parenté biologique. En comparant à l aide de cet algorithme une séquence d intérêt avec toutes celles qui sont présentes dans les banques, il est possible de retrouver dans une base de séquences, les protéines qui lui sont proches. Le programme SSEARCH (Smith & Waterman, 1981), implémentation directe de l algorithme de Smith & Waterman, est justement utilisé à ce titre et garantit des résultats sûrs. Néanmoins, cet algorithme demande beaucoup de temps de calcul et de ressources mémoire, créant ainsi une forte limitation dans l emploi du programme SSEARCH pour la recherche d homologie dans les bases de données. Il y a deux solutions à ce problème. La première consiste à utiliser un matériel approprié et spécifique, dédié à ce type de recherche rendant la vitesse d exécution inégalable (Shpaer et al., 1996). Mais ce gain se fait au détriment de l universalité du programme puisqu il faut disposer de ce matériel précis. La seconde solution, plus universelle et donc beaucoup plus intéressante consiste à combiner l algorithme de programmation dynamique avec des étapes heuristiques, de façon à minimiser le nombre des calculs à réaliser et ainsi augmenter l efficacité de l algorithme. L efficacité dont il s agit ici se traduit par le meilleur compromis entre vitesse d exécution, sensibilité et spécificité. Une meilleure sensibilité autorisera une meilleure détection pour les paires de séquences qui sont très éloignées mais reliées sur le plan biologique, en d autres terme une meilleure sensibilité permet de détecter plus de «vrais positifs». La spécificité évitera d inclure les séquences qui ne sont pas reliées parmi celles qui le sont, donc, une spécificité plus grande, évitera la détection des «faux positifs». Mathématiquement ces notions sont traduites de la façon suivante : Sensibilité = VP/(VP+FN) Spécificité = VN/(VN+FP) avec VP, le nombre de vrais positifs (séquences détectées et effectivement reliées), FN le nombre des faux négatifs non détectés (séquences non détectées mais reliées), FP le nombre des faux positifs détectés (séquences détectées mais non reliées) et VN le nombre de vrais négatifs (séquences non détectées et non reliées). Un programme est d autant meilleur que spécificité, sensibilité et vitesse d exécution sont élevées, ce qui n est pas chose aisée à développer, si l on considère la taille toujours 35

36 croissante des bases de données. Le fait d introduire des étapes heuristiques permet surtout d augmenter la vitesse de calcul et d obtenir les résultats dans un temps raisonnable. Cependant, ces étapes font appel à des approximations qui provoquent une légère perte en sensibilité (tous les vrais positifs ne sont pas détectés). Une des stratégies employée par ces méthodes heuristiques consiste à décomposer une séquence en de courtes successions de lettres appelées mots (word). Ces méthodes, introduites au début des années 80 (Wilbur & Lipman, 1983) sont basées sur la recherche et la comparaison des mots. Le succès des programmes BLAST et FASTA, les deux implémentations heuristiques les plus connues, tient au fait qu elles sont particulièrement rapides pour une sensibilité qui reste très acceptable. Elles sont basées sur l idée simple que deux séquences reliées ont au moins un mot en commun (word hit) a. FASTA Le programme FASTA (Pearson & Lipman, 1988 ; Pearson, 1990) détecte les alignements optimaux entre les séquences à l aide d une matrice de substitution. L algorithme FASTA fait intervenir plusieurs étapes. La première consiste à détecter toutes les identités entre les séquences. L emploi d une table de recherche (lookup table) facilite et accélère cette phase. Puis une étape de filtration vise à ne considérer que les alignements locaux pour lesquelles un nombre minimal de lettres consécutives sont alignées. Ce nombre est fixé par le paramètre ktup, permettant ainsi une sélection des alignements locaux à examiner : ceux-ci doivent avoir au moins ktup lettres consécutives alignées. Par conséquent, plus ktup est élevé, plus la vitesse augmente (puisque l on sélectionne moins d alignement). Cependant, ce gain en rapidité se fait au détriment de la sensibilité car en augmentant la valeur de ktup, il est plus difficile (ou impossible) de détecter les séquences reliées mais éloignées. Pour chaque alignement obtenu, FASTA attribue un score init1 selon une méthode heuristique, en fonction de la densité en identités partagées. Seuls les segments représentant les alignements avec les scores les plus élevés sont conservés. Ceux qui sont situés sur la même diagonale sont fusionnés et un nouveau score initn est calculé pour l ensemble, le score init1 est attribué au segment le mieux aligné. Ensuite, un alignement local optimum est calculé dans une bande étroite du graphe, centré sur le segment de score init1 et englobant les autres, en autorisant les insertions/délétions. Un score opt est attribué à chaque alignement local ainsi obtenu. Les alignements optimaux sont ensuite recalculés avec l algorithme de Smith & Waterman. Pour chaque séquence sujette identifiée par FASTA, seul l alignement optimal est fourni à l utilisateur. FASTA donne le résultat de la recherche sous la forme d un fichier texte qui présente toutes les séquences sujettes trouvées dans la base de données de recherche (Figure 8). 36

37 >>sw GALR_ECOLI (P03024) Galactose operon repressor. (343 aa) initn: 105 init1: 78 opt: 147 Z-score: bits: 42.9 E(): Smith-Waterman score: 147; % identity (27.273% ungapped) in 113 aa overlap (5-117:3-112) Exampl MKKITIYDLAELSGVSASAVSAILNGNWKKRRISAKLAEKVTRIAEEQGYAINRQASMLR :: :.:.:.:::...::..:.. :. :.:: : :.: :.: : sw GA MATIKDVARLAGVSVATVSRVINNSPKASEAS-RLA--VHSAMESLSYHPNANARALA Exampl SKKSHVIGMIIPKYDNRYFGSIAERFEEMARERGLLPIITCTRRRPELEIEAVKAMLSWQ.....:......::... :..:. :..:.. :.:.... sw GA QQTTETVGLVVGDVSDPFFGAMVKAVEQVAYHTGNFLLIGNGYHNEQKERQAIEQLIRHR Figure 8 : exemple d un résultat obtenu par FASTA. Un même recherche FASTA sur une séquence requête permet d obtenir plusieurs alignements avec plusieurs séquences sujettes. Un seul alignement est représentée ici. FASTA fournit depuis sa version 2.0, une évaluation quant à la signification des résultats par le biais du Z-score. Le Z-score est obtenu de la façon suivante : S (a + b.ln(n)) Z = var Le Z-score est la régression linéaire, représentée par le terme (a + b ln(n)), calculée à partir d un échantillon de séquence de la banque qui ne comprend pas les séquences reliées ayant un fort score. Le terme var est la variance des scores normalisés. La distribution du Z-score suit une distribution de valeur extrême, et l on peut en déduire une valeur E (Expected value) qui donne le nombre d alignements attendus avec un score égal ou supérieur, avec une séquence de longueur (d) donnée et dans une base de taille donnée (D). 1 exp( e E(Z > x) = 1,282Z 0,5772 d ) D Plus la valeur de E est faible et plus le résultat trouvé par FASTA est pertinent b. BLAST BLAST (Basic Alignment Search Tool ; Altschul et al., 1990) a amélioré la recherche de similarité et a permis d évaluer la signification statistique des alignements. Une innovation apportée par BLAST est la recherche de mots voisins (neighborhood words) : un mot est trouvé (hit) si le score 37

38 calculé (à l aide d une matrice de substitution) est supérieur ou égale à un score T. Cette stratégie permet de rechercher des mots de plusieurs lettres (valeur élevé de ktup) donc d améliorer la rapidité du programme. T est le paramètre déterminant pour la rapidité et la sensibilité, ktup est rarement modifié (ktup = 3) : si T est élevé, alors le nombre de hits sera réduits et la recherche sera particulièrement rapide. A l inverse si T est faible, la recherche sera plus lente, mais les protéines reliées les plus distantes pourront être trouvées. BLAST recherche des mots, puis étend l alignement entre les séquences aux deux extrémités (HSP). Cette extension est réalisée tant que le score de l alignement est supérieur à un score seuil S (que l utilisateur peut fixer). Ce processus d extension représente 90% du temps de calcul de BLAST. Depuis la version 2.0 du programme, les gaps sont traités de manières explicite, améliorant la sensibilité de la recherche : les résidus au centre d une HSP servent de graine (seed) pour initier un processus de programmation dynamique qui étend l alignement à gauche et à droite (avec introduction de gaps). Dans ce processus, les cellules du graphe qui sont utilisées ne font pas chuter le score de l alignement locale d une valeur trop importante (qui reste inférieure à un seuil). Ce qui signifie, que contrairement à FASTA, BLAST ne se limite pas à la bande diagonale du graphe de recherche. Ce processus est répété pour toutes les HSPs, permettant d identifier tous les alignements gappés non chevauchants. BLAST est donc plus exhaustif que FASTA (qui lui ne fournit que le meilleur alignement). BLAST existe dans une version itérative plus sensible : PSI-BLAST ( page 39) Autres outils de recherche d homologie Recherche de motifs (pattern) La présence d un motif (suite de résidus précis dans un ordre précis) dans les séquences de protéines peut être le signe d une fonction précise ou d une particularité biologique. La recherche de tels motifs, sous la forme d expressions régulières peut permettre de replacer une protéine dans sa famille protéique. Tout le problème est d être suffisamment spécifique tout en étant flexible et en autorisant la recherche de motifs dégénérés. La solution la plus simple consiste à autoriser un certain nombre de mutations dans le motif. Mais si pour des raisons biologiques, des positions sont plus importantes que d autres et doivent être strictement conservées, cette solution est peu efficace. Il faut pénaliser plus lourdement la mutation des positions les plus importantes. Ceci a été mis à profit au sein de l algorithme PATTINPROT (Blanchet, 1999). PATTINPROT définit deux scores : Sc 0 qui la fréquence du motif (en fonction de sa composition) et Sc seuil = 10 τ log Sc 0. τ est le taux de similarité minimal voulu lors de la recherche, τ est inférieur à 1. Sc seuil est supérieur à Sc 0. Un motif est trouvé dans une séquence si son score calculé est compris entre Sc 0 et Sc seuil. Le score est calculé sur une fenêtre de la taille du motif. Si le résidu à la position i satisfait le motif, le score de la position i est égale à celui de la position i-1. Sinon Sc (i) =Sc (i-1) /P (i) où P (i) est la pénalité à la position i. Donc Sc (i) 38

39 augmente d autant plus que P (i) est petit. Si Sc (i) > Sc seuil, la fenêtre est déplacée sinon la séquence correspondant au motif est donnée pour résultat à l utilisateur. L innovation consiste à prendre pour pénalité la fréquence de la position : si plusieurs résidus sont autorisées à la même position i, alors la pénalité est la somme des fréquences. Donc P (i) est d autant plus grand. Par conséquent, Sc (i) augmentera moins vite pour les positions dégénérées que lorsque la position doit être strictement conservée (P (i) sera faible). Ainsi PATTINPROT favorise les motifs où les positions strictes sont conservées, pour une meilleure pertinence biologique Utilisation des profils Les profils sont représentés par des matrices de scores spécifiques de la position (PSSM, Position- Specific Scoring Matrix). Ces matrices sont bidimensionnelles, les lignes sont les positions, les colonnes représentent les résidus possibles. Les profils ressemblent aux matrices de similarité avec l utilisation d un score à chaque case (entre chaque résidu de la séquence et les 20 autres possibles) : si le score est positif, il y a une similarité, sinon il y a une dissimilarité. Les profils sont plus complexes que les matrices de substitution. Ils fournissent, sous la forme de deux colonnes supplémentaires, des pénalité d insertion d un gap et son extension, à chaque position. Selon leur mode de détermination (matrices utilisées) il existe des profils moyens et des profils évolutifs (ces derniers étant plus sensibles). Les profils constituent un moyen simple de représenter l information contenue dans un alignement de séquences homologues (Gribskov & Veretnik, 1996). Le programme PSI-BLAST (Position Specific Iterative BLAST), version modifiée de BLAST utilise des profils. Une première recherche est effectuée par BLAST. A l issue de cette recherche, une matrice PSSM est calculée à partir des résultats obtenus. Cette matrice remplace la matrice de départ pour effectuer une nouvelle recherche. Le cycle est répété plusieurs fois. Si aucune nouvelle séquence répondant au profil n est trouvé, alors le cycle s interrompt, le programme a «convergé». Ce programme est très sensible, c est l un des meilleurs outils de détection d homologues distants à partir des séquences protéiques Analyse de la compatibilité de structures secondaires. Les structures secondaires représentent le premier niveau d organisation structurale des protéines ( page 45). Les acides aminés ont pour beaucoup des chaînes latérales hydrophobes. La chaîne peptidique est hydrophile. Ce caractère amphipathique déstabilisant est compensé par la formation, localement, de configurations régulières en hélice (la plus fréquente étant l hélice α) ou en feuillet. Un moyen d outrepasser la divergence des séquences pour retrouver la parenté entre les protéines, est d analyser la compatibilité des structures secondaires. Cette quantification est possible grâce au facteur de compatibilité de structure secondaire SOV (Zemla et al., 1999) : 39

40 Sov N = i minov(sq, St) + δ(sq, St) [ ] len(sq) maxov(sq, St) H,E, C S(i) où N est la longueur de l alignement sans les gaps ; len est longueur du segment ; H, E et C les trois états de structures secondaires (Helix, Extended, Coil), minov est la longueur de chevauchement des structures secondaires entre la séquence requête Sq et la séquence cible St ; maxov la longueur maximale de chevauchement des structures secondaires entre Sq et St et δ est défini par : δ(sq,st)=min{(maxov(sq,st)-minov(sq,st)) ; minov(sq,st) ; len(sq/2) ; len(st/2)} minov Séquence 1 E SS R Séquence 2 E SS R maxov Figure 9 : représentation des paramètres maxov et minov. ESSR représente un élément de structure secondaire. Alors qu il est reconnu que le seuil d identité minimal pour la sélection d une empreinte structurale afin de modéliser la structure d une séquence protéique doit être de 25 à 30%, l utilisation du paramètre SOV au sein de la méthode PROCSS (PROtein Compatibility from Secondary Structure ; Geourjon et al., 2001) permet d abaisser ce seuil à 10% avec l apport de l information contenue dans les structures secondaires. En effet, à bas taux d identité (en dessous de 25%), les similarités de séquences ne sont plus suffisantes pour apporter les preuves de la parenté structurale entre deux séquences. Le SOV apporte une dimension supplémentaire qui permet d éclater l information contenue dans l alignement d une paire de séquences, autorisant un pouvoir discriminant plus fort. Il devient alors possible de valider les homologues structuraux à bas taux d identité comme le montre la Figure 10. En effet, nous pouvons constater qu en appliquant un seuil de 60% pour le paramètre SOV, il est possible d établir la parenté structurale qui peut exister entre deux séquences même lorsque le taux d'identité se situe entre 10 et 30%. Le paramètre SOV est un outil particulièrement intéressant dans la mesure où il apporte une nette amélioration des processus de modélisation moléculaire par homologie en augmentant le nombre d empreintes potentiellement utilisables. A ce titre, le paramètre SOV est utilisé dans les processus de modélisation moléculaires automatiques dispensés à travers le web comme Geno3D (Combet et al., 40

41 URL 31) au sein du serveur d analyse de séquence NPS@ (URL 28 ; Network Protein Sequence analysis ; Combet et al., 2000) Figure 10 : Distribution des paires de protéine en fonction de la compatibilité des structures secondaires expérimentales mesurée en utilisant le paramètre Sov. (faux : cercles, vrais : croix) Utilisation des structures tridimensionnelles. Les structures sont plus conservées que les séquences. L utilisation des structures tridimensionnelles permet de d identifier des relations biologiques entre des protéines. Ceci peut être particulièrement intéressant lorsque les séquences ont trop divergé pour être analysées à l aide d un alignement significatif. Dans ces conditions, l information d une structure tertiaire peut servir de base pour générer un profil, contre lequel la compatibilité d une séquence est testée (threading, Bowie et al., 1991) Etude d une famille de protéines : alignements multiples La recherche d homologie permet de constituer un jeu de séquences de protéines apparentées. L étape suivante, consiste à aligner toutes ces protéines ensemble, afin de mettre en avant les caractéristiques conservées (sites, propriétés biochimiques, zones particulières ) et de mieux comprendre les processus évolutifs ayant produit ces séquences. Différentes stratégies existent pour aligner des séquences : progressive, itérative, locale et globale (pour revue : Thompson et al., 1999 ; Notredame, 2002). 41

42 Algorithme d alignement multiple progressif L algorithme de programmation dynamique garantit l alignement optimal entre des séquences. Pour des raisons de temps et de besoins en ressources mémoires, son usage se limite à l alignement d un petit nombre de séquences. Pour aligner un nombre plus élevé de séquences, plusieurs algorithmes heuristiques ont été développés, comme les algorithmes progressifs (Feng & Doolitle, 1987 ; Barton & Sternberg, 1987). L approche progressive consiste à élaborer graduellement un alignement multiple en exploitant les relations phylogénétiques entre les séquences (Sankoff, 1975). Une première étape consiste à décomposer un alignement de N séquences en N alignements de 2 séquences, en appariant les protéines les plus proches entre elles par programmation dynamique (après avoir réalisé Nx(N-1)/2 comparaisons). L étape suivante consiste à aligner toutes ces paires. Cette approche, heuristique et progressive a l avantage d être simple, rapide, et sensible. Cependant elle ne garantit pas l alignement optimal CLUSTALW A partir de la comparaison des séquences par paires, CLUSTALW calcule une matrice de distances utilisée pour construire un dendogramme (arbre de distance) selon l algorithme des plus proches voisins (neighbour joining ; Thompson et al., 1994). Cet arbre sert de base à la construction de l alignement multiple. Au fur et à mesure de la construction de l alignement, les gaps sont crées, en tenant compte des pénalités d insertion et d extension entrées par l utilisateur. Généralement les pénalités privilégient les extensions de gaps, plutôt que de nombreuses insertions. D autres pénalités spécifiques des positions sont calculées en fonction de la nature des résidus présents à chaque position et à partir d une table de pénalisation déduite d alignement structuraux (Pascarella & Argos, 1992). Enfin, les caractéristiques physico-chimiques locales sont prises en compte (e.g. insertion de gaps plus facile dans les zones hydrophiles) MultAlin MultAlin (Corpet, 1988) est basé sur le même principe que CLUSTALW, avec des étapes supplémentaires : à partir des paires alignées, une nouvelle matrice est construite et utilisée pour reconstruire l alignement multiple. L approche est répétée plusieurs fois, jusqu à ce que le processus converge. Généralement peu de cycles suffisent (2 ou 3) Autres programmes d alignement multiple progressif D autres programmes existent et différent essentiellement par le mode de calcul du dendogramme qui sert à construire l alignement multiple : 42

43 MULTAL (Taylor, 1988), utilise un algorithme de branchement séquentiel (sequential branching) pour créer un arbre, en alignant d abord deux séquences, puis ajoute à cette paire les séquences les unes après les autres. MULTALIGN (Barton & Sternberg, 1987) et PILEUP créent l arbre à l aide de la méthode UPGMA (Unweighted Pair-Group Method using Arithmetic average; Sneath & Sokal, 1973) PIMA (Smith & Smith, 1992) aligne les motifs les plus conservés, par programmation dynamique locale Algorithmes d alignement multiple itératif et simultané. L approche progressive, rapide et simple, est avantageuse. Cependant, si au cours du processus progressif, des résidus sont mal alignés, une correction ne pourra pas être réalisée. Ceci est encore plus sensible lorsque les séquences sont très divergentes. Plusieurs autres programmes d alignement multiple adoptent d autres approches que l approche progressive. L algorithme MSA (Multiple Sequence Alignment ; Lipman et al., 1989 ; Gupta et al., 1995) adopte une stratégie simultanée : la programmation dynamique est appliquée de façon simultanée aux paires de séquences et à l ensemble des séquences. La première étape consiste à calculer le graphe standard de programmation dynamique pour toutes les paires parmi N séquences. Pour tous les sommets, un coût est calculé pour l alignement multiple optimal passant par ces sommets. Ensuite, un graphe de programmation à N dimensions est considérés, mais MSA ne prend en compte que les sommets compatibles avec ceux des graphes par paires. SAGA (Sequence Alignment by Genetic Algorithm ; Notredame & Higgins, 1996 ) utilise un algorithme génétique : SAGA mime les processus évolutifs supposés avoir conduit la séquence ancestral vers les séquences à aligner, le but étant d optimiser la fonction de cohérence COFFEE (Consitency based Objective Function For Alignement Evaluation ; Notredame et al., 1998). COFFEE mesure la qualité de l alignement en vérifiant la cohérence entre l alignement multiple et les paires alignées selon CLUSTALW. La méthode T-COFFEE (Notredame et al., 2000) utilise aussi ce principe, les alignements produits sont de meilleur qualité et la perte de vitesse est faible. DIALIGN (Morgenstein et al., 1998) réalise l alignement multiple en comparant des segments plutôt que les résidus, un peu comme une matrice de points. Les segments sont ensuite incorporés à l alignement par une approche itérative. PRRP (Gotoh, 1996) optimise un alignement multiple progressif à l aide d une approche itérative : un alignement global est divisé en deux sous-groupes de séquences. L étape est répétée avec les sousgroupes et ainsi de suite. Ensuite les groupes sont alignés. DCA (Divide and Conquer Alignment ; Stoye et al., 1997) utilise une approche identique. 43

44 HMMT (Eddy, 1995) utilise un recuit simulé (simulated annealing) pour établir un modèle probabiliste Markovien des mutations, capable de représenter les séquences à aligner. Progressif Local PIMA DIALIGN Global MULTAL CLUSTAL MULTALIGN PILEUP PRRP SAGA HMMT Itératif Figure 11 : Schéma représentant quelques programmes d alignement multiple en fonction des stratégies qu ils adoptent (source Thompson et al., 1999) Validation des méthodes d alignement multiple Beaucoup d algorithmes différents existent. Chacun d entre eux à ses forces et ses faiblesses. Un moyen de vérifier la qualité des programmes est de les tester sur des alignements multiples de référence, comme ceux de BAliBASE (Thompson et al., 1999 ; Bahr et al., 2001 ; page 123) ou encore les alignements structuraux utilisés dans l étude de Briffeuil (et al., 1998). Ce type de validation est un point indispensable au développement de nouvelles méthodes d alignement multiple. En ce qui concerne l utilisateur, il doit s assurer de la validité d un alignement, voire tester plusieurs programmes et analyser les résultats. Il peut par exemple coupler l information des séquences à celle des structures secondaires ou repérer de sites particuliers, afin de mieux positionner les gaps et ainsi obtenir un alignement plus pertinent et plus informatif. 44

45 1.4. Outils bioinformatiques d étude des structures secondaires des protéines Les structures secondaires des protéines et le diagramme de Ramachandran La nature des atomes de la chaîne peptidique (H, N, C, O) permettent aux atomes d établir entre eux des liaisons hydrogènes, qui vont favoriser la stabilité des structures protéiques. Lorsque ces liaisons établissent un réseau régulier, on observe des éléments de structure secondaire. Les plus fréquents sont l hélice α et les brins β (Pauling & Corey, 1951). L hélice α se forme lorsque des liaisons hydrogènes s établissent entre les résidus en position i et les résidus en position i+4. Ce sont les hélices les plus fréquentes. Il en existe d autres : hélices 3 10 (liaisons entre les résidus i et i+3), ou hélices π (liaisons entre les résidus i et i+5). Les brins β n existent pas à l état isolés mais s assemblent pour former des feuillets (superstructure secondaire). Ces feuillets sont parallèles ou anti-parallèles suivant l orientation des brins β qui les composent. La formation des feuillets se fait par un réseau de liaisons hydrogènes entre des résidus qui sont en général plus éloignés dans la séquence protéique que dans le cas des hélices α. Figure 12 : représentation du réseau de liaisons hydrogènes (pointillés) d une hélice α (à gauche) et d un feuillet β anti-parallèle (à droite). Des paramètres géométriques représentant les degrés de libertés d une chaîne péptidique permettent de définir l état de structure secondaire des acides aminés (Figure 13-A). Les acides aminés ont tendance à adopter des valeurs d angles (Φ,Ψ) appartenant à des intervalles précis (Ramachandran et al., 1968 ; Figure 13-B). L observation statistique de ces paramètres pour les protéines de structures connues, à permis la définition de règles structurales exploitées par les programmes d attribution automatique de structure secondaire. 45

46 A ) Φ Ψ N Φ C O Ψ C α B ) Figure 13 : A) angles (Φ,Ψ) sur le squelette carbonné. B) diagramme de Ramachandran pour la protéine pdb1aos (réalisé avec Swiss PDB Viewer). Chaque point représente la valeur du couple (Φ,Ψ) pour un acide aminé. Ce diagramme est composé de trois régions principales : les régions très favorables, les régions favorables et les régions défavorables. Les régions très favorables et favorables correspondent aux éléments de structures secondaires réguliers. Les régions défavorables représentent les couples (Φ,Ψ) tels que les contraintes stériques (dues à la présence de la chaîne latérale) sont énergétiquement défavorables et par conséquent rarement observés. Ce diagramme est utile pour valider les modèles structuraux (90% des résidus doivent se trouver dans les régions très favorables) Moyens d attribution des structures secondaires des protéines à partir des structures tridimensionnelles. Il est assez simple de déterminer la position des structures secondaires à partir des structures tridimensionnelles des protéines. Plusieurs programmes existent, ils s accordent assez bien sur la localisation et l identification des structures secondaires. Cependant ils s accordent rarement sur la localisation exact (début et fin) de ces éléments. 46

47 DSSP DSSP (Dictionary of Secondary Structures of Proteins ; Kabsch & Sander, 1983), est le programme d attribution automatique le plus ancien et le plus connu. DSSP recherche les liaisons hydrogènes et détecte les réseaux réguliers pour localiser les éléments de structures secondaires. La détection des liaisons est établie à l aide du calcul d énergie, en fonction de la distance (d) entre le donneur et l accepteur et de l angle (θ) formé par «accepteur - donneur hydrogène» : E= 332 x q1q2 x (1/d(ON) + 1/d(OH) 1/d(CN)) avec : q1 et q2 charges partielles sur les atomes accepteurs et donneurs, d représente la distance en Å entre atomes. Si E est inférieure à -0,55 Kcal/mole, DSSP détecte une liaison hydrogène (la liaison hydrogène idéale a une énergie de -3 Kcal/mole, avec d=2,9å et θ=0 ). En plus d attribuer les structures secondaires, DSSP donne d autres informations, comme par exemple l accessibilité des résidus ou encore la localisation des ponts disulfures Autres outils d attribution automatique des structures secondaires. Il existe plusieurs autres outils d attribution de structures secondaires, différents quant à la définition des éléments de structure secondaire qu ils emploient, mais aussi quant à l algorithme d attribution des structures. DEFINE (Richards et al., 1988) utilise les distances entre les résidus et plus particulièrement entre les carbones α de la chaîne principale. STRIDE (Frishman et al., 1995) analyse la disposition des liaisons hydrogènes couplée à la mesure d angles dièdres (torsional angles). Enfin nous citerons P- SEA (Protein Secondary Element Assignment ; Labesse et al., 1997), qui utilise les valeurs de distance entre les carbones α ( i à i+3 et i à i+4), ainsi que la mesure de différents angles (dièdres, et α). P- SEA réalise une première attribution à partir des distances, puis une seconde à partir des angles. Le consensus issu des deux attributions est retenue comme attribution finale. Devant ces nombreux algorithmes, des méthodes consensuelles ont été testées. L étude menée par Colloc h (et al., 1993) utilise un consensus issu de DSSP, DEFINE et P-Curve (Sklenar et al., 1989) sur un ensemble de 154 protéines, et montre que ce type de méthode consensus atténue les désaccords. Il en résulte une prédiction de meilleure qualité Prédiction des structures secondaires des protéines La prédiction des structures secondaires est particulièrement informative, que ce soit pour replacer une protéine dans sa famille structurale, pour élaborer un modèle tridimensionnel notamment pour affiner les alignements entre l empreinte et la séquence nouvelle ou encore pour aider à résoudre les 47

48 structures par RMN. La prédiction des structures secondaires représente donc une part importante de l étude structurale d une protéine Méthodes de statistiques linéaires a. Méthode Chou & Fasman Cette méthode (Chou & Fasman, 1978) est l une des premières méthodes tentant d établir les états de structure secondaire des séquences protéiques. Elle repose sur les préférences des résidus à être dans un état conformationnel particulier (hélice, feuillet, apériodique). Ces préférences sont définies selon des règles purement empiriques. La qualité de prédiction pour trois états (Q 3 ) est de 52%. Donc assez faible puisqu elle fait à peine mieux que le hasard. Cette méthode a l avantage d être simple, rapide et facilement compréhensible par les biologistes b. Méthodes GOR Il existe quatre versions de méthodes GOR ( I à IV). Elles sont toutes basées sur la théorie de l information directionnelle, qui prend en compte l environnement des résidus à prédire. Dans sa première version, la méthode GOR (Garnier et al., 1978) considère l information apportée par les 8 résidus précédents et suivants, qui encadrent le résidu à prédire (environnement, préférences structurales et nature biochimique). Plusieurs versions ce sont succédées, jusqu à la version IV (Garnier et al., 1996), qui prend en compte l information de toutes les paires possibles dans la fenêtre de 17 résidus. GOR IV a un Q 3 de 64,4% c. Méthode DPM DPM (Double Prediciton Method ; Deléage & Roux, 1987) réalise ses prédictions en deux étapes. Une première phase de prédiction est réalisé à l aide de paramètres de type Chou & Fasman. Ensuite, une seconde prédiction est réalisée pour définir la classe structurale de la protéine. Ces deux phases permettent d obtenir des paramètre optimums pour la prédiction finale, avec un Q 3 moyen de 61,3% d. Méthode DSC DSC (King & Sternberg, 1996) est une méthode statistique qui combine différent aspects de la prédiction des structures secondaires (effets de bord, préférences structurales, hydrophobie, position des insertions et délétions dans les alignements multiples ) en un vecteur à dix composantes. Ces vecteurs sont mis à profit pour la prédiction des éléments de structures secondaires. Le Q 3 de cette méthode est de 70,1%. 48

49 e. Méthode PREDATOR PREDATOR (Frishman & Argos, 1996) exploite l information contenue dans les structures tridimensionnelles. L algorithme prédit les résidus potentiellement impliqués dans des liaisons hydrogènes au sein d une séquence protéique. Cette prédiction statistique est établie sur l occurrence (observée dans une base de structures) des résidus à être pris dans des ponts β (β-bridge) pour le prédiction des feuillets β, ou dans des liaisons (i/i+4) pour la prédiction des hélices α. Le Q 3 de PREDATOR est de 68% et peut atteindre 75% si l on intègre l information apportée par des séquences similaires (à la séquence à prédire) Méthodes basées sur la similarité a. Méthode de Levin Cette méthode (Levin et al., 1988) est basée sur le concept des plus proches voisins (nearest neighbour) : de courtes séquences similaires ont tendance à adopter des repliements semblables. La séquence à prédire est découpée en heptapeptides à l aide d une fenêtre glissante. Ces derniers sont comparés à une bibliothèque d héptapeptides à l aide d une matrice de similarité spécifique. L état structural de chaque résidu est attribué en fonction de cette comparaison, à l aide d un score. La qualité de prédiction est de 62,2% b. Méthode SIMPA96 SIMPA96 (Levin, 1997) est une amélioration de la méthode de Levin. La matrice de similarité utilisée est BLOSUM62 ( a.iii page 32), la fenêtre considérée est de 13 à 17 résidus, et le calcul des scores est amélioré. La qualité de prédiction est de 67,7% et peut atteindre 72,8% en utilisant un alignement multiple de séquences similaires à la protéine à prédire c. Méthodes SOPM & SOPMA SOPM (Self Optimized Prediction Method, Geourjon & Deléage, 1994) est basée sur la méthode des plus proches voisins (comme les méthodes de Levin). L algorithme de cette méthode optimise les paramètres de prédiction à l aide d une sous-base de séquences similaires, spécialement construite pour la protéine à prédire. Le Q 3 de SOPM est de 69%. SOPMA (Geourjon & Deléage, 1995) est une évolution de SOPM : SOPMA prend en compte l information contenue dans l alignement multiple des séquences de la même famille que la protéine dont on veut prédire la structure, apportant ainsi des informations biologiques utiles pour l amélioration de la prédiction, puisque le Q 3 moyen atteint 72,5%. 49

50 Méthodes basées sur l apprentissage a. Méthode PHD PHD (Rost et al., 1994) utilise un double niveau de réseaux de neurones à couche cachée. PHD se fonde sur l information contenue dans un alignement multiple de séquences reliées à la séquence à prédire sous la forme d un profile dérivé qui sert d entrée au réseau de neurone de premier niveau. Ce réseau de neurones de premier niveau prédit les structures secondaires, le réseau du deuxième niveau corrige cette prédiction en intégrant les prédiction sur les résidus adjacents de façon à supprimer les prédictions aberrantes (HEHH => HHHH). Le Q 3 de cette méthode est de 72,5%. PHD peut aussi être utilisée pour prédire les hélices trans-membranaires (PHDhtm) et calculer l accessibilité des résidus (PHDacc) b. Méthode HNN HNN (Hierarchical Neural Networtk ; Guermeur, 1997) utilise également un double réseau de neurones. C est une amélioration de la méthode de Qian & Snejnowski (1998). L architecture algorithmique est mieux adaptée, et la méthode s aide de paramètres physico-chimiques pour la prédiction des états structuraux. Le Q 3 est de 65,4% en utilisant la seule séquence à prédire Apport de l information biologique et méthodes consensuelles. Les méthodes utilisant l information apportée par des séquences similaires à la protéines à prédire sont plus performantes (DSC, SOPMA, PHD, SIMPA), ce qui montre l utilité de replacer une protéine dans sa famille pour mieux la caractériser. Un autre moyen d améliorer les prédictions consiste à utiliser des consensus (Table 19 page 125) ou encore de combiner les méthodes par régression linéaire multiple (Guermeur et al., 1999 ; Pan, 2001) Outils bioinformatiques d étude des structures tridimensionnelles des protéines Les structures tridimensionnelles des protéines La structure tridimensionnelle est la structure active et fonctionnelle de la protéine. Elle correspond à l agencement des atomes dans l espace. Grâce au repliement, des résidus éloignés dans la séquence, peuvent être regroupés dans l espace pour former un site catalytique, une zone d interaction particulière 50

51 L un des plus grands défis de la Bioinformatique dans le domaine de la protéomique est la prédiction de la structure tridimensionnelle d une protéine sur la base de sa seule séquence. Les méthodes expérimentales de détermination des structures tridimensionnelles des protéines que sont la RMN et la cristallographie ont des limites difficilement surmontables. La première difficulté est liée à la surproduction de la protéine, afin d obtenir au minimum 10 mg d un échantillon extrêmement pur et dans un état natif (la protéine doit être fonctionnelle, ce qui garantit un bon repliement). Ce qui est d autant plus difficile lorsqu il s agit de surproduire des protéines multimériques, membranaires, ou ayant des modifications post-traductionnelles (puisque les micro-organismes utilisés ne sont pas capables de les reproduire). Sans oublier qu il faut enrichir les échantillons (sans les dénaturer) en atomes lourds pour la détermination des phases en cristallographie (processus essentiel dans l interprétation des cartes de diffraction) et en 15 N, 13 C, 2 D pour avoir des spectres lisibles en RMN. Ensuite il faut considérer les difficultés inhérentes aux techniques de détermination des structures, qui sont lourdes (du fait de l appareillage qu elles nécessitent), coûteuses en temps et en argent, et très délicates dans leur mise en oeuvre : l étude des peptides de plus de 50kDa (500 acides aminés) pose problème en RMN, même si les évolutions récentes ont permis de repousser cette limite dans certains cas jusqu à 150kDa (Pervushin et al ; Riek et al., 1999). Quant à la cristallographie, le principal obstacle réside dans l obtention d un cristal de bonne qualité et permettant d obtenir des cartes de diffraction interprétables, et cette phase est plus un art qu une science Dès lors, les méthodes prédictives sont particulièrement intéressantes, et sur la base des connaissances structurales actuelles il est possible d obtenir par prédiction des structures tridimensionnelles des protéines proches des structures réelles. Mais là encore il y a plusieurs limites dont une importante : tous les repliements (folds) uniques ne sont pas encore connus, et le seul moyen de les déterminer sont la RMN et la cristallographie (et dans une moindre mesure la microscopie électronique), le tout étant de choisir les protéines pouvant avoir un repliement encore inconnu. Le séquençage de génomes eucaryotes sera particulièrement utile puisqu il fournira un nombre important de séquences candidates. Les séquences permettront de savoir à l avance si une protéine a des chances d avoir un repliement encore inconnu. Ainsi les efforts des cristallographes et «RMNistes» seront concentrés sur les protéines pouvant avoir un fold encore non déterminé afin de compléter nos connaissances structurales et de pouvoir prédire «plus et mieux» les structures de nouvelles protéines Ponts disulfures Le groupement thiol (-SH) d une cystéine, peut s oxyder et se lier à un autre groupement thiol porté par une autre cystéine proche dans l espace. Se forme alors un pont disuflure ou cystine, qui a un rôle fondamental dans la stabilisation des structures tridimensionnelles protéiques. Ce sont les seuls acides aminés qui permettent l établissement, au sein des protéines, de liaisons covalentes entre des 51

52 acides aminés distants dans la séquence, mais proches dans l espace. Ces ponts peuvent servir à la multimérisation en unifiant différentes chaînes peptidiques, comme les chaînes A et B de l insuline Interactions électrostatiques & liaisons hydrogènes Les seuls ponts disulfures ne sont pas suffisants à l établissement des structures tridimensionnelles protéiques. D autres interactions existent comme les interactions entre les acides aminés chargés (ioniques) ou par des liaisons hydrogènes. A chaque interaction électrostatique est associé un potentiel énergétique défini par : E ij = 332.q i.q j /(D.r ij ) avec q : charge sur l atome, D : constante diélectrique du milieux, r ij : distance entre les atomes impliqués. Cette formule montre que l énergie d interaction n est favorable (donc négative) que si q i et q j sont opposées. Cette énergie varie de façon inversement proportionnelle à la distance entre les atomes impliqués. Enfin E ij est d autant plus élevée (en valeur absolue) que la constante diélectrique est faible, donc que l environnement est hydrophobe (comme dans le cœur des protéines). Du point de vue énergétique, il est plus favorable d apparier des acides aminés de charges opposées, plutôt que de les laisser isolés. Un tiers des résidus chargés sont impliqués dans des interactions électrostatiques (Burley & Petsko, 1985). Les liaison hydrogènes, entre les chaînes latérales et le solvant ou entre atomes de chaînes latérales sont stabilisantes. Les liaisons hydrogènes intra-protéiques sont d autant plus stabilisantes qu elles sont enfouies. L énergie de liaison varie de façon inversement proportionnelle à la distance entre atomes élevée à la puissance Interactions hydrophobes Les interactions hydrophobes sont fondamentales pour le repliement des protéines. Ces interactions sont provoquées par la tendance qu ont les atomes et les groupements non polaires à fuir le milieu aqueux environnant pour des raisons thermodynamiques. Cette fuite permet aux éléments hydrophobes de se regrouper et de diminuer leur surface de contact avec le solvant. Dans une protéine, cela se traduit généralement par l exposition des chaînes latérales polaires à la surface et l enfouissement des chaînes latérales hydrophobes dans le cœur. L énergie de liaison varie de façon inversement proportionnelle à la distance entre atomes élevée à la puissance 6. Cet effet hydrophobe est un paramètre déterminant dans la mesure où il gouverne les premières phases du repliement. Les résidus hydrophobes, vont rapprocher les acides aminés tels que les cystéines et les résidus chargés pour que les interactions puissent se faire (Tsai et al.,1997, Dill et al., 1993). Plusieurs travaux ont mis en évidence que la caractère hydrophobe est bien conservé qu il soit exposé ou enfoui, suggérant un rôle important de l effet hydrophobe dans le maintien et la stabilité des structures protéiques. 52

53 Prédiction des structures tridimensionnelles Modélisation moléculaire par homologie Les protéines homologues, avec des séquences fortement similaires ont des structures tridimensionnelles proches. Il est donc possible d utiliser la structure connue, d une protéine homologue qui sert d empreinte. Les coordonnées atomiques de cette empreinte sont affectées à la séquence nouvelle. Le seuil de similarité nécessaire pour réaliser cette modélisation est variable, et dépend de la longueur de l alignement (Sander & Schneider, 1991). Cependant, nous pouvons décrire trois cas principaux : plus de 60% d identité entre les séquences : la modélisation est automatique ; entre 30 et 60% d identité, la modélisation est manuelle ; à moins de 30%, la modélisation n est pas raisonnable, il est nécessaire de disposer d autres arguments. Dans ce dernier cas, le plus fréquent, et sans doute le plus intéressant, d autres éléments sont nécessaires pour valider le choix de l empreinte. L étude de la compatibilité des structures secondaires (Geourjon et al., 2001 ; page 39) peut permettre dans certains cas d abaisser le seuil d identité à 10% entre l empreinte et la protéine d intérêt. Si toutefois, on ne dispose pas d une empreinte réunissant les conditions adéquates, il est aussi possible de réaliser une modélisation par fragments, en utilisant différentes empreintes selon le segment de la protéine à modéliser (Jones & Thirup, 1986 ; Levitt, 1992). Le programme COMPOSER (Blundell et al., 1987) a été développé dans ce but. En fin de processus une étape de régularisation du modèle est nécessaire. Le plus souvent, ceci est réalisé par minimisation d énergie sur la base de la chimie théorique (distances et angles de liaison) Threading Le threading (ou enfilage) consiste à utiliser les motifs structuraux connus pour y «enfiler» la séquence. On estime que pour une séquence dont on ne connaît pas la structure et pour laquelle il n existe pas d empreinte satisfaisante, il y a une chance sur deux que son repliement soit déjà connu. Par threading, on identifie les repliements les mieux adaptés à une séquence en utilisant des profils dérivés de structures tridimensionnelles connues (Bryant & Lawrence, 1993) Outils bioinformatiques d analyse spécialisée des protéines Profils physico-chimiques Ces méthodes consiste à définir de manière statistique, en utilisant une fenêtre glissante, les caractéristiques physico-chimiques d une séquence. Il existe une cinquantaine d échelle physico- 53

54 chimiques (URL 30), les plus connues sont : l hydrophobie (Kyte & Doolittle, 1982), l antigénie (Hopp & Woods, 1983), l hydrophilie (Parker et al., 1986), le caractère trans-membranaire (Argos et al., 1982) Détection de motifs coiled-coils (super hélices) Ces motifs sont des hélices oligomérisées enroulées les unes autour des autres pour former des super hélices. Ces motifs sont caractéristiques des protéines de fixation à l ADN ou des protéines trans-membranaires des enveloppes de virus. Dans ces structures, les résidus présents toutes les sept positions sont équivalents : les coiled-coils sont des répétitions d héptapeptides, dans lesquels les résidus 1 et 4 assurent les contacts entre hélices, les autres constituent les surfaces. Plusieurs programmes de prédiction des coiled-coils existent : COILS (Lupas et al., 1991), PAIRCOIL (Berger et al., 1995) et MULTICOIL (Berger et al., 1997). Afin d établir avec le plus de certitude possible la présence ce coiled-coils, il est conseillé de combiner ces programmes : COILS est moins spécifique, alors que PAIRCOIL/MULTICOIL sont moins sensibles Détection de motifs hélice-coude-hélice (fixation à l ADN) La méthode Dodd & Egan (1990) fournit un score de prédiction lorsqu un motif de fixation à l ADN est détecté. Ce score est basé sur l utilisation d une matrice de scores dérivée de 91 séquences présentant un motif hélice-double-hélice Prédiction de segments trans-membranaires Ces segments sont assez souvent en hélices et assez rarement sous forme de brin β (en forme de barrils). La prédiction de ce type de segments est intéressante que ce soit pour l élimination de protéine membranaire pour une étude structurale expérimentale (très difficile), ou encore pour déterminer la localisation cellulaire d une protéine. Il existe plusieurs méthodes, parmi les plus efficaces : PHDhtm (Rost et al., 1996) et SignalP (Nielsen et al., 1999), deux méthodes d apprentissage. SignalP prédit les peptides signaux d ancrage à la membrane (à l aide d un modèle probabiliste Markovien). PHDhtm permet en plus de prédire la topologie des protéines en précisant les résidus intra et extra cellulaires. Une autre méthode plus récente est basée sur le point d inversion d ondelette (wavelet change-point ; Lio & Vannuci, 2000). Le principe est la détection de doubles inversions brutales des propriétés hydrophobes d une séquence pour localiser les portions transmembranaires. 54

55 55

56 2. Analyse de la conservation des acides aminés à rôle structural au sein des protéines. Partant du constat selon lequel les structures sont plus conservées que les séquences (Chothia & Lesk, 1986), nous espérons montrer une plus forte conservation des acides aminés impliqués dans des interactions. Nous savons aujourd hui que deux protéines homologues (ayant au moins 30% d identité de séquence) adoptent des structures tridimensionnelles proches. Cependant les mécanismes moléculaires qui régissent cette loi sont encore inconnus. Ceci devient d autant plus intrigant lorsque l on sait que des protéines peuvent être homologues avec des taux d identité pouvant descendre jusqu à 10% après évolution. Une façon d apporter une réponse à cette question, consiste à démontrer qu à de tels taux d identité, les acides aminés impliqués dans des interactions sont préférentiellement conservés, permettant ainsi de garder la propriété structurale. Il n existe aucune étude exhaustive de la conservation des acides aminés impliqués dans les interactions, réalisée pour toutes les protéines de structures connues, et pour ces trois types d interaction. C est pourquoi nous avons réalisé une telle étude. Grossièrement, notre stratégie (détaillée dans le paragraphe suivant) vise à analyser la conservation des interactions au sein d alignements multiples contenant une protéine de structure connue ainsi que les protéines qui lui sont apparentées, dont les structures ne sont pas forcément connues. Cette étude est entièrement automatique, la rendant exhaustive et objective. Le but de cette étude est de mettre en avant les relations séquence-structure qui aideront à déterminer des règles structurales ayant un double emploi potentiel : apporter les premières bases à la mise en place d algorithme de prédiction des interactions faibles au sein des structures, à partir de la séquence, et éventuellement en considérant d autres aspects obtenus par prédiction (hydrophobie, structures secondaires ). Ce type d algorithme serait d une aide considérable non seulement pour faire avancer la modélisation ab initio, mais aussi pour étayer les techniques de validation des modèles structuraux que l on peut obtenir avec des techniques de modélisation moléculaire, par homologie, ou sous contraintes RMN, ou encore par des techniques de threading ; apporter des éléments de validation des alignements multiples contenant une ou plusieurs structures connues. En effet, l observation de la conservation des acides aminés impliqués dans les interactions, sera un argument supplémentaire pour la validation automatique des alignements multiples et des familles protéiques. Par ailleurs, les informations apportées par cette étude, peuvent être intégrées au sein des programmes d alignements multiples, pour aider à calculer des alignements plus pertinents du point de vue biologique. 56

57 2.1. Stratégie globale Afin de déterminer les relations séquence-structure, un procédé automatique original a été mis en place (Figure 14). Structure tridimensionnelle (fichier PDB). DSSP modifié Base de données d interactions Ponts disulfures Ponts Salins Interactions Hydrophobes Recherche de séquences similaires Sous-base de séquences Extractblast & Extractfasta Alignement Multiple Analyse de la conservation des interactions Figure 14 : stratégie d analyse de la conservation des interactions au sein des alignements multiples. Ce procédé, entièrement automatisé a été construit dans un souci d exhaustivité. Le programme global fait intervenir différents sous-programmes. Ainsi, à partir d un fichier PDB contenant la structure d une protéine, l analyse de la conservation des interactions au sein de la famille protéique de cette protéine, est automatique. Ce procédé est donc applicable à tous les fichiers PDB, permettant une analyse exhaustive de toutes les protéines de structures connues. Nous allons maintenant présenter les outils mis en place et utilisés afin de réaliser notre étude statistique Matériels et méthodes Matériel informatique Les différents programmes développés l ont été sous trois systèmes différents : IRIX (Silicon Graphics) LINUX (Redhat) et Windows (Microsoft). Les systèmes IRIX et LINUX sont des 57

58 implémentations du système d exploitation UNIX. Ce système est très intéressant pour le développement car il est robuste, et présente une capacité multitâche. Quant à Windows, il fût utilisé pour le développement de l interface graphique BioRead. Nom de la machine Type et OS Programmes utilisés Pc-bioinfo 2 PC MEDION Windows 98 Pentium III 650 Mhz Disque 5 GO et RAM 192 MO Microsoft Office Visual Studio Rasmol, SwissPDBViewer Netscape communicator Mktclapp/Tcl-Tk Pc-mod PC GATEWAY Windows 98 Redhat Linux Staroffice gcc (compilateur) AnTheProt Pentium II G6-450 Mhz MMX Disque 10 G0 et RAM 256 MO Saab Origin 2000 SGI IRIX 6.4 Quadri-processeurs R à 195 Mhz Disque 54 MO et RAM 1000 MO CC (compilateur C++) cc (compilateur C) FASTA, BLAST, SSEARCH, CLUSTALW, MPSA Table 2 : matériels informatiques utilisés pour le développement au laboratoire Les langages de programmation C/C++ et la fonction system() Le C Le langage C est une langage de troisième génération, typé, structuré et compilé. Il fût développé à partir de 1970 par Denis Ritchie aux laboratoires Bell. Ce langage est lui-même dérivé de deux autres langages antérieurs le B et le BPCL. Le C utilise le typage de données en procurant des types prédéfinis (void, int, double ). Le C permet aussi à l utilisateur de définir de nouveaux types de données à l aide du mot clé typedef ou même des structures entières de données (typedef struct). Un des avantages du C est qu il est compilé. Il n est donc pas lié à un matériel donné. Ceci est d autant plus vrai qu il existe une version normalisé du C : C ansi définie par l American National Standardization Institute. Cette normalisation a permis d établir une version «universelle du C» et à éliminer toute les variantes de ce langage qui représentaient un obstacle au caractère portable des programmes écrits en C : un même programme peut être exécuté sur des machines différentes, à condition que les fichiers sources soient soumis à une phase de compilation sur ces machines. La compilation consiste à traduire les instructions écrites en C (de haut niveau) en langage machine (de 58

59 bas niveau). Une autre des caractéristiques intéressante du C est l existence d un pré-processeur, qui permet l inclusion de fichier d en-tête (#include <stdlib.h>), la définition de lexème (#define SALTBRIDGE_DIST 3.0) ou la compilation conditionnelle par définition d une constante symbolique appropriée (#ifdef OS_UNIX), utile pour différencier les différents systèmes d exploitations (UNIX, Windows, LINUX ). Le C propose des fonctionnalités de gestion dynamique des ressources mémoire à l aide de fonction d allocation (malloc, calloc, realloc) et de libération (free). Ces fonctions font du C un langage particulièrement puissant, car il permet d utiliser la mémoire en fonction des besoins, pour mettre à profit toutes les ressources disponibles, sans gaspillage inutile. De plus le C permet d utiliser des pointeurs sur des zones mémoires, aidant à obtenir des processus très rapides puisque cela évite les phases de copie des données. Ce langage a été utilisé au cours de ce travail, notamment pour modifier DSSP ( page 47), un programme d attribution des structures secondaires écrit en C Le C++ Le C++ est une extension du C développée par Bjarne Strousup au début des années 80. Le C++ fournit des fonctionnalités qui ré-haussent le C, offrant en plus des possibilités pour la programmation orientée objets (POO). Le C++ repose sur quatre piliers de la POO : l encapsulation, le masquage, l héritage et le polymorphisme. l encapsulation et le masquage des données : il est possible de regrouper plusieurs données et fonction au sein d une classe ou objet. Ainsi les données sont encapsulées, ce qui améliore la cohérence du programme. Le C++ permet aussi de masquer des données et donc de les protéger, évitant ainsi les modifications provoquées par des anomalies du programme. Les classes permettent de modéliser les objets de la vie courante et aident à établir une architecture plus claire et plus efficace ; l héritage et le polymorphisme : l héritage permet de définir une nouvelle classe en utilisant une classe déjà définie. Ces notions améliorent la réutilisabilité du code, le rendant très souple. Ainsi, il est toujours possible d améliorer le code, ou de définir de nouveaux objets adaptés, sans pour autant modifier tout le programme. Le polymorphisme ou héritage multiple, résout les problème lié à l héritage simple, «en croisant» différents objets pour obtenir un nouvel objet (oiseau + cheval = pégase). Le C++ comme le C est livré avec des bibliothèques standards indispensables au programmeur. Elles réunissent les fonctions couramment utilisées : gestion entrées/sorties, fonctions mathématiques, gestion des chaînes de caractères, dates 59

60 La fonction system() La fonction system(char *) est très utile, car elle permet d exécuter un programme depuis un autre. Lorsque l instruction system(ligne_de_commande) est rencontrée, le programme principal stoppe momentanément son exécution, le temps que l instruction ligne_de_commande s exécute. Après exécution, le programme principal reprend son exécution Le langage Tcl et le package Tk Le langage Tcl et un langage de script, interprété et relativement simple. Il offre plusieurs fonctionnalités : manipulation de variables, définition de fonctions, exécution conditionnelle, gestion de boucle. Voici l exemple d une fonction qui prend en entrée un nombre n et une puissance p et qui fournit le résultat n p. proc power {n p} { #définition de la fonction power set result 1 # on fixe result = 1 while {$p > 0} { # tant que le contenu de p est supérieur à 0 set result [expr $result * $base] # result = result * n set p [expr $p - 1] # on décrémente p de -1 } return $result #renvoi du résultat. } Cet exemple illustre la simplicité du langage Tcl. Pour accéder au contenu d une variable, il faut ajouter le signe $ devant le nom de cette variable. La fonction expr exécute une opération mathématique, la fonction set est utilisée pour affecter une valeur à une variable. La fonction proc exécute une boucle p fois et multiplie le nombre n par lui même à chaque boucle. Les commandes Tcl ont trois sources principales. La première sont les commandes fournies avec l interpréteur Tcl lui-même (builtin commands). La deuxième source sont les procédures (fonctions) que l on définit à l aide du mot clé proc, comme pour la fonction power. Enfin la dernière source sont les commandes personnelles que l on peut écrire selon un mécanisme d extension en C et C++. Les «packages» regroupent plusieurs commandes définies par le mécanisme d extension. Ceci permet d utiliser les packages appropriés à l application que l on veut développer. L extension la plus connue est l extension Tk, qui fournit des fonctionnalités graphiques. Il est ainsi assez facile de définir rapidement les éléments graphiques qui vont constituer une application. En deux lignes de code, il est possible de créer un bouton, lorsque l on clique dessus l application se ferme : instruction pour définir le bouton et la fonction associée : button.b text {bouton de sortie} command exit #défini l élément pack.b #affiche l élément : 60

61 Figure 15 : création d un bouton de commande en Tcl/Tk. Un clique sur le bouton provoque la sortie de l application et la fermeture des fenêtres. La combinaison Tcl/Tk allie la simplicité du codage et la rapidité de la mise en place d éléments graphiques. De plus, le code est facilement portable, puisqu il suffit simplement de disposer de la librairie Tcl/Tk appropriée au système d exploitation. Ce langage a été utilisé pour le développement de BioRead. Le langage Tcl/Tk n est utilisé que pour gérer l environnement graphique, mais les fonctions plus complexes sont écrites en C++ (pour une exécution plus rapide) Protéines de structures connues Nous avons utilisé toutes les protéines de structure connue (en janvier 2000) ayant moins de 25% d identité de séquences deux à deux, soit un total de 1567 protéines dans cette étude (Annexe C) Création de la base de données d interactions, modifications du programme DSSP Nous avons crée une banque de données qui répertorie les interactions dans les protéines, à l aide d une version modifiée du programme DSSP ( page 47). DSSP donne la structure secondaire des protéines à partir de leur structure tridimensionnelle. Ce choix représente un double avantage. Tout d abord, il n est pas nécessaire de coder un programme spécifique pour relire les fichiers PDB, puisque DSSP le fait. Ensuite, DSSP permet de calculer l accessibilité des résidus, qui est l un des paramètres que nous avons pris en compte. La modification du programme ne s est pas avérée simple, puisqu à la base, DSSP a été écrit en Pascal et a été traduit en Fortran, puis en langage C. Si bien que le code source en langage C est difficile à lire et à comprendre. Le seul fichier à modifier est le fichier DsspCMBI.c. La plus grande difficulté a été de placer correctement les modifications pour arriver à récupérer les informations intéressantes, sans alourdir le programme ni trop le ralentir. Quelles que soient les interactions considérées, celles-ci ont été définies sur la base de la proximité spatiale entre les groupements chimiques des acides aminés. Pour chaque acide aminé les atomes des groupements qui ont été considérés sont listés Table 3. 61

62 Nom de l'aa Synonyme Atomes fonctionnels à rechercher dans le fichier PDB Type pour programmation Gly G GLY Arg R NH1, NH2 BASE Asp D OD1, OD2 ACIDE Cys C SG CYS Glu E OE1, OE2 ACIDE His H ND1, CD2, CE1, NE2 BASE Ile I CD1 HYDROPHOBE Leu L CD1, CD2 HYDROPHOBE Lys K NZ BASE Met M CE HYDROPHOBE Phe F CD1, CD2, CE1, CE2, CZ HYDROPHOBE Trp W CD1,CD2, CE2, CE3, CZ2, CZ3, NE1, CH2 HYDROPHOBE Val V CG1, CG2 HYDROPHOBE Table 3 : atomes considérés pour la recherche de contacts et types affectés aux résidus. Pour les résidus non listés, le type considéré est le type NUL. Les coordonnées atomiques (x, y, z) des atomes des groupements chimiques présentés Table 3 sont utilisées dans la recherche des contacts. En ce qui concerne le stockage de données, celui-ci a été organisé au sein de structures ou objets. Bien que le langage C ne soit pas fortement orienté objet, il permet de définir des structures de données en regroupant les données au sein d une même entité, qui peut être considérée comme un objet. J ai donc défini une structure myaa (Code 1) : typedef struct myaa{ char name; char LeterTo3Code[5]; /*nom a trois lettres de l'aa*/ long position; /*position dans la PDB=position vraie*/ char chain; /*identifiant chaine*/ char Grpname[5]; /*Groupement(Grpt) atomique*/ float Grpcoord[3]; /*coordonnées du Grpt atomiques */ ABTYPE type; /*type ACIDE,BASE,CYS,HYDROPHOBE ou NUL*/ char altlocation; /*idem PDB*/ char icode; /*idem PDB*/ BOOL AAtag; /*étiquette de marquage*/ long resnumero; /*donne le numéro un au premier aa*/ /* A noter que chaque aa a deux atomes chargés au max. Chaque atome a trois coordonnées*/ }myaa; /*structure d'un objet Grpt d' un AA ex : NH2 de l'arg ou OE1 de ASP*/ Code 1 : structure de données d un objet myaa. Les lignes ent /* et */ sont des commentaires. Ce code a été placé dans le fichier DsspCMBI.c 62

63 Un objet myaa (Code 1) est en réalité un atome de groupement chimique particulier. Par exemple l acide glutamique donnera lieu à deux objets myaa, un premier pour l atome OE1 et un second pour l atome OE2. Les éléments contenus dans myaa sont le nom de l acide aminé à une lettre (char name), ses coordonnées (tableau à 1 dimension et 3 cases : float Grpcoord[3]), son type chimique (ABTYPE type), le numéro du résidu dans la séquence (long resnumero), et pour des raisons techniques, l étiquette de marquage (BOOL AAtag). Le programme DSSP lit le fichier PDB ligne à ligne grâce à la fonction de lecture : myaa * Readcard(cardcontents *cardinfo, struct LOC_Inputcoordinates *LINK) Cette dernière a été modifiée pour construire les objets myaa et pour renvoyer un pointeur sur ces objet myaa. A chaque appel de la fonction Readcard(), un objet myaa est crée, stocké en mémoire et un pointeur et renvoyé par la fonction Readcard() pour être récupéré dans la fonction appelante comme nous le verrons plus loin. Avant de rechercher les interactions, il faut stocker en mémoire tous les objets myaa que l on trouve dans un fichier PDB. Pour chaque fichier PDB, tous les objets myaa sont stockés sous la forme d un tableau de pointeurs (dont la taille en mémoire est définie de façon dynamique) : myaa **pmyaa. La fonction Inputcoordinates() de DSSP appelle la fonction readcard() en boucle, pour chaque ligne du fichier PDB. Les objets myaa, sont stockés dans un tableau au sein de la fonction Inputcoordinates(). 63

64 myaa **Inputcoordinates(long *lchain_, int *ipmyaa) {... int imyaa=0 myaa *thismyaa=null; /*pointeur sur un objet myaa*/ myaa **pmyaa=null; /*tableau de pointeurs sur objet myaa*/... do{/*debut de la boucle pour la lecture du fichier PDB*/ thismyaa=readcard(&cardinfo, &V) ;/*création d un objet myaa*/... /*réallocation dynamique de mémoire pour le tableau pmyaa*/ pmyaa=(myaa **) realloc (pmyaa,(imyaa+1)*sizeof(myaa *)); /*stockage du pointeur thismyaa à la suite dans le tableau*/ pmyaa[imyaa]=thismyaa; /*incrémentation du nombre d éléments dans le tableau*/ imyaa++ ;... }while (!(finish limit))/*fin de la boucle de lecture*/... *ipmyaa=imyaa ;/*stockage du nombre d éléments dans le tableau pmyaa*/ return pmyaa ;/*renvoie du tableau myaa pour le récupérer à la sortie de la fonction Inputcoordinates*/ } Code 2 : principales modifications apportées à la fonction Inputcoordinates() de DSSP. Pour simplifier, les modifications de la fonction Inputcoordinates() ont plusieurs rôles : récupérer un pointeur sur chaque objet myaa crée lors de l appel en boucle de la fonction readcard() ; compter le nombre de ces objets pour allouer de façon dynamique la taille du tableau de pointeur pmyaa ; stocker tous les pointeur au sein du tableau pmyaa ; renvoyer à la fin du traitement le tableau pmyaa pour l utiliser ensuite lors de la recherche des contacts. Ensuite il faut définir les structures pour les interactions. C est la structure pmyaapair (Code 3). 64

65 typedef struct pmyaapair{ myaa *myaa_bas; /*AA bas de l intéraction*/ myaa *myaa_acd; /*AA acd de l intéraction */ int tagsalt; /*étiquette numérique de l intéraction*/ float dist; /*distance entre les 2 aas de l intéraction*/ SALTYPE slt_type; /*type INTRA- ou INTER- chaine*/ BOOL is_acdtagged; /*repère pour accélérer Printout()*/ BOOL is_bastagged; /*repère pour accélérer Printout()*/ BOOL is_tagged; /*repère pour accélérer Printout()*/ int acdacc; /*accessibilité de l'aa acd*/ int basacc; /*accessibilité de l'aa bas*/ char acd_struct; /*structure secondaire de l'aa acd*/ char bas_struct; /*structure secondaire de l'aa*/ int bas_reseqnum; /*numérotation aa_bas colonne 1 DSSP*/ int acd_reseqnum; /*numérotation aa_acd colonne 1 DSSP*/ float fglypsi; /*uniquement pour les glycines*/ float fglyphi; /*uniquement pour les glycines*/ }pmyaapair; /*structure d'un objet interaction*/ Code 3 : structure de données d un objet pmyaapair Cette structure a été définie au départ pour les interactions électrostatiques, expliquant la nomenclature utilisée. Elle a été appliquée à tous les types d interaction (hydrophobes et disuflures). Cette structure contient deux pointeurs sur deux objets myaa (*myaa_acd et *myaa_bas), puisque chaque interaction est considérée comme comptant deux acides aminés, ou deux groupements chimiques. Afin de ne considérer que les interactions intra-chaîne, le type d interaction (SALTYPE slt_type) est stocké, il est soit intra-chaîne (INTRA) soit inter-chaîne (INTER). Le stockage des valeurs d accessibilité des acides aminés se fait au niveau de la structure pmyaapair (int acdacc et int basacc) et non pas au niveau des acides aminés myaa. Ceci peut sembler absurde, mais la faible commodité du code permet difficilement de faire autrement. En effet, le calcul de l accessibilité est un traitement ultérieur à la lecture du fichier PDB, il n est donc pas possible de les stocker à la volée lors de la création des objets myaa. Par ailleurs, ceci évite de faire appel au pointeur *myaa_acd ou *myaa_bas non seulement pour stocker l information, mais aussi pour la restituer au moment opportun. Le traitement est moins lourd et surtout un peu plus rapide. C est pourquoi j ai préféré ce type de stockage, sans parler du gain de temps à éviter la résolution de problèmes liés à la conception du programme DSSP. L étape suivante consiste à effectuer la recherche de contacts. Nous disposons maintenant d un tableau contenant les pointeurs sur les objets myaa et leurs coordonnées, ainsi que d une structure 65

66 matérialisant les interactions entre les atomes. Les interactions sont détectées par un calcul de distance entre les atomes chimiques de tous les objets myaa stockés. En considérant les coordonnées atomiques, la distance entre deux atomes appartenant à deux objets myaa distincts myaa1 et myaa2 de coordonnées respectives x 1, y 1, z 1 et x 2, y 2, z 2 est la suivante : D=[(x 1 -x 2 ) 2 + (y 1 -y 2 ) 2 + (z 1 -z 2 ) 2 ] 1/2 Cette opération est effectuée entre tous les objets myaa du tableau deux à deux. Sans oublier de considérer le type de groupement et le seuil de distance en fonction du type d interaction. Nous avons choisi d établir la présence des interactions uniquement sur la base des distances entre atome pour deux raisons. La première est purement pratique. La distance entre les atomes est le paramètre le plus important dans la définition de l énergie d une interaction. Prendre en compte la valeur de la constante diélectrique du milieu aurait compliqué les algorithmes pour un résultat sans doute très proche voir identique. De plus, définir les interactions sur la base des énergies nécessite la définition d un seuil énergétique, qui aurait été arbitraire. La seconde raison de ce choix est que nous voulons analyser la conservation corrélée des acides aminés en contact dans l espace, la distance est donc un paramètre suffisant. Nous avons procédé à l analyse visuelle d une cinquantaine de structures pour vérifier que les contacts ainsi déterminés étaient effectivement observés. L interaction électrostatique est considérée comme existante si un objet myaa de type ACIDE est au maximum à 3.0 Å d un objet myaa de type BASE. En ce qui concerne les interactions hydrophobes, les deux objets myaa de type HYDROPHOBE doivent être à un maximum de 3.3 Å. Enfin, concernant les ponts disulfures, la distance entre deux atomes de souffre des groupements thiol (atomes SG selon la nomenclature PDB) doit être au maximum de 3.0 Å. Ces paramètres ont donné naissance à trois fonctions de recherche d interaction, une pour chaque type d interaction. Les trois sont basées sur le même modèle. Elle reçoivent en entrée le tableau de pointeurs sur les objets myaa et retourne un tableau de pointeurs sur les interactions pmyaapair, listant ainsi toutes les interactions trouvées dans une structure protéique. Ces fonctions de recherche gèrent elles aussi les ressources mémoire de façon dynamique. pmyaapair ** saltpair_seek(myaa **pmyaa, int imyaa, int *i2aapair) pmyaapair ** SSbond_seek(myAA **pmyaa, int imyaa, int *i2aapair) pmyaapair ** Allpair_seek(myAA **pmyaa, int imyaa, int *i2aapair) Bien que DSSP repère déjà les ponts disulfures, il nous a parut bon de les répertorier en utilisant ces modifications, de façon à vérifier la fiabilité des modifications. Nous avons constaté que la fonction 66

67 SSbond_seek permet de retrouver les ponts disulfures indexés par DSSP, prouvant que les modifications sont parfaitement valides et fonctionnelles (résultats non présentés). L avant-dernière étape, consiste à récupérer l accessibilité des résidus après que celle-ci ait été calculée par DSSP. Le moyen le plus simple a été de la stocker lors de l écriture du fichier sortie de DSSP généré à l aide de sa fonction printout(). Ce fichier résultat contient l accessibilité totale des résidus en Å 2. C est dans cette fonction que quelques lignes de codes ajoutées affectent à chaque objet pmyaapair l accessibilité calculée des résidus, ainsi que les éléments de structures secondaires auxquels appartiennent les acides aminés impliqués. La dernière étape consiste à renvoyer le résultat. Les modifications apportées ont permis de récupérer les informations recherchées sur la sortie standard selon la forme suivante : > chemin/nom du fichier PDB Séquence du de la protéine de la PDB TRUE : AA1 position1- AA2 position2 Dist = acc1: acc2: ss1: ss2: Le tag «TRUE» ou «FALSE» indiquent s il y a interaction ou non, selon la distance entre les fonctions chimiques. AA1 et AA2 sont les résidus contenant les fonctions chimiques en question. Dist est la distance entre les fonction chimique en Å. Acc1 et acc2 sont les valeurs d accessibilité des résidus 1 et 2 en Å 2. Ss1 et Ss2 sont les éléments de structures secondaires auxquels appartiennent les acides aminés 1 et 2. Un exemple de sortie pour la recherche des interactions électrostatiques est présenté Figure 16. >/bioinfo/db/pdb/entries/pdb1a9o.ent MQNGYTYEDYQDTAKWLLSHTEQRPQVAVICGSGLGGLVNKLTQAQTFD... TRUE : GLU LYS 270 Dist = acc1:39 acc2:70 Ss1: Ss2:H TRUE : ASP ARG 210 Dist = acc1:13 acc2:67 Ss1:S Ss2:H FALSE : GLU 8 - HIS 230 Dist = acc1:96 acc2:8 Ss1:H Ss2:H Figure 16 : exemple de fichier résultat donné par le programme DSSPm Le programme DSSP est appelé en boucle sur tous les fichiers PDB. Un petit programme loop_dssp_pdb a été écrit dans ce but. Il prend en entrée un listing des entrées PDB, il génère un fichier résultat listant les interactions pour toutes les protéines de la PDB, selon le modèle détaillé précédemment. Notre base de données est constituée de trois fichiers résultats générés à l aide de DSSPm : allpdb25cys qui répertorie les ponts disulfures dans les protéines de la PDB. allpdb25hyd3.3 qui répertorie les interactions hydrophobes dans les protéines de la PDB. allpdb25sb3.0 qui répertorie les interactions électrostatiques dans les protéines de la PDB. 67

68 Les modifications apportées au programmes DSSP représentent un peu plus de 2100 lignes de codes en langage C, réparties en différents endroits dans le fichier DsspCMBI.c. Ce nouveau programme obtenu sera référencé dans la suite du rapport sous le nom de DSSPm Recherche de protéines homologues aux protéines de la PDB Recherche d homologie Afin de constituer une sous-base de séquences apparentées, pour chaque protéine de la PDB, une recherche d homologie dans la base de données SWISSPROT+SPTrEMBL a été effectuée pour chacune d entre elles en utilisant deux programmes principaux : BLAST et FASTA. BLASTp permet de rechercher les similitudes locales, alors que FASTA permet de rechercher les similitudes globales. Les paramètres de recherche utilisés sont les paramètres standards, par défaut. Ces programmes génèrent des fichiers résultats sous des formes difficilement utilisables. Il a donc fallu relire ces fichiers, re-formater les données, puis extraire les séquences intéressantes. Ainsi pour chaque protéine de la PDB, le but est de constituer à partir des résultats des BLAST et FASTA, une sous-base de séquences échantillonnée, non redondante, que l on espère être pertinente du point de vue biologique. Les fichiers résultats de BLAST et FASTA étant écrits dans différents formats, deux programmes différents ont été mis au point pour relire et traiter les résultats : Extractblast et Extractfasta. Les premiers résultats ont vite montré que l emploi de BLAST était plus indiqué. De plus, devant le nombre élevé de fichier BLAST et FASTA à analyser manuellement ou plutôt visuellement lors du développement d Extractblast et Extractfasta, j ai choisi de développer une interface graphique relativement simple, dont le but était uniquement de faciliter la tâche : BioRead. Ces programmes ayant été utilisés, nous les décrirons brièvement ici et donnerons quelques informations quant aux paramètres utilisés pour comprendre comment les sous-bases de séquences ont été constituées à l aide d Extractblast. La description complète des programmes utilisés (Extractblast, Extractfasta et BioRead) se trouve dans la partie «Résultats» de ce rapport Constitution des sous-bases de séquences Cette phase vise à constituer à partir des résultats BLAST une sous-base de séquences non redondante. Cette sous-base se veut être un échantillon représentatif des séquences proches existantes dans les bases de données de recherche. Une procédure de sélection automatique des séquences, adaptée aux résultats obtenus pour chaque protéine a été effectuée grâce à Extractblast. Voici la ligne de commande utilisée : Extractblast i BlastFile o outfile r remfile Z e 1e-6 a start z stop l len T 68

69 Ces paramètres ont fait l objet de nombreux tests et d une longue phase de développement afin de les optimiser pour obtenir les meilleurs résultats. Voici le détail des paramètres : l option i permet de spécifier le fichier BLAST à traiter ; BlastFile représente le nom (chemin complet) du fichier BLAST à traiter ; l option o permet de spécifier le fichier qui contiendra les séquences sélectionnées ; outfile représente le nom (chemin complet) du fichier contenant la sous-base issue de l extraction ; l option r évite la redondance en éliminant toutes les séquences identiques. Les séquences éliminées sont stockées dans le fichier remfile ; l option Z est utilisée pour ne sélectionner qu une séquence trouvée par BLAST avec une E-value de 0. Il arrive que plusieurs séquences soient trouvées avec une E-value nulle, elles sont donc très proches voire identiques. Cette option permet de ne prendre qu une seule de ces séquences. Là encore le but étant de diminuer la redondance. l option e spécifie la E-value seuil, au dessus de laquelle les séquences ne sont plus sélectionnées. Lors de cette étude, le seuil est fixé de manière classique à 1e-6. Lorsque des séquences sont trouvées par BLAST avec une E-value inférieure à ce seuil, celles-ci sont considérées comme reliées et faisant partie de la même famille protéique. Elles sont donc sélectionnées. Les options a et -z permettent de spécifier un segment particulier sur la protéine requête. Seront sélectionnées les séquences qui auront des régions communes avec ce segment. Lorsqu une structure protéique PDB compte plusieurs interactions, ces options permettent de spécifier le segment protéique qui les contient toutes. Comme par exemple pour les ponts disulfures : Séquence PDB S S S S CYS 35 CYS 80 CYS 172 CYS 220 Figure 17 : schématisation d une séquence de structure connue et de deux ponts disulfures et La Figure 17 schématise une séquence avec deux ponts disulfures. Dans ce cas les bornes fixées seront a 30 z 225. On étend à +/- 5 acides aminés de chaque côté (dans la mesure du possible) afin d éviter les effets de bord dans les alignements multiples qui seront calculés avec ces séquences. Ici, la portion contient toutes les interactions. Toutes les protéines ayant une région commune à celle-ci seront ainsi sélectionnées. 69

70 l option l spécifie la longueur seuil. Seules les séquences ayant une portion commune avec la séquence requête, et ayant une longueur supérieure ou égale à cette longueur seront sélectionnées. Avec la protéine schématisée Figure 17, le seuil serait égal à ( ), soit une longueur minimale de 196. Ceci nous assure d avoir dans les alignements, les portions homologues à celles qui contient toutes les interactions dans la structure PDB. De plus, les alignements obtenus ne contiendront que peu de gaps dans les portions d intérêt. Enfin l option T, appelle une fonction d échantillonnage. Cette option permet de réaliser, à partir des résultats de la recherche BLAST, un échantillon représentatif des séquences trouvées. La fonction d échantillonnage réalise une sélection par palier : une seule séquence est sélectionnée par palier p donné par la formule : p = i= n 1 i= 1 log(e (i) ) + log(e n 1 Avec E = E-value tel que 0 < E 1e-6, n le nombre des séquences vérifiant la condition précédente. La valeur du palier p, est l écart moyen entre les log(e) successifs des séquences. Dès lors que les valeurs log(e) entre deux séquences sont distantes de p, alors la seconde séquence est sélectionnée, et est utilisée comme référence pour la sélection de la séquence suivante, etc Finalement, sont sélectionnées toutes les séquences vérifiant toutes ces conditions. Pour récapituler voici les conditions de sélection pour la constitution des sous-bases de séquences apparentées à la protéine PDB de départ : si plusieurs séquences ont une E-value nulle, une seule d entre elles est sélectionnée ; une seule séquence est sélectionnée par palier p, tant que E-value 1e-6 ; sont sélectionnées toutes les séquences ayant un segment homologue à la protéine de la PDB, équivalent à celui qui contient toutes les interactions du type considéré, avec une taille minimum ; chaque segment de séquence de la sous-base constituée est unique ; la redondance en est absente ; cette sous-base contient la protéine PDB de départ. Ce choix de sélection est issu d une longue phase de test et de mise au point pour optimiser les paramètres présentés. Ces paramètres ont été définis notamment pour maximiser la conservation des cystéines impliquées dans les ponts disulfures. Les conditions de sélection devaient refléter la très nette conservation de ces cystéines, comparativement aux cystéines réduites. Nous avons d ailleurs pu constater que ces évolutions étaient aussi visibles sur la conservation des autres interactions. Citons par exemple le paramètre de palier p. Au départ celui-ci était fixe ( p = 1 ; p = 1,1 ; p = 1,2 ). Les résultats obtenus (non présentés) ont montré qu il était préférable de l adapter aux résultats de ) (i + 1) 70

71 recherche BLAST, au cas par cas. D où la définition d un palier p pour chaque fichier. De même pour la valeur seuil de E qui fût fixée à 1e-6. De nombreux tests ont montré que cette valeur est la plus propice à de meilleurs résultats. Quand à la définition de la longueur minimum et des bornes (spécifiée avec les options a et -z ), là encore, ces paramètres ont été optimisés pour des résultats plus probants. Ce processus de sélection des séquences est une phase très critique, dans la mesure où il conditionne la représentativité des séquences dans les alignements multiples, la qualité des alignements qui seront obtenus, et donc la qualité des statistiques qui seront calculées quant à la conservation des acides aminés impliqués dans les interactions. Le but de cette phase de sélection est de permettre d obtenir des alignements multiples représentatifs des homologies présentes dans les bases de données de recherche. Nous les voulons aussi divergents que possible afin d autoriser des mutations, en espérant que celles-ci n affecteront que dans une moindre mesure, les acides aminés impliqués dans les interactions considérées. Il devrait s en suivre une plus forte conservation de ces derniers par rapport aux mêmes acides aminés libres Calcul des alignements multiples Pour chaque protéine de la PDB, la sous-base de séquences est utilisée pour calculer un alignement multiple à l aide de CLUSTALW dans sa version 1.8, avec les paramètres standards. On obtient ainsi pour chacune des protéines de la PDB, un alignement de protéines qui lui sont proches, et qui ont en commun la portion contenant les interactions d un type particulier (hydrophobes, électrostatiques, disulfures). Ces alignements vont être utilisés pour le calcul des statistiques, notamment la conservation des acides aminés impliqués dans ces interactions. Concernant l étude des cystéines, la coexistence des cystéines réduites et des cystéines oxydées étant rares, nous avons été contraints d utiliser des alignements différents pour l analyse de ces deux populations de cystéines Calculs statistiques Conservation des interactions Les interactions sont définies sur la base de la distance existant entre deux groupements chimiques. Ces interactions sont repérées à l aide du programme DSSPm (DSSP modifié) et stockées dans une banque de données. Nous avons étudié trois types principaux d interactions : les interactions électrostatiques, les interactions hydrophobes et les ponts disulfures. Lorsqu une interaction a été repérée dans une structure protéique et listée à l aide DSSPm dans le fichier résultat adéquat (allpdb25cys, allpdb25hyd3.3 ou allpdb25sb3.0), la première étape vise à identifier l interaction au sein de l alignement multiple correspondant. On considère que l interaction 71

72 est conservée dans une séquence si les deux acides aminés impliqués dans l interaction sont présents, ou si des acides aminés de même type les remplacent (mutations compensatrices). Les types des acides aminés sont répertoriés dans la Table 3 (page 62). La Figure 18 représente un alignement (fictif) et une interaction électrostatique répertoriée dans la séquence PDB entre les acides aminés R10 et D40. Dans cet alignement cette interaction est conservée à 50%. On s intéresse donc à la conservation corrélée d un couple d acides aminés et non pas à la conservation des acides aminés individuellement. La conservation f (ou fréquence) d une interaction peut être exprimée mathématiquement selon la formule :. f a(i)b(j) =N a(i)b(j) /n avec n le nombre de séquences dans l alignement, N a(i)b(j) le nombre de séquences de l alignement où un acide aminé de type a est présent à la position i et un acide aminé de type b est présent à la position j. Les types considérés dépendent de l interaction en question (Table 3 page 62). Dans le cas des interactions électrostatiques, les permutations sont considérées comme une conservation : D10-K40 équivaut à R10-E40. La représentation mathématique de f sous-entend que chaque interaction est considérée comme binaire (implique deux acides aminés), ce qui en pratique n est pas totalement vrai (sauf pour les ponts disulfures), puisque les interactions électrostatiques et les interactions hydrophobes peuvent être plus complexes et peuvent faire intervenir plus de deux acides aminés (trois ou quatre, voire davantage). Considérer plusieurs positions pour une interaction est l un des travaux qu il faudra réaliser, cependant ceci risque de compliquer singulièrement les programmes, que ce soit pour leur détection, le calcul statistique ou encore pour la réalisation de témoins de comparaison. La complexité des interactions est un paramètre relativement lourd à considérer, et pourra l être ultérieurement, si toutefois les résultats encouragent une telle démarche. séquence PDB ALTERTHTPRTLKMIEVAGIPVVELMDSKSPCLDIAVGFDNFEAAR séquence 2 DATGATNPDKISALCQQAGVPTVNLDLPGS--LSPSVISDNYGGAK séquence 3 IFTDTQGQIKISKHANECGLPTIHTPSKTK--LQPSVFYCVFPGSK séquence 4 KDDAGPCDINILGECNLSGEFWLVKPLLER--LGIRVRADIPGDAR numérotation Figure 18 : alignement fictif d une séquence PDB avec trois autres séquences. Les rectangles représentent les positions impliquées dans une interaction électrostatique au sein de la structure PDB (entre R10 et D40) Paires d acides aminés témoins «Il faut comparer ce qui est comparable». Puisque nous nous sommes intéressés à la conservation corrélée des acides aminés en interaction deux à deux, les témoins doivent reproduire ce schéma. Il 72

73 s agit de constituer des paires d acides aminés témoins, contenant des acides aminés non impliqués dans une interaction. Ce paires sont réalisées de façon aléatoire. Les témoins réalisés ici, le sont pour des raisons statistiques uniquement, et n ont aucune signification biologique. Concernant les cystéines, les paires témoins ont été réalisées avec des cystéines réduites. En ce qui concerne les interactions électrostatiques et hydrophobes, nous avons utilisé deux méthodes pour réaliser ces paires témoins. La première a consisté à repérer les acides aminés de même type et suffisamment distants. Les valeurs de distance choisies l ont été arbitrairement : ont été considérées les acides aminés distants de 15 à 16 Å. La limite inférieure nous assure d avoir des acides aminés trop éloignés pour être en contact. La distance supérieure a été fixée de façon à minimiser le nombre de paires témoins. Par ailleurs nous avons fixé une limitation : un résidu ne peut pas faire partie de deux paires témoins différentes. Cette phase a pu être réalisée grâce au programme DSSPm. Le résultat donné par DSSPm présente des interactions marquées de deux étiquettes (Figure 16, page 67). L étiquette «TRUE» marque les interactions vraies, l étiquette «FALSE» marque les paires témoins formées d acides aminés distants de 15 à 16 Å. Par la suite, nous nous sommes rendu compte que cette façon de faire n était pas adaptée, notamment pour les interactions électrostatiques : compte tenu de la taille des protéines, il est possible que deux acides aminés distants de 15 à 16 Å l un de l autre, soient à la surface, opposés l un à l autre. Or, les acides aminés chargés, présents à la surfaces des protéines, ont un rôle essentiel dans leur solvatation au sein des milieux biologiques aqueux. Ces paires témoins peuvent être particulièrement conservées et ainsi provoquer une minimisation des différences de conservation entre ces témoins et les interactions. Nous avons donc opté pour une seconde méthode de constitution des témoins : tous les acides aminés d un type donné et non impliqués dans une interaction, sont répertoriés au sein des séquences. Des paires sont formées par brassage aléatoire des positions. Plusieurs brassages sont effectués. L effet du nombre de brassage est pris en compte. Les conservations témoins ont été calculées après 10, 100, 1000 brassages. Un brassage est une étape au cours de laquelle on forme des paires entre tous les acides aminés au hasard. Lorsque on réalise 10 brassages, cette opération est réalisée 10 fois. La conservation des paires témoins est calculée après chaque brassage. La conservation témoin finale est une moyenne de toutes les conservations calculées après chaque brassage. Par exemple, lorsqu on a répertorié n acides aminés de type ACIDE et n acides aminés de type BASE dans une structure PDB, on a n(n-1) paires témoins possibles. Après 10 brassages nous avons 10n(n-1) paires témoins, après 100 brassages 100n(n-1) paires témoins et après 1000 brassages, 1000n(n-1) paires témoins, qui servent au calcul de la conservation témoin moyenne. Cette seconde méthode a permis d améliorer légèrement les résultats. 73

74 Paramètres statistiques étudiés a. Identité et conservation globale dans les alignements Il était bon de connaître l influence de l identité moyenne et de la conservation globale des acides aminés dans les alignements. En effet, on peut s attendre à des variations selon la valeur de ces taux. L identité a été estimée en comptant le nombre de positions strictement conservées (inchangées) dans l alignement. Ce nombre est divisé par la longueur de l alignement, donnant ainsi le taux d identité. La conservation globale a été estimée à l aide du programme AL2CO (Pei et al., 2001). AL2CO est un programme qui calcule un indice de conservation pour chaque position d un alignement en fonction de la fréquence des acides aminé. Afin de privilégier la ressemblance structurale des acides aminés pour le calcul de l indice de conservation, nous avons utilisé la matrice structurale HSDM (Homologous Structure-Derived Matrix, Prlic et al., 2000). La ligne de commande utilisée est la suivante : Al2CO i infile o outfile c 2 s hsdm AL2CO génère un fichier résultat (outfile), qui donne un indice de conservation pour chaque position. Un indice moyen est calculé pour chaque alignement. Dans un premier temps nous avons vérifié les possibilités du programme AL2CO à calculer un indice de conservation représentatif de l alignement. Pour cela, AL2CO a été utilisé sur les alignements test de BAliBASE, et comparé au résultats obtenus sur les alignements équivalents (avec les mêmes séquences) calculés par CLUSTALW. Les résultats (non présentés) montrent que l indice de conservation est légèrement meilleur pour les alignements de BAliBASE, démontrant la capacité du programme à calculer un indice représentatif de l alignement. Ceci montre par ailleurs l efficacité du programme d alignement multiple CLUSTALW, qui calcule des alignements proches de ceux de BAliBASE (ayant fait l objet d optimisations manuelles). Le programme AL2CO a donc été utilisé sur les alignements calculés pour les protéines de la PDB. L étude de ces paramètres permet d analyser la corrélation entre la conservation des interactions dans les alignements et l indice de conservation globale, ou l identité d un alignement. Les notions d indice de conservation globale et d identité étant proches, nous nous attendons à obtenir des résultats cohérents entre ces deux paramètres b. Accessibilité des résidus au solvant Le programme DSSP calcule l accessibilité des résidus selon l algorithme de Lee & Richards (1971). Cet algorithme (geodesic sphere integration algorithm) consiste à échantillonner la surface de la protéine au moyen d une sphère de 1,4 Å de diamètre (équivalent au diamètre d une molécule 74

75 d eau). L accessibilité calculée représente la surface totale des résidus, en Å 2 en contact avec cette sphère. L accessibilité totale d un résidu est la somme des accessibilités de ses atomes. L accessibilité relative d un résidu est sa surface accessible divisée par sa surface totale c. Structures secondaires Les structures secondaires ont été prédites pour toutes les protéines des alignements, puisque dans chaque alignement, toutes les protéines à l exception de la protéine PDB n ont pas de structure connue. En revanche pour la protéine PDB, bien qu ayant sa structure, il est plus cohérent de prédire sa structure secondaire, plutôt que de la déterminer à partir de la structure tridimensionnelle, comme DSSP le fait. Les prédictions de structures secondaires ne sont pas fiables à 100%. Les méthodes utilisées réalisent par endroit de mauvaises prédictions (30% environ). Ces erreurs sont reproductibles selon la configuration locale des séquences. Par conséquent, il est plus judicieux de prédire toutes les séquences, même celles issues de la PDB, de façon à reproduire les mêmes erreurs aux mêmes endroits. Cette constatation rejoint les résultats de Geourjon et al. (2001) : l utilisation des structures secondaires prédites est plus fiable et plus sensible que l utilisation des structures secondaires observées (obtenues avec DSSP) pour établir les relations d homologie entre des protéines distantes de structures tridimensionnelles connues. Par ailleurs, nous avons choisi d utiliser trois méthodes prédictives basées sur des algorithmes et des théories différentes ( page 47) DSC, SOPMA et PHD. La prédiction finale retenue est un consensus calculé à partir des trois méthodes. Ce consensus donne de meilleurs résultats, puisqu il a tendance à conserver les accords entre les méthodes et à atténuer les désaccords. (Table 19 page 125) Analyse de la conservation des glycines L architecture logicielle bioinformatique mise en place nous a permis d établir un diagramme de Ramachandran pour tous les résidus de la PDB (Figure 19). Cette analyse nous a conduit à définir assez grossièrement les régions favorables et défavorables du diagramme de Ramachandran (Figure 20). De par sa petite taille, la glycine est le seul résidu capable d adopter des combinaisons d angles (Φ,Ψ) qui le situent dans les zones interdites du diagramme de Ramachandran. Il nous semble donc intéressant de voir si cette spécificité est à l origine d une conservation préférentielle des glycines situées dans ces zones interdites du diagramme comparativement aux glycines ayant des valeurs de combinaison d angles (Φ,Ψ) plus favorables. 75

76 Figure 19 : diagrammes de Ramachandran pour les alanines, phényl-alanines et glycines de la PDB réalisés à l aide de DSSPm. Les zones encadrées en noires représentent les zones favorables. Les glycines témoins ont été choisi dans ces zones, les glycines d intérêt ont été choisies à l extérieur de ces zones. 76

77 Le Code 3 (page 65) présente la structure d un objet pmyaapair, utilisé pour modifier le programme DSSP. Deux variables float fglypsi et float fglyphi sont utilisées pour stocker les valeurs d angles et ainsi repérer les glycines intéressantes et les glycines témoins. C est l une des fonctionnalités qui a été ajouté au programme DSSPm. -37, ,5 138, Angle Φ (degrés) Angle Ψ (degrés) Figure 20 : Définition simplifiée de la zone défavorable du diagramme de Ramachandran. Les glycines intéressantes ont été choisies dans cette zone, les glycines témoins ont été choisies dans les zones représentées en blanc. Cette zone a été définie après observation des diagrammes réalisés pour tous les résidus de la PDB (Figure 19) Implémentation des concepts et définition des objets en C++ Cette partie technique a pour but d expliquer le travail effectué pour agencer toutes les étapes qui, à partir d une structure PDB, permettent d obtenir la conservation des interactions dans un alignement multiple contenant la séquence PDB et certaines protéines qui lui sont apparentées. Nous montrerons aussi, que le procédé mis en place a permis de réaliser une étude statistique exhaustive sur toutes les protéines de la PDB présentant entre elles moins de 25% d identité de séquence Matérialisation des interactions Le langage C++ est un langage fortement orienté objet. Les objets sont définis au sein de classes qui contiennent des données spécifiques à l objet, mais aussi des fonctions qui lui sont propres. C est 77

78 le principe de l encapsulation des données. Pour chaque protéine de la PDB, une première phase consiste à récupérer et stocker les informations concernant les interactions présentes dans la base de données générée à l aide de DSSPm. Ces données sont stockées dans un objet de classe totseq (Code 4). La fonction readtotfile_one_seq() est fondamentale. Celle-ci permet de construire un objet totseq à partir de la base de donnée, et de remplir ses champs de données qui sont la séquence PDB et le nom de la protéine (char * seq ; char * nomseq), les positions des résidus en interactions sotckées dans deux tableaux d entiers (int * pos1 ; int * pos2). Sont stockées également dans des tableaux, les accessibilités de ces acides aminés (int * acc1, int * acc2), ainsi que les éléments de structures secondaires auxquels appartiennent ces acides aminés (char * secondstruct1, char * secondstruct2). class totseq { public: void deftot_entry(char*,char*,int*, int*, bool*, int*, int*, char*, char*, int ); char* lire_entryseq(){return seq;} char* lire_entrynom(){return nomseq;} int liretotcouple(){return totcouple;} int min; int max; friend void readtotfile_one_seq(char* argvinput, char* argvoutput, char * runfile) ; void Delete_Totseq(); private: char * seq; char * nomseq; int * pos1; int * pos2; int * access1; int * access2; char * secondstruct1; char * secondstruct2; bool * value; int totcouple; }; Code 4 : définition d un objet totseq, dans le fichier totfile.h 78

79 La fonction readtotfile_one_seq() est au centre de tout le procédé : en plus de construire l objet totseq équivalent à chaque protéine et ses interactions, elle appelle toutes les fonctions qui vont dans un premier temps effectuer la recherche BLAST, puis effectuer la sélection à l aide d Extractblast, réaliser l alignement, et effectuer les calculs de conservation des interactions au sein de ce dernier. Ces étapes, à l exception de l analyse statistique, sont effectuées grâce à l utilisation de la fonction system(ligne_de_commande_unix) ( page 58) Recherche d homologie et alignement multiple Nous possédons un objet totseq qui matérialise pour chaque protéine les interactions. Après avoir crée l objet totseq, la fonction readtotfile_one_seq()appelle le programme BLAST. Avant l appel de BLAST, la séquence de la protéine PDB en question est écrite au format adéquat dans un fichier (seqout) qui servira d entrée au programme BLAST. L appelle du programme se fait à l aide de la ligne de commande suivante : system("blastall sgi -p blastp -i seqout -d /SPTrembl/trall.seq -a 4 -o blastout"); Le programme BLAST donne un fichier blastout résultat. Ce fichier sert d entrée au programme Extractblast : system("extractblast -i blastout -T -R rem -o blastselect e 1e-6 l len a start z stop -Z"), Les paramètres d extraction ont été détaillés dans le page 68. Ces paramètres d extraction permettent d obtenir une sous-base de séquences apparentées à la protéine PDB en question. La sousbase est écrite selon un format approprié dans le fichier blastselect qui sert d entrée au programme CLUSTALW (dans sa version parallèle open MP réalisée au sein de l équipe par le Dr C. Blanchet) pour calculer l alignement multiple : system ("clustalw-mp infile blastselect TYPE PROTEIN outfile align.aln"); On obtient donc un alignement multiple contenant la protéine PDB et les protéine sélectionnées automatiquement après une recherche d homologie dans SWISSPROT+SPTrEMBL à l aide de BLAST. Ces lignes de commandes ont été volontairement simplifiées. En réalité les noms des fichiers, principalement les fichiers d alignements, ont été associés à un compteur numérique pour les différencier et les retrouver aisément. Ainsi les alignements ont pu être stockés, ce qui a permis de réaliser les statistiques plusieurs fois, sans avoir à recalculer les alignements multiples pour chacune des protéines de la PDB. 79

80 Prédictions des structures secondaires Cette phase de l étude a été réalisée par le Dr. Christophe Geourjon. Il est le concepteur d un programme, écrit en Fortran, qui à partir d un alignement de séquence au format CLUSTALW, génère un fichier au format MPSA (Blanchet et al., 2000), contenant les prédictions de structures secondaires DSC, SOPMA et PHD, ainsi qu un consensus qui est la prédiction retenue Calcul de la conservation des interactions dans les alignements multiples. Des fonctions de lecture des fichiers d alignements multiples, compatibles avec les formats CLUSTALW et MPSA ont été écrites. Nous avons mis à profit les propriétés du langages C++ par la définition de deux objets principaux : l objet Sequence et l objet fileclustal. Ce choix est simple : chaque fichier d alignement multiple contient plusieurs séquences avec un nom, une séquence, et éventuellement les prédiction de structures secondaires associées. Toutes les données d une séquence sont regroupées dans un objet Sequence. Et tous les objets Sequence, sont regroupés dans un objet fileclustal représentant au fichier alignement a. L objet Sequence L objet séquence (Code 5) contient le nom de la séquence dans l alignement (char * S_seqname), la séquence dans l alignement (char * S_seq), et les prédictions de structures secondaires (char * S_secstr). Les gaps dans les séquences sont conservés. La classe d objet fileclustal est déclarée comme «amie» (friend). Ce détail technique à son importance : ceci permet d outrepasser l encapsulation, et autorisera les fonctions de la classe fileclustal, à accéder aux données privées de la classe Sequence. 80

81 class Sequence { public: Sequence(); ~Sequence(){delete []S_seqname; delete []S_seq; delete []S_secstr ;} friend class fileclustal; void defseqname(char *seq); void defseq (char *seq); void sequencedestrcuct(){delete [] S_seqname;delete [] S_seq;} char *readseqname(){return S_seqname;} char *readseq(){return S_seq;} private: char *S_seqname; char *S_seq; char *S_secstr; }; Code 5 : définition d un objet Sequence dans le fichier stat_sequence.h Les objets séquences sont construits par deux fonctions de lecture des alignements compatibles avec les formats CLUSTALW (readclustal()) et MPSA (readmpsass()). L une ou l autre est appelée automatiquement selon le type de fichier à lire b. L objet fileclustal Cet objet représente un fichier d alignement multiple (Code 6). Il contient plusieurs séquences, donc plusieurs objets Sequence sous la forme d un tableau d objets (Sequence * pclustal). Cet objet contient l identité dans l alignement (float C_alignID) et le nombre de séquences alignées (Clustal_entries). Beaucoup de fonctions sont associées à cet objet, à commencer par la fonction amie readtotfile_one_seq(). Puisque c est elle qui appelle le programme d alignement, elle construit aussi l objet fileclustal. Pour remplir les champs privés de cet objet, la fonction doit donc être déclarée amie. 81

82 class fileclustal { public: fileclustal():mask(false),c_nameformat(0),c_seqformat(0) ~fileclustal(){} friend void readtotfile_one_seq(char* argvinput, char* argvoutput,char * runfile); void displayclustal (); void displayclustalmask (); int readentries (){return Clustal_entries;} void pclustalconstruct(char*argv); void pid_mask(); void paa_conserv(char*); void paa_homol_conserv(char*); void write_clustal_file(char*); void SalBriSeek(char*,char*); void Clustal2Fasta(int); float readalignid(){return C_alignID;} void pclustaldestruct(); float Qualign(); void SbStat(totseq, int, char*, char*) ; void HydStat(totseq, int, char*, char*) ; void Couple_Stat( totseq,int,char*,char*); private: Sequence * pclustal; int Clustal_entries; Sequence * pclustal_mask; bool Mask; int C_nameformat, C_seqformat; float C_alignID; char * C_alignfilename; float m_alignquality; }; Code 6 : définition de l objet fileclustal dans le fichier stat_fileclustal.h 82

83 Les fonctions associées servent essentiellement à manipuler les fichiers d alignement multiple. Il y a aussi trois fonctions de calculs statistiques sur les interactions : SbStat(totseq, int, char*, char*) (analyse des interactions électrostatiques) HydStat(totseq, int, char*, char*) (analyse des interactions hydrophobes) Couple_Stat( totseq,int,char*,char*); Couple_Stat() sert à l analyse des ponts disulfures (elle peut aussi servir à l analyse de toutes les autres interactions). Elle est aussi beaucoup plus complexe, et permet notamment l analyse de la conservation des acides aminés individuellement, ainsi que la composition des séquences locales encadrant les positions impliquées dans les interactions. Elle fût la première à être développée, mais sa complexité se paie par sa gourmandise en terme de ressources et sa lenteur. C est pourquoi les autres fonctions (SbStat() et HydStat()) ont été développées. Celles-ci sont moins lourdes et réalisent l analyse statistique des couples d acides aminés, ainsi que le brassage aléatoire des positions pour la réalisation des témoins. Ces fonctions prennent en entrée un objet totseq, qui contient les positions des interactions dont on veut calculer la conservation. En effet, à chaque alignement correspond l objet totseq qui a servi à le constituer grâce à la fonction readtotfile_one_seq(). Du fait de la présence de gap, il y a une phase de correction des positions entre celles données par l objet totseq et les positions dans l alignement, afin de se situer au bon endroit lors du calcul de la conservation Schéma récapitulatif Grâce à l architecture logicielle mise en place (Figure 21), il a été possible de réaliser une analyse statistique exhaustive. La fonction readtotfile_one_seq() est récursive. Elle est appelée en boucle, tant que toutes les protéines de la PDB n ont pas été analysées. Si les modifications apportées à DSSP, et les lignes de code nécessaires à l élaboration d Exctrablast ne sont pas prises en compte, cette architecture représente un total avoisinant 4000 lignes de codes écrites en C++. 83

84 Base de données d interactions b allpdbcys allpdbhyd3. Protein Data Bank-25% b DSSPm d 3 allpdbsb3.0 Objet totseq system() F Blast system() F RESULTATS b CoupleStat() F SbStat() F HydStat() F IndivStat() F MotifCons() F Recalage des positions (gaps dans les alignements) Extractblast d system() F Objet fileclustal readclustal() F readmpsass() F CLUSTALW Prediction de structuctures secondaires readtotfile_one_seq() F Figure 21 : schéma simplifié de l architecture mise en place pour l analyse de la conservation des interactions structurales au sein d alignements multiples. (b) bases de données, (F) fonctions principales, (d) programmes développés Résultats Tout d abord sont présentés les logiciels développés, puisque cette phase a constitué une part importante de mon travail. Seront présentés trois logiciels, qui ont été utilisés au sein du laboratoire, et qui sont donc pleinement fonctionnels. Ces logiciels sont tous disponibles sur ma page internet personnelle (URL 26, section «Software Development»). Dans un second temps, seront présentés les résultats du travail de recherche, visant à effectuer une analyse statistique de la conservation des interactions dans les alignements multiples de séquences. 84

85 Développement logiciel a. Extractfasta La stratégie d analyse des interactions faisait intervenir au départ des recherches FASTA et SSEARCH plutôt que des recherches BLAST. Devant le manque d outil informatique pour le traitement de ces fichiers résultats, il a été nécessaire de développer ce logiciel. Son rôle est de constituer une base de données de séquences à partir des résultats de recherche FASTA ou SSEARCH obtenus. Ce programme est l équivalent d Extracblast pour les fichiers résultats FASTA ou SSEARCH. Son architecture ne sera pas détaillée, elle est très semblable à celle d Extracblast qui elle en revanche sera détaillée, puisque ce programme fût particulièrement utilisé lors du travail de recherche. Extractfasta permet de réaliser une base de données, échantillonnée et non redondante à partir des fichiers résultats FASTA et SSEARCH. Ce programme est utilisable avec une simple ligne de commande, selon les options voulues. Il est fonctionnel sous UNIX, linux et Win9X. Une différence toutefois pour Win9X : les options sont introduites avec un signe «=» supplémentaire : voici deux exemples d appels à Extracfasta : Extractfasta i fichier_fasta o fichier_result pour UNIX et linux ; WinExFasta.exe i= fichier_ssearch o= fichier_result pour Win9X En fin de traitement, Extractfasta (comme Extractblast) fournit un récapitulatif quant au nombre de séquences sélectionnées avec chaque option (Figure 23, page 91). Les fonctionnalités d Extractfasta sont détaillées dans l Annexe A (page 138). Ce sont au total 3500 lignes de codes qui ont été écrites en C++ pour l élaboration d Extractfasta. Extractfasta n est fonctionnel que pour le traitement des fichiers FASTA et SSEARCH à caractère protéique Extractblast Etant donné l utilisation importante qui a été faite du programme Extracblast, son architecture sera détaillée. Par ailleurs, ceci permettra aussi d illustrer les détails de la conception d Extractfasta puisque ces deux programmes ont des architectures voisines. Enfin, comme pour Extractfasta, seront détaillées les fonctionnalités intéressantes d Extractblast qui ont largement été mises à profit lors de l analyse statistique sur les structures tridimensionnelles protéiques a. Architecture Chaque fichier résultat BLAST contient différents alignements entre la séquence requête et la une séquence sujette trouvée par BLAST. Deux objets ont été définis lors de l écriture du code d Extractblast Blast_entry et fileblast. L objet Blast_entry matérialise un alignement (Code 85

86 7), et regroupe les informations proposées par BLAST : les noms de la séquence sujette (char * sbjname) et de la banque dont elle est issue (char * bankname), les séquences sujettes (char * sbjseq) et requêtes (char * queryseq) alignées, le z-score (float score), la E-value (double expect), le nombre de gaps dans chacune des séquences (int gapquery, int gapsbj), le nombre d identité (int identities), les positions de début et de fin d alignement pour la séquence requête (unsigned long int qstart, unsigned long int qstop) et la séquence sujette (unsigned long int sstart, unsigned long int sstop), ainsi que les indications quant au cadre de lecture pour les séquences nucléiques (char * strand_or_frame, int frame). Plusieurs fonctions sont associées à cet objet dont deux importantes : defblastentry() qui construit l objet en lui passant en argument toutes les variables qui viennent d être citées. La seconde fonction importante : readblast()va être appelée pour lire un fichier BLAST et, stocker ces variables pour les passer à la fonction defblastentry(). La fonction readblast() sert aussi à stocker les objets dans un tableau, qui est utilisé pour la construction du second objet : fileblast. class Blast_entry { public: Blast_entry(); virtual ~Blast_entry(); friend class fileblast; friend int readblast(blast_entry*&,char*,int,blastfiletype&); void defblastentry (char* bkname, char *sbname, char *qseq, char *sbseq, char *com, int id, int pos, float scx, double ex, char *strfr, BlastFileType bft); void indicate(){indicator=true;} bool readindicator(){return indicator;} void defposition(ulong sttq, ulong stpq, ulong stts, ulong stps){ qstart = sttq; qstop = stpq; sstart = stts; sstop= stps;} protected: char * bankname; char * sbjname; char * queryseq; char * sbjseq; char * comment; int identities; int positives; float score; double expect; 86

87 }; int gapquery; int gapsbj; int sbj_length; char * strand_or_frame; int frame; bool indicator; unsigned long int qstart; unsigned long int qstop; unsigned long int sstart; unsigned long int sstop; Code 7 : définition d un objet Blast_entry, dans le fichier Blast_entry.h L objet fileblast représente les informations contenues dans un fichier résultat (Code 8). Il contient trois tableaux (ou pointeurs) d objets Blast_entry : un qui contient tous les alignements du fichier BLAST (Blast_entry * pfblast), un second qui contient les alignements retenus après sélection (Blast_entry * pfblastselect), et enfin un dernier qui contient les alignements rejetés par le processus de sélection (Blast_entry * pfblastremoved). Ensuite une information particulièrement importante est le type de fichier BLAST (BlastFileType ThisFileType). Extractblast est fonctionnel avec tous les fichiers BLAST. Pour chaque type de fichiers des fonctionnalités particulières ont été implémentées et sont détaillées Annexe B (page 141). Une ligne de code, ajoutée dans Blast_entry.h permet de spécifier les valeurs possibles des variables de type BlastFileType : enum BlastFileType {blastp,blastn,tblastn,blastx,tblastx,psi_blast}; Le type de fichier BLAST est reconnu automatiquement et pour chaque objet fileblast, la valeur adéquate est affectée à la variable ThisFileType (qui est du type BlastFileType). Les fonctions associées à l objet fileblast, sont les fonctions de manipulations de fichiers et de sélection des alignements intéressants pour ensuite extraire les séquences sujettes contenues dans ces alignements. La fonction lengthextract() permet de sélectionner les séquences sujettes avec une longueur minimum. La fonction Expectextract() sert à sélectionner les séquences trouvées avec une E- value inférieure à un seuil. Les fonctions Stepextract() et StepRatioExtract1_2() réalisent des sélections par palier. La fonction STRFRextract() permet de choisir les «frames» (cadre de lecture) ou les «strands» (brin d acide nucléique avec un orientation précise) d interêt pour la sélection des séquences sujettes alignées avec ces frames ou ces strands. La fonction removal() élimine les séquences sujettes redondantes. La fonction Positionextract() quant à elle permet de définir le segment intéressant de la séquence requête. 87

88 class fileblast { public: void lengthextract(int ); void Expectextract(double ); void Stepextract(float ); void StepRatioExtract1_2(float ); void pfblastconstruct(char*, int); void displaytab(char*, int); void STRFRextract(char*); void removal(); void displayremoval(char*,int); void Positionextract(ulong,ulong); int readblastselected(){return Blastselected;} int readblastentries(){return Blastentries;} private: int Blastentries; int Blastselected; int Blastremoved; Blast_entry * pfblast; Blast_entry * pfblastselect; Blast_entry * pfblastremoved; bool selection; BlastFileType ThisFileType; }; Code 8 : définition d un objet fileblast dans le fichier fileblast.h Un total de 2500 lignes de codes en langage C++ constituent le code source de Extractblast. 88

89 Fichier BLAST readblast() F pfblastconstruct() F * PfBlast P Pointe sur Blast_entry (alignement 1) Blast_entry (alignement 2) Blast_entry (alignement 3) Blast_entry (alignement n) OP Fichier de toutes les séquences lengthextract() F Expectextract() F Stepextract() F StepRatioExtract1_2() F STRFRextract() F Objet fileblast * PfBlastselect P Pointe sur Blast_entry (Selectionné 1) Blast_entry (selectionné 2) Blast_entry (selectionné 3) Blast_entry (selectionné m) OP Fichier des séquences sélectionnées removal() F * PfBlastremoved P Pointe sur Blast_entry (rejeté 1) Blast_entry (rejeté 2) Blast_entry (rejeté 3) Blast_entry (rejeté p) OP Fichier des séquences non sélectionnées Figure 22 : architecture mise en place pour l élaboration d Extractblast. (OP) objets Blast_entry pointés, (P) pointeurs fileblast sur tableaux d objets Blast_entry, (F) fonctions. 89

90 b. Fonctionnalités Extractblast propose plusieurs fonctionnalités, qui pour certaines sont spécifiques des types de fichier BLAST. En effet, BLAST existe dans différentes versions : BLASTp est utilisé pour effectuer une recherche d homologie avec un séquence requête protéique dans une base de séquences protéiques. PSI-BLAST version améliorée de BLASTp. Il est plus sensible car il établit un profil positionnel à partir des premiers «hits» trouvés. PSI-BLAST propose donc plusieurs «run». Il faut tenir compte de ce paramètre afin de pouvoir travailler sur les séquences d un run particulier. BLASTx est utilisé pour effectuer une recherche d homologie avec une séquence requête nucléique dans une base de séquences protéiques. BLASTx réalise 6 traductions car il y a 6 frames ou cadres de lecture numérotés de 3 à +3 (trois sur le brin requête, trois sur le brin complémentaire). tblastn est utilisé pour effectuer une recherche d homologie avec une séquence requête protéique dans une base de séquences nucléiques. tblastn réalise pour chaque séquence de la base nucléique 6 traductions. BLASTn est utilisé avec une séquence requête nucléique dans une base de séquences nucléiques. Les alignements spécifient l orientation des brins (Plus/Minus strands). Il faut pouvoir sélectionner les séquences sujettes alignées selon une orientation précise de la séquence requête. tblastx est utilisé avec une séquence requête nucléique dans une base de séquences nucléiques. A la différence de BLASTn, tblastx traduit d abord la séquence requête (selon 6 cadres de lecture). Les séquences protéiques obtenues sont comparées avec les 6 traductions de chacune des séquences de la base nucléique. Extractblast reconnaît automatiquement le type de fichier BLAST à traiter et permet de travailler avec tous ces types de fichier. Avec les fichiers de type BLASTn, Extractblast permet de sélectionner les séquences sujettes alignées avec une orientation précise de la séquence requête (Plus/Minus). Avec les fichiers de type BLASTx, tblastx il est possible de choisir un cadre de lecture particulier de la séquence requête. Ne seront sélectionnées que les protéines alignées avec la traduction de la séquence protéique selon ce cadre de lecture précis. Toutes les fonctionnalités d Extractblast sont détaillées Annexe B (page 141). Extractblast est fonctionnel sous UNIX, linux et Win9X. Les conventions d appel au programme sont les mêmes que pour Extractblast (ajout d un signe «=» après les options sous WIN9X, l exécutable sous WIN9X est WinExBlast.exe). Enfin Extractblast propose aussi un récapitulatif du processus de sélection (Figure 23). 90

91 Figure 23 : récapitulatif d un processus de sélection effectué avec WinExBlast.exe (sous WIN98) BioRead Ce logiciel est l implémentation graphique des programmes Extractfasta et Extractblast. Ce programme a eu simplement pour but d aider à l analyse et la visualisation d un grand nombre de fichiers BLAST et FASTA, nécessaires au développement d Extractfasta et Extractblast. Ensuite, lorsque ces programmes étaient développés, leur code fut lié à celui de BioRead, de façon à intégrer les fonctionnalités d Extraction. Ce programme a été écrit en langage Tcl/Tk avantageux à plus d un titre : simple, rapide à coder et facilement portable. Cependant les fonctions plus complexes, nécessitent d être écrites dans un langage plus efficace : C++. Ceci est possible grâce à l utilisation d un programme «adaptateur» : Mktclapp (URL 24). BioRead est un éditeur des fichiers BLAST, FASTA et SSEARCH. Il offre une coloration des résidus conservés au sein des alignements présentés. Ceci rend les fichiers plus faciles à lire et à analyser. BioRead est une application de type MDI (Multiple Document Interface) permettant d ouvrir simultanément plusieurs fichiers. Le menu offre la possibilité d effectuer une extraction et de constituer une sous base de données. Le type de fichier est reconnu automatiquement et la disponibilité des fonctions du menu s adapte. 91

92 Figure 24 : interface graphique BioRead sous windows (WinBioRead). Ouverture d un fichier BLAST. 1- Menu adapté au fichier. 2- Coloration des noms de séquences trouvées (en bleu) et des résidus en fonction de leur conservation dans les alignements (rouge=identité, vert=similaire). 3- Jauge d état d avancement du processus de coloration. 4- Liste des fichiers ouverts (double-clique pour passer de l un à l autre). 5- Fichier affiché à l écran. L utilisateur peut étudier simultanément plusieurs fichiers, donc essayer plusieurs paramètres pour l extraction des fichiers afin de garder les plus appropriés. Pour réaliser l extraction, des boites de dialogues s affichent pour permettre à l utilisateur de paramétrer sa sélection. Il y a deux types de boites de dialogue en fonction du type de fichier (BLAST ou FASTA/SSEARCH). 92

93 Figure 25 : boite de dialogue pour l extraction des séquences depuis un fichier PSI-BLAST. 1- Options pour le fichier d entrée, résultats et éventuellement pour l élimination des séquences redondantes. 2- Options sur les positions, la longueur et la E-value seuil. 3- Options spécifiques aux fichiers PSI-BLAST, par défaut, le numéro du dernier run est affiché. 4-Options pour les fichiers BLAST de type n, x, tn, tx. Selon le type de fichier, les options s activent ou de se désactivent de façon à aider l utilisateur. 1 2 Figure 26 : boite de dialogue pour les fichiers FASTA ou SSEARCH. 1- Options pour les fichiers. 2- Options de longueur, de positions et de E-value seuil pour la sélection des séquences sujettes. Après l extraction, une petite fenêtre récapitulative informe l utilisateur sur le nombre de séquences qui ont été sélectionnées avec les paramètres choisis. Le fichier résultat est affiché automatiquement à l utilisateur. 93

94 Figure 27 : affichage du résultat et fenêtre récapitulative quant au processus de sélection des séquences. Ce logiciel a nécessité 1050 lignes de code en Tcl/Tk ainsi que 1010 lignes de codes en C++ pour la gestion des documents et le lien entre les fonctionnalités et le graphisme. Au total, si l on prend en compte Extractblast et Extractfasta, BioRead représente un peu plus de 7000 lignes de code. Ce logiciel est particulièrement simple. Il dispose encore de peu de fonctionnalités et a été développé simplement pour aider à l analyse des fichiers BLAST et FASTA, lors de la mise au point des programmes d extraction. D autres fonctionnalités seront ajoutées. Par exemple permettre à l utilisateur de sélectionner uniquement les séquences de son choix. Une autre fonctionnalité serait de présenter les résultats BLAST ou FASTA sous la forme d un alignement multiple, de façon à repérer les zones les plus conservées dans le fichier de recherche. Il serait aussi bon de donner à l utilisateur la possibilité d aligner les séquences à l aide de différents programmes (CLUSTAL, MULTALIN ) et la possibilité de visualiser les arbres phylogénétiques issus des alignements. Ainsi BioRead se voudrait aussi un éditeur d alignement multiple. Cependant, il faut souligner que d autres éditeurs très complets existent tels que ceux qui sont développés et utilisés au sein de notre équipe : MPSA (Multiple Protein Sequence Analysis ; Blanchet et al., 2000) ou encore ANTHEPROT (ANalyse THE PROTein, Deléage et al., 2001). Le logiciel BioRead n était pas un objectif mais un outil utilitaire pratique pour mettre au point les différents paramètres d Extractblast et Extractfasta. 94

Montrer encore